• 我的订阅
  • 科技

扩散模型训练方法一直错了!谢赛宁:Representation matters

类别:科技 发布时间:2024-10-15 09:57:00 来源:机器之心Pro

扩散模型训练方法一直错了!谢赛宁:Representation matters

是什么让纽约大学著名研究者谢赛宁三连呼喊「Representation matters」?他表示:「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言,表征也依然有用。基于此,他们提出了 REPA,即表征对齐技术,其能让「训练扩散 Transformer 变得比你想象的更简单。」

扩散模型训练方法一直错了!谢赛宁:Representation matters

Yann LeCun 也对他们的研究表示了认可:「我们知道,当使用自监督学习训练视觉编码器时,使用具有重构损失的解码器的效果远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明,即使你只对生成像素感兴趣(例如使用扩散 Transformer 生成漂亮图片),也应该包含特征预测损失,以便解码器的内部表征可以根据预训练的视觉编码器(例如 DINOv2)预测特征。」

扩散模型训练方法一直错了!谢赛宁:Representation matters

我们知道,在生成高维视觉数据方面,基于去噪的生成模型(如扩展模型和基于流的模型)的表现非常好,已经得到了广泛应用。近段时间,也有研究开始探索将扩展模型用作表征学习器,因为这些模型的隐藏状态可以捕获有意义的判别式特征。

而谢赛宁指导的这个团队发现(另一位指导者是 KAIST 的 Jinwoo Shin),训练扩散模型的主要挑战源于需要学习高质量的内部表征。他们的研究表明:「当生成式扩散模型得到来自另一个模型(例如自监督视觉编码器)的外部高质量表征的支持时,其性能可以得到大幅提升。」

REPresentation Alignment(REPA),即表征对齐技术,便基于此而诞生了。这是一个基于近期的扩散 Transformer(DiT)架构的简单正则化技术。

扩散模型训练方法一直错了!谢赛宁:Representation matters

论文标题:Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think 论文地址:https://arxiv.org/pdf/2410.06940 项目地址:https://sihyun.me/REPA/ 代码地址:https://github.com/sihyun-yu/REPA

本质上讲,REPA 就是将一张清晰图像的预训练自监督视觉表征蒸馏成一个有噪声输入的扩展 Transformer 表征。这种正则化可以更好地将扩展模型表征与目标自监督表征对齐。

方法看起来很简单,但 REPA 的效果却很好!据介绍,REPA 能大幅提升模型训练的效率和效果。相比于原生模型,REPA 能将收敛速度提升 17.5 倍以上。在生成质量方面,在使用带引导间隔(guidance interval)的无分类器引导时,新方法取得了 FID=1.42 的当前最佳结果。

REPA:用于表征对齐的正则化

REPresentation Alignment(REPA)是一种简单的正则化方法,其使用了近期的扩展 Transformer 架构。简单来说,该技术就是一种将预训练的自监督视觉表征蒸馏到扩展 Transformer 的简单又有效的方法。这让扩散模型可以利用这些语义丰富的外部表征进行生成,从而大幅提高性能。

观察

REPA 的诞生基于该团队得到的几项重要观察。

他们研究了在 ImageNet 上预训练得到的 SiT(可扩展插值 Transformer)模型的逐层行为,该模型使用了线性插值和速度预测(velocity prediction)进行训练。他们研究的重点是扩散 Transformer 和当前领先的监督式 DINOv2 模型之间的表征差距。他们从三个角度进行了研究:语义差距、特征对齐进展以及最终的特征对齐。

对于语义差距,他们比较了使用 DINOv2 特征的线性探测结果与来自 SiT 模型(训练了 700 万次迭代)的线性探测结果,采用的协议涉及到对扩散 Transformer 的全局池化的隐藏状态进行线性探测。

接下来,为了测量特征对齐,他们使用了 CKNNA;这是一种与 CKA 相关的核对齐(kernel alignment)指标,但却是基于相互最近邻。这样一来,便能以量化方式评估对齐效果了。图 2 总结了其结果。

扩散 Transformer 与先进视觉编码器之间的语义差距明显。如图 2a 所示,可以观察到,预训练扩散 Transformer 的隐藏状态表征在第 20 层能得到相当高的线性探测峰值。但是,其性能仍远低于 DINOv2,表明这两种表征之间存在相当大的语义差距。此外,他们还发现,在此峰值之后,线性探测性能会迅速下降,这表明扩散 Transformer 必定从重点学习语义丰富的表征转向了生成具有高频细节的图像。

扩散表征已经与其它视觉表征(细微地)对齐了。图 2b 使用 CKNNA 展示了 SiT 与 DINOv2 之间的表征对齐情况。可以看到,SiT 模型表征的对齐已经优于 MAE,而后者也是一种基于掩码图块重建的自监督学习方法。但是,相比于其它自监督学习方法之间的对齐分数,其绝对对齐分数依然较低。这些结果表明,尽管扩散 Transformer 表征与自监督视觉表征存在一定的对齐,但对齐程度不高。

当模型增大、训练变多时,对齐效果会更好。该团队还测量了不同模型大小和训练迭代次数的 CKNNA 值。图 2c 表明更大模型和更多训练有助于对齐。同样地,相比于其它自监督视觉编码器之间的对齐,扩散表征的绝对对齐分数依然较低。

这些发现并非 SiT 模型所独有,其它基于去噪的生成式 Transformer 也能观察到。该团队也在 DiT 模型上观察到了类似的结果 —— 其使用 DDPM 目标在 ImageNet 上完成了预训练。

与自监督表征的表征对齐

REPA 将模型隐藏状态的 patch-wise 投影与预训练自监督视觉表征对齐。具体来说,该研究使用干净的(clean)图像表征作为目标并探讨其影响。这种正则化的目的是让扩散 transformer 的隐藏状态从包含有用语义信息的噪声输入中预测噪声不变、干净的视觉表征。这能为后续层重建目标提供有意义的引导。

扩散模型训练方法一直错了!谢赛宁:Representation matters

结果

REPA 改善视觉扩展

该研究首先比较两个 SiT-XL/2 模型在前 400K 次迭代期间生成的图像,其中一个模型应用 REPA。两种模型共享相同的噪声、采样器和采样步骤数,并且都不使用无分类器引导。使用 REPA 训练的模型表现更好。

扩散模型训练方法一直错了!谢赛宁:Representation matters

REPA 在各个方面都展现出强大的可扩展性

该研究通过改变预训练编码器和扩散 transformer 模型大小来检查 REPA 的可扩展性,结果表明:与更好的视觉表征相结合可以改善生成和线性探测结果。

扩散模型训练方法一直错了!谢赛宁:Representation matters

REPA 还在大型模型中提供了更显著的加速,与普通模型相比,实现了更快的 FID-50K 改进。此外,增加模型大小可以在生成和线性评估方面带来更快的增益。

REPA 显著提高训练效率和生成质量

最后,该研究比较了普通 DiT 或 SiT 模型与使用 REPA 训练的模型的 FID 值。

扩散模型训练方法一直错了!谢赛宁:Representation matters

在没有无分类器引导的情况下,REPA 在 400K 次迭代时实现了 FID=7.9,优于普通模型在 700 万次迭代时的性能。

使用无分类器引导,带有 REPA 的 SiT-XL/2 的性能优于最新的扩散模型,迭代次数减少为 1/7,并通过额外的引导调度实现了 SOTA FID=1.42。

该团队也执行了消融研究,探索了不同时间步数、不同视觉编码器和不同 λ 值(正则化系数)的影响。详见原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-15 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型
2024-11-19 09:48:00
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters
2024-10-23 09:55:00
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research
2023-10-17 16:31:00
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别
2023-11-15 01:02:00
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)
2025-04-21 13:53:00
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高
2024-07-30 09:37:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
谷歌在AI赛道加速
...oogle 的 AI 研究实验室Google DeepMind 发布了一项关于训练 AI 模型的新研究,Google 声称
2024-07-11 09:47:00
更多关于科技的资讯:
据IDC与《2025中国生成式AI搜索生态白皮书》联合数据显示,截至2025年第三季度,中国GEO服务市场规模已达220亿元
2025-10-25 21:09:00
周一围与博斯绅威共赴“轻装之约”,解锁网球生活新方式
金秋济南,共赴网球生活时光。10月25日下午,博斯绅威携品牌体验官、著名演员周一围先生,在济南银座商城举办了一场主题为“轻装上阵
2025-10-26 12:28:00
曹县汉服“遇上”拼多多:95后的创业翻盘记
鲁网10月24日讯曹县,素有“中国汉服产业重镇”之称,曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言,汉服市场度过初期蓝海阶段后
2025-10-24 14:29:00
突破光谱检测瓶颈!中国计量大学本科生团队研制高分辨率光谱仪
通讯员:吴瑞鹏 何秋阳近日,第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中,全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”
2025-10-24 15:02:00
开普勒机器人登陆IROS 2025 以开放平台携手全球开发者共筑新生态
10月19日至25日,全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议(IROS 2025)在杭州隆重举行
2025-10-24 15:02:00
蓝月亮:用十二年为洁净艺术种下一棵“树”
10月23日,第十七届国际大学生暨青年艺术博览会(简称:大艺博)开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内
2025-10-24 15:14:00
京东工业与南方电网供应链集团签署战略合作 以数智技术驱动供应链全面升级
10月20日,京东工业与南方电网供应链集团在广州正式签署战略合作协议,双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段
2025-10-24 15:23:00
从OS到AI OS:荣耀MagicOS 10定义AI OS新时代
2025年10月23日,荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径
2025-10-24 15:32:00
最后窗口期!2025FHC上海环球食品展免费领票即将截止
2025FHC上海环球食品展已进入开幕倒计时!这场被誉为“全球食饮贸易超级接口”的盛会,已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积
2025-10-24 15:47:00
K90定价后引热议闪电降价,雷军:标准版12GB+512GB 版本首销月直降300元
2025年10月23日的红米K90发布会后,12GB+512GB版本原定价为3199元,但因用户反馈该版本与其他配置差价过大
2025-10-24 15:57:00
iPhone 17系列首批用户反应褪色? 苹果官方客服回应
近日,部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映,其设备遭遇了机身褪色问题
2025-10-24 15:59:00
阿里夸克AI眼镜开启预售 体验者:轻若无物,稳如长在脸上“看一眼”就能支付
阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元
2025-10-24 16:35:00
河北新闻网讯(梁轩轩)“原以为开业办税很繁琐,没想到这么简单!”近日,石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后
2025-10-24 16:59:00
近日,瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动,通过创新融合中医药文化
2025-10-24 17:06:00
“尖货”频出!临安这里科技含量UpUpUp
是一场什么样的比赛技术“尖货”频出“硬核”创新不断近日,2025“海康创行・瓴创青山”智能物联青山湖科技城高层次人才创业大赛第二期
2025-10-24 17:07:00