• 我的订阅
  • 科技

扩散模型训练方法一直错了!谢赛宁:Representation matters

类别:科技 发布时间:2024-10-15 09:57:00 来源:机器之心Pro

扩散模型训练方法一直错了!谢赛宁:Representation matters

是什么让纽约大学著名研究者谢赛宁三连呼喊「Representation matters」?他表示:「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言,表征也依然有用。基于此,他们提出了 REPA,即表征对齐技术,其能让「训练扩散 Transformer 变得比你想象的更简单。」

扩散模型训练方法一直错了!谢赛宁:Representation matters

Yann LeCun 也对他们的研究表示了认可:「我们知道,当使用自监督学习训练视觉编码器时,使用具有重构损失的解码器的效果远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明,即使你只对生成像素感兴趣(例如使用扩散 Transformer 生成漂亮图片),也应该包含特征预测损失,以便解码器的内部表征可以根据预训练的视觉编码器(例如 DINOv2)预测特征。」

扩散模型训练方法一直错了!谢赛宁:Representation matters

我们知道,在生成高维视觉数据方面,基于去噪的生成模型(如扩展模型和基于流的模型)的表现非常好,已经得到了广泛应用。近段时间,也有研究开始探索将扩展模型用作表征学习器,因为这些模型的隐藏状态可以捕获有意义的判别式特征。

而谢赛宁指导的这个团队发现(另一位指导者是 KAIST 的 Jinwoo Shin),训练扩散模型的主要挑战源于需要学习高质量的内部表征。他们的研究表明:「当生成式扩散模型得到来自另一个模型(例如自监督视觉编码器)的外部高质量表征的支持时,其性能可以得到大幅提升。」

REPresentation Alignment(REPA),即表征对齐技术,便基于此而诞生了。这是一个基于近期的扩散 Transformer(DiT)架构的简单正则化技术。

扩散模型训练方法一直错了!谢赛宁:Representation matters

论文标题:Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think 论文地址:https://arxiv.org/pdf/2410.06940 项目地址:https://sihyun.me/REPA/ 代码地址:https://github.com/sihyun-yu/REPA

本质上讲,REPA 就是将一张清晰图像的预训练自监督视觉表征蒸馏成一个有噪声输入的扩展 Transformer 表征。这种正则化可以更好地将扩展模型表征与目标自监督表征对齐。

方法看起来很简单,但 REPA 的效果却很好!据介绍,REPA 能大幅提升模型训练的效率和效果。相比于原生模型,REPA 能将收敛速度提升 17.5 倍以上。在生成质量方面,在使用带引导间隔(guidance interval)的无分类器引导时,新方法取得了 FID=1.42 的当前最佳结果。

REPA:用于表征对齐的正则化

REPresentation Alignment(REPA)是一种简单的正则化方法,其使用了近期的扩展 Transformer 架构。简单来说,该技术就是一种将预训练的自监督视觉表征蒸馏到扩展 Transformer 的简单又有效的方法。这让扩散模型可以利用这些语义丰富的外部表征进行生成,从而大幅提高性能。

观察

REPA 的诞生基于该团队得到的几项重要观察。

他们研究了在 ImageNet 上预训练得到的 SiT(可扩展插值 Transformer)模型的逐层行为,该模型使用了线性插值和速度预测(velocity prediction)进行训练。他们研究的重点是扩散 Transformer 和当前领先的监督式 DINOv2 模型之间的表征差距。他们从三个角度进行了研究:语义差距、特征对齐进展以及最终的特征对齐。

对于语义差距,他们比较了使用 DINOv2 特征的线性探测结果与来自 SiT 模型(训练了 700 万次迭代)的线性探测结果,采用的协议涉及到对扩散 Transformer 的全局池化的隐藏状态进行线性探测。

接下来,为了测量特征对齐,他们使用了 CKNNA;这是一种与 CKA 相关的核对齐(kernel alignment)指标,但却是基于相互最近邻。这样一来,便能以量化方式评估对齐效果了。图 2 总结了其结果。

扩散 Transformer 与先进视觉编码器之间的语义差距明显。如图 2a 所示,可以观察到,预训练扩散 Transformer 的隐藏状态表征在第 20 层能得到相当高的线性探测峰值。但是,其性能仍远低于 DINOv2,表明这两种表征之间存在相当大的语义差距。此外,他们还发现,在此峰值之后,线性探测性能会迅速下降,这表明扩散 Transformer 必定从重点学习语义丰富的表征转向了生成具有高频细节的图像。

扩散表征已经与其它视觉表征(细微地)对齐了。图 2b 使用 CKNNA 展示了 SiT 与 DINOv2 之间的表征对齐情况。可以看到,SiT 模型表征的对齐已经优于 MAE,而后者也是一种基于掩码图块重建的自监督学习方法。但是,相比于其它自监督学习方法之间的对齐分数,其绝对对齐分数依然较低。这些结果表明,尽管扩散 Transformer 表征与自监督视觉表征存在一定的对齐,但对齐程度不高。

当模型增大、训练变多时,对齐效果会更好。该团队还测量了不同模型大小和训练迭代次数的 CKNNA 值。图 2c 表明更大模型和更多训练有助于对齐。同样地,相比于其它自监督视觉编码器之间的对齐,扩散表征的绝对对齐分数依然较低。

这些发现并非 SiT 模型所独有,其它基于去噪的生成式 Transformer 也能观察到。该团队也在 DiT 模型上观察到了类似的结果 —— 其使用 DDPM 目标在 ImageNet 上完成了预训练。

与自监督表征的表征对齐

REPA 将模型隐藏状态的 patch-wise 投影与预训练自监督视觉表征对齐。具体来说,该研究使用干净的(clean)图像表征作为目标并探讨其影响。这种正则化的目的是让扩散 transformer 的隐藏状态从包含有用语义信息的噪声输入中预测噪声不变、干净的视觉表征。这能为后续层重建目标提供有意义的引导。

扩散模型训练方法一直错了!谢赛宁:Representation matters

结果

REPA 改善视觉扩展

该研究首先比较两个 SiT-XL/2 模型在前 400K 次迭代期间生成的图像,其中一个模型应用 REPA。两种模型共享相同的噪声、采样器和采样步骤数,并且都不使用无分类器引导。使用 REPA 训练的模型表现更好。

扩散模型训练方法一直错了!谢赛宁:Representation matters

REPA 在各个方面都展现出强大的可扩展性

该研究通过改变预训练编码器和扩散 transformer 模型大小来检查 REPA 的可扩展性,结果表明:与更好的视觉表征相结合可以改善生成和线性探测结果。

扩散模型训练方法一直错了!谢赛宁:Representation matters

REPA 还在大型模型中提供了更显著的加速,与普通模型相比,实现了更快的 FID-50K 改进。此外,增加模型大小可以在生成和线性评估方面带来更快的增益。

REPA 显著提高训练效率和生成质量

最后,该研究比较了普通 DiT 或 SiT 模型与使用 REPA 训练的模型的 FID 值。

扩散模型训练方法一直错了!谢赛宁:Representation matters

在没有无分类器引导的情况下,REPA 在 400K 次迭代时实现了 FID=7.9,优于普通模型在 700 万次迭代时的性能。

使用无分类器引导,带有 REPA 的 SiT-XL/2 的性能优于最新的扩散模型,迭代次数减少为 1/7,并通过额外的引导调度实现了 SOTA FID=1.42。

该团队也执行了消融研究,探索了不同时间步数、不同视觉编码器和不同 λ 值(正则化系数)的影响。详见原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-15 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

LeCun 的世界模型初步实现!基于预训练视觉特征,零样本规划
...Yann LeCun 批评 LLM 的推文之一相反,他更注重所谓的世界模型(World Model),也就是根据世界数据拟合的一个动态模型
2024-11-19 09:48:00
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters
2024-10-23 09:55:00
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...况,这一举动引起了业界的广泛关注。然而,在视觉语言模型的角逐中,谷歌也不甘示弱。 近日,Google Research
2023-10-17 16:31:00
微美全息(NASDAQ:WIMI)将迁移学习引入到语义分割模型,实现高质量的语义分割任务
...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型,旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别
2023-11-15 01:02:00
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)
2025-04-21 13:53:00
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高
2024-07-30 09:37:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型的多模态理解与长上下文能力相结合是非常重要的,
2024-08-22 09:51:00
谷歌在AI赛道加速
...oogle 的 AI 研究实验室Google DeepMind 发布了一项关于训练 AI 模型的新研究,Google 声称
2024-07-11 09:47:00
更多关于科技的资讯:
在全球化浪潮下,雅俗相生的天津民俗文化始终保持着鲜明的个性,植根于传统,善于广泛吸收、借鉴各方面的营养,始终保持着动态的演化与更新,彰显出天津人踏实本分、通透达观的生活信条,形成
2025-08-07 07:32:00
2025世界机器人大会明日在北京开幕南京机器人“军团”携“拳头产品”亮相南报网讯(记者徐宁)8月8日,2025世界机器人大会将在北京启幕
2025-08-07 07:45:00
深化“首店+”模式创新,打造消费聚集地秦淮上半年招引70余家首店□南京日报/紫金山新闻记者田诗雨通讯员秦萱昨天下午,在秦淮区万象天地新开业的江西菜啄春泥华东首店用过午餐后
2025-08-07 07:45:00
上半年,全市规模以上高技术制造业增加值同比增长6.8%创新“聚变”再攀高【今日关注数字6.8%上半年,全市高新技术产业产值占规上工业总产值比重达55
2025-08-07 07:46:00
南智光电完成数千万元A轮融资这束“光”缘何如此吸金?□南京日报/紫金山新闻记者夏思宇通讯员金婷光子芯片,是新一代信息技术的核心
2025-08-07 07:46:00
赛道崭新 技术硬核 团队年轻杭州日报讯 昨日,第十届“创客中国”暨“浙江好项目”中小企业创新创业大赛杭州赛区总决赛在萧山区举行
2025-08-07 07:01:00
中国网8月6日讯 据国家安全部微信公众号发布文章,境外间谍窃取面容数据对我开展窃密活动,国安部提示。在数字化时代的浪潮中
2025-08-06 09:19:00
德国科隆国际少儿用品展览会2025国际阵容集结,全新“趋势专区”引领婴童行业新风向
2025年9月9日至11日,一场聚焦未婴童行业的国际盛会即将在德国科隆拉开帷幕。德国科隆国际少儿用品展览会Kind + Jugend 2025
2025-08-06 09:26:00
近来,持续的高温天气催热了“清凉经济”。亲水游玩成为不少人青睐的休闲方式。各地水上运动的火爆带动了水上装备热销。辽宁兴城
2025-08-06 10:55:00
科技赋能商业未来:专访北京中发商科科技有限公司总经理杨极
在数字经济蓬勃发展的今天,中国电子商务产业正经历着前所未有的智能化转型。作为这一变革的重要推动者,北京中发商科科技有限公司总经理杨极先生凭借其前瞻性的技术视野和卓越的创新能力
2025-08-06 10:57:00
铂爵旅拍高管变动引关注,李佳琦直播间用户获“关怀金”,婚博会介入解决
近日,多位此前在李佳琦直播间购买铂爵旅拍相关服务,却未收到商品的消费者,通过社交媒体反馈,称已收到直播间依据“关怀方案”发放的退款
2025-08-06 11:23:00
开启美妆新征程 | 玛丽艳品牌溯源暨琉光变色唇膏新品发布会圆满举行
溯法式美学之源,绽东方创新之光。8月4日,玛丽艳品牌溯源暨琉光变色唇膏新品发布会在法国举行。完美公司董事长古润金、马来西亚前高等教育部副部长拿督斯里何国忠
2025-08-06 11:27:00
京东美妆携SK-II共启「晶喜ing」花店 DIY花束、拍五月天同框视频玩转七夕
七夕将至,节日甜蜜氛围渐浓。8月5日,京东美妆与SK-II联合打造的「晶喜ing」花店在北京THE BOX朝外年轻力中心正式开业
2025-08-06 11:27:00
奥远光通光模块助力低碳算力网络革新 ——绿色智算时代,加速突围光通信赛道
根据中国工信部发布的《通信行业绿色低碳标准体系建设指南》,到2025年,新建大型数据中心的PUE(电源使用效率)须不高于1
2025-08-06 12:07:00
来自北京海淀微信公众号的消息显示:北京市2025海淀马拉松将于8月8日10:00正式开启报名通道,将于10月12日(星期日)7:30正式鸣枪开跑
2025-08-06 12:29:00