我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

扩散模型训练方法一直错了！谢赛宁：Representation matters

类别：科技发布时间：2024-10-15 09:57:00 来源：机器之心Pro

是什么让纽约大学著名研究者谢赛宁三连呼喊「Representation matters」？他表示：「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言，表征也依然有用。基于此，他们提出了 REPA，即表征对齐技术，其能让「训练扩散 Transformer 变得比你想象的更简单。」

Yann LeCun 也对他们的研究表示了认可：「我们知道，当使用自监督学习训练视觉编码器时，使用具有重构损失的解码器的效果远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明，即使你只对生成像素感兴趣（例如使用扩散 Transformer 生成漂亮图片），也应该包含特征预测损失，以便解码器的内部表征可以根据预训练的视觉编码器（例如 DINOv2）预测特征。」

我们知道，在生成高维视觉数据方面，基于去噪的生成模型（如扩展模型和基于流的模型）的表现非常好，已经得到了广泛应用。近段时间，也有研究开始探索将扩展模型用作表征学习器，因为这些模型的隐藏状态可以捕获有意义的判别式特征。

而谢赛宁指导的这个团队发现（另一位指导者是 KAIST 的 Jinwoo Shin），训练扩散模型的主要挑战源于需要学习高质量的内部表征。他们的研究表明：「当生成式扩散模型得到来自另一个模型（例如自监督视觉编码器）的外部高质量表征的支持时，其性能可以得到大幅提升。」

REPresentation Alignment（REPA），即表征对齐技术，便基于此而诞生了。这是一个基于近期的扩散 Transformer（DiT）架构的简单正则化技术。

论文标题：Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think 论文地址：https://arxiv.org/pdf/2410.06940 项目地址：https://sihyun.me/REPA/ 代码地址：https://github.com/sihyun-yu/REPA

本质上讲，REPA 就是将一张清晰图像的预训练自监督视觉表征蒸馏成一个有噪声输入的扩展 Transformer 表征。这种正则化可以更好地将扩展模型表征与目标自监督表征对齐。

方法看起来很简单，但 REPA 的效果却很好！据介绍，REPA 能大幅提升模型训练的效率和效果。相比于原生模型，REPA 能将收敛速度提升 17.5 倍以上。在生成质量方面，在使用带引导间隔（guidance interval）的无分类器引导时，新方法取得了 FID=1.42 的当前最佳结果。

REPA：用于表征对齐的正则化

REPresentation Alignment（REPA）是一种简单的正则化方法，其使用了近期的扩展 Transformer 架构。简单来说，该技术就是一种将预训练的自监督视觉表征蒸馏到扩展 Transformer 的简单又有效的方法。这让扩散模型可以利用这些语义丰富的外部表征进行生成，从而大幅提高性能。

观察

REPA 的诞生基于该团队得到的几项重要观察。

他们研究了在 ImageNet 上预训练得到的 SiT（可扩展插值 Transformer）模型的逐层行为，该模型使用了线性插值和速度预测（velocity prediction）进行训练。他们研究的重点是扩散 Transformer 和当前领先的监督式 DINOv2 模型之间的表征差距。他们从三个角度进行了研究：语义差距、特征对齐进展以及最终的特征对齐。

对于语义差距，他们比较了使用 DINOv2 特征的线性探测结果与来自 SiT 模型（训练了 700 万次迭代）的线性探测结果，采用的协议涉及到对扩散 Transformer 的全局池化的隐藏状态进行线性探测。

接下来，为了测量特征对齐，他们使用了 CKNNA；这是一种与 CKA 相关的核对齐（kernel alignment）指标，但却是基于相互最近邻。这样一来，便能以量化方式评估对齐效果了。图 2 总结了其结果。

扩散 Transformer 与先进视觉编码器之间的语义差距明显。如图 2a 所示，可以观察到，预训练扩散 Transformer 的隐藏状态表征在第 20 层能得到相当高的线性探测峰值。但是，其性能仍远低于 DINOv2，表明这两种表征之间存在相当大的语义差距。此外，他们还发现，在此峰值之后，线性探测性能会迅速下降，这表明扩散 Transformer 必定从重点学习语义丰富的表征转向了生成具有高频细节的图像。

扩散表征已经与其它视觉表征（细微地）对齐了。图 2b 使用 CKNNA 展示了 SiT 与 DINOv2 之间的表征对齐情况。可以看到，SiT 模型表征的对齐已经优于 MAE，而后者也是一种基于掩码图块重建的自监督学习方法。但是，相比于其它自监督学习方法之间的对齐分数，其绝对对齐分数依然较低。这些结果表明，尽管扩散 Transformer 表征与自监督视觉表征存在一定的对齐，但对齐程度不高。

当模型增大、训练变多时，对齐效果会更好。该团队还测量了不同模型大小和训练迭代次数的 CKNNA 值。图 2c 表明更大模型和更多训练有助于对齐。同样地，相比于其它自监督视觉编码器之间的对齐，扩散表征的绝对对齐分数依然较低。

这些发现并非 SiT 模型所独有，其它基于去噪的生成式 Transformer 也能观察到。该团队也在 DiT 模型上观察到了类似的结果 —— 其使用 DDPM 目标在 ImageNet 上完成了预训练。

与自监督表征的表征对齐

REPA 将模型隐藏状态的 patch-wise 投影与预训练自监督视觉表征对齐。具体来说，该研究使用干净的（clean）图像表征作为目标并探讨其影响。这种正则化的目的是让扩散 transformer 的隐藏状态从包含有用语义信息的噪声输入中预测噪声不变、干净的视觉表征。这能为后续层重建目标提供有意义的引导。

结果

REPA 改善视觉扩展

该研究首先比较两个 SiT-XL/2 模型在前 400K 次迭代期间生成的图像，其中一个模型应用 REPA。两种模型共享相同的噪声、采样器和采样步骤数，并且都不使用无分类器引导。使用 REPA 训练的模型表现更好。

REPA 在各个方面都展现出强大的可扩展性

该研究通过改变预训练编码器和扩散 transformer 模型大小来检查 REPA 的可扩展性，结果表明：与更好的视觉表征相结合可以改善生成和线性探测结果。

REPA 还在大型模型中提供了更显著的加速，与普通模型相比，实现了更快的 FID-50K 改进。此外，增加模型大小可以在生成和线性评估方面带来更快的增益。

REPA 显著提高训练效率和生成质量

最后，该研究比较了普通 DiT 或 SiT 模型与使用 REPA 训练的模型的 FID 值。

在没有无分类器引导的情况下，REPA 在 400K 次迭代时实现了 FID=7.9，优于普通模型在 700 万次迭代时的性能。

使用无分类器引导，带有 REPA 的 SiT-XL/2 的性能优于最新的扩散模型，迭代次数减少为 1/7，并通过额外的引导调度实现了 SOTA FID=1.42。

该团队也执行了消融研究，探索了不同时间步数、不同视觉编码器和不同 λ 值（正则化系数）的影响。详见原论文。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-15 12:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,训练,方法,模型,训练,视觉的资讯：

LeCun 的世界模型初步实现！基于预训练视觉特征，零样本规

...Yann LeCun 批评 LLM 的推文之一相反，他更注重所谓的世界模型（World Model），也就是根据世界数据拟合的一个动态模型

2024-11-19 09:48:00

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训

...分认识并认可了表征学习的重要性，那么视觉领域的生成模型呢？最近，谢赛宁团队发表的一篇研究就拿出了非常有力的证据：Representation matters

2024-10-23 09:55:00

迎战GPT-4V！谷歌PaLI-3视觉语言模型问世，更小、更

...况，这一举动引起了业界的广泛关注。然而，在视觉语言模型的角逐中，谷歌也不甘示弱。近日，Google Research

2023-10-17 16:31:00

微美全息（NASDAQ:WIMI)将迁移学习引入到语义分割模

...景理解、图像分析、机器人感知和图像分割等。语义分割模型是计算机视觉领域中的一种模型，旨在将图像中的每个像素分配给特定的语义类别。与传统的图像分类模型只能给整个图像分配一个类别

2023-11-15 01:02:00

昆仑万维SkyReels团队正式发布并开源SkyReels-

...个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型，其通过结合多模态大语言模型(MLLM)

2025-04-21 13:53:00

1890美元，就能从头训练一个还不错的12亿参数扩散模型

...只用1890美元、3700 万张图像，就能训练一个还不错的扩散模型。现阶段，视觉生成模型擅长创建逼真的视觉内容，然而从头开始训练这些模型的成本和工作量仍然很高

2024-07-30 09:37:00

Meta提出“可持续思维链”，让大模型在连续潜空间中推理

今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal：通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2

2024-12-13 09:19:00

支持1024帧、准确率近100％，英伟达「LongVILA」

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。现阶段，将模型的多模态理解与长上下文能力相结合是非常重要的，

2024-08-22 09:51:00

谷歌在AI赛道加速

...oogle 的 AI 研究实验室Google DeepMind 发布了一项关于训练 AI 模型的新研究，Google 声称

2024-07-11 09:47:00

更多关于科技的资讯：

“内容重构论”引短剧行业共鸣

当“反转”“爽点”不再能轻易留住观众，微短剧行业正迎来一场深层重构。到2024年中，中国微短剧用户规模已接近7亿，市场体量超过500亿元

2025-10-29 14:01:00

鲸鸿动能亮相中国国际广告节&亚洲广告大会，全场景AI驱动增长

10月24日，第32届中国国际广告节&第34届亚洲广告大会在北京举办，鲸鸿动能受邀出席，并发表主题演讲《从孤岛到共生

2025-10-29 11:21:00

如何选择适合你的视频画质修复工具

在数字时代,视频已成为我们记录生活、创作内容和保存记忆的重要载体。然而由于拍摄设备限制、保存条件或传输压缩,我们常常面临视频模糊

2025-10-29 11:22:00

精工匠心极致服务！2025年小蓝翼杯全品类服务技术比武大赛圆

10月23日，2025年“小蓝翼”杯全品类服务技术比武大赛在TCL空调武汉智能工厂举行。其中，空调品类经过30个战区初赛

2025-10-29 11:30:00

联舌工坊落子杨浦区加速全球化战略布局

‌2025年10月27日‌——上海联舌工坊科技有限公司今日正式于杨浦区完成注册，此举被视为其深化资本市场布局的关键一步

2025-10-29 12:37:00

三星电视荣登天猫艺术电视榜单双十一钜惠助力消费者轻松解锁艺

在消费焕新浪潮席卷家居领域、美学需求成为当代家庭核心诉求的当下，三星凭借对前沿科技与生活美学的深度解构与融合，始终站在全球艺术电视品类发展的潮头

2025-10-29 12:40:00

河北天翼业财一体化项目落地见效

河北新闻网讯（吴建春）近日，由河北天翼科贸发展有限公司（简称“河北天翼”）为一家农业融资担保公司量身打造的在线收付款业财一体化项目

2025-10-29 13:31:00

宝宝巴士回应APP出现不良广告：严处审核负责人研发广告强制

华商网讯 10月29日，针对“宝宝巴士App出现不良广告”一事，宝宝巴士官方微信公众号发布致歉及整改声明。根据声明，对于近期用户关注的宝宝巴士App产品跳转不良广告一事

2025-10-29 13:40:00

米兰冬奥倒计时100天国际奥委会携手阿里巴巴首次推出五环系

2026年米兰·科尔蒂纳冬奥会开幕倒计时100天之际，奥林匹克天猫官方旗舰店独家首发米兰冬奥会系列商品。同时，国际奥委会首次推出奥林匹克五环系列首饰

2025-10-29 13:47:00

王玉宝：于商业迷途中寻一盏不灭的心灯

鲁网10月29日讯踏入儒商研究会的大门，已是一载有余。今日静坐回望，恍然惊觉，这段旅程并非寻常的“加入一个组织”，倒更像是一场在商业迷途中的精神返乡

2025-10-29 13:51:00

2025上海国际压缩机展开幕，美的楼宇科技赋能工业制造绿色

10月28日-31日，2025上海国际压缩机及设备展览会（以下简称“上海国际压缩机展”）在上海新国际博览中心举办。作为核心参展商

2025-10-29 12:41:00

深圳首宗！医疗健康数据产品场内交易，十年临床数据为手术机器人

经过严格匿名化处理和多轮合规审查，在严格遵守隐私保护的红线下，医疗数据也可以“活”起来，成为驱动AI技术发展的“燃料”

2025-10-29 12:38:00

阜阳烟草聚焦弱点上好“基础课”跑出“茄”速度

为进一步推动国产雪茄高质量发展，持续提升阜阳市场“懂雪茄、会养护、善营销”的零售客户雪茄经营能力，提升服务质量，重振经营信心

2025-10-29 12:39:00

富士胶片X-SPACE迎来七周年朋友月胶片模拟色彩配方书籍

2025年10月，富士胶片（中国）投资有限公司旗下X-SPACE富士胶片影像空间（以下简称"X-SPACE"）迎来成立七周年

2025-10-29 10:59:00

河北纳科生物科技有限公司专利获雄安高价值专利大赛银奖

河北新闻网讯（钟蕾）近日，推进京津冀知识产权高质量发展暨2025・雄安高价值专利大赛颁奖活动在雄安新区举行。石家庄高新区优秀创新企业河北纳科生物科技有限公司凭借其核心专利“重组人胶原蛋白的制备和产业化应用”

2025-10-29 11:11:00

头条订阅服务

扩散模型训练方法一直错了！谢赛宁：Representation matters