我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训练速度暴涨18倍

类别：科技发布时间：2024-10-23 09:55:00 来源：新智元

【新智元导读】在NLP领域，研究者们已经充分认识并认可了表征学习的重要性，那么视觉领域的生成模型呢？最近，谢赛宁团队发表的一篇研究就拿出了非常有力的证据：Representation matters！

扩散模型如何突破瓶颈？成本高又难训练的DiT/SiT模型如何提升效率？

对于这个问题，纽约大学谢赛宁团队最近发表的一篇论文找到了一个全新的切入点：提升表征（representation）的质量。

论文的核心或许就可以用一句话概括：「表征很重要！」

用谢赛宁的话来说，即使只是想让生成模型重建出好看的图像，仍然需要先学习强大的表征，然后再去渲染高频的、使图像看起来更美观的细节。

这个观点，Yann LeCun之前也多次强调过。

有网友还在线帮谢赛宁想标题：你这篇论文不如就叫「Representation is all you need」（手动狗头）

由于观点一致，这篇研究也获得了同在纽约大学的Yann LeCun的转发。

当使用自监督学习训练视觉编码器时，我们知道一个事实，使用具有重建损失（reconstruction loss）的解码器的效果远远不如具有特征预测损失（feature prediction loss）和崩溃预防机制的联合嵌入架构。这篇来自纽约大学谢赛宁团队的论文表明，即使只对生成像素感兴趣（例如，使用扩散Transformer生成漂亮的图片），包含特征预测损失也是值得的，以便解码器的内部表示可以基于预训练的视觉编码器（例如 DINOv2）进行特征预测。

REPA的核心思想非常简单，就是让扩散模型中的表征与外部更强大的视觉表征进行对齐，但提升效果非常显著，颇有「他山之石，可以攻玉」的意味。

仅仅是在损失函数添加一项相似度最大化，就能将SiT/DiT的训练速度提升将近18倍，还刷新了模型的SOTA性能，在ImageNet 256x256上实现了最先进的FID=1.42。

谢赛宁表示，刚看到实验结果时，他自己也被震惊到了，因为感觉并没有发明什么全新的东西，而只是意识到了，我们几乎完全不理解扩散模型和SSL方法学习到的表示。

论文简介

论文地址：https://arxiv.org/abs/2410.06940

项目地址：https://sihyun.me/REPA/

在生成高维的视觉数据方面，基于去噪方法（如扩散模型）或基于流的生成模型，已经成为了一种可扩展的途径，并在有挑战性的的零样本文生图/文生视频任务上取得了非常成功的结果。

最近的研究表明，生成扩散模型中的去噪过程可以在模型内部的隐藏状态中引入有意义的表示，但这些表示的质量目前仍落后于自监督学习方法，例如DINOv2。

作者认为，训练大规模扩散模型的一个主要瓶颈，就在于无法有效学习到高质量的内部表示。

如果能够结合高质量的外部视觉表示，而不是仅仅依靠扩散模型来独立学习，就可以使训练过程变得更容易。

为了实现这一点，论文基于经典的扩散Transformer架构，引入了一种简单的正则化方法REPA（REPresentation Alignment）。

简单来说，就是将去噪网络中从噪声输入得到的隐藏状态的投影，与外部自监督预训练的视觉编码器从干净图像获得的视觉表示*进行对齐。

这样一个非常直给的策略，却获得了惊人的结果：应用于流行的SiT或DiT时，模型的训练效率和生成质量都得到了显著提高。

具体来说，REPA可以将SiT的训练速度加快17.5×以上，以不到40万步的训练量匹配有700万步训练的SiT-XL模型的性能，同时实现了FID=1.42的SOTA结果。

REPA：使用表征对齐的正则化

统一视角的扩散模型+流模型

由于论文希望同时优化基于流的模型SiT和基于去噪的扩散模型DiT，因此首先从统一的随机插值视角，对这两种模型进行简要的回顾。

考虑在t∈[0,T]的连续时间步中，对数据*~p()使用高斯分布ε～(0,)添加随机噪音：

其中，αt和σt分别表示t的递减和递增函数。在公式(1)给定的过程中，存在一个带有速度场（velocity field）的概率流常微分方程：

其中t步时的分布就等于边际概率pt()。

速度(,t)可以表示为如下两个条件期望之和：

这个值可以通过最小化如下训练目标得到近似值θ(,t)：

同时，还存在一个反向的随机微分方程（SDE），带有扩散系数wt，其中的边际概率pt()与公式(2)相符：

其中，(t,t)是一个条件期望值，定义为：

对任意t>0，都可以通过速度(,t)计算出(,t)的值：

这表明，数据t也可以通过求解公式(5)的SDE来以另一种方式生成。

以上定义对类似的扩散模型变体，例如DDPM，同样适用，只是需要将连续的时间步离散化。

方法概述

令p()为数据∈的未知目标分布，我们的训练目标就是通过模型对数据的学习得到p()的近似。

为了降低计算成本，最近流行的「潜在扩散」方法（latent diffusion）提出学习潜在变量=E()的分布p()，其中E表示来自预训练自编码器（例如KL-VAE）中的编码部分。

要学习到分布p()，就需要训练扩散模型θ(t,t)，训练目标是进行速度预测，具体方法如上一节所述。

放在自监督表示学习的背景中，可以将扩散模型看成编码器fθ：⭢和解码器gθ：⭢的组合，其中编码器负责隐式地学习到表示t以重建目标t。

然而，作者提出，用于生成的大型扩散模型并不擅长表征学习，因此REPA引入了外部的语义丰富的表示，从而显著提升生成性能。

REPA方法概述

模型观察

扩散模型是否真的不擅长表征学习？这需要更进一步地观察模型才能确定，为此，研究人员测量并比对了diffusion transformer和当前的SOTA自监督模型DINOv2之间的表征差距，包括语义差距和特征对齐两种角度。

语义差距

从图2a可知，预训练SiT的隐藏层表示在第20层达到最佳状态，这与之前的研究结果相符，但仍远远落后于DINOv2。

特征对齐

如图2b和2c所示，使用CKNNA值测量SiT和DINOv2之间的表征对齐程度后发现，SiT的对齐效果会随着模型增大和训练迭代步数增加而逐渐改善，但即使增加到7M次迭代，和DINOv2之间的对齐程度仍然不足。

事实上，这种差距不仅在SiT中存在，根据附录C.2的实验结果，DiT等其他基于去噪的生成式Transformer模型也存在类似的问题。

缩小表征差距

那么，REPA方法究竟如何缩小这种表征差距，让diffusion transformer在噪声输入中也能学到有用的语义特征？

定义N,D分别表示patch数量预训练编码器f的嵌入维度，编码器输入为无噪声的图像*，输出为*=f(*)∈ℝN×D。

Diffusion transformer将编码器输出t=fθ(t)通过一个可训练的投影头hφ（MLP）投影为hφ(t)∈ℝN×D。

之后，REPA负责将hφ(t)与*进行对齐，通过最大化两者间的patch间相似度：

在实际实现中，将这一项添加到公式(4)定义的基于扩散的训练目标中，就得到总体的训练目标：

其中超参数λ>0用于控制模型在去噪目标和表征对齐间的权衡。

从图3结果可知，REPA减少了表示中的语义差距。

有趣的是，使用REPA后，仅对齐前几个Transformer块就能实现足够程度的表示对齐，从而让diffusion transformer的靠后层专注于捕获高频细节，从而进一步提高生成性能。

实验结果

为了验证REPA方法的有效性，实验在两种流行的扩散模型训练目标（即velocity）上进行了实验，包括DiT中改进后的DDPM和SiT中的线性随机插值，但实际中也同样可以考虑其他的训练目标。

所用模型默认严格遵循SiT和DiT的原始结构（除非有特别说明），包括B/2、L/2、XL/2三种参数设置，如表1所示。

以下实验旨在回答3个问题：

- REPA能否显著提升diffusion transformer的训练？

- REPA在模型规模和表征质量方面是否具有可扩展性？

- 扩散模型的表征能否和多种视觉表征进行对齐？

REPA提升视觉缩放

首先比较两个SiT-XL/2模型在前400K次迭代期间生成的图像，它们共享相同的噪声、采样器和采样步数，但其中使用REPA训练的模型显示出更好的进展。

REPA在各个方面都展现出了强大的可扩展性

研究人员还改变了预训练编码器和Diffusion Transformer的模型大小来检验REPA的可扩展性。

图5a结果表明，与更好的视觉表示相结合可以改善生成效果和线性探测的结果。

此外，如图5b和c所示，增加模型大小可以在生成和线性评估方面带来更快的收益，也就是说，模型规模越大，REPA的加速效果越明显，表现出了强大的可扩展性。

REPA显著提高训练效率和生成质量

最后，论文比较了普通DiT或SiT模型在训练中使用REPA前后的FID值。

在没有指导的情况下，REPA在400K次迭代时实现了FID=7.9，优于普通模型在7M次迭代后的性能。

此外，使用无分类器引导时，带有REPA的SiT-XL/2的性能优于SOTA性能（FID=1.42），同时迭代次数减少了7倍。

作者介绍

Sihyun Yu

本文一作Sihyun Yu是KAIST（韩国科学技术院）人工智能专业最后一年的博士生，此前他同样在KAIST获得了数学和计算机科学的双专业学士学位。

他的研究主要集中在减少大型生成模型训练（和采样）的内存和计算负担，其中，对大规模且高效的视频生成特别感兴趣；博士期间，他还曾在英伟达和谷歌研究院担任实习生。

参考资料：

https://x.com/sainingxie/statdus/1845510163152687242

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-23 12:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于新作,速度,训练,学习,模型,训练的资讯：

图灵奖得主Yoshua Bengio新作：Were RNNs

...更多详情，可以参见机器之心之前的报道：《Bengio 等人新作：注意力可被视为 RNN，新模型媲美 Transformer

2024-10-15 09:56:00

鄂维南院士领衔新作：大模型不止有RAG、参数存储，还有第3种

2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来，大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注

2024-07-11 09:33:00

RNN回归！Bengio新作大道至简与Transformer

【新智元导读】近日，深度学习三巨头之一的Yoshua Bengio，带领团队推出了全新的RNN架构，以大道至简的思想与Transformer一较高下

2024-10-26 09:53:00

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分

2024-09-03 09:59:00

NeurIPS 2024 | FaceChain团队新作，开

...器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作， "TopoFR: A Closer Look at Topology Alignment on Face Recognition"

2024-10-18 09:46:00

AI首次实时生成视频！尤洋团队新作，网友：这是新纪元

一水发自凹非寺量子位 | 公众号 QbitAI尤洋团队新作，首个基于DiT的实时视频生成方法来了！先来直观感受一下效果（右侧为新方法）

2024-06-29 09:30:00

谷歌推出第五代AI芯片：训练和运行AI模型的速度提高5倍

...）芯片TPU v5e用于大模型训练和推理，训练和运行AI模型的速度提高了5倍。与上一代芯片相比，TPU v5e每一美元的训练性能提高2倍

2023-08-31 10:04:00

让人工智能模型训练提速10倍以上

...人工智能文字生成视频大模型Sora核心组件DiT相比，训练速度提升10倍以上，再次刷新SoTA最佳图像生成质量和学习速度

2024-04-03 07:20:00

谷歌在AI赛道加速

...练 AI 模型的新研究，Google 声称，该研究将大大提高训练速度和能效，比其他方法的性能高出 13 倍，能效高出 10 倍

2024-07-11 09:47:00

更多关于科技的资讯：

西北农林科技大学研发的司牧大模型发布为智慧牧业注入AI新引

近日，在第三届智慧牧业发展校企联盟年会上，由西北农林科技大学动科学院李曼菲副教授牵头研发的一个面向智慧牧业的产学研一体化人工智能创新平台—司牧大模型发布

2025-11-13 20:26:00

长春机场电梯无线报警系统有效释放人力资源

近日，长春机场“电梯无线报警系统”科创项目顺利投入使用。该系统融合4G无线通信、移动值守与智能终端管理等先进技术，实现了对传统电梯紧急报警系统的全面智能化升级

2025-11-13 13:34:00

海尔L+洗衣机在泰国售价6万泰铢高端增速最快

海尔智家以“全球化”为核心战略，依托技术创新推动高端产品出海落地，L+洗衣机正是这一战略的重要落地成果。该产品率先在中国高端市场获得成功

2025-11-13 10:35:00

央视二套《消费主张》强推！从一扇门到全屋智能，王力安防重新定

近日，“双十一”消费季热潮正劲，亿万消费者聚焦高品质家居好物。央视二套《消费主张》于11月11日晚黄金时段播出《聚焦双十一

2025-11-13 11:14:00

全球首个系统级伦理垂域大模型“问道”发布

给“狂飙”的AI套上伦理的“缰绳”全球首个系统级伦理垂域大模型“问道”发布南报网讯（记者何洁通讯员孙艳）让AI也能像学者一样

2025-11-13 08:06:00

第八届进博会搭建国际合作桥梁——汉诺金携手湖南卫视快乐购共促

近日，第八届中国国际进口博览会（进博会）在上海国家会展中心隆重开幕。作为全球关注的年度经贸盛会，进博会汇聚来自世界各地的顶尖企业与行业代表

2025-11-13 08:57:00

京东“双十一”战报出炉江西人下单量增速居全国第五

本报讯(全媒体记者左阳天)指尖滑动屏幕，货物飞速流转，一场持续了一个多月的年度消费盛宴，正悄然重塑江西消费者的购物车与江西商家的生产线

2025-11-13 06:45:00

新闻纵深｜“人机共生”让绿钢更绿

河钢集团石钢公司五十六个智能模型构建“数字工厂”“人机共生”让绿钢更绿阅读提示订单排产从48小时压缩到30分钟，钢水样品2分40秒完成27种元素分析

2025-11-12 08:14:00

京东发布今年“双11”福建消费热点：最爱囤运动板鞋买手机舍

厦门网讯（厦门日报记者沈彦彦）11月11日，京东发布2025年“双11”购物狂欢节（以下简称“双11”）福建消费热点相关情况

2025-11-12 08:22:00

厦门电商军团战绩不俗多个品类登上全国热销榜单

厦门网讯（厦门日报记者沈彦彦）昨日，抖音美洋官方旗舰店的直播间里热闹非凡，主播“上链接”话音刚落，新品针织衫链接的下单人数瞬间破百

2025-11-12 08:22:00

鹭江观察丨借“金鸡”生金蛋含金量高含科量足

厦门网讯（厦门日报记者邬秀君）顶峰人文影视艺术会客厅项目签约金额20亿元；同文文化艺术影视科技街区项目签约金额16亿元

2025-11-12 08:22:00

餐品要好吃下单还得好玩一些年轻人点单爱上“参与感”

厦门网讯（文/厦门日报记者谭心怡）在思明区禾祥西路，一个红色小窗口内闪着金元宝形的灯，客人抽完签、摇响铃铛、再把签递进窗口——冰激凌就会从里面递出

2025-11-12 08:22:00

厦门软件园企业:科技赋能打开光影新视野

借助XR虚拟拍摄技术，可实现场景自由切换。图为厦门火炬元宇宙（XR）公共技术服务平台。（甚妙视觉供图）厦门网讯（厦门日报记者林露虹通讯员管轩雷飏）光影闪耀鹭岛

2025-11-12 08:22:00

鹭江茶桌仔：“小咖啡”如何萃取“大产业”

●席恺前不久，星巴克以40亿美元出售中国业务60%股权。消息一传出，众人的目光很快聚焦在瑞幸咖啡上：这个总部设在厦门的咖啡品牌

2025-11-12 08:22:00

德州扒鸡®美食城三八路店重装开业——铸就州城美好生活新业态升

鲁网11月11日讯（记者赵洪斌吴美琳）11月11日，德州扒鸡®美食城三八路店重装开业，焕新启幕，美耀州城！溯源四十载

2025-11-12 08:43:00

头条订阅服务

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训练速度暴涨18倍