• 我的订阅
  • 科技

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

类别:科技 发布时间:2024-10-23 09:55:00 来源:新智元

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

【新智元导读】在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!

扩散模型如何突破瓶颈? 成本高又难训练的DiT/SiT模型如何提升效率?

对于这个问题,纽约大学谢赛宁团队最近发表的一篇论文找到了一个全新的切入点:提升表征(representation)的质量。

论文的核心或许就可以用一句话概括:「表征很重要!」

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

用谢赛宁的话来说,即使只是想让生成模型重建出好看的图像,仍然需要先学习强大的表征,然后再去渲染高频的、使图像看起来更美观的细节。

这个观点,Yann LeCun之前也多次强调过。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

有网友还在线帮谢赛宁想标题:你这篇论文不如就叫「Representation is all you need」(手动狗头)

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

由于观点一致,这篇研究也获得了同在纽约大学的Yann LeCun的转发。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

当使用自监督学习训练视觉编码器时,我们知道一个事实,使用具有重建损失(reconstruction loss)的解码器的效果远远不如具有特征预测损失(feature prediction loss)和崩溃预防机制的联合嵌入架构。 这篇来自纽约大学谢赛宁团队的论文表明,即使只对生成像素感兴趣(例如,使用扩散Transformer生成漂亮的图片),包含特征预测损失也是值得的,以便解码器的内部表示可以基于预训练的视觉编码器(例如 DINOv2)进行特征预测。

REPA的核心思想非常简单,就是让扩散模型中的表征与外部更强大的视觉表征进行对齐,但提升效果非常显著,颇有「他山之石,可以攻玉」的意味。

仅仅是在损失函数添加一项相似度最大化,就能将SiT/DiT的训练速度提升将近18倍,还刷新了模型的SOTA性能,在ImageNet 256x256上实现了最先进的FID=1.42。

谢赛宁表示,刚看到实验结果时,他自己也被震惊到了,因为感觉并没有发明什么全新的东西,而只是意识到了,我们几乎完全不理解扩散模型和SSL方法学习到的表示。

论文简介

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

论文地址:https://arxiv.org/abs/2410.06940

项目地址:https://sihyun.me/REPA/

在生成高维的视觉数据方面,基于去噪方法(如扩散模型)或基于流的生成模型,已经成为了一种可扩展的途径,并在有挑战性的的零样本文生图/文生视频任务上取得了非常成功的结果。

最近的研究表明,生成扩散模型中的去噪过程可以在模型内部的隐藏状态中引入有意义的表示,但这些表示的质量目前仍落后于自监督学习方法,例如DINOv2。

作者认为,训练大规模扩散模型的一个主要瓶颈,就在于无法有效学习到高质量的内部表示。

如果能够结合高质量的外部视觉表示,而不是仅仅依靠扩散模型来独立学习,就可以使训练过程变得更容易。

为了实现这一点,论文基于经典的扩散Transformer架构,引入了一种简单的正则化方法REPA(REPresentation Alignment)。

简单来说,就是将去噪网络中从噪声输入 得到的隐藏状态的投影,与外部自监督预训练的视觉编码器从干净图像获得的视觉表示*进行对齐。

这样一个非常直给的策略,却获得了惊人的结果:应用于流行的SiT或DiT时,模型的训练效率和生成质量都得到了显著提高。

具体来说,REPA可以将SiT的训练速度加快17.5×以上,以不到40万步的训练量匹配有700万步训练的SiT-XL模型的性能,同时实现了FID=1.42的SOTA结果。

REPA:使用表征对齐的正则化

统一视角的扩散模型+流模型

由于论文希望同时优化基于流的模型SiT和基于去噪的扩散模型DiT,因此首先从统一的随机插值视角,对这两种模型进行简要的回顾。

考虑在t∈[0,T]的连续时间步中,对数据*~p()使用高斯分布ε~(0,)添加随机噪音:

其中,αt和σt分别表示t的递减和递增函数。在公式(1)给定的过程中,存在一个带有速度场(velocity field)的概率流常微分方程:

其中t步时的分布就等于边际概率pt()。

速度(,t)可以表示为如下两个条件期望之和:

这个值可以通过最小化如下训练目标得到近似值θ(,t):

同时,还存在一个反向的随机微分方程(SDE),带有扩散系数wt,其中的边际概率pt()与公式(2)相符:

其中,(t,t)是一个条件期望值,定义为:

对任意t>0,都可以通过速度(,t)计算出(,t)的值:

这表明,数据t也可以通过求解公式(5)的SDE来以另一种方式生成。

以上定义对类似的扩散模型变体,例如DDPM,同样适用,只是需要将连续的时间步离散化。

方法概述

令p()为数据∈的未知目标分布,我们的训练目标就是通过模型对数据的学习得到p()的近似。

为了降低计算成本,最近流行的「潜在扩散」方法(latent diffusion)提出学习潜在变量=E()的分布p(),其中E表示来自预训练自编码器(例如KL-VAE)中的编码部分。

要学习到分布p(),就需要训练扩散模型θ(t,t),训练目标是进行速度预测,具体方法如上一节所述。

放在自监督表示学习的背景中,可以将扩散模型看成编码器fθ:⭢和解码器gθ:⭢的组合,其中编码器负责隐式地学习到表示t以重建目标t。

然而,作者提出,用于生成的大型扩散模型并不擅长表征学习,因此REPA引入了外部的语义丰富的表示,从而显著提升生成性能。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

REPA方法概述

模型观察

扩散模型是否真的不擅长表征学习?这需要更进一步地观察模型才能确定,为此,研究人员测量并比对了diffusion transformer和当前的SOTA自监督模型DINOv2之间的表征差距,包括语义差距和特征对齐两种角度。

语义差距

从图2a可知,预训练SiT的隐藏层表示在第20层达到最佳状态,这与之前的研究结果相符,但仍远远落后于DINOv2。

特征对齐

如图2b和2c所示,使用CKNNA值测量SiT和DINOv2之间的表征对齐程度后发现,SiT的对齐效果会随着模型增大和训练迭代步数增加而逐渐改善,但即使增加到7M次迭代,和DINOv2之间的对齐程度仍然不足。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

事实上,这种差距不仅在SiT中存在,根据附录C.2的实验结果,DiT等其他基于去噪的生成式Transformer模型也存在类似的问题。

缩小表征差距

那么,REPA方法究竟如何缩小这种表征差距,让diffusion transformer在噪声输入中也能学到有用的语义特征?

定义N,D分别表示patch数量预训练编码器f的嵌入维度,编码器输入为无噪声的图像*,输出为*=f(*)∈ℝN×D。

Diffusion transformer将编码器输出t=fθ(t)通过一个可训练的投影头hφ(MLP)投影为hφ(t)∈ℝN×D。

之后,REPA负责将hφ(t)与*进行对齐,通过最大化两者间的patch间相似度:

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

在实际实现中,将这一项添加到公式(4)定义的基于扩散的训练目标中,就得到总体的训练目标:

其中超参数λ>0用于控制模型在去噪目标和表征对齐间的权衡。

从图3结果可知,REPA减少了表示中的语义差距。

有趣的是,使用REPA后,仅对齐前几个Transformer块就能实现足够程度的表示对齐,从而让diffusion transformer的靠后层专注于捕获高频细节,从而进一步提高生成性能。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

实验结果

为了验证REPA方法的有效性,实验在两种流行的扩散模型训练目标(即velocity)上进行了实验,包括DiT中改进后的DDPM和SiT中的线性随机插值,但实际中也同样可以考虑其他的训练目标。

所用模型默认严格遵循SiT和DiT的原始结构(除非有特别说明),包括B/2、L/2、XL/2三种参数设置,如表1所示。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

以下实验旨在回答3个问题:

- REPA能否显著提升diffusion transformer的训练?

- REPA在模型规模和表征质量方面是否具有可扩展性?

- 扩散模型的表征能否和多种视觉表征进行对齐?

REPA提升视觉缩放

首先比较两个SiT-XL/2模型在前400K次迭代期间生成的图像,它们共享相同的噪声、采样器和采样步数,但其中使用REPA训练的模型显示出更好的进展。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

REPA在各个方面都展现出了强大的可扩展性

研究人员还改变了预训练编码器和Diffusion Transformer的模型大小来检验REPA的可扩展性。

图5a结果表明,与更好的视觉表示相结合可以改善生成效果和线性探测的结果。

此外,如图5b和c所示,增加模型大小可以在生成和线性评估方面带来更快的收益,也就是说,模型规模越大,REPA的加速效果越明显,表现出了强大的可扩展性。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

REPA显著提高训练效率和生成质量

最后,论文比较了普通DiT或SiT模型在训练中使用REPA前后的FID值。

在没有指导的情况下,REPA在400K次迭代时实现了FID=7.9,优于普通模型在7M次迭代后的性能。

此外,使用无分类器引导时,带有REPA的SiT-XL/2的性能优于SOTA性能(FID=1.42),同时迭代次数减少了7倍。

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

作者介绍

Sihyun Yu

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

本文一作Sihyun Yu是KAIST(韩国科学技术院)人工智能专业最后一年的博士生,此前他同样在KAIST获得了数学和计算机科学的双专业学士学位。

他的研究主要集中在减少大型生成模型训练(和采样)的内存和计算负担,其中,对大规模且高效的视频生成特别感兴趣;博士期间,他还曾在英伟达和谷歌研究院担任实习生。

参考资料:

https://x.com/sainingxie/statdus/1845510163152687242

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-23 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...更多详情,可以参见机器之心之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer
2024-10-15 09:56:00
鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆
2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注
2024-07-11 09:33:00
RNN回归!Bengio新作大道至简与Transformer一较高下
【新智元导读】近日,深度学习三巨头之一的Yoshua Bengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下
2024-10-26 09:53:00
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分
2024-09-03 09:59:00
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型
...器学习顶级国际会议 NeurIPS 2024 接收了一篇人脸表征学习新作, "TopoFR: A Closer Look at Topology Alignment on Face Recognition"
2024-10-18 09:46:00
AI首次实时生成视频!尤洋团队新作,网友:这是新纪元
一水 发自 凹非寺量子位 | 公众号 QbitAI尤洋团队新作,首个基于DiT的实时视频生成方法来了!先来直观感受一下效果(右侧为新方法)
2024-06-29 09:30:00
谷歌推出第五代AI芯片:训练和运行AI模型的速度提高5倍
...)芯片TPU v5e用于大模型训练和推理,训练和运行AI模型的速度提高了5倍。与上一代芯片相比,TPU v5e每一美元的训练性能提高2倍
2023-08-31 10:04:00
...人工智能文字生成视频大模型Sora核心组件DiT相比,训练速度提升10倍以上,再次刷新SoTA最佳图像生成质量和学习速度
2024-04-03 07:20:00
谷歌在AI赛道加速
...练 AI 模型的新研究,Google 声称,该研究将大大提高训练速度和能效,比其他方法的性能高出 13 倍,能效高出 10 倍
2024-07-11 09:47:00
更多关于科技的资讯:
合作再升级 阿维塔完成向华为115亿投资支付
阿维塔给华为打了34.5亿,这是第三笔投资款,算下来阿维塔前后一共给了115亿,现在这笔钱全付清了,这意味着阿维塔正式拿到了华为引望10%的股份
2025-10-10 12:16:00
记者10月9日获悉,国家发展改革委、市场监管总局近日发布《关于治理价格无序竞争维护良好市场价格秩序的公告》,提出在保护经营者自主定价权的前提下
2025-10-10 12:20:00
中新经纬10月10日电 题:京东为啥也要卖咖啡?作者 朱丹蓬 广东省食品安全保障促进会副会长、中国食品产业分析师随着消费者对“即买即得”需求的日益增长
2025-10-10 12:23:00
虎鲸文娱发布《2025国庆假期文娱消费报告》票房火热 大屏“圈粉”南报网讯(记者鲁舒婷)10月8日,虎鲸文娱发布的《2025国庆假期文娱消费报告》(以下简称《报告》)显示
2025-10-10 07:32:00
名创优品MINISO深耕IP战略:岭南骑楼店开业首日引爆Z世代消费热潮
2025年8月17日,名创优品MINISO LAND华南首店于广州北京路步行街正式开业。该店以百年岭南骑楼为空间载体,融合超过100个全球热门IP
2025-10-09 11:15:00
荣耀Magic8系列发布会官宣定档10月15日
10月9日,荣耀官方正式宣布,主题为“开新局・见未来”的荣耀 Magic8 系列暨 Magic OS10 发布会将于10 月15日正式举行
2025-10-09 11:30:00
局部降水量80毫米以上!10—14日烟台市将有持续连阴雨天气
齐鲁晚报·齐鲁壹点 周宣刚10月7日10时,烟台市气象局发布10—14日连阴雨天气预报和大风警报。受高空槽东移和暖湿气流输送北上的水汽影响
2025-10-09 11:31:00
权威发布, 福瑞达颐莲品牌价值评估突破120亿
2025年9月25日,在中国香料香精化妆品工业协会主办的“2025中国香妆品牌价值大会”上,福瑞达生物股份旗下颐莲品牌凭借卓越的市场表现与品牌影响力
2025-10-09 11:32:00
持续创新高!高德扫街榜上线23天用户超4亿
这个国庆黄金周,高德APP和高德扫街榜正在持续创新高——10月3日,高德扫街榜宣布:上线仅23天,累计用户超4亿。10月1日
2025-10-09 11:33:00
国庆中秋,大马再掀中餐热潮!“鱼你速度”树出海标杆!
国庆中秋双节期间,马来西亚再度掀起中餐热潮!以“鱼你在一起”为代表的中餐连锁品牌,在当地各大商圈持续引爆消费热情。“6个月
2025-10-09 11:34:00
开启商超智慧储鲜,澳柯玛新品冷柜让食材更鲜活
鲁网10月9日讯当社区团购爆单时冰柜塞不下?当生鲜进货量太大冻不透?当网红雪糕因串味被迫贱卖?针对这些让商超、饭馆等用户抓狂的痛点
2025-10-09 11:40:00
鸡排哥8天假期涨粉超40万,节前已成立工作室,10月9日休息一天
10月8日,江西景德镇鸡排哥在个人社交账号发布一则视频,向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热
2025-10-09 12:09:00
大疆部分产品直降千元!消费者炸锅,官方回应
10月8日,大疆在官网提前挂出“双十一”促销信息,多款产品价格直降数百至上千元。此次降价幅度较大。从几百元到几千元不等
2025-10-09 13:45:00
单日游客最高突破6.9万人次 忠县橘若·忠州渡接住“泼天流量”
这个国庆假期,重庆忠县江畔的橘若·忠州渡结结实实地“火”出了圈,八天揽客30余万人次,游客单日最高接待量突破6.9万人次
2025-10-09 13:57:00
谷子科技“智慧票根”创新亮相2025和平精英PEL运动会
10月7日,由谷子科技集团、和平精英职业联赛(PEL)与腾讯音乐娱乐集团联合出品,腾讯音乐娱乐集团与安徽易趣网络科技有限公司承办
2025-10-09 14:01:00