我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

扩散模型和transformer梦幻联动一举拿下新sota

类别：科技发布时间：2022-12-24 18:10:00 来源：浅语科技

“U-Net已死，Transformer成为扩散模型新SOTA了！”

就在ChatGPT占尽AI圈风头时，纽约大学谢赛宁的图像生成模型新论文横空出世，收获一众同行惊讶的声音。

△MILA在读ML博士生EthanCaballero

论文创意性地将Transformer与扩散模型融合，在计算效率和生成效果上均超越了基于U-Net的经典模型 ADM和LDM，打破了U-Net统治扩散模型的“普遍认知”。

网友给这对新组合命名也是脑洞大开：

AllweneedisU-Transformer

希望他们没有错过Transffusion这个名字。

要知道，这几年虽然Transformer占尽风头，但U-Net在扩散模型领域仍然一枝独秀——

无论是“前任王者”DALL・E2还是“新晋生成AI”StableDiffusion，都没有使用Transformer作为图像生成架构。

△ 英伟达AI科学家JimFan

如今新研究表明，U-Net并非不可用Transformer替代。“U-Net并非不可替代”

论文提出的新架构名叫DiffusionTransformers（DiTs）。

架构保留了很多ViT的特性，其中整体架构如图左（包含多个DiT模块），具体的DiT模块组成如图右：

更右边的两个灰色框的模块，则是DiT架构的“变体”。主要是探讨在条件输入下，不同的架构是否能对信息进行更好的处理，包括交叉注意力等。

最终结果表明，还是层归一化（LayerNormalization）更好用，这里最终选用了AdaptiveLayerNormalization（自适应层归一化）的方法。

对于这篇论文研究的目的，作者表示希望探讨扩散模型中不同架构选择的重要性，以及也是给将来生成模型的评估做一个评判标准。

先说结果——作者认为，U-Net的归纳偏置（inductivebias），对于扩散模型性能提升不是必须的。

与之相反，他们能“轻松地”（readily）被Transformer的标准架构取代。

有网友发现，DALL・E和DALL・E2似乎都有用到Transformer。

这篇论文和它们的差异究竟在哪里？

事实上，DALL・E虽然是Transformer，但并非扩散模型，本质是基于VQVAE架构实现的；

至于DALL・E2和StableDiffusion，虽然都分别将Transformer用在了CLIP和文本编码器上，但关键的图像生成用的还是U-Net。

△ 经典U-Net架构

不过，DiT还不是一个文本生成图像模型——目前只能基于训练标签生成对应的新图像。

虽然生成的图片还带着股“ImageNet风”，不过英伟达AI科学家 JimFan 认为，将它改造成想要的风格和加上文本生成功能，都不是难点。

如果将标签输入调整成其他向量、乃至于文本嵌入，就能很快地将DiT改造成一个文生图模型：

Stable-DiT马上就要来了！

所以DiTs在生成效果和运算速率上，相比其他图像生成模型究竟如何？在ImageNet基准上取得SOTA

为了验证DiTs的最终效果，研究者将DiTs沿“模型大小”和“输入标记数量”两个轴进行了缩放。

具体来说，他们尝试了四种不同模型深度和宽度的配置：DiT-S、DiT-B、DiT-L和DiT-XL，在此基础上又分别训练了3个潜块大小为8、4和2的模型，总共是12个模型。

从FID测量结果可以看出，就像其他领域一样，增加模型大小和减少输入标记数量可以大大提高DiT的性能。

FID是计算真实图像和生成图像的特征向量之间距离的一种度量，越小越好。

换句话说，较大的DiTs模型相对于较小的模型是计算效率高的，而且较大的模型比较小的模型需要更少的训练计算来达到给定的FID。

其中，Gflop最高的模型是DiT-XL/2，它使用最大的XL配置，patch大小为2，当训练时间足够长时，DiT-XL/2就是里面的最佳模型。

于是在接下来，研究人员就专注于DiT-XL/2，他们在ImageNet上训练了两个版本的DiT-XL/2，分辨率分别为256x256和512x512，步骤分别为7M和3M。

当使用无分类器指导时，DiT-XL/2比之前的扩散模型数据都要更好，取得SOTA效果：

在256x256分辨率下，DiT-XL/2将之前由LDM实现的最佳FID-50K从3.60降至了2.27。

并且与基线相比，DiTs模型本身的计算效率也很高：

DiT-XL/2的计算效率为119Gflops，相比而言LDM-4是103Gflops，ADM-U则是742Gflops。

同样，在512x512分辨率下，DiT-XL/2也将ADM-U之前获得的最佳FID3.85降至了3.04。

不过此时ADM-U的计算效率是2813Gflops，而XL/2只有525Gflops。

研究作者

本篇论文作者为UC伯克利的WilliamPeebles和纽约大学的谢赛宁。

WilliamPeebles，目前是UC伯克利的四年级博士生，本科毕业于麻省理工学院。研究方向是深度学习和人工智能，重点是深度生成模型。

之前曾在Meta、Adobe、英伟达实习过，这篇论文就是在Meta实习期间完成。

谢赛宁，纽约大学计算机科学系助理教授，之前曾是MetaFAIR研究员，本科就读于上海交通大学ACM班，博士毕业于UC圣迭戈分校。

谢赛宁读博士时曾在FAIR实习，期间与何恺明合作完成ResNeXt，是该论文的一作，之前何恺明一作论文MAE他也有参与。

当然，对于这次Transformer的表现，也有研究者们表示“U-Net不服”。

例如三星AILab科学家AlexiaJolicoeur-Martineau就表示：

U-Net仍然充满生机，我相信只需要经过细小调整，有人能将它做得比Transformer更好。

看来，图像生成领域很快又要掀起新的“较量风暴”了。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2022-12-24 20:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,梦幻的资讯：

梦幻西游Deepseek模型全服上线，新版精灵还能预测门派大

...本周二维护后，梦幻精灵-AI增强”功能接入“DeepSeek-R1”模型已在全部服务器放出。正巧四月门派大改将近，今天我们就用新版梦幻精灵来预测一下，全梦幻话题度最高的门派“

2025-02-26 21:39:00

arXiv和Hugging Face梦幻联动，一个按钮直达论

...选项卡下，选中之后就可以直达相关的 Hugging Face 论文、模型和数据集。二者打通之后有多方便呢？以直达「Hugging Face 论文」为例

2024-10-26 09:50:00

打卡“梦幻灵境”：“科幻电影场景来到了我们身边”

...网记者王天乐摄在AI研学培训区，一辆辆摆放整齐的航空模型和操纵手柄摆放在展柜上。在这里，学员们可以结合人工智能科普课程，实现从了解AI到学习AI，再到实践AI的全过程。武汉

2024-08-14 09:43:00

厉害了！Adobe新出Firefly视频模型，2分钟速成高清

...入 Adobe 全家桶数月后，Adobe 终于推出了自己的视频生成模型。随着大家对新鲜、短视频内容的需求不断增长，编辑、电影制作人和内容创作者被要求在更短的时间内创作出更好的

2024-09-13 13:37:00

梦幻联动？马斯克公开赞同李想对于自动驾驶的理念

...线和特斯拉FSD类似，构建高质量、高效率的训练体系，以模型训练为主，以人工干预为辅。ADMax可以跑通大模型的城市NOA

2023-05-09 10:39:00

宝可梦多边兽“入侵”任天堂主机！硬核玩家用3D打印打造梦幻联

...2型与Wii U结合的模样。接着，他开始运用专业软件建立3D模型，这一步是为后续的3D打印做准备，每一处线条、每一个弧度

2025-04-22 19:35:00

“灵境”已至探索科技的无限可能

...，更是引领我们走向未来科技的关键。展演将涵盖大语言模型、视觉扩散模型等生成式人工智能技术，以及XR虚拟制片、虚拟人制作、脑机接口技术、语音克隆、唇音同步、动作捕捉等一系列前沿

2024-06-29 08:26:00

震撼首演！人民网”梦幻灵境“AI展演中心（武汉）试营业

...环绕屏线下舞台、基于虚幻引擎的线上虚拟舞台和大语言模型生成式人工智能编织的科技晚会中，沉浸式游历了一场“白泽的奇幻旅程”，共同见证并参与了智能生命的绚烂绽放。6月28日，人民

2024-06-29 09:39:00

“梦幻灵境”AI展演持续升温市民享受视听盛宴

...品，通过结合虚拟现实（VR）、增强现实（AR）、大语言模型、语音克隆等前沿技术，展现出一个虚拟与现实交织的梦幻空间，观众们在这里仿佛置身于一个超现实主义的梦境中，体验到科技与

2024-07-08 16:00:00

更多关于科技的资讯：

2025中国GEO服务商深度测评：技术护城河、垂直行业解决方

据IDC与《2025中国生成式AI搜索生态白皮书》联合数据显示，截至2025年第三季度，中国GEO服务市场规模已达220亿元

2025-10-25 21:09:00

周一围与博斯绅威共赴“轻装之约”，解锁网球生活新方式

金秋济南，共赴网球生活时光。10月25日下午，博斯绅威携品牌体验官、著名演员周一围先生，在济南银座商城举办了一场主题为“轻装上阵

2025-10-26 12:28:00

曹县汉服“遇上”拼多多：95后的创业翻盘记

鲁网10月24日讯曹县，素有“中国汉服产业重镇”之称，曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言，汉服市场度过初期蓝海阶段后

2025-10-24 14:29:00

突破光谱检测瓶颈！中国计量大学本科生团队研制高分辨率光谱仪

通讯员：吴瑞鹏何秋阳近日，第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中，全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”

2025-10-24 15:02:00

开普勒机器人登陆IROS 2025 以开放平台携手全球开发者

10月19日至25日，全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议（IROS 2025）在杭州隆重举行

2025-10-24 15:02:00

蓝月亮：用十二年为洁净艺术种下一棵“树”

10月23日，第十七届国际大学生暨青年艺术博览会（简称：大艺博）开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内

2025-10-24 15:14:00

京东工业与南方电网供应链集团签署战略合作以数智技术驱动供应

10月20日，京东工业与南方电网供应链集团在广州正式签署战略合作协议，双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段

2025-10-24 15:23:00

从OS到AI OS：荣耀MagicOS 10定义AI OS新

2025年10月23日，荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径

2025-10-24 15:32:00

最后窗口期！2025FHC上海环球食品展免费领票即将截止

2025FHC上海环球食品展已进入开幕倒计时！这场被誉为“全球食饮贸易超级接口”的盛会，已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积

2025-10-24 15:47:00

K90定价后引热议闪电降价，雷军：标准版12GB+512GB

2025年10月23日的红米K90发布会后，12GB+512GB版本原定价为3199元，但因用户反馈该版本与其他配置差价过大

2025-10-24 15:57:00

iPhone 17系列首批用户反应褪色？苹果官方客服回应

近日，部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映，其设备遭遇了机身褪色问题

2025-10-24 15:59:00

阿里夸克AI眼镜开启预售体验者：轻若无物，稳如长在脸上“看

阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元

2025-10-24 16:35:00

石家庄市桥西区税务局精准服务新办纳税人

河北新闻网讯（梁轩轩）“原以为开业办税很繁琐，没想到这么简单！”近日，石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后

2025-10-24 16:59:00

瑞众人寿河北分公司举办“养老规划线下体验日”活动

近日，瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动，通过创新融合中医药文化

2025-10-24 17:06:00

“尖货”频出！临安这里科技含量UpUpUp

是一场什么样的比赛技术“尖货”频出“硬核”创新不断近日，2025“海康创行・瓴创青山”智能物联青山湖科技城高层次人才创业大赛第二期

2025-10-24 17:07:00

头条订阅服务

扩散模型和transformer梦幻联动一举拿下新sota