我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

比Stable Diffusion便宜118倍！1890美元训出11.6亿参数高质量文生图模型

类别：科技发布时间：2024-08-13 09:42:00 来源：新智元

【新智元导读】近日，来自加州大学尔湾分校等机构的研究人员，利用延迟掩蔽、MoE、分层扩展等策略，将扩散模型的训练成本降到了1890美元。

训练一个扩散模型要多少钱？

之前最便宜的方法（Wuerstchen）用了28400美元，而像Stable Diffusion这样的模型还要再贵一个数量级。

大模型时代，一般人根本玩不起。想要各种文生小姐姐，还得靠厂商们负重前行

为了降低这庞大的开销，研究者们尝试了各种方案。

比如，原始的扩散模型从噪声到图像大约需要1000步，目前已经被减少到20步左右，甚至更少。

当扩散模型中的基础模块逐渐由Unet（CNN）替换为DiT（Transformer）之后，一些根据Transformer特性来做的优化也跟了上来。

比如量化，比如跳过Attention中的一些冗余计算，比如pipeline。

而近日，来自加州大学尔湾分校等机构的研究人员，把「省钱」这个目标直接向前推进了一大步：

论文地址：https://arxiv.org/abs/2407.15811

——从头开始训练一个11.6亿参数的扩散模型，只需要1890美元！

对比SOTA有了一个数量级的提升，让普通人也看到了能摸一摸预训练的希望。

更重要的是，降低成本的技术并没有影响模型的性能，11.6亿个参数给出了下面这样非常不错的效果。

除了观感，模型的数据指标也很优秀，比如下表给出的FID分数，非常接近Stable Diffusion 1.5和DALL·E 2。

相比之下，Wuerstchen的降成本方案则导致自己的考试分数不甚理想。

省钱的秘诀

抱着「Stretching Each Dollar」的目标，研究人员从扩散模型的基础模块DiT入手。

首先，序列长度是Transformer计算成本的大敌，需要除掉。

对于图像来说，就需要在不影响性能的情况下，尽量减少参加计算的patch数量（同时也减少了内存开销）。

减少图像切块数可以有两种方式，一是增大每块的尺寸，二是干掉一部分patch（mask）。

因为前者会显著降低模型性能，所以我们考虑进行mask的方式。

最朴素的mask（Naive token masking）类似于卷积UNet中随机裁剪的训练，但允许对图像的非连续区域进行训练。

而之前最先进的方法（MaskDiT），在输出之前增加了一个恢复重建的结构，通过额外的损失函数来训练，希望通过学习弥补丢掉的信息。

这两种mask都为了降低计算成本，在一开始就丢弃了大部分patch，信息的损失显著降低了Transformer的整体性能，即使MaskDiT试图弥补，也只是获得了不太多的改进。

——丢掉信息不可取，那么怎样才能减小输入又不丢信息呢？

延迟掩蔽

本文提出了一种延迟掩蔽策略（deferred masking strategy），在mask之前使用混合器（patch-mixer）进行预处理，把被丢弃patch的信息嵌入到幸存的patch中，从而显著减少高mask带来的性能下降。

在本架构中，patch-mixer是通过注意力层和前馈层的组合来实现的，使用二进制掩码进行mask，整个模型的损失函数为：

与MaskDiT相比，这里不需要额外的损失函数，整体设计和训练更加简单。

而混合器本身是个非常轻量的结构，符合省钱的标准。

微调

由于非常高的掩蔽比（masking ratio）会显著降低扩散模型学习图像中全局结构的能力，并引入训练到测试的分布偏移，所以作者在预训练（mask）后进行了小幅度的微调（unmask）。

另外，微调还可以减轻由于使用mask而产生的任何不良生成伪影。

MoE和分层扩展

MoE能够增加模型的参数和表达能力，而不会显著增加训练成本。

作者使用基于专家选择路由的简化MoE层，每个专家确定路由到它的token，而不需要任何额外的辅助损失函数来平衡专家之间的负载。

此外，作者还考虑了分层缩放方法，线性增加Transformer块的宽度（即注意力层和前馈层中的隐藏层尺寸）。

由于视觉模型中的更深层倾向于学习更复杂的特征，因此在更深层中使用更多的参数将带来更好的性能。

实验设置

作者使用两种DiT的变体：DiT-Tiny/2和DiT-Xl/2，patch大小为2。

使用具有余弦学习率衰减和高权重衰减的AdamW优化器训练所有模型。

模型前端使用Stable-Diffusion-XL模型中的四通道变分自动编码器（VAE）来提取图像特征，另外还测试了最新的16通道VAE在大规模训练（省钱版）中的性能。

作者使用EDM框架作为所有扩散模型的统一训练设置，使用FID以及CLIP分数来衡量图像生成模型的性能。

文本编码器选择了最常用的CLIP模型，尽管T5-xxl这种较大的模型在文本合成等具有挑战性的任务上表现更好，但为了省钱的目标，这里没有采用。

训练数据集

使用三个真实图像数据集（Conceptual Captions、Segment Anything、TextCaps），包含2200万个图像文本对。

由于SA1B不提供真实的字幕，这里使用LLaVA模型生成的合成字幕。作者还在大规模训练中添加了两个包含1500万个图像文本对的合成图像数据集：JourneyDB和DiffusionDB。

对于小规模消融，研究人员通过从较大的COYO-700M数据集中对10个CIFAR-10类的图像进行二次采样，构建了一个名为cifar-captions的文本到图像数据集。

评估

使用DiT-Tiny/2模型和cifar-captions数据集（256×256分辨率）进行所有评估实验。

对每个模型进行60K优化步骤的训练，并使用AdamW优化器和指数移动平均值（最后10K步平滑系数为0.995）。

延迟掩蔽

实验的基线选择我们上面提到的Naive masking，而本文的延迟掩蔽则加入一个轻量的patch-mixer，参数量小于主干网络的10%。

一般来说，丢掉的patch越多（高masking ratio），模型的性能会越差，比如MaskDiT在超过50%后表现大幅下降。

这里的对比实验采用默认的超参数（学习率1.6×10e-4、0.01的权重衰减和余弦学习率）来训练两个模型。

上图的结果显示了延迟屏蔽方法在FID、Clip-FID和Clip score三个指标上都获得了提升。

并且，与基线的性能差距随着掩蔽率的增加而扩大。在掩蔽率为75%的情况下，朴素掩蔽会将FID分数降低至 16.5，而本文的方法则达到5.03，更接近于无掩蔽时的FID分数（3.79）。

超参数

沿着训练LLM的一般思路，这里比较两个任务的超参数选择。

首先，在前馈层中，SwiGLU激活函数优于GELU。其次，较高的权重衰减会带来更好的图像生成性能。

另外，与LLM训练不同的是，当对AdamW二阶矩 (β) 使用更高的运行平均系数时，本文的扩散模型可以达到更好的性能。

最后，作者发现使用少量的训练步骤，而将学习率增加到最大可能值（直到训练不稳定）也显著提高了图像生成性能。

混合器的设计

大力出奇迹一般都是对的，作者也观察到使用更大的patch-mixer后，模型性能得到持续改善。

然而，本着省钱的目的，这里还是选择使用小型的混合器。

作者将噪声分布修改为 (−0.6, 1.2)，这改善了字幕和生成图像之间的对齐。

如下图所示，在75% masking ratio下，作者还研究了采用不同patch大小所带来的影响。

当连续区域变多（patch变大）时，模型的性能会下降，因此保留随机屏蔽每个patch的原始策略。

分层缩放

这个实验训练了DiT-Tiny架构的两种变体，一种具有恒定宽度，另一种采用分层缩放的结构。

两种方法都使用Naive masking，并调整Transformer的尺寸，保证两种情况下的模型算力相同，同时执行相同的训练步骤和训练时间。

由上表结果可知发现，在所有三个性能指标上，分层缩放方法都优于基线的恒定宽度方法，这表明分层缩放方法更适合DiT的掩蔽训练。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-13 11:45:09

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于文生,高质量,模型,参数,模型,训练的资讯：

开源社区参数量最大的文生视频模型来了，腾讯版Sora免费使用

...开源模型包含轻量版和标准版，轻量版仅需 10s 即可生成高质量 3D 资产。该模型在今年年初已在腾讯内部上线发布并应用于实际业务中

2024-12-04 09:48:00

Sora这就落伍了？Meta“最强视频模型”不用DiT，用L

...频生成： Movie Gen 不仅可以根据视频内容和文本指令生成高质量的各类音效和音乐，而且还可以做到与视频内容更高度的匹配与同步。这些音频最长可达 45 秒，而且Meta还

2024-10-08 09:51:00

超越扩散模型！自回归新范式仅需2.9秒就生成高质量图像

...小满等机构提出通用文生图模型STAR。仅需2.9秒就可生成高质量图像，超越当前一众包括SDXL在内扩散模型的性能。此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。来看

2024-06-27 09:17:00

腾讯开源最大MoE大语言模型！3D大模型同时支持文/图生成，

...、数学等9大维度，混元Large实现全面领先。混元Large包含高质量合成数据、专家特定的学习率缩放、KV缓存压缩、长上下文处理能力、广泛的基础测试等主要技术创新，具体可参见

2024-11-06 09:41:00

AI出图更快、更懂你心意，高美感文生图模型修炼了哪些技术秘籍

...量图文数据做精细化筛选和过滤，最终入库了千亿量级的高质量图像。此外，团队还专门训练了一个多模态大语言模型进行 recapiton 任务。这个模型将更加全面、客观地描述图片中图

2024-08-13 09:39:00

开源文生图AI重磅选手上新：Stable Diffusion

...的精简版，在出色地遵循提示词上，仅需 4 个步骤内生成高质量图像，且生成速度明显快于 Large。 Stable Diffusion 3

2024-10-24 09:42:00

OpenAI又放大招，一文看懂Sora对AI领域的影响

...图像视频模型。此外，Sora在训练时还借助了DALL·E3生成的高质量文本描述，在推理时借助了GPT对用户输入进行扩展

2024-02-21 19:01:00

文生图参数量升至240亿！Playground v3发布：深

【新智元导读】Playground Research推出了新一代文本到图像模型PGv3，具备240亿参数量，采用深度融合的大型语言模型

2024-10-08 09:48:00

“旗舰版”文生图开源模型来袭，Stability AI发布S

...行访问。Stable Diffusion已经是目前全球使用最广泛的开源文生图模型。本次推出的Stable Diffusion XL 1

2023-07-28 11:14:00

更多关于科技的资讯：

“哭哭马”逆袭凸显年轻人情绪消费潜力

索乙“哭哭马”的逆袭不可复制，但年轻人情绪消费的潜力不可忽视。如果说，生产商火速将“次品”转化为爆款，形成强大的复制生产能力所展现的市场嗅觉与“变现”能力令人欣慰

2026-01-13 14:07:00

WOOK创始人许龙华：以“拙”胜“巧” 构建中国品牌出海的高

十五年前，若不是一次印度尼西亚之行，WOOK创始人许龙华或许不会注意到当地零售市场假货漫天遍地，3C零售市场两极分化的混乱状态

2026-01-13 14:37:00

泰岳天成荣获2025年度电力创新奖一等奖

日前，2025年度中国电力企业联合会电力创新奖拟授奖成果正式公示。神州泰岳旗下泰岳天成参与的《基于人工智能的输变电设备全域状态感知与辅助决策技术及应用》荣获一等奖

2026-01-13 14:37:00

四大趋势引领北京青年消费潮流

跨年夜，大学生小赵融入华熙LIVE的人潮，散场后选择公交+共享单车返程——既享节日氛围，又不盲目为虚荣买单。这正是2025年北京青年消费市场的生动缩影

2026-01-13 14:37:00

旭化成微电子发布小型、支持表面贴装的CO₂传感器S12 CO

旭化成微电子株式会社（总公司：东京都千代田区、法定代表人总经理：篠宫秀行）旗下子公司Senseair开发出新型CO₂传感器S12 CO₂

2026-01-13 14:37:00

个人医保云为便捷看病插上智慧翅膀

唐传艳国家医保局1月11日印发通知，开展“个人医保云”建设试点申报工作，今年2月至12月将在部分地区试点建设“个人医保云”

2026-01-13 14:37:00

深耕十余载，口碑筑信赖——解析筑梦求职的行业价值与用户认可

在全球化求职市场竞争日趋激烈的当下，专业求职咨询机构已成为求职者突破信息壁垒、提升竞争优势的重要助力。其中，筑梦求职（INTERNATIONAL IDEAL）凭借多年深耕积累的深厚底蕴

2026-01-13 14:41:00

全球智慧家庭发明专利榜单揭晓：海尔智家14连冠

在智慧家庭领域，专利是衡量企业科技实力的重要指标。专利不仅能直观反映研发投入与创新节奏，更能体现企业对核心技术的掌控力与前瞻性

2026-01-13 14:43:00

陈燕红律师：学术研究与法律实战的双向赋能

北京德和衡律师事务所副总裁、高级权益合伙人陈燕红律师，扎根于商事金融争议解决领域，所代理的案件累计争议标的跨越千亿元量级

2026-01-13 15:07:00

工行临沂商谷支行多维赋能提升客户满意度

鲁网1月13日讯今年以来，工行临沂商谷支行始终坚持以人民为中心的服务导向，坚持以客户需求为导向，通过优化服务流程、强化员工能力

2026-01-13 15:20:00

江苏省公布新一批公共数据“跑起来”场景实践案例南京江宁区A

我省公布新一批公共数据“跑起来”场景实践案例江宁区AI赋能精准招商应用场景入选南报网讯（通讯员宁数轩记者马道军）近日，省数据局确定7个场景纳入2025年第6批（总第6批）公共数据“跑起来”县（市

2026-01-13 15:20:00

法雷奥动力总成企业获批省级跨国公司地区总部

南报网讯（记者张希）近日，江苏省商务厅公布新一批跨国公司地区总部及功能性机构认定结果，位于江宁开发区的法雷奥凯佩科液力变矩器（南京）有限公司成功入选

2026-01-13 15:20:00

招商银行唐山分行聚焦三大主线以普惠金融赋能实体经济高质量发

河北新闻网讯（李娜）近日，招商银行唐山分行深入贯彻金融服务实体经济的政策要求，积极践行普惠金融理念，通过精准锚定供应链及场景金融

2026-01-13 15:46:00

北方首家“机器人6S店”落地济南，意味着什么？

人形机器人跳现代舞、舞彩带龙，机器狗舞狮子、做俯卧撑、翻跟头……11月28日，位于济南高新区汉峪金谷的预见未来机器人6S中心正式开业

2026-01-13 15:54:00

鸿蒙版“陕西医保”App全新升级

近日，鸿蒙版“陕西医保”App完成全面升级，正式以更智慧、更安全、更便捷的姿态服务全省参保群众。陕西医保App作为承载全省医保数字化转型核心使命的官方平台

2026-01-13 15:54:00

头条订阅服务

比Stable Diffusion便宜118倍！1890美元训出11.6亿参数高质量文生图模型