• 我的订阅
  • 科技

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

类别:科技 发布时间:2024-08-13 09:42:00 来源:新智元

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

【新智元导读】近日,来自加州大学尔湾分校等机构的研究人员,利用延迟掩蔽、MoE、分层扩展等策略,将扩散模型的训练成本降到了1890美元。

训练一个扩散模型要多少钱?

之前最便宜的方法(Wuerstchen)用了28400美元,而像Stable Diffusion这样的模型还要再贵一个数量级。

大模型时代,一般人根本玩不起。想要各种文生小姐姐,还得靠厂商们负重前行

为了降低这庞大的开销,研究者们尝试了各种方案。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

比如,原始的扩散模型从噪声到图像大约需要1000步,目前已经被减少到20步左右,甚至更少。

当扩散模型中的基础模块逐渐由Unet(CNN)替换为DiT(Transformer)之后,一些根据Transformer特性来做的优化也跟了上来。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

比如量化,比如跳过Attention中的一些冗余计算,比如pipeline。

而近日,来自加州大学尔湾分校等机构的研究人员,把「省钱」这个目标直接向前推进了一大步:

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

论文地址:https://arxiv.org/abs/2407.15811

——从头开始训练一个11.6亿参数的扩散模型,只需要1890美元!

对比SOTA有了一个数量级的提升,让普通人也看到了能摸一摸预训练的希望。

更重要的是,降低成本的技术并没有影响模型的性能,11.6亿个参数给出了下面这样非常不错的效果。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

除了观感,模型的数据指标也很优秀,比如下表给出的FID分数,非常接近Stable Diffusion 1.5和DALL·E 2。

相比之下,Wuerstchen的降成本方案则导致自己的考试分数不甚理想。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

省钱的秘诀

抱着「Stretching Each Dollar」的目标,研究人员从扩散模型的基础模块DiT入手。

首先,序列长度是Transformer计算成本的大敌,需要除掉。

对于图像来说,就需要在不影响性能的情况下,尽量减少参加计算的patch数量(同时也减少了内存开销)。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

减少图像切块数可以有两种方式,一是增大每块的尺寸,二是干掉一部分patch(mask)。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

因为前者会显著降低模型性能,所以我们考虑进行mask的方式。

最朴素的mask(Naive token masking)类似于卷积UNet中随机裁剪的训练,但允许对图像的非连续区域进行训练。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

而之前最先进的方法(MaskDiT),在输出之前增加了一个恢复重建的结构,通过额外的损失函数来训练,希望通过学习弥补丢掉的信息。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

这两种mask都为了降低计算成本,在一开始就丢弃了大部分patch,信息的损失显著降低了Transformer的整体性能,即使MaskDiT试图弥补,也只是获得了不太多的改进。

——丢掉信息不可取,那么怎样才能减小输入又不丢信息呢?

延迟掩蔽

本文提出了一种延迟掩蔽策略(deferred masking strategy),在mask之前使用混合器(patch-mixer)进行预处理,把被丢弃patch的信息嵌入到幸存的patch中,从而显著减少高mask带来的性能下降。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

在本架构中,patch-mixer是通过注意力层和前馈层的组合来实现的,使用二进制掩码进行mask,整个模型的损失函数为:

与MaskDiT相比,这里不需要额外的损失函数,整体设计和训练更加简单。

而混合器本身是个非常轻量的结构,符合省钱的标准。

微调

由于非常高的掩蔽比(masking ratio)会显著降低扩散模型学习图像中全局结构的能力,并引入训练到测试的分布偏移,所以作者在预训练(mask)后进行了小幅度的微调(unmask)。

另外,微调还可以减轻由于使用mask而产生的任何不良生成伪影。

MoE和分层扩展

MoE能够增加模型的参数和表达能力,而不会显著增加训练成本。

作者使用基于专家选择路由的简化MoE层,每个专家确定路由到它的token,而不需要任何额外的辅助损失函数来平衡专家之间的负载。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

此外,作者还考虑了分层缩放方法,线性增加Transformer块的宽度(即注意力层和前馈层中的隐藏层尺寸)。

由于视觉模型中的更深层倾向于学习更复杂的特征,因此在更深层中使用更多的参数将带来更好的性能。

实验设置

作者使用两种DiT的变体:DiT-Tiny/2和DiT-Xl/2,patch大小为2。

使用具有余弦学习率衰减和高权重衰减的AdamW优化器训练所有模型。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

模型前端使用Stable-Diffusion-XL模型中的四通道变分自动编码器(VAE)来提取图像特征,另外还测试了最新的16通道VAE在大规模训练(省钱版)中的性能。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

作者使用EDM框架作为所有扩散模型的统一训练设置,使用FID以及CLIP分数来衡量图像生成模型的性能。

文本编码器选择了最常用的CLIP模型,尽管T5-xxl这种较大的模型在文本合成等具有挑战性的任务上表现更好,但为了省钱的目标,这里没有采用。

训练数据集

使用三个真实图像数据集(Conceptual Captions、Segment Anything、TextCaps),包含2200万个图像文本对。

由于SA1B不提供真实的字幕,这里使用LLaVA模型生成的合成字幕。作者还在大规模训练中添加了两个包含1500万个图像文本对的合成图像数据集:JourneyDB和DiffusionDB。

对于小规模消融,研究人员通过从较大的COYO-700M数据集中对10个CIFAR-10类的图像进行二次采样,构建了一个名为cifar-captions的文本到图像数据集。

评估

使用DiT-Tiny/2模型和cifar-captions数据集(256×256分辨率)进行所有评估实验。

对每个模型进行60K优化步骤的训练,并使用AdamW优化器和指数移动平均值(最后10K步平滑系数为0.995)。

延迟掩蔽

实验的基线选择我们上面提到的Naive masking,而本文的延迟掩蔽则加入一个轻量的patch-mixer,参数量小于主干网络的10%。

一般来说,丢掉的patch越多(高masking ratio),模型的性能会越差,比如MaskDiT在超过50%后表现大幅下降。

这里的对比实验采用默认的超参数(学习率1.6×10e-4、0.01的权重衰减和余弦学习率)来训练两个模型。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

上图的结果显示了延迟屏蔽方法在FID、Clip-FID和Clip score三个指标上都获得了提升。

并且,与基线的性能差距随着掩蔽率的增加而扩大。在掩蔽率为75%的情况下,朴素掩蔽会将FID分数降低至 16.5,而本文的方法则达到5.03,更接近于无掩蔽时的FID分数(3.79)。

超参数

沿着训练LLM的一般思路,这里比较两个任务的超参数选择。

首先,在前馈层中,SwiGLU激活函数优于GELU。其次,较高的权重衰减会带来更好的图像生成性能。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

另外,与LLM训练不同的是,当对AdamW二阶矩 (β) 使用更高的运行平均系数时,本文的扩散模型可以达到更好的性能。

最后,作者发现使用少量的训练步骤,而将学习率增加到最大可能值(直到训练不稳定)也显著提高了图像生成性能。

混合器的设计

大力出奇迹一般都是对的,作者也观察到使用更大的patch-mixer后,模型性能得到持续改善。

然而,本着省钱的目的,这里还是选择使用小型的混合器。

作者将噪声分布修改为 (−0.6, 1.2),这改善了字幕和生成图像之间的对齐。

如下图所示,在75% masking ratio下,作者还研究了采用不同patch大小所带来的影响。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

当连续区域变多(patch变大)时,模型的性能会下降,因此保留随机屏蔽每个patch的原始策略。

分层缩放

这个实验训练了DiT-Tiny架构的两种变体,一种具有恒定宽度,另一种采用分层缩放的结构。

两种方法都使用Naive masking,并调整Transformer的尺寸,保证两种情况下的模型算力相同,同时执行相同的训练步骤和训练时间。

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型

由上表结果可知发现,在所有三个性能指标上,分层缩放方法都优于基线的恒定宽度方法,这表明分层缩放方法更适合DiT的掩蔽训练。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-13 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

开源社区参数量最大的文生视频模型来了,腾讯版Sora免费使用
...开源模型包含轻量版和标准版,轻量版仅需 10s 即可生成高质量 3D 资产。该模型在今年年初已在腾讯内部上线发布并应用于实际业务中
2024-12-04 09:48:00
Sora这就落伍了?Meta“最强视频模型”不用DiT,用Llama大力出奇迹了
...频生成: Movie Gen 不仅可以根据视频内容和文本指令生成高质量的各类音效和音乐,而且还可以做到与视频内容更高度的匹配与同步。这些音频最长可达 45 秒,而且Meta还
2024-10-08 09:51:00
超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像
...小满等机构提出通用文生图模型STAR。仅需2.9秒就可生成高质量图像,超越当前一众包括SDXL在内扩散模型的性能。此外在生成图像真实度、图文一致性和人类偏好上均表现优秀。来看
2024-06-27 09:17:00
腾讯开源最大MoE大语言模型!3D大模型同时支持文/图生成,晒混元模型及应用全家桶
...、数学等9大维度,混元Large实现全面领先。混元Large包含高质量合成数据、专家特定的学习率缩放、KV缓存压缩、长上下文处理能力、广泛的基础测试等主要技术创新,具体可参见
2024-11-06 09:41:00
AI出图更快、更懂你心意,高美感文生图模型修炼了哪些技术秘籍?
...量图文数据做精细化筛选和过滤,最终入库了千亿量级的高质量图像。此外,团队还专门训练了一个多模态大语言模型进行 recapiton 任务。这个模型将更加全面、客观地描述图片中图
2024-08-13 09:39:00
开源文生图AI重磅选手上新:Stable Diffusion 3.5最强全家桶登场
...的精简版,在出色地遵循提示词上,仅需 4 个步骤内生成高质量图像,且生成速度明显快于 Large。 Stable Diffusion 3
2024-10-24 09:42:00
OpenAI又放大招,一文看懂Sora对AI领域的影响
...图像视频模型。此外,Sora在训练时还借助了DALL·E3生成的高质量文本描述,在推理时借助了GPT对用户输入进行扩展
2024-02-21 19:01:00
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型
2024-10-08 09:48:00
“旗舰版”文生图开源模型来袭,Stability AI发布SDXL 1.0 | 最前线
...行访问。Stable Diffusion已经是目前全球使用最广泛的开源文生图模型。本次推出的Stable Diffusion XL 1
2023-07-28 11:14:00
更多关于科技的资讯:
民营经济发展一线观察·吉民优品|辽源市德弘冰雪运动科技有限公司: 100余道工序铸就专业滑雪靴
走进辽源市德弘冰雪运动科技有限公司生产车间,蓝色的唐老鸭系列滑雪靴正沿着生产线逐步成型。一块块裁片经精准缝合拼接,再通过套楦
2025-11-04 11:38:00
十五运会自动驾驶场景应用启动 滴滴自动驾驶助力智慧出行
11月3日,十五运会和残特奥会自动驾驶场景应用启动仪式在广州天河体育中心举行。启动仪式上,滴滴自动驾驶被授予“自动驾驶服务商”标牌
2025-11-04 13:34:00
从「身份可信度挑战」到「数据篡改威胁」,如何重塑第三方支付安全防线?
网络支付已成为现代生活的「数字基础设施」,其便捷性重构了消费生态,但伴随而来的安全考验已演变为潜在风险——从身份认证的「可信度挑战」到业务合规的「穿透式监管压力」
2025-11-04 13:46:00
近日,安徽安庆怀宁县烟草专卖局锚定营销服务痛点,统筹部署岁末年初卷烟营销工作,切实推动营销工作效能提质升级。打破思维定式
2025-11-04 13:46:00
效果好的辅酶q10排名 五大优质品牌深度测评
“效果好的辅酶q10排名”是众多关注心脏健康、免疫力提升、抗氧化及备孕人群的核心搜索诉求。本文深度调研辅酶Q10行业现状
2025-11-04 13:47:00
主流人形机器人大PK,户外工业场景首选云深处DR02
引言当前,国内人形机器人产业在政策与技术双轮驱动下迎来爆发。据2024世界人工智能大会《人形机器人产业研究报告》,2024 年中国市场规模达 27
2025-11-04 13:47:00
“618”购物节如期而至,这场属于夏日的消费热潮正式拉开帷幕。随着新消费模式的涌现和消费主力的迭代,信用交易成为了当下热络的消费选择
2025-11-04 13:47:00
普惠金融旨在为传统金融服务难以覆盖的个人和企业提供平等、便捷、可持续的金融服务。日前,国务院办公厅印发《关于做好金融“五篇大文章”的指导意见》
2025-11-04 13:48:00
技术、政策、合规交织下的探索   “萝卜快跑”面临三重挑战
2025年7月世界人工智能大会后,上海浦东金桥街头的“萝卜快跑”自动驾驶车辆引发关注:车身同时标注了“无人驾驶测试”、“萝卜快跑”和“大众出行”标识
2025-11-04 14:01:00
再见,信号死角!移远 5G 透明吸顶天线让室内连接 \
在写字楼的紧张会议中,视频通话突然卡顿;在高端商场悠闲购物时,手机信号时断时续;在高铁站闸机前,却怎么也刷不出乘车码……这些因室内通信质量不佳带来的困扰
2025-11-04 14:15:00
小红书「马路生活节」爆火出圈:一场让品牌回归人群的City Walk狂欢
当你还在疑惑年轻人周末去哪玩时,小红书上的答案早已指向同一个方向——「马路」。从上海到杭州、广州,从捡落叶写诗到水上甜品席
2025-11-04 14:45:00
婴儿益生菌什么品牌好用又便宜 2025年高性价比品牌排行榜
婴儿益生菌什么品牌好用又便宜?随着家长对宝宝肠道健康的重视,婴幼儿益生菌市场需求激增,但行业乱象也随之浮现:部分产品虚标菌种数量
2025-11-04 15:03:00
在AI技术深度渗透商业决策的2025年,企业对于AI优化服务的需求已从“工具应用”升级为“战略赋能”。据中国信通院最新报告
2025-11-04 15:05:00
植物蛋白粉测评与推荐 植物蛋白粉品牌排名榜单揭晓
在健康消费持续升级的当下,植物蛋白粉作为日常营养补充的重要载体,正从“健身专属”走向“全民刚需”。然而,面对市场上琳琅满目的产品
2025-11-04 15:11:00
知名潮牌将关闭中国门店 合肥门店:也有消息,时间不确定
大皖新闻讯 盛开的小雏菊和腊肠犬,是韩国潮流服饰品牌Mardi Mercredi最具辨识度的设计符号,也曾成为时尚的标配
2025-11-04 15:17:00