• 我的订阅
  • 科技

1890美元,就能从头训练一个还不错的12亿参数扩散模型

类别:科技 发布时间:2024-07-30 09:37:00 来源:机器之心Pro

1890美元,就能从头训练一个还不错的12亿参数扩散模型

只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。

现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A100 GPU 小时。即使研究者使用最先进的方法,也需要在 8×H100 GPU 上训练一个多月的时间。

此外,训练大模型也对数据集提出了挑战,这些数据基本以亿为单位,同样给训练模型带来挑战。

高昂的训练成本和对数据集的要求为大规模扩散模型的开发造成了难以逾越的障碍。

现在,来自 Sony AI 等机构的研究者仅仅花了 1890 美元,就训练了一个不错的扩散模型, 具有 11.6 亿参数的稀疏 transformer。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

论文地址:https://arxiv.org/pdf/2407.15811 论文标题:Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget 项目(即将发布):https://github.com/SonyResearch/micro_diffusion

具体而言,在这项工作中,作者通过开发一种低成本端到端的 pipeline 用于文本到图像扩散模型,使得训练成本比 SOTA 模型降低了一个数量级还多,同时还不需要访问数十亿张训练图像或专有数据集。

作者考虑了基于视觉 transformer 的潜在扩散模型进行文本到图像生成,主要原因是这种方式设计简单,并且应用广泛。为了降低计算成本,作者利用了 transformer 计算开销与输入序列大小(即每张图像的 patch 数量)的强依赖关系。

本文的主要目标是在训练过程中减少 transformer 处理每张图像的有效 patch 数。通过在 transformer 的输入层随机掩蔽(mask)掉部分 token,可以轻松实现这一目标。

然而,现有的掩蔽方法无法在不大幅降低性能的情况下将掩蔽率扩展到 50% 以上,特别是在高掩蔽率下,很大一部分输入 patch 完全不会被扩散 transformer 观察到。

为了减轻掩蔽造成的性能大幅下降,作者提出了一种延迟掩蔽(deferred masking)策略,其中所有 patch 都由轻量级 patch 混合器(patch-mixer)进行预处理,然后再传输到扩散 transformer。Patch 混合器包含扩散 transformer 中参数数量的一小部分。

与 naive 掩蔽方法相比,在 patch mixing 处理之后进行掩蔽允许未掩蔽的 patch 保留有关整个图像的语义信息,并能够在非常高的掩蔽率下可靠地训练扩散 transformer,同时与现有的最先进掩蔽相比不会产生额外的计算成本。

作者还证明了在相同的计算预算下,延迟掩蔽策略比缩小模型规模(即减小模型大小)实现了更好的性能。最后,作者结合 Transformer 架构的最新进展,例如逐层缩放、使用 MoE 的稀疏 Transformer,以提高大规模训练的性能。

作者提出的低成本训练 pipeline 减少了实验开销。除了使用真实图像,作者还考虑在训练数据集中组合其他合成图像。组合数据集仅包含 3700 万张图像,比大多数现有的大型模型所需的数据量少得多。

在这个组合数据集上,作者以 1890 美元的成本训练了一个 11.6 亿参数的稀疏 transformer,并在 COCO 数据集上的零样本生成中实现了 12.7 FID。

值得注意的是,本文训练的模型实现了具有竞争力的 FID 和高质量生成,同时成本仅为 stable diffusion 模型的 1/118 ,是目前最先进的方法(成本为 28,400 美元)的 1/15。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

方法介绍

为了大幅降低计算成本,patch 掩蔽要求在输入主干 transformer 之前丢弃大部分输入 patch,从而使 transformer 无法获得被掩蔽 patch 的信息。高掩蔽率(例如 75% 的掩蔽率)会显著降低 transformer 的整体性能。即使使用 MaskDiT,也只能观察到它比 naive 掩蔽有微弱的改善,因为这种方法也会在输入层本身丢弃大部分图像 patch。

延迟掩蔽,保留所有 patch 的语义信息

由于高掩蔽率会去除图像中大部分有价值的学习信号,作者不禁要问,是否有必要在输入层进行掩蔽?只要计算成本不变,这就只是一种设计选择,而不是根本限制。事实上,作者发现了一种明显更好的掩蔽策略,其成本与现有的 MaskDiT 方法几乎相同。由于 patch 来自扩散 Transformer 中的非重叠图像区域,每个 patch 嵌入都不会嵌入图像中其他 patch 的任何信息。因此,作者的目标是在掩蔽之前对 patch 嵌入进行预处理,使未被掩蔽的 patch 能够嵌入整个图像的信息。他们将预处理模块称为 patch-mixer。

使用 patch-mixer 训练扩散 transformer

作者认为,patch-mixer 是任何一种能够融合单个 patch 嵌入的神经架构。在 transformer 模型中,这一目标自然可以通过注意力层和前馈层的组合来实现。因此,作者使用一个仅由几个层组成的轻量级 transformer 作为 patch-mixer。输入序列 token 经 patch-mixer 处理后,他们将对其进行掩蔽(图 2e)。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

图 2:压缩 patch 序列以降低计算成本。由于扩散 transformer 的训练成本与序列大小(即 patch 数量)成正比,因此最好能在不降低性能的情况下缩减序列大小。这可以通过以下方法实现:b) 使用更大的 patch;c) 随机简单(naive)掩蔽一部分 patch;或者 d) 使用 MaskDiT,该方法结合了 naive 掩蔽和额外的自动编码目标。作者发现这三种方法都会导致图像生成性能显著下降,尤其是在高掩蔽率的情况下。为了缓解这一问题,他们提出了一种直接的延迟掩蔽策略,即在 patch-mixer 处理完 patch 后再对其进行掩蔽。除了使用 patch-mixer 之外,他们的方法在所有方面都类似于 naive 掩蔽。与 MaskDiT 相比,他们的方法无需优化任何替代目标,计算成本几乎相同。

假定掩码为二进制掩码 m,作者使用以下损失函数来训练模型:

1890美元,就能从头训练一个还不错的12亿参数扩散模型

其中,M_ϕ 是 patch-mixer 模型,F_θ 是主干 transformer。请注意,与 MaskDiT 相比,本文提出的方法还简化了整体设计,不需要额外的损失函数,也不需要在训练过程中在两个损失之间进行相应的超参数调优。在推理过程中,该方法不掩蔽任何 patch。

未掩蔽微调

由于极高的掩蔽率会大大降低扩散模型学习图像全局结构的能力,并在序列大小上引入训练 - 测试分布偏移,因此作者考虑在掩蔽预训练后进行少量的未掩蔽微调。微调还可以减轻由于使用 patch 掩蔽而产生的任何生成瑕疵。因此,在以前的工作中,恢复因掩蔽而急剧下降的性能至关重要,尤其是在采样中使用无分类器引导时。然而,作者认为这并不是完全必要的,因为即使在掩蔽预训练中,他们的方法也能达到与基线未掩蔽预训练相当的性能。作者只在大规模训练中使用这种方法,以减轻由于高度 patch 掩蔽而产生的任何未知 - 未知生成瑕疵。

利用 MoE 和 layer-wise scaling 改进主干 transformer 架构

作者还利用 transformer 架构设计方面的创新,在计算限制条件下提高了模型的性能。

他们使用混合专家层,因为它们在不显著增加训练成本的情况下增加了模型的参数和表现力。他们使用基于专家选择路由的简化 MoE 层,每个专家决定路由给它的 token,因为它不需要任何额外的辅助损失函数来平衡专家间的负载。他们还考虑了 layer-wise scaling,该方法最近被证明在大型语言模型中优于典型 transformer。该方法线性增加 transformer 块的宽度,即注意力层和前馈层的隐藏层维度。因此,网络中较深的层比较早的层被分配了更多的参数。作者认为,由于视觉模型中的较深层往往能学习到更复杂的特征,因此在较深层使用更高的参数会带来更好的性能。作者在图 3 中描述了他们提出的扩散 Transformer 的整体架构。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

图 3:本文提出的扩散 transformer 的整体架构。作者在骨干 transformer 模型中加入了一个轻量级的 patch-mixer,它可以在输入图像中的所有 patch 被掩蔽之前对其进行处理。根据当前的研究成果,作者使用注意力层处理 caption 嵌入,然后再将其用于调节。他们使用正弦嵌入来表示时间步长。他们的模型只对未掩蔽的 patch 进行去噪处理,因此只对这些 patch 计算扩散损失(论文中的公式 3)。他们对主干 transformer 进行了修改,在单个层上使用了 layer-wise scaling,并在交替 transformer 块中使用了混合专家层。

实验

实验采用扩散 Transformer(DiT)两个变体 DiT-Tiny/2 和 DiT-Xl/2。

如图 4 所示,延迟掩蔽方法在多个指标中都实现了更好的性能。此外,随着掩蔽率的增加,性能差距会扩大。例如,在 75% 的掩蔽率下,naive 掩蔽会将 FID 得分降低到 16.5(越低越好),而本文方法可以达到 5.03,更接近没有掩蔽的 FID 得分 3.79。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

表 1 表明 layer-wise scaling 方法在扩散 transformer 的掩蔽训练中具有更好的拟合效果。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

比较不同的掩蔽策略。作者首先将本文方法与使用较大 patch 的策略进行比较。将 patch 大小从 2 增加到 4,相当于 75% 的 patch 掩蔽。与延迟掩蔽相比,其他方法表现不佳,分别仅达到 9.38、6.31 和 26.70 FID、Clip-FID 和 Clip-score。相比之下,延迟掩蔽分别达到 7.09、4.10 和 28.24 FID、Clip-FID 和 Clip-score。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

下图为延迟掩蔽 vs. 模型缩小以减少训练成本的比较。在掩蔽率达到 75% 之前,作者发现延迟掩蔽在至少三个指标中的两个方面优于网络缩小。但是,在极高的掩蔽率下,延迟掩蔽往往会实现较低的性能。这可能是因为在这些比率下掩蔽的信息损失太高导致的。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

表 5 提供了有关模型训练超参数的详细信息。训练过程分两个阶段。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

计算成本。表 2 提供了每个训练阶段的计算成本明细,包括训练 FLOP 和经济成本。第 1 阶段和第 2 阶段训练分别消耗了总计算成本的 56% 和 44%。模型在 8×H100 GPU 集群上的总时钟训练时间为 2.6 天,相当于在 8×A100 GPU 集群上为 6.6 天。

1890美元,就能从头训练一个还不错的12亿参数扩散模型

了解更多结果,请参考原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-30 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

比Stable Diffusion便宜118倍!1890美元训出11.6亿参数高质量文生图模型
...推进了一大步:论文地址:https://arxiv.org/abs/2407.15811——从头开始训练一个11.6亿参数的扩散模型
2024-08-13 09:42:00
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
只要改一行代码,就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器Cautious Optimizers
2024-11-28 09:58:00
苹果开源7B模型,训练过程数据集一口气全给了,网友:很不像苹果
...次开源的意义,有热心网友也帮忙总结了:对于任何想要从头开始训练模型或微调现有模型的人来说,数据管理过程是必须研究的
2024-07-23 09:33:00
“言出必行”马斯克,全球最大开源模型Grok真的来了
...重和网络架构。xAI 表示,开源版大模型Grok-1是一个由 xAI 从头开始训练的 3140 亿个参数混合专家模型
2024-03-18 11:50:00
高能技巧!60 行 NumPy 代码 从头实现一个 GPT
...,一名工程师 Jay Mody 在一篇文章汇总将用 60 行 NumPy 代码从头实现一个 GPT。并把 GPT-2 模型权重加载到实现中
2023-02-15 11:00:00
16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型:3小时报错一次
...且需要高度同步,一次错误就可能导致整个训练工作必须从头再来。报告显示,为期45天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的,且
2024-07-29 11:30:00
国产模型指令跟随全球第一!来自LeCun亲推的最难作弊LLM新榜单
...基于已有模型通过upcycle(向上复用)开始训练,不然就从头开始训练。Upcycle方式所需算力相对更低、训练效率更高,但随随便便就到这种方式的天花板了。比如基于拷贝复制得
2024-11-22 09:54:00
阿里云通义千问开源!70亿参数模型上线魔搭社区
...模型可以帮助用户简化模型训练和部署的过程,用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型。据CNMO了解,Qwen-7B是支持中、英等多种语
2023-08-03 17:00:00
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer
...size 的 scaling。Scaling model 是通常改变模型结构,往往需要从头训练整个模型,带来了过多的资源消耗
2024-11-15 09:51:00
更多关于科技的资讯:
“云”上调度 雨中守护|雷沃数智化服务为抢收装上智慧大脑
秋收关键期遭遇连绵阴雨,让秋收秋种受阻。除了满足抢收抢烘抢播的智能农机,潍柴雷沃还创新数智化服务,通过智能调度与精准服务
2025-10-15 01:05:00
茶酒融合催生“微醺”新赛道,新茶饮品牌争饮“昼夜”经济
当白天的提神茶饮与夜晚的放松酒品打破边界,正催生出国内消费市场一股新的“微醺”风潮。近期,茶百道经典白酒奶茶回归即创下销量佳绩
2025-10-14 11:33:00
嘎子谢孟伟被执行超1400万,已被限高,此前因穿警服带货被行拘7日
近日,因穿警服直播带货被行政拘留、账号遭封禁的嘎子谢孟伟发视频称 “我回来了”,并向所有观众诚恳道歉。视频中,其透露公司员工已被安排回老家
2025-10-14 11:33:00
平谷将打造全国农业科创中心
原标题:世界农业科创大会开幕 农业中关村核心区2.0发布平谷将打造全国农业科创中心本报讯(记者 赵婷婷)昨天,2025世界农业科技创新大会(WAFI)在北京平谷开幕
2025-10-14 11:59:00
据大象新闻报道,近期蜜雪冰城的小票成了年轻人追捧的“追更凭证”,其上连载着名为《雪王在古代卖咖啡》的小说,20个章节随机印在消费小票上
2025-10-14 12:10:00
电通创意发布《2025首席营销官报告》:算法与人性的重构力量
AI时代,品牌的长期价值回归于人性与文化共鸣,人类的创造力、同理心与文化相关性愈加重要。•AI已成日常:几乎所有CMO都在使用AI
2025-10-14 13:29:00
近日,一则“美团外卖骑手能屏蔽顾客”的消息在网络上引发热议。据媒体报道,美团已在福建晋江、浙江绍兴等七个城市试点上线骑手评价用户和屏蔽用户功能
2025-10-14 13:40:00
这座产业园一年制造千万颗球胆、百万颗整球——沂南县“造球记”
齐鲁晚报·齐鲁壹点 记者 公绪成 李其峰 通讯员 陈婉塑炼、分切、热压......沂南县泽辉体育产业园内,工人们正紧忙制作新一批篮球内胆10月9日
2025-10-14 15:00:00
在数字经济奔涌向前的浪潮中,VR正加速与新一代信息技术融合,不断催生新的应用场景。紧抓发展机遇,江西移动聚焦VR产业发展的核心问题
2025-10-14 16:02:00
行业首个!海尔智家牵头制定《智能门锁安装和售后服务要求》
据洛图科技数据显示,2025年上半年,中国智能门锁市场全渠道销量达到897万套,同比增长6.8%。面对日益增长的智能安防需求
2025-10-14 16:14:00
蜜雪冰城卖啤酒,5.9元一杯冲上热搜!网友:期待雪王啤酒了
10月14日,蜜雪冰城啤酒5.9元一杯冲上微博热搜榜。10月1日,蜜雪集团在港交所发布的公告显示,蜜雪冰城以2.856亿元增资认购鲜啤福鹿家新增注册资本
2025-10-14 16:40:00
【宅男财经|专家面对面】据媒体报道,近日,有网友在社交媒体发帖称,美团外卖骑手能屏蔽顾客了。相关页面信息显示,目前已在晋江
2025-10-14 17:08:00
华为、OPPO等国内厂商也将陆续上市eSIM手机
日前,苹果宣布iPhoneAir国行版将于10月17日早9点预购,10月22日正式发售。随后,中国移动、中国联通、中国电信三大运营商相继宣布
2025-10-14 17:49:00
无人驾驶获《时代》2025最佳发明奖:萝卜快跑、谷歌、特斯拉“三大家”全球竞速
中国青年报客户端讯(中青报·中青网记者 王军利)近日,《时代》公布2025年最佳发明榜单,无人驾驶技术赫然在列。作为人工智能在物理世界的典型应用
2025-10-14 22:56:00
两个月融资近7亿元 零重力飞机工业A轮融资收官
大皖新闻讯 10月14日,总部位于合肥的零重力飞机工业(合肥)有限公司(以下简称“零重力飞机工业”)正式宣布完成A++++轮融资
2025-10-14 18:42:00