我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

LLM训练通信量减少10000倍！全新分布式优化器，整合世间算力训练强大AI

类别：科技发布时间：2024-09-10 13:39:00 来源：新智元

【新智元导读】近日，Nous Research宣布了一项重大突破，通过使用与架构和网络无关的分布式优化器，研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍！

如果可以使用世界上所有的算力来训练AI模型，会怎么样？

近日，凭借发布了开源的Hermes 3（基于Llama 3.1）而引起广泛关注的Nous Research，再次宣布了一项重大突破——DisTrO（分布式互联网训练）。

通过使用与架构和网络无关的分布式优化器，研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍！

初步技术报告：https://github.com/NousResearch/DisTrO/

在如此夸张的改进之下，大模型训练的重要成本和瓶颈——带宽，也就不再是问题。

使用DisTrO的方法，你可以将训练负载分布到互联网上，而整个网络世界也就成为了一个巨大的异构的AI服务器集群。

——任何有相关算力的设备都可以参与到训练过程之中。

实验证明，本文的方法基本不会导致模型性能下降，同时DisTrO-AdamW在收敛速度方面，也与标准的AdamW+All-Reduce相当。

分布式互联网训练

一般来说，训练大规模神经网络涉及到大量的通信开销。

比如做数据并行的时候，不同的训练数据在不同的硬件（显卡等）上进行前向和反向计算，之后，同一批数据计算出的梯度需要在显卡之间先完成同步，才能进入下一个epoch。

如果是模型并行，那么中间数据就需要通过All-Reduce进行拼接或者累加。

这些数据通信开销如果不能overlap掉，就会成为模型训练的瓶颈。

而恰好，老黄的显存和带宽又很贵，甚至组多卡时候需要的硬件也很贵。

为了解决这个问题，研究人员开发了DisTrO，在不依赖摊销分析的情况下，将GPU间通信要求降低了四到五个数量级，从而能够在慢速网络上对大型神经网络进行低延迟训练。

DisTrO是通用、可扩展，并且时钟同步的（与SGD、Adam等类似，每个训练步骤使用相同的算术运算并花费相同的时间）。

另外，与之前的ad-hoc低通信优化器相比，DisTrO对电信网络的拓扑和神经网络架构不敏感，能够以最小的开销原生支持分布式数据并行训练（DDP）。

LLM预训练

研究人员使用Nanotron作为预训练框架，且仅在DDP策略下运行（每个GPU都将整个模型加载到VRAM中）。

LLM选择1.2B大小的Llama 2，模型和训练所用的超参数如下：

训练数据使用Dolma v1.7数据集，随机选出的10%代表性样本（前 105B个token）。

优化器采用AdamW，β1=0.9、β2=0.95，峰值学习率为4×10e-4，使用余弦衰减方案，权重衰减设置为0.1。

作为对比的另一组实验，将AdamW替换为DisTrO-AdamW，但不更改超参数，并禁用Nanotron中的All-Reduce操作。

与以前的分布式训练方法不同，DisTrO不同步优化器状态（甚至可以无状态）。

下图是两组实验的训练损失曲线，使用105B数据训练25000步。可以看出，DisTrO的收敛能力与All-Reduce持平。

重要的是，在不影响训练效果的情况下，DisTrO将通信量从74.4GB直接减到了86.8MB！相当于带宽压力减少了857倍。

作者还表示，这857倍只是初期测试，后面调调超参数，减少个1000倍到3000倍也不是问题。

如果是后训练和微调，甚至可以实现高达10000倍的通信优化，且基本不影响训练效果。

最后，为了验证训练效果，作者在训练后的模型上执行了GPT4All零样本基准测试，并与在相同数量的token上训练的TinyLlama（checkpoint）进行了比较。

结果如上表所示，TinyLlama的架构和训练过程与本文的实验非常相似，可以作为对结果进行健全性检查的衡量标准。

未来应用

数据流

在本实验的场景中，32个节点使用最简单的All-Reduce（全连接），每个节点平均传输86.8MB（2.8MB×31），并接收相同数量的数据。

如果使用专用服务器进行数据聚合，则每个节点只需上传2.8MB数据（接收数据不变），通信量进一步减少。

另外，不对称性是有优点的，因为大多数消费互联网的带宽严重偏向于更高的下载速度。

假设稳定的网速为100Mbps下载和10Mbps上传，则最坏情况下的延迟仅为下载6.94秒，上传2.24秒，overlap一下则每步延迟为6.94秒。

ps：以上的数据传输都是原始的向量，如果用上压缩技术还能更快。

带宽

作者表示，目前的实验和研究还比较有限，无法断定随着模型变大，带宽减少的比率是会增加、减少还是保持不变。

不过目前的1.2B似乎是DisTrO能够良好工作的最小尺寸（再小就不收敛了），所以可以假设随着模型大小的增长，需要的通信会相对越来越少。

不过也可能通信量与模型大小没有关系，这时可以在不增加通信带宽的情况下增加模型大小，观察更大的模型是否会改善训练和学习的效果。

如果后一种情况属实，那么未来GPU设计和制造的范式将会被改变（更大VRAM和更窄带宽）。

恰好我们也更喜欢计算密集型负载（而不是I/O密集型），毕竟现在的带宽要比计算贵得多。

联邦学习

除了训练LLM，DisTrO还能用来做什么？

在互联网上做分布式训练，让人一下就想到了联邦学习。

在允许模型协作训练的同时，保持每个参与者的数据的私密性和去中心化，这在LLM被大公司掌握的当下，显得越来越重要。

到目前为止，联邦学习一直缺乏在有限的互联网带宽上训练大型模型的有效方法。

而DisTrO对如何处理数据，或将数据分配给各个GPU节点没有任何要求，并且可以无状态（类似于联邦平均），因此适用于联邦学习的未来。

虚拟异构GPU集群

此外，DisTrO可以创建一个完全去中心化且无需许可的网络来协作和共享资源。

实验表明，DisTrO对于训练期间少量降级或丢弃的节点具有显著的弹性，并且可以轻松地适应新节点的加入。

在这种能力加持之下，一方面可以保障整个系统的安全性，降低不可信节点使用对抗性攻击破坏运行的风险。

另一方面，也可以鼓励机构和个人灵活贡献自己的计算资源，释放潜在的算力。

甚至一些内存或者算力不太够的老卡，也能加入进来赚点外快，采用FSDP、SWARM Parallelism等策略与DisTrO协同工作。

能源

DisTrO的进一步大规模应用，可能会缓解建设大型数据中心所带来的能源消耗、基础设施成本和土地使用等相关问题。

Llama 3.1项目需要构建两个大型整体超级集群，每个集群包含 24,000个H100 GPU，仅训练过程就产生了相当于11,000吨的二氧化碳排放。

当今的LLM，除了模型参数大小的增长，训练数据量也在不断增大，导致AI相关的数据中心已经摸到了现代电网的极限。

DisTrO可用于自适应平衡多个使用过剩容量的小型模块化数据中心，通过动态平衡训练技术利用现有基础设施，减轻训练对环境的负面影响。

目前，DisTrO背后的理论还需要进一步探究，更严谨、更详细的学术论文以及完整的代码将在未来发布。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-09-10 14:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于训练,分布式,世间,整合,全新,通信的资讯：

大模型新趋势之MoE：现状、挑战及研究方向

...器翻译性能。2020年，谷歌Gshard首次将MoE引入Transformer构建分布式并行计算架构，打开MoE发展新思路

2024-11-04 16:00:00

新一代aigc技术的发展

...PFC相关的死锁问题，确保了网络的无缝和不间断的运行。分布式操作系统提高可靠性在DDC架构中，管理功能在网络控制卡（NCC）的控制下进行集中管理。然而，这种集中控制存在单点故

2024-02-16 12:06:00

美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源

...究挑战。当今最大的 AI 实验室也还没有彻底解决在多个分布式数据中心上的容错训练。该团队表示，Prime 这种全新的去中心化训练框架支持容错训练，支持计算资源的动态开启/关闭

2024-12-03 13:34:00

腾讯Angel获世界互联网大会领先科技奖：让通信成本降低70

...评选委员会点评腾讯Angel机器学习平台：突破万亿级模型分布式训练和推理以及大规模应用部署等难题。据了解，突破主要在通信、效率、规模三方面实现。通信：从网卡到交换机，再到路由

2024-11-21 09:55:00

国内首次！百度智能云点亮昆仑芯三代万卡集群

...方案，从而解决万卡集群的能效与散热问题；完善模型的分布式训练优化，采用高效并行化任务切分策略，训练主流开源模型的集群MFU提升至58%；在提升稳定性方面，提供容错与稳定性机制

2025-02-05 11:06:00

潞晨科技创始人尤洋：大模型训练的关键技术｜WISE2023颠

...所需的大量计算资源和储存空间需求。为解决上述问题，分布式训练技术是可用方案之一。关于分布式优化技术在企业级大型模型的训练和部署中的应用，尤洋提出了三个关键点：高质量的数据集、

2023-05-28 18:37:00

用60%成本干80%的事，DeepSeek分享沉淀多年的高性

...HaiScale：针对深度学习模型训练进行特别的优化 HaiScale 分布式数据并行（DDP）是一种以 HFReduce 为通信后端的训练工具

2024-09-07 09:44:00

革新实践丨零极分布式AI算力调度平台，实现智能算力普惠输出！

...为服务购买方提供更加丰富的业务支撑与算力服务。零极分布式AI算力调度：算力的革新实践零极分布式AI算力调度平台基于零极分布式可信云底层架构，零极分布式可信云是从底层架构进行自

2025-01-08 18:01:00

行业丨抢滩下一个高地，分布式云计算迎来黄金发展期！

随着技术的发展和市场的不断变化，分布式云计算正逐渐成为云计算领域的重要趋势。2024年，分布式云计算将继续保持强劲的发展势头，为企业和个人提供更加高效、灵活、安全的服务。同时，分

2024-03-01 10:57:00

更多关于科技的资讯：

阿里发布千问3.5，性能媲美Gemini 3， Token价

2月16日除夕当天，阿里巴巴开源全新一代大模型千问Qwen3.5-Plus，性能媲美Gemini 3 Pro，登顶全球最强开源模型

2026-02-16 17:34:00

海信冰箱联手央视《探班春晚》用真空保鲜科技“锁住年味”

鲁网2月16日讯2月16日，作为央视新闻新媒体《探班春晚》的独家家电合作伙伴，海信冰箱携真空保鲜科技亮相“春晚会客厅”

2026-02-16 18:47:00

余杭文化“新三样”扬帆驶向全球文化蓝海

《长安三万里·梦回大唐》获金鸡虚拟现实电影季“年度最佳艺术表现奖”。后亚运时代，杭州如何将因赛会集聚的国际目光，转化为持续的城市发展动能

2026-02-16 11:33:00

北京亦庄与它石智航达成战略合作！共建产业新高地

2026年伊始，具身智能产业持续加速发展。2月14日，北京亦庄与它石智航达成战略合作，双方将在具身智能关键技术攻关、应用落地和产业生态建设方面展开合作

2026-02-16 08:21:00

【网络中国节·春节】解锁数字文旅新体验厦门科技企业“电子年

厦门网讯（厦门日报记者林露虹）马年春节假期，厦门科技企业的“电子年货”火热上线。在厦门过年，市民和游客可以请AI当导游

2026-02-16 08:40:00

AI购物是大模型走向千家万户的“第一块试验田”

自2025年夏季，京东、美团、阿里等数字平台企业相继开启围绕即时零售市场的激烈争夺。这场“闪购大战”，初期以各方投入“天价补贴”争抢流量而引发社会广泛关注

2026-02-16 08:53:00

一键撰联赋吉年 “马踏新程”春节系列评论（二）

马年新春，光景别样。打开手机AI小程序，输入姓名、爱好与新年心愿，一键可生成专属春联。AI深度融入日常生活，无所不在。拥抱AI

2026-02-16 07:39:00

青岛市南：智聚成势着力打造“一人成军”OPC生态社区群落

鲁网2月15日讯在人工智能加速重构产业组织形态的背景下，“一人即公司”（OPC）正成为全球创新创业的新范式。2026年2月12日

2026-02-15 20:48:00

2026年春节自驾安全指南：平安回家路，这些要点必看！扫码

2026-02-15 22:14:00

石家庄市栾城区妇联举办美妆技能培训

河北新闻网讯（王秀平、李明发）近日，石家庄市栾城区妇联联合妆颜美化妆培训学校，精心举办了一场干货满满的美妆技能培训活动

2026-02-15 19:16:00

英科医疗开年首展登录迪拜WHX展会，“中国智造”医疗解决方案

2月9日至12日，全球领先的医疗护理产品供应商英科医疗携三大事业部创新成果亮相阿拉伯国际医疗器械展览会（World Health Expo Dubai）

2026-02-15 13:50:00

龙岗文旅数字IP城市巡礼破圈传播，迎春花市成内容热点

市民围观、拍照打卡，数字人引爆春节花市春节前夕，龙岗迎春花市迎来一场特别的巡礼：数字IP首次在花市与市民面对面互动。现场

2026-02-15 13:52:00

关键时刻显担当！大众汽车致信感谢中亦科技

近日，中亦科技收到了一封来自大众汽车的感谢信。信中对中亦科技服务团队在应对大规模生产系统突发故障时的卓越表现，以及长期以来展现出的专业素养和“以客户为中心”的担当精神给予了高度评价

2026-02-15 10:23:00

杭产数字人“席卷”东南亚

“这款粉底色号非常自然，贴合亚洲人肤色。” 马来西亚TikTok直播间，一位妆容精致的主播正微笑着与观众互动，当用户追问具体颜色

2026-02-15 07:41:00

《视野》杂志启动AI协作创作大赛

中国青年报客户端讯（中青报·中青网记者马富春）2月13日，《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开

2026-02-14 20:52:00

头条订阅服务

LLM训练通信量减少10000倍！全新分布式优化器，整合世间算力训练强大AI