• 我的订阅
  • 科技

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

类别:科技 发布时间:2024-09-10 13:39:00 来源:新智元
LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

【新智元导读】近日,Nous Research宣布了一项重大突破,通过使用与架构和网络无关的分布式优化器,研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍!

如果可以使用世界上所有的算力来训练AI模型,会怎么样?

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

近日,凭借发布了开源的Hermes 3(基于Llama 3.1)而引起广泛关注的Nous Research,再次宣布了一项重大突破——DisTrO(分布式互联网训练)。

通过使用与架构和网络无关的分布式优化器,研究人员成功将训练LLM时GPU间的通信量降低了1000到10000倍!

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

初步技术报告:https://github.com/NousResearch/DisTrO/

在如此夸张的改进之下,大模型训练的重要成本和瓶颈——带宽,也就不再是问题。

使用DisTrO的方法,你可以将训练负载分布到互联网上,而整个网络世界也就成为了一个巨大的异构的AI服务器集群。

——任何有相关算力的设备都可以参与到训练过程之中。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

实验证明,本文的方法基本不会导致模型性能下降,同时DisTrO-AdamW在收敛速度方面,也与标准的AdamW+All-Reduce相当。

分布式互联网训练

一般来说,训练大规模神经网络涉及到大量的通信开销。

比如做数据并行的时候,不同的训练数据在不同的硬件(显卡等)上进行前向和反向计算,之后,同一批数据计算出的梯度需要在显卡之间先完成同步,才能进入下一个epoch。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

如果是模型并行,那么中间数据就需要通过All-Reduce进行拼接或者累加。

这些数据通信开销如果不能overlap掉,就会成为模型训练的瓶颈。

而恰好,老黄的显存和带宽又很贵,甚至组多卡时候需要的硬件也很贵。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

为了解决这个问题,研究人员开发了DisTrO,在不依赖摊销分析的情况下,将GPU间通信要求降低了四到五个数量级,从而能够在慢速网络上对大型神经网络进行低延迟训练。

DisTrO是通用、可扩展,并且时钟同步的(与SGD、Adam等类似,每个训练步骤使用相同的算术运算并花费相同的时间)。

另外,与之前的ad-hoc低通信优化器相比,DisTrO对电信网络的拓扑和神经网络架构不敏感,能够以最小的开销原生支持分布式数据并行训练(DDP)。

LLM预训练

研究人员使用Nanotron作为预训练框架,且仅在DDP策略下运行(每个GPU都将整个模型加载到VRAM中)。

LLM选择1.2B大小的Llama 2,模型和训练所用的超参数如下:

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

训练数据使用Dolma v1.7数据集,随机选出的10%代表性样本(前 105B个token)。

优化器采用AdamW,β1=0.9、β2=0.95,峰值学习率为4×10e-4,使用余弦衰减方案,权重衰减设置为0.1。

作为对比的另一组实验,将AdamW替换为DisTrO-AdamW,但不更改超参数,并禁用Nanotron中的All-Reduce操作。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

与以前的分布式训练方法不同,DisTrO不同步优化器状态(甚至可以无状态)。

下图是两组实验的训练损失曲线,使用105B数据训练25000步。可以看出,DisTrO的收敛能力与All-Reduce持平。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

重要的是,在不影响训练效果的情况下,DisTrO将通信量从74.4GB直接减到了86.8MB!相当于带宽压力减少了857倍。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

作者还表示,这857倍只是初期测试,后面调调超参数,减少个1000倍到3000倍也不是问题。

如果是后训练和微调,甚至可以实现高达10000倍的通信优化,且基本不影响训练效果。

最后,为了验证训练效果,作者在训练后的模型上执行了GPT4All零样本基准测试,并与在相同数量的token上训练的TinyLlama(checkpoint)进行了比较。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

结果如上表所示,TinyLlama的架构和训练过程与本文的实验非常相似,可以作为对结果进行健全性检查的衡量标准。

未来应用

数据流

在本实验的场景中,32个节点使用最简单的All-Reduce(全连接),每个节点平均传输86.8MB(2.8MB×31),并接收相同数量的数据。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

如果使用专用服务器进行数据聚合,则每个节点只需上传2.8MB数据(接收数据不变),通信量进一步减少。

另外,不对称性是有优点的,因为大多数消费互联网的带宽严重偏向于更高的下载速度。

假设稳定的网速为100Mbps下载和10Mbps上传,则最坏情况下的延迟仅为下载6.94秒,上传2.24秒,overlap一下则每步延迟为6.94秒。

ps:以上的数据传输都是原始的向量,如果用上压缩技术还能更快。

带宽

作者表示,目前的实验和研究还比较有限,无法断定随着模型变大,带宽减少的比率是会增加、减少还是保持不变。

不过目前的1.2B似乎是DisTrO能够良好工作的最小尺寸(再小就不收敛了),所以可以假设随着模型大小的增长,需要的通信会相对越来越少。

不过也可能通信量与模型大小没有关系,这时可以在不增加通信带宽的情况下增加模型大小,观察更大的模型是否会改善训练和学习的效果。

如果后一种情况属实,那么未来GPU设计和制造的范式将会被改变(更大VRAM和更窄带宽)。

恰好我们也更喜欢计算密集型负载(而不是I/O密集型),毕竟现在的带宽要比计算贵得多。

联邦学习

除了训练LLM,DisTrO还能用来做什么?

在互联网上做分布式训练,让人一下就想到了联邦学习。

在允许模型协作训练的同时,保持每个参与者的数据的私密性和去中心化,这在LLM被大公司掌握的当下,显得越来越重要。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

到目前为止,联邦学习一直缺乏在有限的互联网带宽上训练大型模型的有效方法。

而DisTrO对如何处理数据,或将数据分配给各个GPU节点没有任何要求,并且可以无状态(类似于联邦平均),因此适用于联邦学习的未来。

虚拟异构GPU集群

此外,DisTrO可以创建一个完全去中心化且无需许可的网络来协作和共享资源。

实验表明,DisTrO对于训练期间少量降级或丢弃的节点具有显著的弹性,并且可以轻松地适应新节点的加入。

在这种能力加持之下,一方面可以保障整个系统的安全性,降低不可信节点使用对抗性攻击破坏运行的风险。

另一方面,也可以鼓励机构和个人灵活贡献自己的计算资源,释放潜在的算力。

甚至一些内存或者算力不太够的老卡,也能加入进来赚点外快,采用FSDP、SWARM Parallelism等策略与DisTrO协同工作。

能源

DisTrO的进一步大规模应用,可能会缓解建设大型数据中心所带来的能源消耗、基础设施成本和土地使用等相关问题。

Llama 3.1项目需要构建两个大型整体超级集群,每个集群包含 24,000个H100 GPU,仅训练过程就产生了相当于11,000吨的二氧化碳排放。

LLM训练通信量减少10000倍!全新分布式优化器,整合世间算力训练强大AI

当今的LLM,除了模型参数大小的增长,训练数据量也在不断增大,导致AI相关的数据中心已经摸到了现代电网的极限。

DisTrO可用于自适应平衡多个使用过剩容量的小型模块化数据中心,通过动态平衡训练技术利用现有基础设施,减轻训练对环境的负面影响。

目前,DisTrO背后的理论还需要进一步探究,更严谨、更详细的学术论文以及完整的代码将在未来发布。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-10 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型新趋势之MoE:现状、挑战及研究方向
...器翻译性能。2020年,谷歌Gshard首次将MoE引入Transformer构建分布式并行计算架构,打开MoE发展新思路
2024-11-04 16:00:00
新一代aigc技术的发展
...PFC相关的死锁问题,确保了网络的无缝和不间断的运行。分布式操作系统提高可靠性在DDC架构中,管理功能在网络控制卡(NCC)的控制下进行集中管理。然而,这种集中控制存在单点故
2024-02-16 12:06:00
美欧亚三洲开发者联手,全球首个组团训练的大模型,全流程开源
...究挑战。当今最大的 AI 实验室也还没有彻底解决在多个分布式数据中心上的容错训练。该团队表示,Prime 这种全新的去中心化训练框架支持容错训练,支持计算资源的动态开启/关闭
2024-12-03 13:34:00
腾讯Angel获世界互联网大会领先科技奖:让通信成本降低70%
...评选委员会点评腾讯Angel机器学习平台:突破万亿级模型分布式训练和推理以及大规模应用部署等难题。据了解,突破主要在通信、效率、规模三方面实现。通信:从网卡到交换机,再到路由
2024-11-21 09:55:00
...方案,从而解决万卡集群的能效与散热问题;完善模型的分布式训练优化,采用高效并行化任务切分策略,训练主流开源模型的集群MFU提升至58%;在提升稳定性方面,提供容错与稳定性机制
2025-02-05 11:06:00
...所需的大量计算资源和储存空间需求。为解决上述问题,分布式训练技术是可用方案之一。关于分布式优化技术在企业级大型模型的训练和部署中的应用,尤洋提出了三个关键点:高质量的数据集、
2023-05-28 18:37:00
用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构
...HaiScale:针对深度学习模型训练进行特别的优化 HaiScale 分布式数据并行(DDP)是一种以 HFReduce 为通信后端的训练工具
2024-09-07 09:44:00
革新实践丨零极分布式AI算力调度平台,实现智能算力普惠输出!
...为服务购买方提供更加丰富的业务支撑与算力服务。零极分布式AI算力调度:算力的革新实践零极分布式AI算力调度平台基于零极分布式可信云底层架构,零极分布式可信云是从底层架构进行自
2025-01-08 18:01:00
行业丨抢滩下一个高地,分布式云计算迎来黄金发展期!
随着技术的发展和市场的不断变化,分布式云计算正逐渐成为云计算领域的重要趋势。2024年,分布式云计算将继续保持强劲的发展势头,为企业和个人提供更加高效、灵活、安全的服务。同时,分
2024-03-01 10:57:00
更多关于科技的资讯:
第六届金芦苇工业设计奖精品展开幕汇聚13个国家及地区的500余件佳作河北日报讯(见习记者李畅)9月1日,由雄安新区未来工业设计研究院主办
2025-09-06 08:32:00
近日,山大路街道山大社区联合芯赛博开展数码公益活动,围绕“免费、实用、贴心”,为居民提供0元贴膜、老旧照片AI修复、数码产品检测三项服务
2025-09-06 09:15:00
老乡鸡IPO:供应链协同力,食材管控体系获认可
近日,中式快餐品牌老乡鸡的IPO进程持续引发行业关注。作为门店数量超1500家的连锁餐饮企业,老乡鸡能在竞争激烈的快餐赛道站稳脚跟
2025-09-06 15:47:00
111大健康产业发展论坛走进北京同仁堂启动北京“店效王”孵化计划
当“健康中国2030”战略持续深化,大健康产业正迈向“品牌化、专业化、协同化”的新阶段。北京作为全国健康服务的前沿阵地
2025-09-06 15:49:00
解码鸿蒙有礼:华为砸下真金白银,花钱赚吆喝还是格局再打开?
9月4日,华为Mate XTs 非凡大师及全场景新品发布会在深圳召开,华为Mate XTs 非凡大师、华为智慧屏 Mate TV
2025-09-06 15:49:00
大皖新闻讯 九三阅兵期间,来自合肥高新区的四创电子提供了技术、设备、人员等多方面保障。他们分布在首都各区域,精准捕捉预测风
2025-09-06 17:26:00
从看砖头到看专利 贵阳市“科创积分贷”让科技型企业“知产”变现
“从提交申请到拿到贷款只用了两周多,申报材料比传统贷款少了三分之一,效率提高了50%!”近日,贵州捷众森建材有限公司董事长顾潘拿着“科创积分贷”到账凭证感慨道
2025-09-06 18:15:00
大河网讯 9月6日,细雨蒙蒙,湿润的空气中带着淡淡的江水气息,山城重庆显得格外宁静。可在重庆国际博览中心内却是另一番景象——2025世界智能产业博览会正在这里举办
2025-09-06 22:20:00
2025智博会“四链”融合对接暨“渝链通”发布活动成功举办 助力科创企业融资破局
大河网讯 9月6日,2025世界智能产业博览会“四链”融合对接活动——智能产业股权融资专题对接暨“渝链通”服务方案发布会在重庆国际博览中心圆满举行
2025-09-06 22:20:00
从茶叶到瓶装茶,小罐茶高香无糖茶加速传统茶企转型
健康消费升级持续推动市场扩容,无糖茶赛道正迎来众多品牌加码布局。尽管消费场景细分和产品升级带动无糖茶市场与受众不断扩大
2025-09-06 15:51:00
大河网讯 人工智能是新一轮科技革命和产业变革的重要驱动力量,对全球经济社会发展和人类文明进步产生了深远影响。9月5日,2025世界智能产业博览会在长江之畔重庆开幕
2025-09-06 13:08:00
国家级5G工厂,钟经开+1!
近日,工业和信息化部公示了《2025年5G工厂名录》钟楼经济开发区企业江苏电力装备有限公司成功入选成为继江苏精研科技股份有限公司后钟楼区第二家国家级5G工厂5G工厂是充分利用以5G为代表的新一代信息通信技术
2025-09-06 06:08:00
从玻璃到微纳新材料 从企业更名看龙口一家民企的转型跃迁
大众网记者 林晓冬 烟台报道说起玻璃大家都不陌生,餐桌玻璃、门窗玻璃都与我们的日常生活息息相关,但在烟台龙口有一家企业多年来持续在玻璃上“钻研”
2025-09-05 09:08:00
科创泉城 智启未来| “硬科创”需要“软传播”,网络达人共话“出圈”新思路
9月4日下午,在济南市委网信办联合山东省互联网传媒集团举办的“科创泉城 智启未来”知名网络达人济南采风活动的对话沙龙上
2025-09-05 09:51:00
本报讯(记者雷嘉)围绕国产车规级芯片搭载应用,北京市科委、中关村管委会会同北京市智慧城市基础设施与智能网联汽车协同发展办公室
2025-09-05 11:08:00