• 我的订阅
  • 科技

算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本

类别:科技 发布时间:2024-09-14 09:55:00 来源:智东西

智东西9月13日消息,百度系统架构师、百度智能云AI计算部负责人王雁鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支,他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训,共五个方面的解决方案。

过去互联网时代,服务器每台数万元,各大厂商光是采购成本就要花费几个亿。高昂的支出促使互联网大厂自研服务器,百度也是其中一员,该公司自2011年起涉足计算基础设施建设。

然而,伴随深度学习的发展,GPU集群来到万卡规模,大模型时代的算力成本已经远高于人力成本。王雁鹏称,当下浪费仅仅1%的算力,也是很大的一笔花销,算力之贵也体现出计算基础设施的重要性。

近期,不少业内人士认为,“兼容CUDA是AI芯片的决胜点”,但王雁鹏并不认可这个观点。他解释道,不少模型兼容CUDA后,只留住了1/3的性能,失去了原有的竞争力。英伟达是基于CUDA构建了一个加速库生态,王雁鹏则认为,其中生态库的壁垒才是真正的难点。

一、当前的模型训练普遍吃掉了超5成算力

来到AI大模型时代,算力的复杂性已从硬件转移到了软件上,这也导致各大AI开发者利用算力的难度指数级上升。据百度系统架构师、百度智能云AI计算部负责人王雁鹏了解,现阶段的模型训练普遍浪费了超5成的算力。

最初的CPU通用计算时代,硬件和软件之间高度协同,假设CPU的性能提升了一倍,那么使用该CPU的软件,其性能也会相应地翻一番。

后续来到GPU数值加速计算时代,芯片架构更简单,以专注于提供最大的算力。开发者们通常利用GPU突出的算力优势,构建一系列复杂的加速库和框架,有针对性地适配不同应用场景。

目前,我们已处于AI大集群超算时代。单一的芯片已经不足以独立解决问题,因此需要大规模的芯片协同解决一个问题,GPU集群规模甚至达到10万卡。

在王雁鹏看来,上述计算范式的变迁决定了计算体系机构的技术发展,而这种结构上的变化,又催生了云计算的技术和产品格局。“云计算可以看作一种售卖AI基础设施的形式”,他说道。

打个比方,现在可能只有一块GPU,但其算力分给了100个人用;或者说一个训练任务被切分到十万张卡里运算,这背后需要充足的存储资源来支撑。

算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本

▲有效算力的5大参考指标

如何在大模型时代发挥出AI大集群的有效算力,王彦鹏给出了一个计算模型训练过程中有效算力的公式,即有效算力相当于能耗有效率(PUE)、单卡算力有效率(MFU)、并行扩展有效率、有效训练时间、资源利用这5项数据的乘积。

二、从五大维度释放万卡集群的GPU算力

为了解决大模型时代算力利用率低的难点,王彦鹏从有效算力公式中的五大方面入手,提出了5个有助于释放算力潜能的GPU设计理念。

1、为万卡AI场景设计的RDMA网络适配AI集群

传统的IB网络是为HPC设计的,并不适用于AI集群。这主要是因为两者的设计理念优先级存在冲突,HPC是延迟优先,AI则是吞吐优先。

据王彦鹏透露,百度长期基于RDMA网络构建万卡级别以上的AI集群,以减少内存带宽瓶颈。从数据结果来看,应用RDMA网络后AI集群的带宽有效率从60%提升至95%,模型性能则增强了5%到10%。

2、自动并行策略是AI集群最重要的演进范式

百度的自动并行策略搜索有两个核心策略。

一方面,百度采取了“边计算边通信”的方式,节省数据搬运所花费的时间,减少算力和能源损耗。

另一方面,显存优化的切分策略将运算中断所浪费的时间,控制在几分钟内。

算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本

▲百度通过RDMA网络支撑AI万卡集群的训练

得益于此,百度旗下的模型性能不仅能达到开源模型的130%,也比人工调优的模型效果好。

3、保证稳定不间断的任务运行是一个系统工程

王彦鹏多次强调了稳定性在AI训练中起到的重要作用。AI训练的计算任务是同步进行的,如果中途出现故障,万卡的故障定位是一个非常困难且不可控的事情。

同时,考虑到万卡规模的AI集群中断频率较高,通常是牵一发而动全身。王彦鹏提出,“无效训练时间=故障次数*故障恢复时间+写检查点的时间”。因此,一旦某个点位出现故障,其影响可能被扩大了十万倍。

算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本

▲可以通过3个公式综合判断AI集群的训练效率

据王彦鹏介绍,百度通过Hang检测、慢节点检测、秒级捕捉检查点、分钟级任务恢复等方式,来定位和修复出现故障的单张芯片。目前,百度文心一言大模型的有效训练时长比例超99%。

4、训练一体提升资源利用率

目前,主流模型训练存在以下4个劣势。

首先在线推理或计算任务当中,系统在峰值负载时的性能是平均负载时的3倍。这意味着系统在设计时预留了较多的算力以应对峰值。但AI集群的波峰和波谷其实较为明显,这也造成非峰值时资源的大量浪费,后续在设计上还可以进一步优化。

其次,大量微调模型存在冷热分布不均的情况。此外,其实有很多计算任务可以通过离线推理实现,但仍占用了一定的算力资源。最后,从单卡计算转向万卡计算时代,训练任务分布广、数量大。

对于上述问题,王雁鹏认为,总的来说是要实现算力流量和资源的动态分配,以便跑通不同规模的层级。百度的百舸异构计算平台(AIHC)运用单机多推理实力混合布局、弹性层级队列、训练任务弹性伸缩机制三种模式后,公司内部和客户的资源利用率都从50%提升到了90%。

5、多芯混训是解决算力卡脖子的关键技术

据王雁鹏介绍,目前市面上的芯片规格、版本、存量和算力水平都参差不齐。他提出,可以用一套兼容的框架将各式各样的芯片组合起来,形成一个强大的算力集群。

有共同的“大脑”后,AI开发者可以通过该集群统一调动所有芯片的算力,从而提高效率、节省开支。

百度在异构并行切分策略下,搭建了跨芯沟通库,并采用了Accelerator抽象设计方法,从而实现千卡性能损失仅3%,以及万卡性能损失仅5%。

不过,王雁鹏也谈道,多芯的异构混训虽然理论上可行,但实际推广起来,还有诸多技术难点亟待解决。

结语:突破3个核心技术,为十万卡集群做准备

目前,美国AI大模型独角兽OpenAI和xAI的模型训练规模已卷到10万卡级别,百度也将加入这场围绕AI集群算力的竞争,算力应用场景则聚焦于大语言模型和自动驾驶技术。

王雁鹏向媒体透露,后续百度将持续在3个核心技术上寻求芯片设计架构的突破。

首先是实现更高效的拓扑和拥塞控制,该公司希望将无阻塞RDMA域扩大10倍。

除此之外,百度计划将跨地域的RDMA网络范围扩大至方圆30km内。

王雁鹏称,现阶段百度的万卡集群平均4个小时会中断1次,如果扩展到10万卡集群,可能20分钟左右就会出现一次中断。现阶段,其模型比较稳定的恢复时间介于10到20分钟之间,未来致力于达到分钟级别。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-14 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...一世纪什么最贵?人才!」而随着人工智能行业进入到大模型时代,这一问题的答案已然变成了「算力」。随着模型规模急剧扩张,参数已经飙升到了千亿甚至万亿级,业界开启了千模大战,AI
2024-09-26 13:37:00
张云泉:集中力量,促进国产AI大模型发展
...第18期,总第915期),原题为《集中力量,促进国产AI大模型发展——专访十四届全国政协委员、中科院计算所研究员张云泉》。文丨《瞭望东方周刊》记者万宏蕾编辑顾佳贇算力建设能否
2024-09-03 14:17:00
中国智算建设潮背后,谁在推动十万卡集群
...行副总裁、百度智能云事业群总裁沈抖透露,为了支撑大模型进一步的高速发展,百度在打磨十万卡集群能力方面,已在两大问题上取得关键突破。与此同时,字节和阿里在智算上投入巨大,今年以
2024-11-15 10:01:00
...集群的建成不仅为百度带来了强大的算力支持,还推动了模型降本的趋势。在过去一年中,整个行业都在努力降低大模型的使用成本,而算力紧张是导致成本居高不下的重要因素之一。百度通过自研
2025-02-05 11:06:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
...张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也得在1个月内训练完。假设训练一个5000亿参数模型,有15TB数据,如果只有
2024-07-09 09:47:00
...六优’产业升级的标杆案例。”宁夏移动算力运营分公司负责人段立介绍。宁夏移动发力数字“新基建”,从数据中心向算力中心演进,打造国家级绿色低碳数据中心产业园区,通过建设22kW以
2023-11-27 06:45:00
超万卡集群让算力迈上新台阶
...产效率、效益及节能效果都有显著提升。”中国一重相关负责人介绍,在“5G+数据采集”的加持下,轧电车间生产制造信息采集量提升80%以上,为车间的生产排产以及生产管理提供了有效可
2024-10-18 05:26:00
无问芯穹夏立雪:破解算力焦虑,我做了大模型算力领域的“淘宝”丨36氪专访
...问芯穹」创始人兼CEO夏立雪曾任阿里云用户增长产品技术负责人,曾经负责过阿里云大语言模型的压缩加速、生成式AI模型芯片的等战略项目;无问芯穹CEO夏立雪联合创始人兼CTO颜深
2024-04-03 18:19:00
AI大模型技术应用爆发,云市场也在加速变革。4月18日,火山引擎在其举办的“原动力大会”上发布自研DPU等系列云产品,并推出新版机器学习平台:支持万卡级大模型训练、微秒级延迟网络
2023-04-19 09:33:00
更多关于科技的资讯:
邀用户亲测!双11买海尔空调,享政企双补贴
以往选购空调,用户大多只能在屏幕上对比参数,实际风感是否舒适、节能效果如何,往往要等到安装使用后才知晓。今年双11,海尔空调带来全新体验方式
2025-10-13 11:45:00
青春华章丨方寸之间,用“芯”绘就星图万里
华创微系列芯片产品化在即,保障天地“对话”,筑牢算力基石 方寸之间,用“芯”绘就星图万里□南京日报/紫金山新闻记者江芬芬编者按高质量发展是“十四五”乃至更长时期我国经济社会发展的主题
2025-10-13 08:05:00
宁企为能源发电站安装“智慧大脑”“一网统管”,巡检响应时间缩短一半,停机损失降低超30% □南京日报/紫金山新闻记者孙秉印通讯员麒轩“支路电流异常
2025-10-13 08:05:00
将税务服务从“送得对”到“传得开”、从“加急办”到“秒响应”、从“被动纠错”到“主动合规”……聚焦个体工商户办税缴费需求
2025-10-13 07:23:00
算力浪潮奔涌 夯实“数字底座”——河北以数字经济赋能高质量发展(一)在中国联通(怀来)大数据创新产业园的机房内,一排排机柜昼夜不息地嗡鸣
2025-10-13 08:00:00
双11重磅福利:88VIP点外卖5折,淘宝闪购1000万份免单等你抢!
淘宝闪购推出双11重磅福利:88VIP点外卖天天享五折,免单红包数量超1000万份!10月15日至11月14日,88VIP用户进入闪购频道
2025-10-12 05:27:00
这家宁企让足球邂逅时尚
本报记者 周京震 陆春花8月17日晚,“苏超”第9轮,南京迎战盐城。聚光灯下,南京队员战衣上那簇崭新的标识格外醒目——华瑞时尚
2025-10-12 05:27:00
这支“中国笔”,国内首款!
在常州经开区潞城街道江苏德尔福医疗器械有限公司的洁净工厂内工作人员正在忙碌地装配新型“电子笔”今年该企业三个型号的预充式电子笔式注射器获得国内首张医疗器械注册证标志着该类产品正式
2025-10-12 05:27:00
山东移动5G-A护航济南地铁4号线,打通地下通信“快车道”
近日,济南轨道交通4号线彭家庄站、程家庄站、唐冶站、唐冶南站(以上站名均为工程名)已完成移动5G-A通信覆盖,标志着这条串联城市东西的“黄金线路”在通信保障上迈出关键一步
2025-10-12 08:45:00
人保财险青岛分公司:科技赋能推动农险“双精准”再升级
齐鲁晚报·齐鲁壹点记者 尚青龙近日,青岛平度的肉牛也有了自己的“数字身份证”。人保财险青岛分公司借鉴内蒙古先进经验,引入内蒙古沃付国际物联网有限公司自主研发的人工智能畜牧业数字化管理平台
2025-10-12 11:53:00
一线保障人员“时刻在岗”,烟台联通守护高铁5G网络畅通运行
国庆中秋假期期间,面对持续攀升的客运高峰,烟台联通网络保障团队坚守岗位,全力投入高铁沿线5G网络实时保障工作,通过精细化运维与快速响应
2025-10-12 11:53:00
第十九届中国(临朐)家居门窗博览会12日开幕
齐鲁晚报·齐鲁壹点 王佳潼10月11日,第十九届中国(临朐)家居门窗博览会媒体见面会在临朐召开。记者在会上获悉,第十九届中国(临朐)家居门窗博览会定于2025年10月12日至15日在临朐国际会展中心举办
2025-10-12 11:55:00
济南热力以低空智巡护航聊热入济
近日,“聊热入济”长距离供热项目施工现场传来新进展——济南能源集团所属热力集团部署的无人机智慧巡检系统,正沿这条 “供热长龙” 精准巡航
2025-10-12 15:50:00
山东移动聊城分公司圆满完成高唐一中百年校庆通信保障任务
百年薪火传,同心向未来。10月2日,聊城市高唐县第一中学建校100周年庆祝大会在高唐县隆重举行。海内外校友、各界嘉宾及在校师生欢聚一堂
2025-10-12 16:23:00
冲刺四季度 打好收官战丨湖北佳恒:以“智”提“质” 产值已超去年全年
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新锻造核心竞争力,湖北佳恒科技以智能化改造与自主研发双轮并进,推动企业高质量发展
2025-10-12 19:27:00