• 我的订阅
  • 科技

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

类别:科技 发布时间:2024-07-30 09:39:00 来源:新智元

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

【新智元导读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的。

随着大模型的迭代,其GPU用量也在不断增长。

Meta的Llama 1使用了2028块GPU,而到了Llama 3.1 405B,这个数字变成了16384。

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

规模如此庞大的超算系统迎来了可靠性和运行方面的巨大挑战——

据Meta最近公布的研究显示,Llama 3.1训练持续了54天,在此期间集群遇到了419次意外组件故障,平均每3小时发生一次!

在一半的故障案例中,罪魁祸首正是英伟达的H100 GPU及其板载的HBM3内存。

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

在超算领域,有一句古老的谚语,「大规模系统唯一可以确定的事就是发生故障」。

一个由成千上万个处理器、数十万个其他芯片和数百英里的电缆组成的超算集群,是极其复杂的。这样复杂的系统不可避免地会发生故障,甚至以几个小时为间隔单位都很正常。

开发人员要做的是确保系统在这些局部故障的情况下仍然能够正常运行。

Meta已经为抵御故障对系统的影响而耗费了不少精力,马斯克的包含10万块H100的超算集群比Llama 3.1的训练集群足足多了6倍,很难想象,其故障发生的频率将会有多高。

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

419次意外中断

Meta的Llama 3.1 405B的训练集群共包含16384个Nvidia H100 80GB GPU的集群上进行训练的。

1.6万块GPU训练的复杂性和潜在故障情况超出了Llama团队的既有经验,这是他们迄今为止运行过的最大的集群。

此外,训练的同步性也降低了容错性——单个GPU故障可能会导致整个训练任务中断,整个作业必须要重新启动。

在54天的预训练期间,共有466次作业中断,其中47次是计划内的,419次是意外的。

计划内的中断是由于自动维护,如固件和Linux内核升级、数据集更新等操作员发起的操作,这导致每天至少有一次训练中断。

而意外的中断主要是由硬件问题引起的,约78%的意外中断归因于已确认的硬件问题。如GPU或主机组件故障、静默数据损坏、计划外的单个主机维护事件等。

其中,GPU问题是最大的一类,占所有意外问题的58.7%(下图中红色部分)。

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

在419次意外中断中,有148次(30.1%)是由于各种GPU故障(包括NVLink故障)引起的,而72次(17.2%)是由HBM3内存故障引起的。

这并不意外——英伟达H100 GPU有着高达700W的功耗,并因此需要承受大量热应力。

相比之下,在54天内只有两个CPU发生故障(上图中蓝色部分)。

虽然GPU是最重要但也最脆弱的组件,占到意外问题的58.7%,但剩余41.3%的意外中断是由多种因素引起的,包括软件错误、网络电缆和网络适配器。

尽管故障数量众多,Llama团队还是保持了超过90%的有效训练时间,在训练期间仅有三次需要大量人工干预,其余问题均由自动化处理。

解决办法

为了提高效率,Meta团队减少了作业启动和检查点时间,并开发了专有的诊断工具。

PyTorch的NCCL飞行记录器被广泛使用,该功能可将集体元数据和堆栈跟踪记录到环形缓冲区中,从而使研究人员能够快速诊断大规模挂起和性能问题,尤其是NCCLX方面的问题。

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

NCCLX在故障检测和定位中发挥了关键作用,特别是在训练网络中,NVLink和RoCE的混合使用使大规模训练中的调试问题变得复杂。

对于NVLink和RoCE带来的复杂性问题,NCCLX通过与PyTorch的紧密协同设计提高了故障检测和定位的速度和准确性,允许PyTorch访问NCCLX的内部状态并跟踪相关信息。

虽然NVLink故障导致的停滞无法完全避免,但这个系统会监控通信库的状态,并在检测到此类停滞时自动超时。

除此之外,有时一些仍在运行但速度缓慢的滞留器很难被检测到。

Meta团队开发的工具,能够用于识别「拖后腿」的GPU。

这个工具的原理是对来自选定进程组的可能有问题的通信进行优先排序,只需调查几个最大的嫌疑人,通常就能有效地识别出滞后的GPU。

从而有效地检测和及时解决滞后问题,确保减慢速度的情况最小化,保持整体训练效率。

运行挑战

Meta透露,超算集群还有来自环境因素和功耗剧烈波动带来的运行挑战。

环境因素

Meta团队发现一个有趣的现象是环境因素对大规模培训性能的影响,研究人员注意到,吞吐量会有1-2%的昼夜变化。

这种波动是由于中午较高的温度影响了GPU的动态电压和频率缩放,从而影响训练性能。

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

功耗波动

Llama 3.1 405B大语言模型训练团队面临的另一个挑战是数万GPU同时功耗变化,这给他们的数据中心电网带来了压力。

这些波动有时高达数十兆瓦,达到了电网的极限,这意味着Meta必须确保其数据中心有足够的电力。

1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存

在训练过程中,数以万计的GPU可能会同时增加或减少功耗,例如,由于所有GPU都在等待检查点或集体通信的完成,或者整个训练任务的启动或关闭。

当这种情况发生时,整个数据中心的功耗会瞬间波动数十兆瓦,从而挑战电网的极限。

Meta认为,在为未来更大型的Llama模型扩展训练时,这将会是一个持续的挑战。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-30 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英特尔CPU疯狂崩溃,测评大佬揭露工艺缺陷,官方回应:修复补丁下月上线
...推测是已经困扰了广大用户一年多的13/14代CPU崩溃问题的罪魁祸首。而在网友们看来,对于此事,英特尔一直采取“拖”字诀,迟迟没有给出回应。网友这一炸,英特尔也坐不住了。最新
2024-07-24 09:57:00
汽车油耗越来越高,这几个零件是罪魁祸首
...很大的关系,尤其是以下这几个零部件是导致油耗升高的罪魁祸首。一、蓄电池为什么汽车油耗的升高会和蓄电池有关呢?这是因为电路作为汽车的重要组成部分,和油路有着十分密切的关系。蓄电
2022-12-09 09:07:00
Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱
...小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?最近有人从Meta发布的92页超长Llama 3
2024-07-30 09:38:00
邓紫棋长沙演唱会外退票潮,黄牛票成罪魁祸首,粉丝哭诉难进场!
在演唱会界,退票通常是因为天气或艺人突发状况。然而,4月12日晚,邓紫棋的长沙演唱会现场却上演了一出不一样的戏码。一群持票却无法进场的粉丝,在门外高喊“退票”,引起了媒体和公众的
2024-04-14 17:37:00
电动自行车锂电池故障 18辆车火烧连营 一片狼藉
...,事故并未造成人员伤亡。经过初步调查,此次火灾的“罪魁祸首”是电动自行车的锂电池故障。【本文结束】如需转载请务必注明出处:快科技责任编辑:随心文章内容举报
2025-04-28 08:35:00
诈骗新招数 奸商用故障显存以次充好出售RTX20系显卡
...,据wccftech消息,国外有网友发现网商平台出现了用故障显存充好的RTX20系显卡正在出售,涉嫌严重诈骗。据悉
2023-02-24 19:55:00
...积尘、油灰,这些积尘、油灰是大多数电视机出现故障的罪魁祸首和主要安全隐患,会直接影响到电视机的整机使用寿命。对电视进行保养的关键在于使用方法要科学,降低人为造成的故障发生率,
2023-06-25 00:16:00
中国梦·大国工匠丨赵中远:“电网神医”守护安全
...延迟。正是这短暂的延迟,成为引发断路器频繁故障的“罪魁祸首”。为了避免类似故障再现,赵中远又对企业里40多台同样型号的断路器进行了及时“诊治”,为企业节约维修费30余万元。正
2024-12-13 17:37:00
...业的运营出现问题,全球供应链也受打击,事件背后的“罪魁祸首”CrowdStrike 因此成为了焦点。在CrowdStrike事件发生后
2024-08-01 06:58:00
更多关于科技的资讯:
首届炒菜机器人大赛精彩回顾 添可食万星厨彰显智能烹饪科技实力
近日,一场汇聚了政、产、学、研顶尖力量“首届中国炒菜机器人大赛暨首都共享中央厨房产业峰会”在北京平谷隆重举行。本次大赛由中国食品工业协会与北京市平谷区人民政府联合主办
2025-08-27 08:54:00
山推(德州)公司:靠“智造”省出大效益!成本降30%销售额反增15%
鲁网8月26日讯(记者 赵洪斌 实习记者 李安琦)8月26日,德州市举行“产业链上的山东好品牌”系列记者见面会第四场,聚焦高端装备产业链
2025-08-27 09:02:00
欧瑞电子:全国60%超算中心都用它!三年营收增速超40%
鲁网8月26日讯(记者 吴美琳 实习记者 李安琦)8月26日,德州市举行“产业链上的山东好品牌”系列记者见面会第四场,聚焦高端装备产业链
2025-08-27 09:03:00
吉镜头|高清大图!第十五届中国—东北亚博览会展馆一一看过来
第十五届中国—东北亚博览会开幕在即A2馆内的吉林市展馆 A2馆内的延边展馆A2馆内的辽源展馆 小米汽车展馆布置完毕特斯拉赛博越野旅行车已经抵达现场 印度尼西亚展馆正在进行最
2025-08-27 09:13:00
近 日 ,DeepSeek发 布DeepSeek—V3.1,基于下一代国产芯片训练。DeepSeek—V3.1采用UE8M0FP8精度训练
2025-08-27 09:14:00
从家庭式代工坊到“厦门品牌” 厦门制造“衣”鸣惊人
独立设计师王在实位于红顶艺术社区的工作室。时装工作室的师傅在制作样衣。(设计师 供图)“金顶奖”设计师曾凤飞的时装作品
2025-08-27 09:22:00
厦门软件园:人工智能企业在这里“拔节生长”
厦门软件园已形成从基础层、技术层到应用层的人工智能全产业体系。(厦门软件园 供图)厦门软件园企业美图公司应用人工智能技术
2025-08-27 09:22:00
从普惠金融看厦门消费金融服务体系
今年5月,“中情中意 消费一夏”购在厦门消费季活动吸引超20万人次打卡,金融活水与企业让利深度融合,吸引市民游客共赴这场夏日消费盛宴
2025-08-27 09:22:00
ZWO振旺联合格林尼治天文摄影大赛,共创全球天文盛事
国内独家冠名赞助,聚焦全球星空影像2025 年 8 月,中国天文摄影领军品牌 ZWO 振旺宣布,正式成为英国格林尼治皇家天文台主办的"第 17 届格林尼治天文摄影师大赛"(Ast
2025-08-27 09:55:00
首届山东省数字工程师创新创意大赛暨国际数字工程师邀请赛奖励政策图鉴
首届山东省数字工程师创新创意大赛暨国际数字工程师邀请赛现已正式启动。本次大赛设立人工智能、智能制造、工业互联网、数字创意四大赛道
2025-08-27 10:01:00
华为官宣,新三折叠来了!9月4日发布
8月27日,华为终端微博发文称:三折叠再展非凡!9月4日14:30,华为MateXTs非凡大师及全场景新品发布会,敬请期待
2025-08-27 10:40:00
抖音发布《2025年中反诈报告》:抖音会议、巨量跳动、抖音服务等均为诈骗软件
8月26日,抖音发布《2025年中反诈报告》(下称《报告》)。《报告》显示,2025年1月至7月,抖音日均拦截涉诈信息超700万条
2025-08-27 11:13:00
天然钻石市场回暖:稀缺性、保值性与情感价值成投资新焦点
2025年8月20日,上海——在天然钻石市场回暖的大背景下,上海钻石交易所携手天然钻石协会于上海举办“天然钻石媒体沙龙分享会”
2025-08-27 11:13:00
本报记者 赵 曦 □ 黄芷凌日前,国家药监局发布数据,截至6月底,儿童普通化妆品备案28168个品种,其中国产27219个
2025-08-27 12:01:00
在2025中国照明电器行业标准质量大会上,芜湖雷士照明电子商务有限公司、广东三雄极光照明股份有限公司、宁波公牛光电科技有限公司
2025-08-27 12:02:00