• 我的订阅
  • 科技

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

类别:科技 发布时间:2024-07-30 09:38:00 来源:量子位

每3个小时1次、平均1天8次,Llama 3.1 405B预训练老出故障,H100是罪魁祸首?

最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点:

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

Llama 3.1在为期54天的预训练期间,经历了共466次任务中断。其中只有47次是计划内的,419次纯属意外,意外中78%已确认或怀疑是硬件问题导致。

而且GPU问题最严重,占了58.7%。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

Llama 3.1 405模型是在一个含16384块Nvidia H100 80GB GPU集群上进行训练的。虽说针对大规模系统有句老话:唯一确定的就是会出故障。

但这一问题还是引起不少网友关注。

放慢速度,check一下产品吧。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

老出故障,咋整?

具体来看,在419次意外中断中,148 次(30.1%)是由各种GPU故障(包括NVLink故障)引起的,72次(17.2%)可以具体到是由HBM3内存故障引起。

鉴于H100的700W高功耗和热应力,出现这样的结果也并不意外。

有意思的是,54天内只有两次是CPU出现了故障。

除了GPU外的另一半故障由众多因素导致,比如软件Bug、网络电缆等等。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

不过最终,Llama 3.1团队保持了超90%的有效训练时间。只有三起故障需要人工大幅介入,其余的都自动化处理了。

那么他们是如何应对的?

为了增加有效训练时间,Llama 3.1团队表示减少了任务启动和checkpointing时间,并开发了一些工具来快速诊断和解决问题。

其中广泛使用了PyTorch的内置NCCL flight recorder(Ansel等人2024年开发),是一个可以把集体元数据和堆栈跟踪记录到一个循环缓冲区里的功能,这样就能快速诊断大规模卡顿和性能问题,特别是跟NCCLX有关的问题。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

用这个工具,团队能有效记录每次通信事件和每个集体操作的持续时间,在NCCLX Watchdog或Heartbeat超时时还能自动导出跟踪数据。

还可以根据需要,通过在线配置更改(Tang等人2015年提出的方法)来选择性地启用一些计算量更大的跟踪操作和元数据收集,而不需要重新发布代码或重启任务。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

团队表示,在大规模训练中调试问题很复杂,因为网络同时使用了NVLink和RoCE。通过NVLink传输数据通常是通过CUDA内核发出的加载/存储操作来完成的,如果远程GPU或NVLink连接出了问题,往往表现为CUDA内核里的加载/存储操作卡住了,却不会返回明确的错误代码。

而NCCLX通过与PyTorch紧密配合,提高了故障检测和定位的速度和准确性,让PyTorch能够访问NCCLX的内部状态并跟踪相关信息。

虽然无法完全避免NVLink故障导致的卡顿,但系统会监控通信库状态,在发现卡顿时自动超时。

此外,NCCLX还会跟踪每次NCCLX通信的内核和网络活动,并在失败时提供NCCLX集体操作内部状态“快照”,包括所有等级之间已完成和待处理的数据传输。团队通过分析这些数据来调试NCCLX的扩展问题。

有时,硬件问题可能导致某些部分虽然看起来还在运行,但速度变慢,这种情况很难被发现。即使只有一个部分变慢,也可能拖慢数千个其它GPU的速度。

为此团队开发了一些工具,可以优先处理某些可能有问题的进程组的通信。通常只需要调查几个最可疑的对象,就能有效找出那些变慢的部分。

团队还观察到了一个有趣的现象——环境因素对大规模训练性能的影响。在训练Llama 3.1 405B时,吞吐量会根据一天中时间的不同而有1-2%的变化。这是因为中午温度较高,影响了GPU动态电压和频率调节。

在训练过程中,数万个GPU可能会同时增加或减少功耗,比如在所有GPU等待checkpointing或集体通信完成时,或者在整个训练任务启动/关闭时。这种情况发生,可能导致数据中心的瞬时功耗波动达到数十兆瓦,对电网来说是个不小的考验。

团队最后还表示:

随着未来更大的Llama模型扩展训练规模,这一挑战将持续存在。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

AI集群问题正待破壁

Meta2022年首次分享了其AI研究超级集群(RSC)的详细信息,当时拥有16000个NVIDIA A100 GPU,帮助其构建了第一代AI模型,在Llama初代和Llama 2开发中都发挥了重要作用。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

△来自Meta

今年三月份,Meta又公开了24576个NVIDIA H100 GPU的AI集群,支持Llama 3及之后模型。

更是定下了到今年年底增加350000个NVIDIA H100 GPU的目标,作为整体算力的一部分(整体算力近600000个H100 GPU)。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

这么大的规模,emmm可不是个持续性的挑战嘛。当然,大规模AI集群会给模型训练造成故障是一个有些“远古”的问题,很早之前就有相关研究。

H100本身什么含金量无需多言。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

在去年最新MLPerf训练基准测试中,英伟达H100集群,横扫八项测试,全部创下新纪录,并且在大语言模型任务中表现尤为突出。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

11分钟内训练一遍GPT-3,8秒训完BERT。在大语言模型任务中,H100集群的加速性能逼近线性增长。即随着集群处理器数量增加,加速效果也几乎同比增加。

意味着在集群内GPU之间的通信效率非常高。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

除此之外,H100还完成了推荐算法、CV、医学图像识别以及语音识别等任务,是唯一一个参加8项测试的集群。

不过,SemiAnalysis一个月前的一篇文章指出,构建大规模AI算力集群非常复杂,远远不只是有没有钱买卡的事。

在电力、网络设计、并行、可靠性等很多方面都面临局限。

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-30 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...近年来国内外科技厂商纷纷布局 AI 算力基础设施,死磕万卡甚至 10 万卡集群。此外,大规模算力集群也越来越凸显训推一体的重要性,寻求在同一个集群中无缝切换大模型的训练和推理
2024-09-26 13:37:00
近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。据悉,百度智能云将进一步点亮3万卡集群。这一重大突破标志着百度在人工智能算力领域迈出了坚实的一步
2025-02-05 11:06:00
算力浪费超50%!百度AI计算部负责人拆解大模型时代的算力成本
...鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支,他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训,共五个方面的解决方案
2024-09-14 09:55:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
作者 | ZeR0编辑 | 漠影“AI主战场,万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行
2024-07-09 09:47:00
Llama3训练每3小时崩一次?豆包大模型、港大为脆皮万卡训练提效
伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态的存储和恢复,已经
2024-08-09 09:37:00
超万卡集群让算力迈上新台阶
...本文转自:人民日报海外版黑龙江筑牢数字新基建底座超万卡集群让算力迈上新台阶本报记者 崔 佳 方 圆《 人民日报海外版 》( 2024年10月18日 第 08 版)中国移动智算
2024-10-18 05:26:00
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...千亿到万亿,所需的数据量也从几百B跃升到P级,千卡、万卡集群正日益成为大模型训练的标配。显而易见,要想走出多重因素叠加造成的国内算力紧缺困境,通过集群互联弥补单卡性能不足,也
2024-04-28 11:52:00
中国智算建设潮背后,谁在推动十万卡集群
在打造十万卡集群上,几家国内头部企业已有动作。在11月12日举办的百度世界2024大会上,百度集团执行副总裁、百度智能云事业群总裁沈抖透露,为了支撑大模型进一步的高速发展,百度在
2024-11-15 10:01:00
1.6万块H100训Llama 3.1,每3小时故障1次!罪魁祸首竟是GPU和HBM3显存
...读】在Meta的Llama 3.1训练过程中,其运行的1.6万个GPU训练集群每3小时就会出现一次故障,意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的
2024-07-30 09:39:00
更多关于科技的资讯:
富士胶片X-SPACE迎来七周年朋友月 胶片模拟色彩配方书籍特别发布
2025年10月,富士胶片(中国)投资有限公司旗下X-SPACE富士胶片影像空间(以下简称"X-SPACE")迎来成立七周年
2025-10-29 10:59:00
河北纳科生物科技有限公司专利获雄安高价值专利大赛银奖
河北新闻网讯(钟蕾)近日,推进京津冀知识产权高质量发展暨2025・雄安高价值专利大赛颁奖活动在雄安新区举行。石家庄高新区优秀创新企业河北纳科生物科技有限公司凭借其核心专利“重组人胶原蛋白的制备和产业化应用”
2025-10-29 11:11:00
10月28日,盒马鲜生与茂业集团合作签约暨山西首店落地仪式在小店区举行。盒马鲜生是阿里巴巴集团旗下的新零售业态,是线上电商与线下零售的结合体
2025-10-29 08:11:00
永清推动服装服饰与文旅、物流等深度融合,构建“设计+生产+展示+销售+物流+文旅”产业链条
永清推动服装服饰与文旅、物流等深度融合,构建“设计+生产+展示+销售+物流+文旅”产业链条融合发展,打造京南时尚产业新城10月23日航拍的永清县云裳小镇
2025-10-29 07:24:00
2025青岛虚拟现实创新大会在即,乐相科技分享产业洞察
鲁网10月28日讯随着虚拟现实技术的蓬勃发展,行业年度盛会——2025青岛虚拟现实创新大会即将在崂山区启幕。作为国内最早布局虚拟现实产业的地区之一
2025-10-28 14:03:00
物生物RELEA联手宫里的世界打造首个联名系列,惊艳深圳礼品展
随着第33届中国(深圳)国际礼品及家居用品展览会的大幕徐徐拉开,全球礼品与家居行业的目光再度聚焦于这座充满创新活力的城市
2025-10-28 14:21:00
京东工业与铜陵化学工业集团签署战略合作 共筑化工行业数智供应链新标杆
10月27日,铜陵化学工业集团有限公司(以下简称“铜化集团”)与北京京东数智工业科技有限公司(以下简称“京东工业”)正式签署战略合作协议
2025-10-28 14:25:00
广州两家“黑珍珠”餐厅入驻大众点评品质外卖,上线专属“主厨推荐单人工作餐”
这届打工人有福了,午休时间点外卖就能尝到“黑珍珠”餐厅的品质美味。10月28日,广州炳胜公馆(珠江新城店)、炳胜私厨(中达旗舰店)两家2025“黑珍珠”上榜餐厅正式入驻大众点评“品质外卖”
2025-10-28 14:25:00
XREAL与广和通达成战略合作,共启AI眼镜产业新纪元
10月27日,广和通与行业头部AR眼镜科技公司XREAL宣布达成战略合作,共同推动消费级AI眼镜产业迈向新纪元。双方将以领先的技术实力与制造能力
2025-10-28 14:51:00
近日,国内规模最大的直营租车平台神州租车正式推出品质服务月“脏必赔”服务保障机制,宣布自2025年10月24日起,用户如在取车后发现车辆清洁不达标
2025-10-28 16:52:00
超80%宁波上市公司用钉钉,钉钉AI助力宁波走向硬核智造
10月28日,以“AI时代的工作方式”为主题的钉峰会在浙江宁波举办。本次峰会由阿里巴巴旗下AI办公平台钉钉主办,吸引了来自制造
2025-10-28 16:57:00
支付宝带31个境外钱包来华消费 超400个友好商圈提前迎客
“我们很高兴与蚂蚁国际、与Alipay+合作,这不仅便利乌兹别克斯坦用户游全球、看中国,相信更是中乌科技合作的典范。”乌兹别克斯坦二维码网络 HUMO的董事会第一副主席马克萨德·穆希特迪诺夫说
2025-10-28 17:15:00
NMN哪个牌子效果好?十大高口碑NMN产品推荐,国产进口口服抗衰老
2025国家级新刊《抗衰老医学专刊》首刊定调:NAD+前体补充剂已成全民抗衰刚需,其中NMN机制明确、临床数据扎实,稳居市场C位
2025-10-28 17:15:00
2025年10月板材十大品牌年度实力回顾 环保品质与贴心服务双重保障
2025年第四季度已经过半,回顾全年板材市场销量和用户体验均有不错表现的前十品牌,板材作为家居装修和建筑工程的基础材料
2025-10-28 17:16:00
一、GEO 优化核心简介GEO(生成式引擎优化)是 AI 搜索时代的核心流量技术,通过适配豆包、DeepSeek 等主流 AI 平台算法
2025-10-28 17:18:00