我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Llama3.1训练平均3小时故障一次，H100万卡集群好脆弱

类别：科技发布时间：2024-07-30 09:38:00 来源：量子位

每3个小时1次、平均1天8次，Llama 3.1 405B预训练老出故障，H100是罪魁祸首？

最近有人从Meta发布的92页超长Llama 3.1论文中发现了华点：

Llama 3.1在为期54天的预训练期间，经历了共466次任务中断。其中只有47次是计划内的，419次纯属意外，意外中78%已确认或怀疑是硬件问题导致。

而且GPU问题最严重，占了58.7%。

Llama 3.1 405模型是在一个含16384块Nvidia H100 80GB GPU集群上进行训练的。虽说针对大规模系统有句老话：唯一确定的就是会出故障。

但这一问题还是引起不少网友关注。

放慢速度，check一下产品吧。

老出故障，咋整？

具体来看，在419次意外中断中，148 次（30.1%）是由各种GPU故障（包括NVLink故障）引起的，72次（17.2%）可以具体到是由HBM3内存故障引起。

鉴于H100的700W高功耗和热应力，出现这样的结果也并不意外。

有意思的是，54天内只有两次是CPU出现了故障。

除了GPU外的另一半故障由众多因素导致，比如软件Bug、网络电缆等等。

不过最终，Llama 3.1团队保持了超90%的有效训练时间。只有三起故障需要人工大幅介入，其余的都自动化处理了。

那么他们是如何应对的？

为了增加有效训练时间，Llama 3.1团队表示减少了任务启动和checkpointing时间，并开发了一些工具来快速诊断和解决问题。

其中广泛使用了PyTorch的内置NCCL flight recorder（Ansel等人2024年开发），是一个可以把集体元数据和堆栈跟踪记录到一个循环缓冲区里的功能，这样就能快速诊断大规模卡顿和性能问题，特别是跟NCCLX有关的问题。

用这个工具，团队能有效记录每次通信事件和每个集体操作的持续时间，在NCCLX Watchdog或Heartbeat超时时还能自动导出跟踪数据。

还可以根据需要，通过在线配置更改（Tang等人2015年提出的方法）来选择性地启用一些计算量更大的跟踪操作和元数据收集，而不需要重新发布代码或重启任务。

团队表示，在大规模训练中调试问题很复杂，因为网络同时使用了NVLink和RoCE。通过NVLink传输数据通常是通过CUDA内核发出的加载/存储操作来完成的，如果远程GPU或NVLink连接出了问题，往往表现为CUDA内核里的加载/存储操作卡住了，却不会返回明确的错误代码。

而NCCLX通过与PyTorch紧密配合，提高了故障检测和定位的速度和准确性，让PyTorch能够访问NCCLX的内部状态并跟踪相关信息。

虽然无法完全避免NVLink故障导致的卡顿，但系统会监控通信库状态，在发现卡顿时自动超时。

此外，NCCLX还会跟踪每次NCCLX通信的内核和网络活动，并在失败时提供NCCLX集体操作内部状态“快照”，包括所有等级之间已完成和待处理的数据传输。团队通过分析这些数据来调试NCCLX的扩展问题。

有时，硬件问题可能导致某些部分虽然看起来还在运行，但速度变慢，这种情况很难被发现。即使只有一个部分变慢，也可能拖慢数千个其它GPU的速度。

为此团队开发了一些工具，可以优先处理某些可能有问题的进程组的通信。通常只需要调查几个最可疑的对象，就能有效找出那些变慢的部分。

团队还观察到了一个有趣的现象——环境因素对大规模训练性能的影响。在训练Llama 3.1 405B时，吞吐量会根据一天中时间的不同而有1-2%的变化。这是因为中午温度较高，影响了GPU动态电压和频率调节。

在训练过程中，数万个GPU可能会同时增加或减少功耗，比如在所有GPU等待checkpointing或集体通信完成时，或者在整个训练任务启动/关闭时。这种情况发生，可能导致数据中心的瞬时功耗波动达到数十兆瓦，对电网来说是个不小的考验。

团队最后还表示：

随着未来更大的Llama模型扩展训练规模，这一挑战将持续存在。

AI集群问题正待破壁

Meta2022年首次分享了其AI研究超级集群（RSC）的详细信息，当时拥有16000个NVIDIA A100 GPU，帮助其构建了第一代AI模型，在Llama初代和Llama 2开发中都发挥了重要作用。

△来自Meta

今年三月份，Meta又公开了24576个NVIDIA H100 GPU的AI集群，支持Llama 3及之后模型。

更是定下了到今年年底增加350000个NVIDIA H100 GPU的目标，作为整体算力的一部分（整体算力近600000个H100 GPU）。

这么大的规模，emmm可不是个持续性的挑战嘛。当然，大规模AI集群会给模型训练造成故障是一个有些“远古”的问题，很早之前就有相关研究。

H100本身什么含金量无需多言。

在去年最新MLPerf训练基准测试中，英伟达H100集群，横扫八项测试，全部创下新纪录，并且在大语言模型任务中表现尤为突出。

11分钟内训练一遍GPT-3，8秒训完BERT。在大语言模型任务中，H100集群的加速性能逼近线性增长。即随着集群处理器数量增加，加速效果也几乎同比增加。

意味着在集群内GPU之间的通信效率非常高。

除此之外，H100还完成了推荐算法、CV、医学图像识别以及语音识别等任务，是唯一一个参加8项测试的集群。

不过，SemiAnalysis一个月前的一篇文章指出，构建大规模AI算力集群非常复杂，远远不只是有没有钱买卡的事。

在电力、网络设计、并行、可靠性等很多方面都面临局限。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-30 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于万卡,集群,故障,脆弱,训练,小时的资讯：

当大模型Scaling Law继续,万卡集群算力释放在百舸找

...近年来国内外科技厂商纷纷布局 AI 算力基础设施，死磕万卡甚至 10 万卡集群。此外，大规模算力集群也越来越凸显训推一体的重要性，寻求在同一个集群中无缝切换大模型的训练和推理

2024-09-26 13:37:00

国内首次！百度智能云点亮昆仑芯三代万卡集群

近日，百度智能云成功点亮昆仑芯三代万卡集群，这也是国内首个正式点亮的自研万卡集群。据悉，百度智能云将进一步点亮3万卡集群。这一重大突破标志着百度在人工智能算力领域迈出了坚实的一步

2025-02-05 11:06:00

算力浪费超50%！百度AI计算部负责人拆解大模型时代的算力成

...鹏向媒体解读了大模型时代的算力成本。为了有效降低AI万卡集群的算力开支，他提出搭载RDMA网络、自动并行策略、保证训练稳定性、动态分配算力、多芯异构混训，共五个方面的解决方案

2024-09-14 09:55:00

国产GPU万卡集群终于来了！摩尔线程CEO张建中：做难而正确

作者 | ZeR0编辑 | 漠影“AI主战场，万卡是最低标配！”在2024世界人工智能大会开幕前夕，摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡？大模型行

2024-07-09 09:47:00

Llama3训练每3小时崩一次？豆包大模型、港大为脆皮万卡训

伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkpoint）系统在训练过程中负责状态的存储和恢复，已经

2024-08-09 09:37:00

超万卡集群让算力迈上新台阶

...本文转自：人民日报海外版黑龙江筑牢数字新基建底座超万卡集群让算力迈上新台阶本报记者崔佳方圆《人民日报海外版》（ 2024年10月18日第 08 版）中国移动智算

2024-10-18 05:26:00

从0到1：国产化千卡集群的一小步，AI算力主动权的一大步

...千亿到万亿，所需的数据量也从几百B跃升到P级，千卡、万卡集群正日益成为大模型训练的标配。显而易见，要想走出多重因素叠加造成的国内算力紧缺困境，通过集群互联弥补单卡性能不足，也

2024-04-28 11:52:00

中国智算建设潮背后，谁在推动十万卡集群

在打造十万卡集群上，几家国内头部企业已有动作。在11月12日举办的百度世界2024大会上，百度集团执行副总裁、百度智能云事业群总裁沈抖透露，为了支撑大模型进一步的高速发展，百度在

2024-11-15 10:01:00

1.6万块H100训Llama 3.1，每3小时故障1次！罪

...读】在Meta的Llama 3.1训练过程中，其运行的1.6万个GPU训练集群每3小时就会出现一次故障，意外故障中的半数都是由英伟达H100 GPU和HBM3内存故障造成的

2024-07-30 09:39:00

更多关于科技的资讯：

基于“祖冲之2号” 中国科大首次实现量子体系高阶非平衡拓扑相

大皖新闻讯 11月28日，大皖新闻记者从中国科学技术大学获悉，该校潘建伟、朱晓波、彭承志、龚明等学者牵头合作，基于可编程超导量子处理器“祖冲之2号”

2025-11-28 12:52:00

企业战略管理中的品牌战略创新路径分析

摘要：品牌战略对于企业品牌形成和竞争力的提升有着不可替代的作用，随着市场竞争越来越激烈，品牌战略成为企业争夺市场的一个有力武器

2025-11-28 06:49:00

坚定信心勇挑大梁·产业新亮点丨河北特色产业集群共享智造故事

技术创新共享给安平丝网带来了什么——河北特色产业集群共享智造故事（二）11月21日，安平县高新区绿色产业园区，河北丝筘金属制品有限公司车间里

2025-11-27 08:12:00

海底捞、阿嬷手作等品牌接入，顺丰同城“独享专送”餐饮品类单量

随着即时零售市场的持续扩张和竞争深化，消费者对即时配送的需求正从“送达”向“送好”升级，推动即时配送加速服务分层，以准时

2025-11-27 08:16:00

青年时评｜支持更多青春小店向上生长

风格各异的手作店、静谧雅致的咖啡馆、独具韵味的民宿……如今，在河北很多城市的街头巷尾，小店经济快速发展，在促进消费、扩大就业

2025-11-27 09:02:00

济南海尔第九届感恩月重磅启幕以真心回馈亿万用户信赖

鲁网11月27日讯11月26日，济南海尔感恩月启动会拉开帷幕。以更加诚挚的福利、更具力度的优惠，回馈用户多年来的信赖与支持

2025-11-27 11:05:00

伽利略智能仿生四足防爆机器人EX-1重磅亮相2025中国国际

2025年11月18日至20日，以"新质赋能智慧应急"为主题的2025中国国际应急管理展览会在北京国家会议中心隆重举办

2025-11-27 11:47:00

2026中国特许加盟展全年档期正式发布：两展三会贯通全年，全

由全国性行业组织中国连锁经营协会主办的中国特许加盟展公布2026全年展会规划，将继续采取全国巡展模式，以"两展三会"的形式贯通全年

2025-11-27 11:47:00

周慎：机器人去景点“上班”，游客的快乐从哪里来？

中新经纬11月27日电题：机器人去景点“上班”，游客的快乐从哪里来？作者周慎中国科学技术大学科技传播系副研究员、徽州人工智能研究院院长近日

2025-11-27 12:15:00

执“碳”为尺绘就绿色物流新图景

鲁网11月26日讯冬日清晨的泰山脚下，山东省泰安市烟草专卖局（公司）送货员刘婷正用扫码枪轻触循环周转箱上的智能芯片，“您瞧

2025-11-27 12:15:00

工信部：加强养老服务机器人等产品研发

中新经纬11月27日电国务院新闻办公室27日举行国务院政策例行吹风会，介绍增强消费品供需适配性进一步促进消费政策措施有关情况

2025-11-27 12:20:00

海外科技媒体Tech Times：AI助手“灵光”让难题处理

蚂蚁集团11月18日推出的全模态通用AI助手“灵光”在国内迅速出圈后，引发海外科技媒体和社交平台的关注。美国知名科技媒体《科技时代》（Tech Times）报道称

2025-11-27 14:32:00

华为新品发布会藏惊喜！来华为浏览器解锁资讯获取新方式

2025年11月25日，华为Mate 80系列｜Mate X7及全场景新品发布会如期而至，这场科技盛宴备受瞩目。在首发搭载的HarmonyOS 6操作系统与Mate 80新机的双重赋能下

2025-11-27 14:41:00

胜者智选：全人成长新范式锚定教育变革核心

从体质强健到能力培养，从AI融合到成本理性化，教育行业正迈向健康底色、核心能力、创新素养的全人培养新阶段。在此背景下，胜者教育旗下核心品牌“胜者智选”以生态化布局回应时代需求

2025-11-27 14:43:00

网易云音乐“AI写歌”功能上线测试普通人也能“玩”音乐

近日，网易云音乐旗下网易天音“AI写歌”趣味功能上线测试，旨在用AI降低音乐创作门槛，帮助音乐人更好捕捉灵感创意的同时

2025-11-27 14:44:00

头条订阅服务

Llama3.1训练平均3小时故障一次，H100万卡集群好脆弱