• 我的订阅
  • 科技

16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型:3小时报错一次

类别:科技 发布时间:2024-07-29 11:30:00 来源:浅语科技

快科技7月29日消息,如今的AI大模型规模越来越庞大,动辄成百上千亿参数,训练过程不仅需要数万甚至十几万块GPU加速卡,出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。

Meta在报告中披露,为了训练自己的Llama 3 4050亿参数大模型,使用了包含16384块NVIDIA H100 80GB GPU的集群,一共花了45天,期间居然出现了419次意外报错,平均每3个小时就一次,而一半的错误都和GPU及其自带的HBM3内存有关。

16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型:3小时报错一次

要知道,大模型训练的工作量异常庞大,而且需要高度同步,一次错误就可能导致整个训练工作必须从头再来。

报告显示,为期45天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的,且大部分都来自硬件问题,GPU又是最多的,占了其中的58.7%。

具体来说,148次即30.1%的意外中断来自各种GPU失效(包括NVLink总线),72次即17.2%来自HBM3内存失效——毕竟,700W的功耗太热了。

还有19次来自GPU SRAM,17次来自GPU处理器,6次来自GPU静默数据错误,6次来自GPU散热和传感器。

其他错误来自软件bug、网线和网卡等等各个方面。

有趣的是,CPU错误只出现了2次。

还好,Llama 3团队非常给力,在这么高的出错几率下,依然维持了超过90%的有效训练时间,而且只有三次GPU报错需要大量人工干预,其他都被自动化管理纠正了。

16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型:3小时报错一次

【本文结束】如需转载请务必注明出处:快科技

责任编辑:上方文Q

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-29 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

人类数据,要被OpenAI用完了,然后呢?
...皇统治时期建造的。第 7 代:英国的建筑。在接受《纽约时报》采访时,赖特说:"我不认为我能够做我想做的事情有什么问题。它只是对我不起作用。"他补充说:"我不知道你是否可以称之
2023-07-17 15:49:00
Meta祭出三篇最详尽Llama微调指南!千字长文,0基础小白必备
...开的彻彻底底。这不,Meta一连放出三篇技术文章,从大模型适配方法出发,介绍了:如何使用特定领域数据微调LLM,如何确定微调适配自己的用例,以及如何管理良好训练数据集的经验法
2024-08-27 12:03:00
被DeepSeek带火的知识蒸馏 开山之作曾被拒:诺奖得主坐镇都没用
...蒸馏这一概念,能在保证准确率接近的情况下,大幅压缩模型参数量,让模型能够部署在各种资源受限的环境。比如Siri能够出现在手机上,就是用知识蒸馏压缩语音模型。自它之后,大模型用
2025-02-07 17:44:00
全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿
就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍,Llama 3 在 24K GPU 集群上训练
2024-04-20 11:03:00
AI与人争资源怎么破解
...办法缓解AI发展与算力消耗海量资源之间的矛盾?《环球时报》记者就此采访了业内专家。训练AI为何会消耗海量资源随着OpenAI公司发布的聊天机器人ChatGPT的爆红,各国都加
2024-06-29 09:27:00
常见电子邮件分类算法的性能分析
...值向量,进而利用监督学习的方法进行训练。通过训练,模型能够学习到从文本到类别的映射关系,从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的
2024-08-26 09:59:00
深度学习在AI教育中的应用及其关键技术探究
...标准化和归一化以及特征选择和降维技术。最后,介绍了模型构建和训练的关键步骤,包括深度学习模型的选择和设计、模型初始化和参数调整、批量梯度下降和优化算法以及学习率调整和模型评估
2023-09-12 11:30:00
小模型越级挑战14倍参数大模型,谷歌Test-Time端新的Scaling Law
不必增加模型参数,计算资源相同,小模型性能超过比它大14倍的模型!谷歌DeepMind最新研究引发热议,甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队
2024-09-12 09:58:00
ChatGPT走红背后:苦熬五年,三次AI路线迭代|行业观察
...研究显示,参数量爆发的GPT-2,生成的文本几乎与《纽约时报》的真实文章一样令人信服。这也让更多人意识到无监督学习下,大模型的价值所在。伴随着每年一更新的频率,2020年,G
2023-02-08 19:19:00
更多关于科技的资讯:
12日晚,第十届中国设计智造大奖(DIA)颁奖盛典在中国美术学院良渚校区举行。第十届中国设计智造大奖征集自2024年12月12日启动
2025-12-13 07:36:00
全球首个甲骨文智能体“殷契行止” 上线 最懂甲骨文的AI来了
小程序“了不起的甲骨文”,展示甲骨文“其”的不同字形。(本组图/小程序截图)甲骨拓本甲骨文“门”字 甲骨文摹本甲骨文“马”字扫码看视频 厦门网讯 (厦门日报教育工作室首席专家 佘峥 通讯员 王志鹏)你只需往电脑上传一张甲骨图片
2025-12-12 08:28:00
厦门网讯(厦门日报记者 曾嫣艳 通讯员 曾焕滨)昨日,厦门临空经济片区场景创新平台推广暨供需对接与企业路演活动在翔安创新实验室举办
2025-12-12 08:28:00
从流程到质量:制片人为短剧工业化提供的“52集样本”
在短剧行业从 “流量争夺” 转向 “品质与流程双竞争” 的关键阶段,如何在有限周期内平衡效率、成本与成片质量,成为所有制作机构必须破解的难题
2025-12-12 08:29:00
剧想天开,造梦未来|一场关于“儿童剧人物造型”的想象力实验
儿童戏剧,是投射在少年儿童心灵舞台上的第一束光。人物造型,作为这束光中最具象、最绚烂的色彩,不仅定义角色的灵魂,更深刻影响着儿童认知世界的方式与审美情感的塑造
2025-12-12 08:29:00
聚焦“中文+职业”融合:星禾星穗在世界中文大会展示校企合作新范式
在近期举办的2025世界中文大会上,教育企业星禾星穗多维度参与,展现了其在“中文+专业/职业”领域的系统思考与实践成果
2025-12-12 08:30:00
会打拳的机器人带你触摸未来 走进国家“芯火”双创基地象屿园区孵化加速器
元启创新的人形机器人正在打拳。(元启创新 供图)厦门网讯 (厦门日报记者 吴晓菁) “灵犀,灵犀,表演一段佛山醒狮。”昨日
2025-12-12 08:59:00
“数字丝路”赋能文化出海,中国数字文化扬帆全球新蓝海
2025年12月9日下午,一场聚焦数字文化出海与青年文化交流的“共建数字丝绸之路”研讨会在上海举行。中国传媒大学经济与管理学院教授方英
2025-12-12 09:00:00
AI 眼镜似乎成了AI具身智能行业中最“靓”的仔,无论是苹果、谷歌这些大厂,还是国内的科技巨头,纷纷下场。本周二,谷歌在The Android Show活动上宣布
2025-12-12 09:10:00
近日,中国人民银行苏州市分行反洗钱科公布2025年苏州市反洗钱征文比赛评审结果,苏州人保财险撰写的《破局与重构:保险公司在反洗钱履职的实践困境与创新路径研究》一文凭借深刻的问题剖析
2025-12-12 10:46:00
为提升员工职场软实力,优化内部沟通效能,12月7日,常熟人保财险琴川学府组织开展了“赋能职场进阶,高情商沟通与协作”专题培训
2025-12-12 10:56:00
长白时评评论员 刘颂寒声称“下载App必得大额红包”,旁边又用小字解释“仅限新人或以实际情况为准”;宣称“全场5折”,又在大大的“5折”后面跟个极小的“起”字……在日常的消费中
2025-12-12 10:56:00
在当前行业竞争加剧与市场环境多变的背景下,虎丘支公司持续推动降本增效工作,这既是应对挑战的必要举措,也是实现长期稳健经营的重要保障
2025-12-12 10:58:00
劳利近日“水银体温计明年起禁产”的话题引发热议。根据国家药监局此前发布的通知,自2026年1月1日起全面禁止生产含汞体温计产品
2025-12-12 11:01:00
12月4日,常熟人保财险工会策划开展了“云赏秋韵·镜拍虞山”摄影交流分享活动,旨在通过摄影艺术提升员工的审美素养与创造力
2025-12-12 11:03:00