我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型：3小时报错一次

类别：科技发布时间：2024-07-29 11:30:00 来源：浅语科技

快科技7月29日消息，如今的AI大模型规模越来越庞大，动辄成百上千亿参数，训练过程不仅需要数万甚至十几万块GPU加速卡，出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。

Meta在报告中披露，为了训练自己的Llama 3 4050亿参数大模型，使用了包含16384块NVIDIA H100 80GB GPU的集群，一共花了45天，期间居然出现了419次意外报错，平均每3个小时就一次，而一半的错误都和GPU及其自带的HBM3内存有关。

16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型：3小时报错一次

要知道，大模型训练的工作量异常庞大，而且需要高度同步，一次错误就可能导致整个训练工作必须从头再来。

报告显示，为期45天的预训练阶段中，总共出现了466次工作中断，其中47次是计划内的自动维护，419次是意外的，且大部分都来自硬件问题，GPU又是最多的，占了其中的58.7％。

具体来说，148次即30.1％的意外中断来自各种GPU失效(包括NVLink总线)，72次即17.2％来自HBM3内存失效——毕竟，700W的功耗太热了。

还有19次来自GPU SRAM，17次来自GPU处理器，6次来自GPU静默数据错误，6次来自GPU散热和传感器。

其他错误来自软件bug、网线和网卡等等各个方面。

有趣的是，CPU错误只出现了2次。

还好，Llama 3团队非常给力，在这么高的出错几率下，依然维持了超过90％的有效训练时间，而且只有三次GPU报错需要大量人工干预，其他都被自动化管理纠正了。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：上方文Q

文章内容举报

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-29 15:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于时报,模型,训练,参数,训练,错误的资讯：

人类数据，要被OpenAI用完了，然后呢？

...皇统治时期建造的。第 7 代：英国的建筑。在接受《纽约时报》采访时，赖特说："我不认为我能够做我想做的事情有什么问题。它只是对我不起作用。"他补充说："我不知道你是否可以称之

2023-07-17 15:49:00

Meta祭出三篇最详尽Llama微调指南！千字长文，0基础小

...开的彻彻底底。这不，Meta一连放出三篇技术文章，从大模型适配方法出发，介绍了：如何使用特定领域数据微调LLM，如何确定微调适配自己的用例，以及如何管理良好训练数据集的经验法

2024-08-27 12:03:00

被DeepSeek带火的知识蒸馏开山之作曾被拒：诺奖得主坐

...蒸馏这一概念，能在保证准确率接近的情况下，大幅压缩模型参数量，让模型能够部署在各种资源受限的环境。比如Siri能够出现在手机上，就是用知识蒸馏压缩语音模型。自它之后，大模型用

2025-02-07 17:44:00

全球最强开源大模型Llama 3发布：使用15T数据预训练，

就在刚刚，Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。据介绍，Llama 3 在 24K GPU 集群上训练

2024-04-20 11:03:00

常见电子邮件分类算法的性能分析

...值向量，进而利用监督学习的方法进行训练。通过训练，模型能够学习到从文本到类别的映射关系，从而实现对新文本的自动分类。这些算法在垃圾邮件识别、新闻分类、情感分析等领域有着广泛的

2024-08-26 09:59:00

AI与人争资源怎么破解

...办法缓解AI发展与算力消耗海量资源之间的矛盾？《环球时报》记者就此采访了业内专家。训练AI为何会消耗海量资源随着OpenAI公司发布的聊天机器人ChatGPT的爆红，各国都加

2024-06-29 09:27:00

深度学习在AI教育中的应用及其关键技术探究

...标准化和归一化以及特征选择和降维技术。最后，介绍了模型构建和训练的关键步骤，包括深度学习模型的选择和设计、模型初始化和参数调整、批量梯度下降和优化算法以及学习率调整和模型评估

2023-09-12 11:30:00

小模型越级挑战14倍参数大模型，谷歌Test-Time端新的

不必增加模型参数，计算资源相同，小模型性能超过比它大14倍的模型！谷歌DeepMind最新研究引发热议，甚至有人表示这可能就是OpenAI即将发布的新模型草莓所用的方法。研究团队

2024-09-12 09:58:00

ChatGPT走红背后：苦熬五年，三次AI路线迭代｜行业观察

...研究显示，参数量爆发的GPT-2，生成的文本几乎与《纽约时报》的真实文章一样令人信服。这也让更多人意识到无监督学习下，大模型的价值所在。伴随着每年一更新的频率，2020年，G

2023-02-08 19:19:00

更多关于科技的资讯：

杭产数字人“席卷”东南亚

“这款粉底色号非常自然，贴合亚洲人肤色。” 马来西亚TikTok直播间，一位妆容精致的主播正微笑着与观众互动，当用户追问具体颜色

2026-02-15 07:41:00

《视野》杂志启动AI协作创作大赛

中国青年报客户端讯（中青报·中青网记者马富春）2月13日，《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开

2026-02-14 20:52:00

新春走基层丨76秒，一套汽车零部件焊接就能下线

见习记者朱荣琛2月12日，农历腊月廿五。春节临近，廊坊经开区道路两旁挂上了大红灯笼，沿街企业的大门已贴上了大对联。热热闹闹的年味儿在这个城市的大街小巷悄然弥漫

2026-02-14 22:12:00

中国银行隆尧支行提升春节期间自助服务效能

针对春节期间服务需求，中国银行隆尧支行近日聚焦自助服务渠道，启动了专项保障工作。针对县域网点分布广、运维半径长的特点，隆尧支行依托历史运行数据

2026-02-14 22:17:00

飞来峰丨我们需要怎样的科学企业家？

领航新质生产力——2025浙江省科学企业家这个专题，是省科协和潮新闻联合举办的，已陆续推出了近二十位具有科技创新精神的浙商企业家

2026-02-14 22:34:00

深圳地铁陪你「返屋企」，跨场景互动刷新通勤与春运体验

近日，深圳地铁迎来了新春限定数字人，结合AI原创音乐与互动体验，走到了春运最前沿。这是深圳地铁数字IP首次以完整的互动形态沉浸式接入城市公共空间

2026-02-14 20:26:00

太原“新春招聘月”将于正月初八启幕

2月14日消息，2026年“新春招聘月”系列活动将于2月24日(正月初八)在五一广场太原人才大市场(迎泽区零工示范站)正式启幕

2026-02-14 17:37:00

星火空间完成数千万天使+轮融资核心产品“进化一号”发动机完

大皖新闻讯此前关于合肥要造火箭的消息引发外界广泛关注，背后则是合肥星火空间科技有限公司（以下简称“星火空间”）落户合肥新站高新区

2026-02-14 18:45:00

2026雄安国际医疗大健康技术应用大赛报名啦国医大师李佃贵

国医大师李佃贵为2026雄安国际医疗大健康技术应用大赛发声推介。他表示，当下是中西医并重、传统智慧与现代科技深度融合的时代，中医核心思想与大健康领域发展目标高度契合，期待中医药领

2026-02-14 19:13:00

中国科大取得重要突破首次实现量子李雅普诺夫指数的精确提取

大皖新闻讯 ”这一结果意义重大，为观测混沌的量子世界提供了全新视角。”相关人员如此评价说。2月14日，大皖新闻记者从中国科学技术大学获悉

2026-02-14 17:35:00

山东移动临沂分公司：技术赋能智慧生活，服务贴近百姓需求

鲁网2月14日讯为提升居民网络使用体验，助力智慧社区建设，近日，山东移动临沂分公司装维团队深入多个社区，开展 “移动装维进社区”专项服务活动

2026-02-14 15:10:00

山东移动临沂分公司：智慧装维服务升级，开启家庭网络新体验

鲁网2月14日讯“您好，我是中国移动装维工程师张师傅，现在上门为您检测网络，这是我的工作证件。”周六上午9点，临沂北城新区书香苑小区的王女士刚结束早间会议

2026-02-14 15:11:00

字节跳动发布豆包大模型2.0，主打真实世界复杂任务执行力

在连续发布Seedance 2.0视频模型、Seedream 5.0 Lite图像模型之后，2月14日，字节跳动宣布推出豆包大模型2

2026-02-14 15:35:00

从米兰冬奥会看全球消费趋势：为何“由你”成了2026年的新叙

过去十年，全球化品牌的策略多为“We are the best”，强调品牌的权威感。但现在的趋势是“Its your turn”

2026-02-14 16:20:00

千问大免单再加3天，邀请全国人民体验AI买电影票，激活春节A

2月14日，千问突然宣布免单再加3天，接入大麦、飞猪，邀请全国人民体验AI买电影票、门票等新功能，激活春节AI新消费。从今天下午3点到大年初一

2026-02-14 16:36:00

头条订阅服务

16384块NVIDIA H100训练Meta Llama3 4050亿参数大模型：3小时报错一次