• 我的订阅
  • 科技

全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿

类别:科技 发布时间:2024-04-20 11:03:00 来源:学术头条

就在刚刚,Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。

据介绍,Llama 3 在 24K GPU 集群上训练,使用了 15T 的数据,提供了 8B 和 70B 的预训练和指令微调版本,可以支持广泛的应用。

同时,Llama 3 在广泛的行业基准测试中达到了 SOTA,并提供了新的功能,如改进的推理能力。

全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿

最强开源 LLM 来了

Meta 官方博客写道,“得益于预训练和后训练的改进,我们的预训练和指令微调模型是目前 8B 和 70B 参数尺度下最好的模型。”

他们表示,后期训练程序的改进大大降低了 Llama 3 的错误拒绝率,提高了对齐度,并增加了模型响应的多样性。他们还发现,推理、代码生成和指令跟随等能力也有了很大提高,这使得 Llama 3 的可操控性更强。

与 Gemma 7B、Mistral 7B Instruct、Gemini Pro 1.5 和 Claude 3 等先进模型相比,Llama 3 在多项标准测试基准上有着更好的表现。

全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿

此外,Meta 也测试了 Llama 3 在真实世界场景中的性能。他们专门开发了一个新的高质量人类评估集,该评估集包含 1800 个提示,涵盖 12 种关键用例(征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色/人物角色、开放式问题解答、推理、改写和总结)。

在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的对比中, Llama 3 同样有着更好的表现。

全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿

人类标注者根据该评估集进行的偏好排名,凸显了 Llama 3 70B 指令跟随模型与真实世界中同等规模的竞争模型相比的强大性能。

Llama 3 的预训练模型还为这类规模的 LLM 模型建立了新的 SOTA。

全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿

Llama 3 是如何炼成的?

模型架构、预训练数据、扩大预训练规模和指令微调,是 Llama 3 成为最强开源 LLM 的四个关键要素。其中:

1)模型架构

Llama 3 采用了相对标准的纯解码器 transformer 架构。与 Llama 2 相比,Llama 3 得到了几项关键改进。Llama 3 使用了一个 128K token 的 tokenizer,它能更有效地编码语言,从而大幅提高模型性能。为了提高 Llama 3 模型的推理效率,Meta 在 8B 和 70B 大小的模型中都采用了分组查询关注(grouped query attention,GQA)。他们在 8192 个 token 的序列上对模型进行了训练,并使用掩码来确保自注意力不会跨越文档边界。

2)训练数据

Meta 表示,要训练出最佳的语言模型,最重要的是策划一个大型、高质量的训练数据集。

据介绍,Llama 3 在超过 15T 的 token 上进行了预训练,训练数据集是 Llama 2 的七倍,包含的代码数量也是 Llama 2 的四倍。

为了应对多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。

为了确保 Llama 3 在最高质量的数据上进行训练,Meta 开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。他们发现,前几代 Llama 在识别高质量数据方面的表现令人惊讶,因此使用 Llama 2 为文本质量分类器生成训练数据。

此外,为评估在最终预训练数据集中混合不同来源数据的最佳方法,他们还进行了大量实验,使得他们能够选择一种数据组合,确保 Llama 3 在各种使用情况下都能表现出色,包括琐事问题、STEM、编码、历史知识等。

3)扩大预训练规模

为了在 Llama 3 模型中有效利用预训练数据,Meta 为下游基准评估制定了一系列详细的 scaling laws,这些 scaling laws 使他们能够选择最佳的数据组合,并就如何更好地使用训练计算做出最佳决定。

重要的是,在实际训练模型之前,scaling laws 允许他们预测最大模型在关键任务上的性能(例如,在 HumanEval 基准上评估的代码生成)。这有助于 Llama 3 在各种用例和功能中都能发挥强大的性能。

在开发 Llama 3 的过程中,他们对 scaling 行为进行了一些新的观察。例如,虽然 8B 参数模型的 Chinchilla 最佳训练计算量相当于 ~200B token,但他们发现,即使模型在多两个数量级的数据上进行训练后,其性能仍在不断提高。Llama 3 8B 和 70B 参数模型在经过多达 15T token 的训练后,其性能仍呈对数线性增长。

为了训练最大的 Llama 3 模型,Meta 结合了三种并行化方式:数据并行化、模型并行化和管道并行化。当同时在 16K GPU 上进行训练时,他们最高效的实现实现了每 GPU 超过 400 TFLOPS 的计算利用率。他们在两个定制的 24K GPU 集群上进行了训练运行。为了最大限度地延长 GPU 的正常运行时间,他们开发了一种新的训练堆栈,可以自动检测、处理和维护错误。他们还大大改进了硬件可靠性和无声数据损坏检测机制,并开发了新的可扩展存储系统,减少了检查点和回滚的开销。这些改进使总体有效训练时间缩短了 95% 以上,与 Llama 2 相比,将 Llama 3 的训练效率提高了约三倍。

4)指令微调

为了在聊天用例中充分释放预训练模型的潜力,Meta 还对指令微调方法进行了创新。他们的后期训练方法结合了监督微调(SFT)、拒绝采样、近似策略优化(PPO)和直接策略优化(DPO)。在 SFT 中使用的提示以及在 PPO 和 DPO 中使用的偏好排序的质量,对排列模型的性能有着极大的影响。

另外,通过 PPO 和 DPO 学习偏好排名也大大提高了 Llama 3 在推理和编码任务中的性能。他们发现,如果向模型提出一个它难以回答的推理问题,模型有时会生成正确的推理轨迹:模型知道如何得出正确答案,但不知道如何选择答案。对偏好排序的训练能让模型学会如何选择答案。

模型参数超 400B 的 Llama 3?

Meta 官方表示,Llama 3 8B 和 70B 模型只是 Llama 3 系列模型的一部分,他们后续还将推出更多版本,包括模型参数超过 400B 的 Llama 3 版本(目前仍在训练中)。

全球最强开源大模型Llama 3发布:使用15T数据预训练,最大模型参数将超4000亿

Meta 官方表示,在接下来的几个月中,他们预计将推出新功能(如多模态)、更长的上下文窗口、更多不同大小版本的模型和更强的性能,以及 Llama 3 研究论文。

另外,Llama 3 模型将很快在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上提供,并得到 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 硬件平台的支持。

此外,基于 Llama 3,Meta 也发布了他们的全新 AI 助手 Meta AI。Meta 表示,“得益于我们在 Llama 3 上取得的最新进展,Meta AI 比以往任何时候都更智能、更快速、更有趣。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-20 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球首个亿级参数量的地震波大模型在蓉正式发布,年底公测
...国地震局地球物理研究所以及清华大学联合开发的谛听大模型发布会”在国家超算成都中心举行。现场,全球首个亿级参数量的专业地震数据处理大模型——“谛听”地震波大模型正式发布,标志着
2024-07-29 09:29:00
全球首个!中国电信完成千卡、千亿参数模型500公里联合训练试商用
...、北京电信成功了 完成业内首个1024卡、千亿参数商用大模型的分布式联合训练真实用户试商用。通过天津市武清区到北京市大兴区瀛海镇之间的真实光路环回,实现了500公里长距互联分
2025-01-23 13:32:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...而,构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外,高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日,由来自普林斯顿大学、格里菲斯
2024-10-23 09:55:00
阿里Qwen3登顶全球最强开源模型,用8款模型夺回中国AI话语权
出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型,阿里通义又上新!4月29日一大早,阿里开源发布Qwen3
2025-04-29 16:17:00
小模型正在成为AI界的新宠
大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼(Mustafa Suleyman)预测
2024-06-24 09:42:00
马斯克打脸OpenAI!全球最大模型Grok-1开源
...:林志佳马斯克(Elon Musk)真的实现了他的承诺——把大模型Grok-1开源了。钛媒体App获悉,北京时间3月18日早上
2024-03-20 13:44:00
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合
2024-11-04 16:00:00
李彦宏称开源赶不上闭源?Meta发布最强开源模型,马斯克评价“还不错”
...家坚持开源的社交巨头,又默默放出了最新一代的开源大模型Llama3。美当地时间4月18日,Meta在官网上发布了两款开源大模型
2024-04-20 11:00:00
训练一次ChatGPT,“折寿”3000辆特斯拉
...聊天应用ChatGPT风靡全球后,立即在全球范围内掀起了大模型开发的热潮。但准备参战的玩家们很快便认清现实,这不过是一场由巨头主宰的游戏,其中的关键,就是能耗。知名计算机专家
2023-04-17 19:00:00
更多关于科技的资讯:
□南京日报/紫金山新闻记者张甜甜 通讯员夏俊林娜10月31日,南京市统计局、国家统计局南京调查队发布南京经济“三季报”
2025-11-01 09:44:00
上海虹桥医院癫痫专病诊疗新高度:个性化方案,全程化守护
癫痫发作的不可预测性及其对记忆、情绪、社交、学业与工作等方面的深远影响,构成了广大患者面临的核心挑战。诊断的复杂、治疗方案的普适性困境以及持续管理的缺失
2025-11-01 10:05:00
第十季炒股大赛冠军诞生:光伏逆变器行业龙头涨幅登顶
在《大众证券报》读者俱乐部第十季炒股比赛中,选手“馨小憩”以159.84元/股推荐的阳光电源(300274),荐股涨幅19
2025-11-01 11:00:00
近日,国内首款真空高压铸造人形机器人腿部骨骼零部件在中信戴卡股份有限公司研制成功并生产下线,首批20件量产产品已发往国内客户
2025-11-01 11:10:00
视频制作:陈希河北新闻网讯(记者 李春炜)随着AI技术飞速发展,在今年的双十一期间,AI笔记本也成为爆款产品。近日,记者走进安徽合肥的联想PC设备研发和制造基地
2025-11-01 15:39:00
10月30日,“版权强企燕赵行”活动走进保定市高阳县。活动通过进企问需、校企对接、版权法律法规科普、版权服务平台及版权区块链平台推介等方式
2025-11-01 15:47:00
10月30日,在由盖世汽车主办的2025第七届“金辑奖”颁奖盛典上,东软集团凭借在智能汽车互联领域持续的产品创新与卓越的全球化实践
2025-11-01 16:16:00
钻戒定制怎么选?2025五大宝藏品牌全解析,一篇避坑
准备结婚选钻戒,却被天然钻的高价劝退?想入手培育钻戒,又怕遇到“参数虚标”“售后无保障”的问题?2025年培育钻石市场规模突破300亿元
2025-11-01 16:17:00
第三十七届中国仿真大会在合肥市庐阳区召开
大皖新闻讯 11月1日,第三十七届中国仿真大会在合肥市庐阳区召开,大会以“数智仿真、新质发展”为主题,吸引全国约千名学者与业界代表
2025-11-02 00:04:00
“科大讯飞1024科博展”亮点抢先看!现场黑科技拉满,免费开放
大皖新闻讯 想让AI陪你对弈吗?想穿越时空与孙悟空来场“智慧交锋”吗?第八届世界声博会暨2025科大讯飞全球1024开发者节科博展将于11月2日至6日在合肥体育中心启幕
2025-11-02 00:04:00
出海再提速!锦江酒店(中国区)宣布旗下7天酒店出海,同日签约10个项目
锦江酒店(中国区)规模化出海再次迎来关键节点。10月31日,其于深圳正式宣布,国民品牌7天酒店将进军东南亚市场。这是继今年8月底
2025-11-01 10:02:00
10月28日,亚洲国际动力传动与控制技术展览会(PTC ASIA 2025)在上海新国际博览中心启幕。近1800家海内外知名展商齐聚
2025-11-01 07:03:00
正式发布!视源股份牵头制定《娱乐用车载显示系统图像质量技术规范》团体标准
2025年10月23日,在全国音频、视频及多媒体系统与设备标准化技术委员会(SAC/TC 242)商用显示标准研究组第六次全会暨标准研讨会上
2025-10-31 08:20:00
中感集团煤仓安全综合解决方案亮相中国国际煤炭采矿展,以系统性创新重塑矿山作业安全
在北京举行的第21届中国国际煤炭采矿技术交流与设备展览会上,中感集团创新展示的“煤仓安全综合解决方案”引发行业高度关注
2025-10-31 08:51:00
人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲
2025中国国际数字经济博览会在石家庄国际会展中心开幕。科杰科技董事长于洋受邀出席2025首席数据官峰会论坛,并作主题为《人工智能产业决胜与 Data&
2025-10-31 08:51:00