我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

全球最强开源大模型Llama 3发布：使用15T数据预训练，最大模型参数将超4000亿

类别：科技发布时间：2024-04-20 11:03:00 来源：学术头条

就在刚刚，Meta 发布了其最先进开源大型语言模型的下一代产品——Llama 3。

据介绍，Llama 3 在 24K GPU 集群上训练，使用了 15T 的数据，提供了 8B 和 70B 的预训练和指令微调版本，可以支持广泛的应用。

同时，Llama 3 在广泛的行业基准测试中达到了 SOTA，并提供了新的功能，如改进的推理能力。

全球最强开源大模型Llama 3发布：使用15T数据预训练，最大模型参数将超4000亿

最强开源 LLM 来了

Meta 官方博客写道，“得益于预训练和后训练的改进，我们的预训练和指令微调模型是目前 8B 和 70B 参数尺度下最好的模型。”

他们表示，后期训练程序的改进大大降低了 Llama 3 的错误拒绝率，提高了对齐度，并增加了模型响应的多样性。他们还发现，推理、代码生成和指令跟随等能力也有了很大提高，这使得 Llama 3 的可操控性更强。

与 Gemma 7B、Mistral 7B Instruct、Gemini Pro 1.5 和 Claude 3 等先进模型相比，Llama 3 在多项标准测试基准上有着更好的表现。

此外，Meta 也测试了 Llama 3 在真实世界场景中的性能。他们专门开发了一个新的高质量人类评估集，该评估集包含 1800 个提示，涵盖 12 种关键用例（征求建议、头脑风暴、分类、封闭式问题解答、编码、创意写作、提取、角色/人物角色、开放式问题解答、推理、改写和总结）。

在与 Claude Sonnet、Mistral Medium 和 GPT-3.5 的对比中， Llama 3 同样有着更好的表现。

人类标注者根据该评估集进行的偏好排名，凸显了 Llama 3 70B 指令跟随模型与真实世界中同等规模的竞争模型相比的强大性能。

Llama 3 的预训练模型还为这类规模的 LLM 模型建立了新的 SOTA。

Llama 3 是如何炼成的？

模型架构、预训练数据、扩大预训练规模和指令微调，是 Llama 3 成为最强开源 LLM 的四个关键要素。其中：

1）模型架构

Llama 3 采用了相对标准的纯解码器 transformer 架构。与 Llama 2 相比，Llama 3 得到了几项关键改进。Llama 3 使用了一个 128K token 的 tokenizer，它能更有效地编码语言，从而大幅提高模型性能。为了提高 Llama 3 模型的推理效率，Meta 在 8B 和 70B 大小的模型中都采用了分组查询关注（grouped query attention，GQA）。他们在 8192 个 token 的序列上对模型进行了训练，并使用掩码来确保自注意力不会跨越文档边界。

2）训练数据

Meta 表示，要训练出最佳的语言模型，最重要的是策划一个大型、高质量的训练数据集。

据介绍，Llama 3 在超过 15T 的 token 上进行了预训练，训练数据集是 Llama 2 的七倍，包含的代码数量也是 Llama 2 的四倍。

为了应对多语言使用情况，Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据，涵盖 30 多种语言。

为了确保 Llama 3 在最高质量的数据上进行训练，Meta 开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。他们发现，前几代 Llama 在识别高质量数据方面的表现令人惊讶，因此使用 Llama 2 为文本质量分类器生成训练数据。

此外，为评估在最终预训练数据集中混合不同来源数据的最佳方法，他们还进行了大量实验，使得他们能够选择一种数据组合，确保 Llama 3 在各种使用情况下都能表现出色，包括琐事问题、STEM、编码、历史知识等。

3）扩大预训练规模

为了在 Llama 3 模型中有效利用预训练数据，Meta 为下游基准评估制定了一系列详细的 scaling laws，这些 scaling laws 使他们能够选择最佳的数据组合，并就如何更好地使用训练计算做出最佳决定。

重要的是，在实际训练模型之前，scaling laws 允许他们预测最大模型在关键任务上的性能（例如，在 HumanEval 基准上评估的代码生成）。这有助于 Llama 3 在各种用例和功能中都能发挥强大的性能。

在开发 Llama 3 的过程中，他们对 scaling 行为进行了一些新的观察。例如，虽然 8B 参数模型的 Chinchilla 最佳训练计算量相当于 ~200B token，但他们发现，即使模型在多两个数量级的数据上进行训练后，其性能仍在不断提高。Llama 3 8B 和 70B 参数模型在经过多达 15T token 的训练后，其性能仍呈对数线性增长。

为了训练最大的 Llama 3 模型，Meta 结合了三种并行化方式：数据并行化、模型并行化和管道并行化。当同时在 16K GPU 上进行训练时，他们最高效的实现实现了每 GPU 超过 400 TFLOPS 的计算利用率。他们在两个定制的 24K GPU 集群上进行了训练运行。为了最大限度地延长 GPU 的正常运行时间，他们开发了一种新的训练堆栈，可以自动检测、处理和维护错误。他们还大大改进了硬件可靠性和无声数据损坏检测机制，并开发了新的可扩展存储系统，减少了检查点和回滚的开销。这些改进使总体有效训练时间缩短了 95% 以上，与 Llama 2 相比，将 Llama 3 的训练效率提高了约三倍。

4）指令微调

为了在聊天用例中充分释放预训练模型的潜力，Meta 还对指令微调方法进行了创新。他们的后期训练方法结合了监督微调（SFT）、拒绝采样、近似策略优化（PPO）和直接策略优化（DPO）。在 SFT 中使用的提示以及在 PPO 和 DPO 中使用的偏好排序的质量，对排列模型的性能有着极大的影响。

另外，通过 PPO 和 DPO 学习偏好排名也大大提高了 Llama 3 在推理和编码任务中的性能。他们发现，如果向模型提出一个它难以回答的推理问题，模型有时会生成正确的推理轨迹：模型知道如何得出正确答案，但不知道如何选择答案。对偏好排序的训练能让模型学会如何选择答案。

模型参数超 400B 的 Llama 3？

Meta 官方表示，Llama 3 8B 和 70B 模型只是 Llama 3 系列模型的一部分，他们后续还将推出更多版本，包括模型参数超过 400B 的 Llama 3 版本（目前仍在训练中）。

Meta 官方表示，在接下来的几个月中，他们预计将推出新功能（如多模态）、更长的上下文窗口、更多不同大小版本的模型和更强的性能，以及 Llama 3 研究论文。

另外，Llama 3 模型将很快在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上提供，并得到 AMD、AWS、Dell、Intel、NVIDIA 和 Qualcomm 硬件平台的支持。

此外，基于 Llama 3，Meta 也发布了他们的全新 AI 助手 Meta AI。Meta 表示，“得益于我们在 Llama 3 上取得的最新进展，Meta AI 比以往任何时候都更智能、更快速、更有趣。”

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-04-20 11:45:06

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于模型,训练,参数,数据,全球,模型的资讯：

全球首个亿级参数量的地震波大模型在蓉正式发布，年底公测

...国地震局地球物理研究所以及清华大学联合开发的谛听大模型发布会”在国家超算成都中心举行。现场，全球首个亿级参数量的专业地震数据处理大模型——“谛听”地震波大模型正式发布，标志着

2024-07-29 09:29:00

全球首个！中国电信完成千卡、千亿参数模型500公里联合训练试

...、北京电信成功了完成业内首个1024卡、千亿参数商用大模型的分布式联合训练真实用户试商用。通过天津市武清区到北京市大兴区瀛海镇之间的真实光路环回，实现了500公里长距互联分

2025-01-23 13:32:00

全球首次！时序大模型突破十亿参数，华人团队发布Time-Mo

...而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。近日，由来自普林斯顿大学、格里菲斯

2024-10-23 09:55:00

阿里Qwen3登顶全球最强开源模型，用8款模型夺回中国AI话

出品 | 搜狐科技作者 | 梁昌均编辑 | 杨锦一口气开源8款模型，阿里通义又上新！4月29日一大早，阿里开源发布Qwen3

2025-04-29 16:17:00

小模型正在成为AI界的新宠

大模型的发展已经进入了万亿级参数时代。DeepMind 联合创始人穆斯塔法・苏莱曼（Mustafa Suleyman）预测

2024-06-24 09:42:00

马斯克打脸OpenAI！全球最大模型Grok-1开源

...：林志佳马斯克（Elon Musk）真的实现了他的承诺——把大模型Grok-1开源了。钛媒体App获悉，北京时间3月18日早上

2024-03-20 13:44:00

大模型新趋势之MoE：现状、挑战及研究方向

2024年，全球主流企业加快推出MoE大模型，1-5月发布千亿以上大模型均采用MoE优化架构，且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势，更适合

2024-11-04 16:00:00

李彦宏称开源赶不上闭源？Meta发布最强开源模型，马斯克评价

...家坚持开源的社交巨头，又默默放出了最新一代的开源大模型Llama3。美当地时间4月18日，Meta在官网上发布了两款开源大模型

2024-04-20 11:00:00

训练一次ChatGPT，“折寿”3000辆特斯拉

...聊天应用ChatGPT风靡全球后，立即在全球范围内掀起了大模型开发的热潮。但准备参战的玩家们很快便认清现实，这不过是一场由巨头主宰的游戏，其中的关键，就是能耗。知名计算机专家

2023-04-17 19:00:00

更多关于科技的资讯：

300亿年误差不超过一秒！中国科大实现锶原子光晶格钟新突破

大皖新闻讯 3月7日，大皖新闻记者从中国科学技术大学获悉，近期该校潘建伟、戴汉宁、陈宇翱、彭承志等科研人员在光钟研制方面取得里程碑式进展

2026-03-07 17:23:00

“晋e行”注册用户突破300万

3月6日消息，“晋e行”作为山西高速公路出行服务的“数字大脑”，自2022年正式上线以来，以数字赋能为核心，标准化运营为抓手

2026-03-07 18:15:00

政声直达｜2026雄安国际机器人大赛征集机器人领域新技术新产

2026雄安国际机器人大赛征集机器人领域新技术新产品新场景。

2026-03-07 18:40:00

【财说明白】智能服务，未来像“水电网”一样方便

中新经纬3月7日电 (谢婧雯)你下班了，站在公司楼下，掏出手机。以前打车，要打开打车软件、输入目的地、比价、选车型、确认呼叫

2026-03-07 18:52:00

春晚机器人表演带火租赁市场厦门景区商超一机难求

东南网3月7日讯（海峡导报记者孙春燕／文陆军航／图）马年央视春晚，人形机器人的“赛博表演”惊艳全球，也带火了线下租赁市场

2026-03-07 14:21:00

【读图】回眸十四五，最感人至深的是…… 扫码阅读手机版

2026全国两会（策划郁建锋、王聪文案董琳晶设计贾静、杜珊、张晓钰）

2026-03-07 14:56:00

视频丨一部手机，链动智造千亿级产业集群

大河网讯一束微光照亮“智造”星系，璀璨的电子信息产业在郑州航空港拔节生长。在这里，产业星光汇聚成河，超千亿级集群汇聚了从芯片研发到整机组装的产业链

2026-03-07 16:14:00

全国人大代表刘庆峰：未来AI硬件会走进千家万户

大皖新闻讯 2026年是“十五五”开局之年，也是人工智能深度赋能千行百业的关键一年。正在召开的2026年全国两会上，人工智能毫无意外地成为代表委员们热议的高频词

2026-03-07 16:48:00

代表委员请留步｜侯景滨代表：人工智能+，加出河北新质生产力

视频摄制：冯阳霍艳恩赵新宇王思宁

2026-03-07 10:02:00

中国青年医师IP孵化计划在杭州启动

2026年3月5日，以“AI链全球生态共生”为主题的中国青年医师IP孵化计划在杭州启动。本次活动来自全国多所医院的专家

2026-03-07 10:40:00

租金两块钱一分钟 “共享机器人”即将入驻杭州商场、电影院

星枢智能的“机器人家族” 记者杨亦淇摄一台售价20多万元的春晚同款人形机器人，现在花5000元就能租一天；如果是基础款

2026-03-07 08:05:00

人工智能技术对金融机构运营效率的影响

摘要：随着信息技术的快速发展，人工智能技术逐渐渗透金融机构的各类业务与管理环节，对传统金融运作模式产生了深刻影响。金融机构在激烈竞争和成本约束的背景下

2026-03-07 05:46:00

上线智能应用防控消防隐患

近日，省应急管理厅举行“AI+工业企业火情预警（火眼哨兵）”“AI+烟花爆竹监管（烟花卫士）”应用上线发布仪式。浙江拥有30余万家工业企业

2026-03-07 07:34:00

微视频丨13年后复产的老胶卷成年轻人新宠——传统产业升级也有

视频摄制：张晶、赵新宇、朱泊宇

2026-03-07 07:47:00

成为OPC很简单，但成功OPC很困难代表委员热议“一人公司

今年的全国两会上，“一人公司”（One Person Company，简称OPC）成为代表委员们热议的话题。全国人大代表

2026-03-07 07:04:00

头条订阅服务

全球最强开源大模型Llama 3发布：使用15T数据预训练，最大模型参数将超4000亿