我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

类别：科技发布时间：2024-07-29 09:33:00 来源：新智元

【新智元导读】最近，Latent Space发布的播客节目中请来了Meta的AI科学家Thomas Scialom。他在节目中揭秘了Llama 3.1的一些研发思路，并透露了后续Llama 4的更新方向。

刚刚发布的开源「巨无霸」Llama 3.1虽然自带论文，但依旧激起了广大网友强烈的好奇心和求知欲。

Llama 3.1都使用了哪些数据？其中有多少合成数据？为什么不使用MoE架构？

后训练与RLHF流程是如何进行的？模型评估是如何进行的？

我们什么时候可以见到Llama 4？Meta是否会发展agent？

恰逢Llama 3.1刚刚发布，Meta科学家就现身播客节目Latent Space，秉持着开源分享的精神，对以上问题都作出了清晰的回答。

受访者Thomas Scialom现任Meta的人工智能研究科学家，领导了Llama 2和Llama 3的后训练，并参加了CodeLlama、Toolformer、Bloom、GAIA等多个项目。

以下是采访内容的节选。

Llama 3.1研发思路

如何决定参数规模

其实LLM的参数规模的选择需要考虑多种因素，包括scaling law、训练时间、GPU和硬件的约束等等。

而且，不能只考虑Meta所用的硬件，还有整个AI社区，并不是每个人都在使用H100，还有很多不同的GPU型号和显存大小。

再加上，目前广泛应用于推理阶段的量化技术，比如可以用FP16或FP8精度，这会改变推理和训练/微调成本的比重。

以上这些限制因素，都让模型规模的选择成为一个非常具有挑战性的问题。

总体而言，着重考虑的是目前已有的算力，在Scaling Law和训练token总量的限制内，我们进行了一些权衡，找到了一个有合适推理效率的平衡点。

之所以做到405B这么大规模，其实原因很简单——我们想做出最好的模型，一个真正与GPT-4比肩的开源模型。（现在是GPT-4o了）虽然目前还没有完全达到目标，但差距正在逐渐缩小。

正如小扎之前宣布的，Meta囤积了越来越多的GPU，因此下一代模型将继续扩展。

对于网友们所说的，无法在家里运行Llama 3.1，这很有可能是事实。但如果进行FP8量化，依旧可以用128k的上下文窗口在单节点上运行。

从另一个角度来看，我们还是要寄希望于开源社区的力量。Llama 1和Llama 2刚刚发布时，大家同样认为模型太大了，但两周后它就能在树莓派上运行了。

虽然不能确定Llama 3.1也会和以前一样，但通过将模型开源，我们希望可以看到类似的趋势。

重新审视Scaling Law

我们所熟知的Scaling Law主要关注两个维度，即模型权重和训练量，包括训练时的step、epoch和token总量等等。

基本上，论文的发现就是，模型规模是重要因素。因此，GPT-3犯了一个错误——模型参数量远远超出了token总量的要求。

论文地址：https://arxiv.org/pdf/2001.08361

这也正是之后的Chinchilla所发现和强调的，相比最初的Scaling Law，他们更强调了训练数据token总量的重要性。

论文地址：https://arxiv.org/pdf/2203.15556

Chinchilla论文想要找到「算力最优化」的训练方式，认为在有限算力的前提下，存在一个模型参数量和训练token数的最佳比率。

如果你希望在论文的基准测试中得到最优模型，那么Chinchilla本身没有问题；但Meta要发布的旗舰模型还需要更高的推理效率。

因此，我们选择增加训练的token数，并增加训练时长，让模型达到「过度训练」的状态。

这不符合Chinchilla定律，也会付出额外的算力，但我们希望让模型有更好的推理表现，从而更多地应用于开源社区，因此需要做出一些超越Chinchilla定律的选择。

事实上，这也是Llama 1的研发人员所做的事情。我所说的「不要陷入Chinchilla陷阱」就是这个意思。

模型架构

相比Llama 2， Llama 3的架构没有太多变化，但是在扩展数据的规模和质量方面，我们作出了很多努力，数据集从2T token增加到15T token。

架构方面，我认为将来会有更多改进，甚至不仅仅局限于Transformer。

目前的Tranformer架构仍然缺少灵活性，比如，我认为对每个token使用等量的算力是没有意义的，因此还有很多研究的空间。

关于「为什么不使用MoE架构」，这个是我经常听到的质疑，其中的原因有多个方面。

我认为，稠密模型只是MoE的一个特定变体，你可以把它看作只有一个专家的MoE，因此这只是一个还没有优化的超参数而已。

但我们目前正在进行一些工作，未来可能会在这个超参数上继续探索。

关于合成数据

关于数据，我的直觉是，公开互联网上充斥着过多文本垃圾，用这些token训练模型是对算力的浪费。

在为Llama 2抓取数据时，我们就使用Llama作为分类器，用于过滤出高质量的token，并打上主题标签，比如这段文本是和数学、法律还是政治有关，这样可以实现主题的均衡和多样性。

Llama 3的后训练过程完全没有使用人工书写的答案，仅依靠从Llama 2获得的合成数据。

我非常看好合成数据，而且随着模型性能提升，情况也会变得更好。

LLM的评估与改进

目前的模型研发有一个趋势，就是针对基准分数进行模型的后训练改进。

模型评估是一个开放的研究问题，目前还没有很好的答案，尤其是面对同一个模型有如此多的功能。

当你试图提升模型在某个基准上的分数时，这就不再是一个好的基准了，因为可能会存在过拟合，分数提升未必可以迁移成为相似的能力。

因此，语言模型的评估，尤其是训练后评估，是一个非常困难的问题。我们尝试过很多方法，包括用奖励模型，model-as-a-judge、使用多样化的提示、多样化的基准测试……

我感觉为Llama 2进行评估要比今天容易多了，当时的模型性能比现在相差很多。现在的模型变得如此好，以至于很难找到能击溃模型的合适prompt，进行性能比较并查看边界情况。

比较模型的其中一个好办法就是进行多轮RLHF。每次上传新模型时，只需在所有带标注的prompt上进行采样，让新旧模型分别回答，再自动计算胜率。

Llama 4与Agent

Meta已经在6月开始训练Llama 4模型，而且重点可能围绕agent技术，并且已经在Toolformer等agent工具上进行了一些工作。

论文地址：https://arxiv.org/pdf/2302.04761

但同时也要意识到，如果没有一个优秀的指令模型，Toolformer扩展和未来能力也会大大受限，因此我们研发了Llama 2和Llama 3。

此外，Meta也曾在一年前发布GAIA基准，用于评估模型解决现实世界问题的能力。

在这个基准的排行榜上，基于GPT-3的agent系统得分几乎接近于零，但GPT-4驱动的系统就有很好的成绩，比如30%～40%，这其中就体现出模型的智力差距。

在我看来，agent的各种能力，比如函数调用、遵循复杂指令、预先规划、多步骤推理等等，和模型的这种智力差距是类似的。

论文地址：https://arxiv.org/pdf/2311.12983

现在有了足够强大的Llama 3，我将重新专注于agent的构建。如果能实现良好的模型互联，形成一个复杂的agnent系统，将获得几个数量级的扩展，从而实现规划、回溯、网页导航、代码执行等多种功能。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-29 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于科学家,训练,科学,模型,训练,基准的资讯：

苹果开源7B模型，训练过程数据集一口气全给了，网友：很不像苹

...正的科学研究需求。而苹果这次竟然来真的！！就连NLP科学家、AutoAWQ创建者也发出惊叹：Apple发布了一个击败Mistral 7B的模型

2024-07-23 09:33:00

「学术版ChatGPT」登场！Ai2打造科研效率神器Open

...构发布了最新的OpenScholar系统，使用检索增强的方法帮助科学家进行文献搜索和文献综述工作，而且做到了数据、代码

2024-11-27 13:33:00

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

...在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。AI科学家们为了解决这一难题，可谓是绞尽脑汁。目前来看，合成数据或许就是大模型的未来，也成为业界公认的解决之法。就连英伟

2024-08-20 13:44:00

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

...细技术报告。消息一出，社交媒体瞬间炸了锅。英伟达AI科学家Jim Fan就第一时间转发评论：这是OpenAI王座的有力竞争者

2023-12-07 09:35:00

清华UCSD提出全新微调方法，8B小模型媲美GPT-4o！科

...工具和依赖内部知识之间进行判断——就像训练一位年轻科学家如何在相信自己计算的同时知道何时咨询专业设备——可能比单纯地卷AI计算能力更为重要

2024-12-03 13:34:00

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...多历史记录。首先，o1 就是此前 OpenAI 从山姆・奥特曼到科学家们一直在「高调宣传」的草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比

2024-09-13 16:42:00

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nat

LLM可以比科学家更准确地预测神经学的研究结果！最近，来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准BrainBench

2024-12-02 09:51:00

AI科学家太多，谁靠谱一试便知！普林斯顿新基准CORE-Be

【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试，通过270个基于90篇跨学科科学论文的任务，可评估AI智能体在计算可重复性方面的表现，最简单任务的准确率可以达到6

2024-09-26 13:38:00

o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

...过人类时，AGI的未来变得更加明朗」。来自艾伦研究所的科学家Nathan Lambert对这个视频，做了一个精彩亮点的总结

2024-09-23 09:50:00

更多关于科技的资讯：

中北测控研制产品完成场景验证

11月17日从中北高新区获悉，山西中北测控科技有限公司自主研制生产的加装测量存储系统圆满完成航空航天领域使用场景验证，各项性能指标均达到行业领先水平

2025-11-18 08:20:00

网聚泉城丨视频：“硬骨架”与“算力底座” 一颗中国树脂，如何

责任编辑：李颖

2025-11-18 15:45:00

烟台工程职业技术学院成功入选国家级“IITC工信人才AI实训

鲁网11月18日讯近日,工业和信息化部人才交流中心公布了“IITC工信人才AI实训云平台”首批应用院校名单,烟台工程职业技术学院凭借在数字化基础设施与产教融合方面的深厚积淀

2025-11-18 15:49:00

OPPO Reno15 系列正式发布，潮流实况玩法“超出圈”

2025年11月17日，成都——OPPO正式发布全新一代Reno15系列手机。作为潮流与实况照片引领者，Reno15系列行业首发全息光刻工艺

2025-11-18 15:54:00

中国工程院院士邬贺铨、郑纬民点赞阿里千问APP：坚持走专业严

11月18日消息，阿里巴巴千问APP近日开启公测，接入全球性能第一的开源模型Qwen3并免费开放。两位中国工程院院士就此分别接受了媒体采访

2025-11-18 16:57:00

“虚”与“实”的耦合：太极拳数字化传承中的身体、技术与文化认

摘要：数字化浪潮为以“身体体悟”为核心的太极拳传承带来了范式性变革。本研究采用质性研究方法，以“虚”与“实”这一对源自太极拳本身的核心哲学概念为理论透镜

2025-11-18 17:40:00

库克被曝卸任，会给苹果带来什么影响？｜宅男财经

【宅男财经｜专家面对面】据央视财经综合多家外媒报道，美国苹果公司首席执行官蒂姆·库克有可能最早于明年卸任，现任公司硬件工程高级副总裁特努斯被普遍视为最有可能的继任者

2025-11-18 17:48:00

埃尔韦·朗斯兰：杨佴旻，多彩水墨的艺术大师

杨佴旻是一位能够把千年传统与炫目现代性对比共存的画家。作为多彩水墨绘画的领军人物，他将古老技法转化为一种极具现代感的绘画语言

2025-11-18 17:51:00

廊坊开发区再添2家市级科技企业孵化器和1家市级众创空间

河北新闻网讯（杨自立、田海颖）近日，廊坊市科技局公布2025年度市级科技企业孵化器认定和众创空间备案名单，廊坊开发区润泽人工智能产业孵化器

2025-11-18 18:43:00

当好“科技红娘” 尖草坪区牵线校企共破技术难题

11月18日，记者从尖草坪区了解到，在尖草坪区科技局的“牵线”下，中北大学的专家教授组团走进太原响臻云信息工程有限公司

2025-11-18 19:28:00

破解“AI+智造”人才难题，燕京理工学院这场论坛汇聚产学智慧

河北新闻网讯（杜啸飞）11月7日至8日，燕京理工学院举办第六届智能制造技术发展论坛暨“AI+智造”创新融合与人才培养主题论坛

2025-11-18 18:40:00

2025年“福满榕城奋勇争先”短视频征集展播——《苍霞变形

2025年“福满榕城奋勇争先”短视频征集展播——《苍霞变形记丨“人民之城”的“幸福密码”》。

2025-11-18 21:37:00

2025青岛虚拟现实创新大会要来：北航青岛研究院以科创助推产

鲁网11月18日讯一副简约的框架眼镜，镜片后可能隐藏着快速滚动的信息流；一间平平无奇的房间，戴上头显后，就能摇身变为绚丽仙境……当科幻电影中的沉浸式场景逐渐成为现实

2025-11-18 15:45:00

合肥“真金白银”投科创带动社会资本投入超千亿元

大皖新闻讯 11月18日，记者从合肥市政府新闻办召开的新闻发布会获悉，近年来，合肥市围绕科技创新与产业升级需求，大胆改革科技金融政策机制

2025-11-18 15:44:00

AI赋能千行百业一线故事（十六）：数智驱动，唤醒高校“沉睡”

数智驱动，唤醒高校“沉睡”的专利——AI赋能千行百业一线故事（十六）10月24日，邯郸职业技术学院知识产权学院工作人员演示AI+专利转化运用生态服务平台

2025-11-18 08:42:00

头条订阅服务

Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的