我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理

类别：科技发布时间：2024-08-06 09:27:00 来源：机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

大语言模型 (LLM) 是如何解数学题的？是通过模板记忆，还是真的学会了推理思维？模型的心算过程是怎样的？能学会怎样的推理技能？与人类相同，还是超越了人类？只学一种类型的数学题，是会对通用智能的发展产生帮助？LLM 为什么会犯推理错误？多大多深的 LLM 才能做推理？

论文地址：https://arxiv.org/abs/2407.20311

近日，来自 Meta FAIR、CMU 和 MBZUAI 的叶添、徐子诚、李远志、朱泽园四人团队最新公布 arXiv 论文《语言模型物理学 Part 2.1：小学数学与隐藏的推理过程》用可控实验，巧妙地回答上述问题。推特网友 @xlr8harder 评价，「这一结果将一劳永逸地平息关于 LLM 是否具有推理能力，或者只是随机鹦鹉的争论。」

编者注：《语言模型物理学》全系列受邀于 7 月 22 日在 ICML 2024 国际机器学习顶级大会上进行了两小时的专题报告，反响热烈，据悉现场掌声不断。这里为大家呈现系列中的 Part 2.1。

图 1

论文详解

首先，根据本系列的惯例，作者认为不应通过与 GPT-4 等大模型对话来猜测其思维方式，这类似于动物行为学，虽可行但不够严谨，无法科学地揭示 GPT-4 的内心思考过程。

此外，从数据角度看，只有完全访问模型的预训练集（pretrain data），才能明确哪些题目是模型见过的，哪些是通过推理学会的。即使模型在 GSM8k（包含 8000 道小学数学题的基准测试集）上获得高分，也难以判断它是否见过这些题目的变体（如不同语言或 GPT-4 改写后的变体）。

为此，作者创建了 iGSM，一个人工合成的、模拟小学数学级别的思维题集，并让模型从零开始在 iGSM 上预训练，以控制模型接触的问题类别。值得注意的是，iGSM 不包含常识信息，只包含 mod 23 范围内的加减乘，并且所有计算都使用 CoT 逐步进行。通过 iGSM，可进行可控实验，专门研究模型的推理能力，而忽略了其他因素（如大整数运算）。图 2 展示了一个简单的例题。

图 2

通过这个数据集，作者首先测试了 GPT2（RoPE 版）的表现。用 op 代表解题所需的数学运算步数，作者发现，当在 op≤21 的题目上进行训练时，模型不仅能达到 99% 正确率，还能在更高难度的题目（如 op=32）上保持 83% 的正确率（见图 3）。这表明模型学会了某种推理技能，毕竟它从未见过 op>21 的题。（顺带一提，GPT-4o 在该数据集上仅能应对 op=10 的题目，超过这个难度就如同盲猜，文末我们会讨论这个问题。）

那模型究竟学会了怎样的推理技能呢？解决 iGSM 的数学题至少有两种思路。一种是作者称为「0 级推理」，即「暴力计算能算则算」。由于题目中的变量可能存在复杂的依赖关系，有些可以直接计算，有些则需要先算出其他变量 —— 譬如小张比小王多 3 倍的水果，那么就要先算出小王有多少苹果、梨子并求和，才可以开始计算小张的水果数。「0 级推理」就是尽可能枚举所有变量，每次随机找到一个可计算的变量，算出结果并继续。

与之对应的是「1 级推理」：通过拓扑排序，从问题开始反推，确定哪些变量需要计算，然后从叶子节点开始向上计算，力求「最短解答」。常见的数学题解通常采用 1 级推理，不会去计算「不必要的变量」。例如小张比小王多 3 倍的水果，问小张有多少水果，那小李的苹果数就是不必要的变量，而小王的苹果、梨子数都是必要的。

如图 3 所示，作者发现，GPT-2 可以学会 1 级推理，几乎每次都给出最短解答。这非常不简单！因为在模型生成第一句话之前，必须已经在脑海中完成了整个拓扑排序 —— 否则它怎么知道哪个变量是不必要的？如果模型一开始就生成了「小李的苹果有 7 个」，那就无法回头，得不到最短解答。

图 3

那么，模型是如何学会「1 级推理」的？为此，作者对模型的内部参数进行了探针 probing 研究（见图 4）。结论显示（具体探针方法详见论文），在模型生成第一句话之前，它已经通过心算确定了哪些变量 A 是「必要的」（nece (A)=True）。同时，模型在说每句话之后，也心算出了接下来所有「可计算的」的变量 A（cannext (A)=True）。因此，模型只需对 nece 和 cannext 不断进行逻辑与（AND）运算，就能从叶子节点开始，一步步给出完整的计算过程。

值得注意的是，这些复杂的心算能力并没有显现在训练集中。模型只接触过 iGSM 数据，只见过「语言」部分（题目和答案），但它却自主学会了类似人类的思维过程（mental process），并得出了最优解！换言之，这项研究反驳了我们一周前在《语言≠思维，大模型学不了推理：一篇 Nature 让 AI 社区炸锅了》中的报道，用科学方法证明了大模型通过语言确实能学会思维。

更神奇的是，模型学到的不止如此。在图 4 中，作者还发现模型会心算许多对解题无用的信息。比如，在变量关系刚被描述完，甚至在问题尚未提出之前，模型已经知道任意两个变量 A 和 B 之间是否存在递归依赖 —— 即使这些变量与解题无关。对人类来说，我们通常会从问题开始反推，忽略不必要的变量，而 GPT-2 这样的语言模型则会将整个关系图梳理一遍，以应对将来可能被问及的任何问题。作者将这种能力称为「2 级推理」。

虽然「2 级推理」对解题不必须，但它确实是一种更通用的技能。模型利用并行能力，对信息进行大量因果梳理。这一能力是语言模型在学习解题中自行掌握的，没有人 (数据) 教过它这么做。作者猜测，这或许是通用人工智能（AGI）中「通用」一词的潜在来源，即语言模型可以超越数据集所教的技能，学会更为通用的能力。

图 4

接下来，作者研究了模型为何会犯错。总结来看，在 iGSM 数据集上，模型几乎只会犯两类错误：一是计算不必要的变量，二是计算当前不可算的变量，如图 5 所示。

对于前者，作者发现，如果模型在生成答案之前就心算出错，误认为某个变量 A 是「必要的」（nece (A)=True），那么模型在生成答案时很可能会对 A 强行计算，从而产生非最短解答。这一发现非常有趣，它表明许多错误是系统性的，在生成第一个 token 之前，模型还没张嘴就可以确信它会犯错（通过探针的方法）。这类错误与模型生成过程中的随机性或 beam search 无关。

至于后者，作者也将其归因于心算错误，并将用一整篇的后续 Part 2.2 论文，来针对性提高模型的心算能力，以最终提高解题正确率。该论文尚未发布，我们会在公众号中继续关注并报道。

图 5

下一个结论是，作者反驳了大模型缩放定律（scaling law）中强调的「唯大独尊」，即模型的表现只与参数数量相关，而与宽度或深度无关。这一观点最早由 OpenAI 的缩放定律论文提出，并在后续几乎所有研究中得到遵循。

作者通过 iGSM 数据集进行了一个可控实验，如图 6 所示。通过对比更小更深的模型与更大更宽的模型，发现对于解决 iGSM 中的数学题，模型的深度显然比宽度更为重要。例如，一个 20 层、9 个 head 的模型，表现远好于 4 层、30 个 head 的模型，尽管后者有两倍的参数。

更进一步，作者发现对深度的依赖源于模型心算的复杂性。通过对模型不同深度的探针研究，作者发现，对于那些与问题较远的变量 A，心算 nece (A) 往往需要更多层数。具体来说，若变量 A 与问题变量的距离为 t，则需要进行 t 步心算才能知道 nece (A)=True。t 越大，模型所需的层数也越多，如图 6 所示。

作者强调，模型对深度的依赖无法通过思维链（Chain-of-Thought, CoT）来抵消。事实上，iGSM 中的数学题解已经尽可能地使用了 CoT，即所有计算都被拆解为一步一步。即便如此，模型仍需要通过心算来规划 CoT 的第一步该算什么 —— 这个心算过程可能依然需要多个步骤。这解释了模型对深度依赖的原因。

图 6

综上所述，与 99% 以上的研究 LLM 行为过程（behavior process）的论文不同，本文作者另辟蹊径，揭示了 LLM 在解决数学问题时的心理过程（mental process），为理解 LLM 的智能提供了新的视角。

文章最后作者指出，即便是 GPT-4，在 iGSM 数据集上也只能进行最多 10 步的推理。这表明，即使是当前最强的模型，利用了据称所有的互联网数据，仍无法精准地完成超过 10 步推理。这暗示现有大模型使用的预训练数据集（pretrain data）可能还有很大的改进空间。通过本文的方法，建立人工合成数据来增强模型的推理能力以及信息梳理能力，或许是一种新的可能。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-08-06 11:45:06

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于推理,模型,内心,人类,世界,模型的资讯：

微软华人团队发布全新基准AGIEval，专为人类考试而生

...2.5%，表明了目前基础模型的非凡表现。但GPT-4在需要复杂推理或特定领域知识的任务中不太熟练，文中对模型能力(理解

2023-05-13 21:28:00

大语言模型逻辑推理“很糟糕”

...智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕：它们犯下前后不一致的错误，而且推理过程往往是荒谬的。近日发表在《皇家学会开放科学》杂志上的一项研究表明

2024-06-12 18:15:00

图灵奖得主杨立昆：AI的逻辑推理和规划能力有限，会犯事实错误

...法国视频连线北京现场，发表了主题为《走向能够学习、推理和规划的大模型》的演讲，表达了对于人工智能的深度思考。搜狐科技在智源大会现场观看了这场演讲，从杨立昆演讲时面露微笑的表情

2023-06-10 05:00:00

o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

...共有8点：1 强化学习加持的o1，比人类更善于发现新的CoT推理步骤2 自我批评的涌现，是o1最强有力的时刻3 让o1「超时」前完成回答

2024-09-23 09:50:00

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理

...专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题

2024-09-13 16:42:00

重磅！OpenAI o1模型还没有实现真正的逻辑推理能力

...-preview和o1-mini模型已经可以使用。OpenAI宣布，“新模型在推理能力上代表了人工智能能力的新水平

2024-09-18 15:01:00

语言≠思维，大模型学不了推理：一篇Nature让AI社区炸锅

...到，人类大脑生成和解析语言的神经网络并不负责形式化推理，而且提出推理并不需要语言作为媒介。这篇论文声称「语言主要是用于交流的工具，而不是思考的工具，对于任何经过测试的思维形式

2024-06-25 09:45:00

谷歌大模型推理范式，主要分为两个阶段

...新研究“自我发现”（Self-Discover），重新定义了大模型推理范式。与已成行业标准的思维链（CoT）相比，新方法不仅让模型在面对复杂任务时表现更佳，还把同等效果下的推

2024-02-10 21:09:00

大模型不是未来？你需要学习下图灵奖得主Yann LeCun选

...机器如何像人类和动物一样高效地学习？2. 机器如何学会推理和规划？3. 机器如何在多个抽象层级上学习感知和行动规划的表征，从而让它们有能力在多个时间范围内执行推理、预测和规划

2023-06-26 13:37:00

更多关于科技的资讯：

绍兴纺企抱团出海 “柯桥优选”圈粉越南

杭州日报讯近日，在中国纺织信息中心浙江分中心·国际纺织时尚交流中心的组织下，涛搏纺织、凯亨纺织、卓伦纺织、优时进出口等10家绍兴柯桥纺织标杆企业组团亮相越南西贡会展中心

2026-03-12 07:11:00

企业“抢单”忙青山湖畔“开门红”

杭州日报讯 “开年前两个月，订单量同比两位数增长，完成甚至突破预定生产目标，我们信心很足!”“产线满负荷运转，订单排得满满当当

2026-03-12 07:11:00

桐乡“濮院毛衫”焕新出海

数字贸易平台海外版上线杭州日报讯昨日，在2026年中国国际针织（春夏）博览会上，濮院毛衫数字贸易平台海外版正式上线，其专属海外品牌“PlinkX”同步亮相

2026-03-12 07:11:00

“共享大市场·出口中国”活动即将在杭启幕

推动进口贸易与消费升级深度融合杭州日报讯为深入推进高水平对外开放，释放中国超大规模市场红利，推动进口贸易与消费升级深度融合

2026-03-12 07:11:00

不熟悉新手机误开收费业务

82岁老人换了新手机，但不熟悉操作，结果误开通多项收费业务。3月11日，老人收到扣费短信后向网格员求助，顺利取消了扣费服务

2026-03-11 17:36:00

【财眼观两会】专访皇甫宜川：让海外通过文化“新三样”看见真实

中新经纬3月11日电 (董湘依)近年来，中国文化“新三样”(网文、网剧、网游)在海外迅速走红。全国两会期间，全国政协委员

2026-03-11 19:27:00

薛洪言：“养龙虾”火出圈，算力变成稀缺资源

中新经纬3月11日电题：“养龙虾”火出圈，算力变成稀缺资源作者薛洪言星图金融研究院常务副院长、苏商银行特约研究员2026年的早春

2026-03-11 19:28:00

开滦股份范各庄矿：为天车作业装上智慧“防护门”

河北新闻网讯（闫丽颖、唐福刚）近日，开滦股份范各庄矿聚焦“物理隔离+智能管控”核心需求，创新应用一套具备智能闭锁、声光报警

2026-03-11 19:51:00

中国联通eSIM尝鲜季再添新力

3月11日上午，中国联通eSIM尝鲜季——三星国内首款eSIM手机Galaxy S26系列首销仪式在西单北营业厅隆重举行

2026-03-11 14:14:00

3·15维权添利器！安徽“皖美维保”平台上线，家电维修不怕“

大皖新闻讯家里空调、冰箱等家电出故障，找维修却怕遇上“小病大修”“坐地起价”。别愁，专为安徽消费者打造的家电维修“放心平台”来了

2026-03-11 14:55:00

深耕AI应用构筑新质生产力，罗普特（688619.SH）获“

近日，备受瞩目的2025年度“吴文俊人工智能科学技术奖”获奖名单正式揭晓。罗普特（股票代码：688619.SH）作为主要完成单位参与的《面向海上安防的通感算一体化大数据智能处理关键技术及产业化》项目

2026-03-11 15:01:00

新华保险“空中柜面”让保单服务零距离

鲁网3月11日讯“您好，欢迎使用新华保险空中柜面服务！”当客户通过手机视频联系接通后台柜员时，这一句温暖的问候便会准时响起

2026-03-11 16:35:00

“养龙虾”，怎么就火了？

新华社记者曾晋“你‘养龙虾’了吗？”这句略显无厘头的有趣问话，说的可是最近科技圈的一件大事。此“龙虾”并非餐桌上的美味

2026-03-11 16:02:00

好评中国｜中国“铁牛”何以耕耘世界“丰”景？-中国吉林网

长白时评评论员丁铁巴基斯坦独立新闻社日前报道，曾是大型农场专属的现代农业机械化，正因中国农机驶入全球田间地头被改写，手工耕作的辛劳正被高效的机械作业替代

2026-03-11 11:32:00

降噪新科技，轻松听清晰，潜能发展更可期----科利耳Nucl

在移动互联高度发达的当下，听损人士的生活场景愈发多元：孩子们在游乐场嬉戏，笑声与广播声交织；学生们在校园里讨论，声音此起彼伏

2026-03-11 13:01:00

头条订阅服务

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理