我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

大模型不会推理，为什么也能有思路？有人把原理搞明白了

类别：科技发布时间：2024-11-23 09:42:00 来源：机器之心Pro

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。

大语言模型的「推理」能力应该不是推理，在今年 6 月，一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发 AI 社区的大讨论，改变了我们对于 AI 智力的看法。

该论文认为人类语言主要是用于交流的工具，而不是思考的工具，对于任何经过测试的思维形式都不是必需的。图灵奖获得者 Yann LeCun 对此还表示，无论架构细节如何，使用固定数量的计算步骤来计算每个 token 的自回归 LLM 都无法进行推理。

那么，大模型的「推理」行为到底是在做什么呢？本周四，一篇来自伦敦大学学院（UCL）等机构的研究《Procedural Knowledge in Pretraining Drives Reasoning in Large Language Models》详细探讨了大语言模型（LLM）在执行推理任务时采用的泛化策略类型，得出的结论给我们了一些启发。

大模型的「推理」是在做什么？

一个普遍的猜测是：大模型的推理难道是在从参数知识中检索答案？该研究给出了反对这一观点的证据。作者认为，是预训练中的程序性知识在推动大模型进行推理。

自从大模型出现以来，AI 研究领域一直流传着这样一种假设：当大模型在进行推理时，它们进行的是某种形式的近似检索，即从参数知识中「检索」中间推理步骤的答案，而不是进行「真正的」推理。

考虑到大模型所训练的数万亿个 token、令人印象深刻的记忆能力、评估基准的数据污染问题已得到充分证实，以及大模型推理依赖于 prompt 的性质，这种想法看起来似乎是合理的。

然而，大多数研究在得出结论认为模型不是真正推理时，并没有进一步去研究预训练数据。在新的工作中，人们希望探索一个命题：即使推理步骤的答案就在数据中，模型在生成推理轨迹时是否会依赖它们？

作者使用影响函数来估计预训练数据对两个 LLM（7B 和 35B）完成事实问题回答（下图左）的可能性，以及简单数学任务（3 个任务，其中一个显示在右侧）的推理轨迹的影响。

令人惊讶的是，研究发现的结果与我们的想法相反：LLM 使用的推理方法看起来不同于检索，而更像是一种通用策略——从许多文档中综合程序性知识并进行类似的推理。

新论文的一作、UCL 在读博士 Laura Ruis 表示，该研究是基于对 5M 预训练文档（涵盖 25 亿个 token）对事实问题、算术、计算斜率和线性方程的影响的分析。总而言之，他们为这项工作做了十亿个 LLM 大小的梯度点积。

接下来还有几个问题：大模型是否严重依赖于特定文档来完成任务，或者文档是更有用，还是总体贡献较少？前者适合检索策略，后者则不适合。

通过实验可以看到，模型在生成推理痕迹时对单个文档的依赖程度低于回答事实问题（下图箭头粗细表示）时对单个文档的依赖程度，并且它们所依赖的文档集更具通用性。

对于事实问题，答案往往表现出很大的影响力，而对于推理问题则不然（见下图底行）。此外，该研究发现的证据表明代码对推理既有正向影响，也有反向的影响。

另外，看文档对查询推理轨迹的影响可以较容易地预测出该文档对具有相同数学任务的另一个查询的影响，这表明影响力会吸收文档中用于推理任务的程序性知识。

因此可以得出结论，大模型通过应用预训练期间看到的类似案例中的程序性知识（procedural knowledge）进行推理。这表明我们不需要在预训练中涵盖所有可能的案例——专注于高质量、多样化的程序数据可能是更有效的策略。

该研究可能会改变我们对于 LLM 推理的看法。Laura Ruis 表示，很期待见证这种程序泛化风格的发现，对于更大的模型，或潜在的不同预训练数据分割等方向的影响。

论文链接：https://arxiv.org/abs/2411.12580

实验设置

模型选择

研究者选择了两个不同体量的模型（7B 和 35B），分别是 Cohere 的 Command R 系列的基础和监督微调版本。其中，他们使用基础模型估计二阶信息并计算文档梯度，并使用监督指令微调模型生成完成并计算查询梯度。

查询设置

研究者收集了一个包含不同类型问题的查询集，其中 40 个推理问题，40 个事实问题。

对于推理问题，他们确定了两种数学推理类型，每种模型都可以使用零样本 CoT 来稳健地完成。研究者在包含每种推理类型的 100 个问题的更大集合上对模型进行评估，并选择了至少 80% 正确率的任务。

这为 7B 模型提供了简单的两步算法（如下表 1 所示），并为 35B 模型求解线性方程中的 x（如下表 9 所示）。研究者确保没有查询需要输出分数。并且，为了使 7B 和 35B 模型之间的结果更具可比性，他们对这两个模型使用了相同的斜率问题。

对于 40 个事实问题，研究者确保模型一半回答正确，一半错误，从而能够识别从参数知识中检索事实的失败。

文档设置

研究者想要比较预训练数据对不同大小模型（7B 和 35B）推理的影响，因此他们选择了两个在相同数据上训练的模型。其中，每个模型只需要对 Hessian 进行一次 EK-FAC 估计，但公式 1 中的其他项要求每个文档 - 查询对通过模型进行两次前向和后向传递。

为了解决这个问题，研究者从预训练数据中抽取了一组文档，这些文档涵盖了预训练期间看到的每个批次的多个示例，总共 500 个文档（约 25 亿 token），其分布与训练分布相似。

EK-FAC 估计

为了估计 7B 和 35B 模型的 Hessian，研究者通过对两个模型进行预训练，随机抽取了 10 万份均匀分布的文档。

实验结果：五大发现

为了回答上述关于 LLM 推理泛化的问题，研究者进行了定量和定性分析，并得出了以下五大发现。

发现 1：对于具有相同底层推理任务的查询，文档的影响力得分之间存在显著的正相关性，表明了这些文档与「需要对不同数字应用相同程序」的问题相关。

研究者计算了所有 500 万个文档得分对于所有查询组合的 Pearson R 相关性（每个模型有 802 个相关性）。下图右显示了每个任务 10 个查询的子样本结果。

他们还发现，相同推理类型的很多查询之间存在非常显著的正相关性（p 值均低于 4e - 8），而大多数（但不是全部）事实查询或其他组合（例如不同类型的推理查询）之间存在非常显著的相关性缺失（p 值均在 4e - 3 左右）。这意味着许多文档对同一类型的推理具有类似的影响。

发现 2：在推理时，模型对每个文档的依赖程度平均低于回答事实问题时对每个生成信息量的依赖程度，总体影响幅度波动性要小得多，表明它是从一组更一般的文档中泛化出来的。模型越大，效果越明显。下图 2 展示了对排名中不同百分数正向部分的总影响。

结果描述了 top-k 百分位正向排名文档中包含的总影响力，比如第 20 个百分数包含了一个查询的 20% 正向文档，显示的总影响力是截止到该部分排名的所有文档影响力的总和。

发现 3：事实问题的答案在对问题 top 影响力的文档中出现的频率相对较高，而推理问题的答案几乎没有在对它们 top 影响力的文档中出现过。

如下图 3 所示，对于 7B 模型，研究者在 55% 的事实查询的前 500 个文档中找到了答案，而推理查询仅为 7.4%。对于 35B 模型，事实查询的答案在 top 影响力文档中出现的概率为 30%，而推理集的答案从未出现过。

发现 4：对推理查询有影响力的文档通常采用类似的逐步推理形式，如算术。同时有影响力的文档通常以代码或一般数学的形式实现推理问题的解决方案。

总的来说，研究者在 top 100 份文档中手动找到了 7 个以代码实现斜率的独特文档，以及 13 个提供计算斜率方程式的文档。其中，7B 模型依赖其中 18 个文档来完成其补全（这意味着 18 个不同的文档出现在所有查询的 top 100 份文档中），而 35B 模型则依赖 8 个文档。

下图分别是一个以 JavaScript（左）和数学（右）实现解决方案的极具影响力的文档示例。

发现 5：对于事实查询，最有影响力的数据来源包括维基百科和小知识；而推理查询的主要来源包括数学、StackExchange、ArXiv 和代码。

总而言之，该研究结果表明，LLM 实际上可以从预训练数据中学习一种通用的推理方法，并且可以从数据中的程序性知识中学习。此外，人们发现没有任何证据表明模型依赖于预训练数据中简单数学推理步骤的答案。这意味着近似检索假设并不总是正确的，这对未来人工智能的设计具有重要意义。

也就是说，我们可能不需要专注于覆盖预训练数据中的每种情况，而是可以专注于数据应用和演示各种推理任务的程序。

这份研究结果表明，LLM 实际上可以从预训练数据中学习一种通用的推理方法，并且可以从数据中的程序性知识中学习。此外，人们没有发现任何证据表明模型依赖于预训练数据中简单数学推理步骤的答案。这意味着近似检索假设并不总是正确的，这对未来 AI 的设计具有意义。

也就是说，我们可能不需要专注于覆盖预训练数据中的每种情况，而是可以专注于数据应用和演示各种推理任务的程序。

更多技术细节与实验结果请参阅原论文。

参考内容：

https://www.reddit.com/r/MachineLearning/comments/1gvveu8/r_procedural_knowledge_in_pretraining_drives/

https://lauraruis.github.io/2024/11/10/if.html

https://x.com/LauraRuis/status/1859267739313185180

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-23 11:45:06

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于推理,模型,思路,原理,推理,模型的资讯：

DeepSeek/o3的弱点找到了！三心二意明明对了又改错

DeepSeek和o1/o3一类推理大模型持续带来震撼之际，有人开始研究他们的弱点了。最新研究揭示：在遇到高难度问题时，推理大模型可能像“三心二意的学生”一样频繁切换解题思路，却

2025-02-04 19:41:00

Transformer推理天花板被谷歌打破？DeepMind

...科学家Denny Zhou拿出一篇ICLR 2024论文称：CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑

2024-09-21 09:43:00

思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核

...本质的不同。其不仅进入到复杂的领域，还表现出超强的推理能力。OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试

2024-09-20 13:33:00

CMU清华教LLM练成数学高手，LeanSTaR训练模型边思

...办？CMU清华团队提出了Lean-STaR训练框架，在语言模型进行推理的每一步中都植入CoT，提升了模型的定理证明能力

2024-08-10 09:47:00

罗格斯大学团队提出思想链概念，提高大模型的算数推理能力

...概念，提高了大语言模型（LLM，large language models）在复杂推理任务上的性能，例如算术推理、常识推理和符号推理等

2024-03-15 10:41:00

AI出图更快、更懂你心意，高美感文生图模型修炼了哪些技术秘籍

...等工具如何为部署模型提供支持，助力大模型更加高效地推理。赵一嘉首先分享了 Stable Diffusion 背后模型的原理详解

2024-08-13 09:39:00

清华团队提出新型光计算架构，光训练速度提升1个数量级

...智能计算的“潜力股”，为后摩尔时代带来新的希望。推理和训练是 AI 大模型核心能力的两个重要阶段，正是看到了这一点，该团队在推理和训练方面进行了同期的并行研究。今年 4

2024-08-09 09:57:00

科学家提出情景学习新范式，让学霸大模型向学弱大模型输送能力

...十亿左右。“做大”，能让大模型具备更强的涌现能力和推理能力，从而适用于难度更高的任务。“做小”，能让大模型获得更优秀的推理能力，从而能被部署到手机、手表、耳机、录音笔等各类小

2024-03-01 09:36:00

ChatGPT大流行的思考-解析篇

...器人的本质区别。2. ChatGPT如何实现知识的获取、存储、推理及实时更新那究竟GPT如何有如此优秀的表现呢？我们不妨从人类学习思路入手，我们学习一般可分为获取知识-存储知

2023-02-17 21:00:00

更多关于科技的资讯：

重磅首发！有道AI答疑笔推出视频讲解，定义学习可视化新标准

近日，网易有道旗下AI原生学习硬件“有道AI答疑笔Space X”完成重要升级，正式推出国内首个高质量的AI“视频答疑”功能

2026-01-05 17:36:00

苏笑聪新书《情境的智慧》即将出版：探寻情境赋能之道

近日，情境教育理论研究及实践家、羽翼天成儿童情境教育创始人苏笑聪女士宣布，其“情境三部曲”的收官之作——《情境的智慧》即将正式出版

2026-01-05 17:36:00

联想集团荣膺多项国际CMF创新奖领跑企业创新赛道

"哪些中国企业创新做得不错？"——这个问题的答案，正在被一批勇于突破、持续创新的中国企业不断刷新。进入2025年，联想集团的创新势头不减

2026-01-05 17:37:00

2025年百城“盒区房”消费图景：轻悦己、品质消费、夜经济氛

中国消费者报报道（记者桑雪骐）1月5日，《2025年百城“盒区房”消费力报告》（以下简称《报告》）发布，结合2025年盒马在多地门店及入驻商圈动态

2026-01-05 18:10:00

菌安天下：百吨位自然发酵技术全球领先品牌的科技解码

在全球农业面临资源约束与环境压力的双重挑战下，以微生物技术为核心的生物农业正成为引领产业变革的关键力量。在这场绿色革命中

2026-01-05 19:23:00

中荷人寿荣获“杰出寿险公司”奖

近日，由金融界主办的“启航•2025金融年会”暨金智奖颁奖盛典在北京举行。中荷人寿保险有限公司凭借其卓越的经营管理能力

2026-01-05 19:24:00

菌安天下：铸就液体微生物菌剂全国销量第一的品质标杆品牌

在当前中国农业向绿色、可持续发展转型的宏大背景下，农资市场的竞争日益激烈，而真正的“好产品”——那些能让种植户主动复购

2026-01-05 19:27:00

中国家用电器协会：理性看待空调“铝代铜”

中国消费者报北京讯（记者桑雪骐）空调业的“铜铝之争”由来已久，近段时间再次成为热点话题。1月4日，中国家用电器协会发出倡议

2026-01-05 18:10:00

书亦烧仙草连获双奖：交付给新茶饮行业的长期主义答卷

近日，新茶饮品牌书亦烧仙草接连将“2025食品饮料行业创新案例”与“质量金盾·服务样本”两项行业奖收入囊中。两项奖项分别指向“市场创新”与“品质体系”这两个关键维度

2026-01-05 17:06:00

警惕“AI泔水”泛滥成灾

惠依近日，“Slop”被《韦氏词典》列入2025年度热词，被定义为“通常由人工智能（AI）批量生成的低质量数字内容”。据专家溯源

2026-01-05 14:05:00

全面解读一嗨租车八大优势站内取还创服务体验新高度

在租车行业，真正的竞争力，藏在看不见的后台体系里：是否统一管理？标准能否落地？出了问题谁来负责？这些问题的答案，决定了一家租车企业的服务成色

2026-01-05 14:05:00

新青年消费崛起，大窑饮品满足“理性+感性”双重决策

花钱主打“爱你老己”、倡导“隐形享受主义”……在当今消费市场中，新青年群体已成为不可忽视的力量。《2025新青年消费趋势报告》揭示

2026-01-05 14:05:00

数智赋能文旅 1314・爱购节情感IP启幕文旅融合新范式

1月4日，“2026 数字经济助力文旅融合新业态创新交流会”在京成功举办，以“提升新质消费创新业态场景”为主题，共探“数智+文旅+情感消费”融合之道

2026-01-05 14:35:00

温医大眼视光胡亮/吕帆教授团队成功研发智能手机眨眼训练应用程

近日，眼和视光疾病国家临床医学研究中心、国家眼视光工程技术研究中心、温州医科大学附属眼视光医院胡亮/吕帆教授团队的一项重要研究成果在国际高质量期刊《自然》杂志旗下《数字医学》（npj Digital Medicine）在线发表

2026-01-05 15:46:00

用“中国芯”吹出“爱你的风”

江南时报讯 “这是我们的意大利客户发来的使用反馈，一直在说我们的产品特别惊艳。”在不久前结束的第138届中国进出口商品交易会上

2026-01-05 16:07:00

头条订阅服务

大模型不会推理，为什么也能有思路？有人把原理搞明白了