• 我的订阅
  • 科技

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

类别:科技 发布时间:2024-10-14 09:55:00 来源:机器之心Pro

苹果新论文:AI 大模型可能不会推理。

AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关帖子被很多人围观。

这篇题为「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」的论文,一作是苹果机器学习研究工程师 Iman Mirzadeh,图灵奖得主 Yoshua Bengio 的弟弟 Samy Bengio 也是作者之一。

他们是怎么得出上述结论的呢?我们先来看一个例子。

假设有一个数学问题:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍。奥利弗有多少个猕猴桃?

显然,答案是 44 + 58 + (44 * 2) = 190。尽管大型语言模型在算术上表现不稳定,但它们通常能够可靠地解决类似问题。

但如果我们加入一些随机的额外信息,比如:奥利弗在星期五摘了 44 个猕猴桃。然后在星期六摘了 58 个猕猴桃。星期天,他摘的猕猴桃数量是星期五的两倍,但其中 5 个比平均大小要小。奥利弗有多少个猕猴桃?

题目里加的这句话(其中 5 个比平均大小要小)显然不影响解题,但结果却令人大吃一惊,大模型居然被误导了。

GPT-o1-mini 给出的答案是:…… 在星期天,这 5 个猕猴桃比平均大小要小。我们需要从星期天的总数中减去它们:88(星期天的猕猴桃)- 5(小猕猴桃)= 83 个猕猴桃。

这只是数百个问题中的一个简单例子。研究人员对这些问题进行了轻微修改。然而,几乎所有这些问题都使得尝试这些问题的模型成功率大幅下降,连 OpenAI 最新最强的 o1-preview 模型也无法幸免。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

题目为:利亚姆想买些学习用品。他买了 24 块橡皮擦,现在每个售价 6.75 美元,10 本笔记本,现在每个售价 11.0 美元,以及一包现在 19 美元的复印纸,现在售价 19 美元。利亚姆现在该付多少钱?假设由于通货膨胀,去年的价格便宜了 10%。OpenAI 的 o1-preview 盲目地应用了通货膨胀率,尽管通货膨胀的金额是无关紧要的,因为问题清楚地表明给出的价格是「现在」的,而不是去年的。

为什么会这样呢?为什么一个能理解问题的模型会被一个随机的、无关的细节轻易地干扰?研究人员提出,这种可靠的失败模式意味着模型根本不懂问题。它们的训练数据确实允许它们在某些情况下给出正确答案,但一旦需要稍微真正的「推理」,比如是否计算小猕猴桃,它们就开始产生奇怪、非直觉的结果。

正如研究人员在他们的论文中所说:「我们研究了这些模型中数学推理的脆弱性,并证明随着问题中子句数量的增加,它们的性能显著下降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」

这一结论得到了 Keras 之父 François Chollet 和美国心理学家、认知科学家 Gary Marcus 的转发,他们一直对 AI 大模型的能力持怀疑态度。前段时间,François Chollet 还发帖说,LLM 通过提示使用时,无法理解与训练数据中情况大相径庭的情况,因此不具备通用智能。他认为,LLM 的作用主要是作为实际 AGI 的知识和程序存储,它们是一种记忆形式,而智能不仅仅是记忆。如今,苹果的这篇论文为他的观点提供了支撑。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

但来自 OpenAI 的一位研究者反驳了该论文。他指出,许多顶级的 LLM 实际上是聊天模型,它们被训练来处理混乱的聊天环境,需要猜测用户意图并利用所有提供的信息,即使这些信息在逻辑上并非必要。因此,当这些模型将这种行为泛化应用于数学问题时,它们的表现并不是因为缺乏推理能力,而是因为这是它们被训练遵循的预期行为。该观点还指出,人类在解决数学问题时通常有明确的上下文,而 LLM 在处理数学问题时可能没有这样的上下文。因此,如果通过适当的提示工程,向模型明确这是一个数学考试的环境,那么它们在添加多余子句时导致的性能下降可能会得到恢复。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

还有人指出,其实这种现象在人类群体也能观察到,比如在微积分题目中添加不相关的陈述,很多大学新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

论文概述

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

论文标题:GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models 论文地址:https://arxiv.org/pdf/2410.05229

当前 LLM 能否进行真正的逻辑推理是一个重要的研究焦点。虽然一些研究突出了它们令人印象深刻的能力,但更加仔细的研究揭示了它们的根本局限。文献表明,LLM 中的推理过程是概率性模式匹配,而不是形式化推理。尽管 LLM 能够匹配更抽象的推理模式,但它们未能达到真正的逻辑推理。

输入 token 的微小变化可以大幅改变模型输出,表明了强烈的 token bias,并表明这些模型高度敏感且脆弱。此外,在需要正确选择多个 token 的任务中,随着涉及的 token 或步骤数量的增加,得到准确答案的概率呈指数级下降,这表明它们在复杂推理场景中非常不可靠。

数学推理是一项关键的认知技能,它支持许多科学和实际应用中的问题解决。OpenAI 2021 年提出的 GSM8K(Grade School Math 8K)小学数学题数据集已成为评估 LLM 数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集上的单一指标。这种局限性限制了对模型数学推理能力的全面洞察。此外,GSM8K 的流行和普遍性可能会增加意外数据污染的风险。最后,GSM8K 的静态性质不允许进行可控实验以了解模型的局限性,例如在不同条件下的行为或问题方面和难度水平的变化。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

为了解决这些问题,需要一个更多样化和适应性强的评估框架 —— 一个能够生成多样化的问题变体并调整复杂性水平以更好地探索 LLM 的鲁棒性和推理能力的框架。这将有助于更深入地了解这些模型在数学推理任务中的优势和劣势。作者做出了以下贡献:

为了解决这些问题,AI 社区需要构建一个更加多样化且适应性更强的评估框架。这个框架要能生成多样化的问题变体,并调整复杂性水平,以便更好地探索 LLM 的稳健性和推理能力。

论文的主要贡献如下:

1、作者提出了 GSM-Symbolic,这是一个增强的基准,它使用符号模板生成 GSM8K 问题的多样化变体。这使得研究者能够对 LLM 在各种设置中的性能进行更细致和可靠的评估,超越了单点准确度指标。作者对 25 个最先进的开放和封闭模型进行了大规模研究,为 LLM 在数学推理任务中的行为提供了重要的见解。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

2、作者质疑了当前在 GSM8K 上报告的结果的可靠性,并证明 LLM 的性能在处理同一问题的不同表述时,其表现的波动性是不合理的。他们展示了所有模型在 GSM-Symbolic 上的性能下降,暗示了潜在的数据污染。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

3、作者展示了 LLM 对表面元素(如专有名词)的变化更具稳健性,但对数值变化非常敏感。他们展示了随着子句数量的增加,模型性能会下降,方差会增加。表明 LLM 的推理能力在复杂性增加时会遇到困难。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

4、最后,作者进一步质疑了 LLM 的推理能力,并引入了 GSM-NoOp 数据集。通过在问题中添加看似相关但最终无关的信息,作者展示了所有 SOTA 模型的显著性能下降(最高的可以达到 65%)。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

这揭示了模型在辨别相关信息以解决问题能力方面的一个关键缺陷,这可能是因为它们的推理不是常识意义上的形式化推理,而主要基于模式匹配。作者表明,即使提供了同一问题的多个示例或包含类似不相关信息的示例,LLM 也难以克服 GSM-NoOp 带来的挑战。这表明,他们的推理过程中存在更深层次的问题,这些问题无法通过上下文样本来缓解,还需要进一步研究。

GSM-Symbolic

GSM8K 数据集包含 8000 多个小学数学题和答案,分为 7473 个训练样例和 1319 个测试样例,题目如图 1 所示。

但是,由于 GSM8K 比较流行,因此存在数据污染的风险。

这些限制促使人们努力生成新的数据集和变体。比如 iGSM 是通过合成 pipeline 创建的数学数据集,捕获了分层和图结构中的参数依赖关系;GSM-Plus 引入了 GSM8K 问题的变体,但缺乏符号模板,并且具有固定的大小和难度。

GSM-Symbolic 的设计能够生成大量实例,并允许更精细地控制问题难度。

GSM-Symbolic:模板生成

给定来自 GSM8K 测试集的特定示例,作者创建了如图 1(右)所示的可解析模板。标注过程包括变量、域以及必要条件,以确保问题和答案的正确性。举例来说,由于问题是小学水平的,因此一个常见的条件是可整除性,以确保答案是整数。

作者使用了常见的专有名称(例如 persons,foods)来简化模板创建。创建模板后,作者还会应用自动检查来确保注释过程的正确无误。例如最终答案是否与原始问题的答案相匹配。生成数据后,还需要手动审查每个模板的 10 个随机样本。

实验设置

模型。作者报告了 20 多个不同大小的开源模型,从 2B 到 27B 不等。此外,作者还报告了最先进的闭源模型,例如 GPT-4o-mini、GPT-4o、o1-mini 和 o1-preview。完整结果如表 1 。

实验及结果

当前的 GSM8K 结果有多可靠?

首先,作者评估了几种 SOTA 模型在 GSM-Symbolic 上的表现, 通过修改变量域,可以调整样本数量和难度。如图 2 所示,所有模型在不同数据集上都表现出不可忽视的方差。例如,对于 Gemma2-9B,最差性能和最佳性能之间的差距超过 12%,而对于 Phi-3.5-mini,这一差距约为 15%。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

另一个值得注意的观察结果是,在用作模板的 100 个 GSM8K 示例中,原始问题的性能(图 2 中虚线表示)通常与 GSM-Symbolic 性能分布中心相差一个标准差以上,通常位于分布的右侧(25 个模型中有 21 个是这种情况)。对此的一个解释可能是数据污染,其中来自 GSM8K 的一些测试示例无意中出现在这些模型的训练集中,导致性能出现偏差。

图 3 展示了几个模型从 GSM8K 到 GSM-Symbolic 的性能下降。可以看到,对于 Gemma2-9B、Phi-3、Phi-3.5 和 Mathstral-7B 等模型,图 2 中的虚线位于右侧,性能下降幅度高于 Llama3-8b 和 GPT-4o 等模型,其中 GSM8K 上的性能接近 GSM-Symbolic 分布的中心,性能下降可以忽略不计。这些结果引导作者在下一节中研究 LLM 推理能力的脆弱性。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

LLM 进行数学推理有多脆弱

在上述实验中,作者观察到从相同模板生成的不同数据集之间,模型存在显著的性能波动,以及与原始 GSM8K 准确率相当的性能下降。这种差异表明,大型语言模型所采用的推理过程可能不是形式化的,因此容易受到某些变化的影响。

一个可能的解释是这些模型主要专注于分布内的模式匹配,即它们将给定的问题和相应的解决步骤与训练数据中遇到的类似例子对齐,因为这种方法不涉及形式推理。接下来作者进一步深入探讨了这些观察结果。

首先,作者研究了变化类型的影响,以理解更改名称(例如,人名、地点、食物、货币等)与更改数字(即变量的值)之间的差异。

图 4 显示,尽管性能变化仍然存在,但在更改名称时的方差比更改数字时要低。几乎所有模型的分布均值从右向左逐渐移动,方差也有所增加。作者还观察到随着变化难度的增加(从名称到数字),模型性能随之下降、方差增加,这些结果表明最先进的 LLM 的推理能力是脆弱的。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

假设 LLM 没有进行形式推理,那么问题难度对性能分布的影响有多重要?我们接着往下看。

题目难度如何影响模型性能?

接下来,作者基于 GSM-Symb 生成了几个新模板,如图 5 所示。通过删除一个子句,得到 GSM-Symbolic-Minus-1 或简称 GSM-M1。同样的,在问题中添加一个或两个子句来增加难度,分别得到 GSM-Symbolic-Plus-1 (GSM-P1) 和 GSM-Symbolic-Plus-2 (GSM-P2)

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

如图 6 所示,所有模型的性能分布演变趋势非常一致:随着难度的增加,性能下降、方差增加。总体而言,模型准确率下降的速度也会随着问题难度的增加而增加。这符合模型未执行形式推理的假设,因为所需的推理步骤数量呈线性增加,但准确率下降速度似乎更快。此外,考虑到模式匹配假设,方差的增加表明,随着难度的增加,模型的搜索和模式匹配变得更加困难。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

LLM 真的可以理解数学概念吗?

前面部分,作者研究了变化类型和难度对模型性能分布的影响。在本节中,作者证明了模型容易在训练分布外的实例上出现灾难性的性能下降,这可能是由于它们依赖于分布模式匹配。

作者引入了 GSM-NoOp,这是一个旨在挑战语言模型推理能力的数据集。作者向 GSM-Symbolic 模板添加了看似相关但最终无关紧要的语句。由于这些语句不具有操作意义,因此将它们称为 No-Op。这些添加不会影响模型解决问题所需的推理过程。

图 7 展示了 GSM-NoOp 中的一个示例。结果表明大多数模型没有忽略这些语句,盲目地将它们转换为操作,从而导致错误。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

总体而言,作者发现模型倾向于将句子转换为操作,而没有真正理解其含义。例如,作者观察到,无论上下文如何,模型都会将有关折扣的语句解释为乘法。

这引发了一个问题:这些模型是否真正充分理解了数学概念。因此,如图 8a 所示,所有测试模型的性能都出现了灾难性的下降,其中 Phi-3-mini 模型的性能下降超过 65%,甚至更强大的模型(如 o1-preview)也出现了显著的下降。

给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

为了更好地理解这种性能下降,作者进行了另一个实验,结果如图 8b 和 8c 所示。

了解更多结果,请查看原论文。

参考链接:https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-14 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
...qizhixin.com;zhaoyunfeng@jiqizhixin.com大语言模型 (LLM) 是如何解数学题的
2024-08-06 09:27:00
\
...。进入MathGPT首页,有小学、初中与高中三个不同程度的数学题难度。其中题目类型包含了找规律、逻辑分析、运算求解、随机现象、表达论述等。用户可以选择不同类型的数学题目进行针
2023-08-28 15:17:00
...的解题技巧,才能为学生在今后的学习中赢得先机。一道数学题,往往具有多种解题方法,在教学中,教师不能只教授一种解题技巧或思维,要引导开发学生好奇的心理,让学生理解掌握数学中的多
2023-07-28 06:39:00
教育局回应深圳4年级数学期末试卷太难延时,网友炸锅!
...州一重点中学数学名师周老师看完深圳南山小学四年级的数学题后表示,整张卷子阅读量太大,这会导致学生在有限的考试时间内无法完成所有题目,影响学生正常发挥。不少家长猜测,深圳南山这
2025-01-10 16:31:00
讯飞星火app上线苹果ios平台:搭载v1.5认知大模型
...已具备“语言理解”、“知识问答”、“逻辑推理”、“数学题解答”等多种应用。讯飞官网显示,目前星火认知模型语言“可翻译多种语言”、“根据文本提取摘要”、“检查语法错误并提供建议
2023-06-15 22:53:00
...州一重点中学数学名师周老师看完深圳南山小学四年级的数学题后表示,整张卷子阅读量太大,这会导致学生在有限的考试时间内无法完成所有题目,影响学生正常发挥。不少家长猜测,深圳南山这
2025-01-10 11:22:00
...大模型的数学水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高
2023-03-16 09:23:00
...,形成解题技巧。对于小学高年级的学生而言,他们面对的数学题目在出题方式和出题结构方面都更加多变,在内容上的变量关系和数量关系逐渐复杂难懂。因此教师应该在教学过程中带领小学高年
2024-05-30 05:37:00
0.999……和1相等?长沙数学名师解读网络热议的小学数学题
...友热议截图。据媒体报道,近日,一位家长晒了一道小学数学题引发热议。这道题目就是问0.999……和1谁更大,不少家长肯定地为是“1大”,但有家长求助AI后得到的结果是“0.99
2023-11-20 15:26:00
更多关于科技的资讯:
最近在微信、抖音等各种网络媒体特别热门的软件OpenClaw,因其官方Logo是一只龙虾而被大家戏称为“龙虾”。不少朋友在手机上刷到相关分享
2026-03-25 08:05:00
从“展厅花瓶”到“可触摸的历史”杭州日报讯 近日,位于西湖区留下老街的林徽因展览馆靠着一块裸眼3D屏在杭城年轻人群体中“出圈”了
2026-03-25 07:58:00
杭州日报讯 3月的绍兴融杭数贸港(以下简称“数贸港”),春潮涌动,“出海”热潮持续升温。近日,两场面向外贸企业的专项活动接连在此举行——一场聚焦跨境电商业绩冲刺中期复盘
2026-03-25 06:57:00
王一凡 河南工业大学一、引言在数字经济快速发展的当下,金融服务正加速向数字化、网络化转型,农村金融生态也随之发生深刻变化
2026-03-25 07:11:00
国家数据局局长刘烈宏3月24日在国新办举行的新闻发布会上表示,到今年3月,我国日均词元(Token)调用量已超过140万亿
2026-03-25 07:30:00
能源结构的清洁低碳转型,让光伏产业成为推动绿色发展的重要力量,随着光伏电站装机规模的持续扩大,电站运维的重要性日益凸显
2026-03-25 07:42:00
近日,由湖南省动漫游戏协会、芒果TV主办的第二届“马栏山杯”小游戏创新创业大赛正式启动,作为本次大赛独家战略合作伙伴,世纪华通旗下盛趣游戏将深度参与赛事全流程
2026-03-25 07:49:00
杭州日报讯 近日,浙江海港物流集团下属浙江海港(中东)供应链管理有限公司(以下简称“海港中东”)首笔仓储业务顺利落地,正式投入运营
2026-03-25 06:57:00
AI+3D打印,洛阳这家企业让\
大河网讯 输入指令、生成模型、远程传送打印......不一会儿,一头小象就这样从想法变成了掌心的萌物。3月24日,“开局之年看中国·原来你是这样的河南”网络主题宣传活动采风团走进洛阳点维电子科技有限公司(以下简称“洛阳点维”)
2026-03-24 23:56:00
游戏+非遗如何破圈?《超自然行动组》探索传统文化年轻化路径
在数字内容产业加速迈向精品化的当下,游戏正日益成为中华传统文化创新传播的重要载体。近日,爆款游戏《超自然行动组》接连公布两项与国家非物质文化遗产的联动
2026-03-24 20:09:00
3月23日上午,位于启东经济开发区的托伦斯精密零部件制造及研发基地项目四期工程开工。项目总投资约9.56亿元,总占地面积78
2026-03-24 21:15:00
金湖农商银行成功落地首笔意外险团单业务
江南时报讯 近日,金湖农商银行在走访周边企业的时候得知一企业重视员工权益保障,希望为员工配置完善的意外伤害保障,该行迅速响应客户需求
2026-03-24 22:27:00
福州新闻网3月24日讯(记者 颜澜萍)3月24日,国务院新闻办公室举行新闻发布会,介绍了第九届数字中国建设峰会相关情况
2026-03-24 17:11:00
鲁网3月24日讯近日,农业银行泰安分行成功为山东海天智能科技有限公司发放知识产权质押贷款500万元,助力企业将“知产”变“资产”
2026-03-24 17:28:00
解码“新汤沟”现象:一场关于“热爱”的酒业变革正在发生
3月23日,成都,一场名为“汤沟瑰野露酒·中国新酒饮高峰论坛”的行业盛事,将全行业的视线聚焦于一个正在发生的深刻变革。当中国酒业步入深度调整期
2026-03-24 18:23:00