• 我的订阅
  • 科技

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

类别:科技 发布时间:2024-10-13 14:15:00 来源:浅语科技

快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。

在论文中,研究人员通过一个简单的数学问题证明了这一点。

他们提出了一个关于采摘猕猴桃的问题:奥利弗在周五挑选了 44 个猕猴桃,然后他在周六挑选 58 个猕猴桃,周日,他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃?

此时,LLM能够正确地计算出答案。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

但是,一旦问题中加入了无关的细节,如“其中5个奇异果比平均小”,模型便给出了错误的答案。

研究人员进一步对数百个类似的问题进行了修改,发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

这一发现表明,LLM并未真正理解数学问题,而是更多地依赖于训练数据中的模式进行预测。

当需要进行真正的逻辑推理时,这些模型往往无法产生合理的结果,这一发现对人工智能的发展提供了重要的参考。

虽然LLM在许多领域表现优异,但其推理能力仍有待改进。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:文祥

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-13 17:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1带火的CoT到底行不行?新论文引发了论战
... CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9
2024-09-21 09:37:00
大模型面临四大关键缺陷,“知识方程”能否通向强人工智能
...大模型面临的最重要的挑战之一。第二,大模型的数学和逻辑推理能力仍然需要加强。虽然GPT-4在某些考试中表现优异,但在面对一些精心设计的逻辑推理问题时,大模型的回答与随机答案相
2023-08-23 11:03:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」这一结论得到了 Keras 之父 François Chollet 和美国心理学家
2024-10-14 09:55:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、
2024-09-18 15:01:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型
2024-09-13 13:34:00
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought
2023-01-09 21:57:00
号称博士生水准!OpenAI最新模型仍分不出9.11和9.8哪个大
...出现的松鼠。这类游戏的逻辑相对复杂,更考验OpenAI o1的逻辑推理能力。官方还表示,相较于GPT-4o等现有的大模型
2024-09-14 10:18:00
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2
2025-03-05 15:54:00
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k
2024-07-01 08:58:00
更多关于科技的资讯:
为切实履行金融机构反洗钱义务,富德生命人寿曹妃甸支公司创新宣传形式,将反洗钱知识融入客户服务全过程,取得了良好成效。在曹妃甸支公司服务大厅内
2025-11-17 10:19:00
近日,富德生命人寿涉县支公司的保险代理人带着精心准备的生日礼物,前往VIP客户家中慰问。这不仅是一场简单的生日拜访,更是富德生命人寿长期坚持“以客户为中心
2025-11-17 10:15:00
奋进的河北·“十四五”答卷丨身边的“十四五”(一):上下楼里的“上下游”
雄安新区之新,贵在创新,成在创新。“十四五”期间,雄安新区建成科创中心、中关村科技园等一批创新平台载体,智能网联、空天信息
2025-11-17 08:09:00
在山西焦煤西山煤电官地矿深邃的井下巷道中,23602工作面的转载机正以平稳强劲的动力输送着乌金。与以往不同的是,驱动这台关键设备的“心脏”已完成全新升级——沿用多年的传统“磁力启动器驱动”革新为“变频器驱动”
2025-11-17 07:09:00
厦门网讯(厦门日报记者 林露虹)电子数据取证领域的顶尖人才齐聚厦门,以赛促训强本领。昨日,“美亚杯”第十一届中国电子数据取证大赛(以下简称“美亚杯”)在厦门举行
2025-11-16 08:34:00
“原子级制造:前沿与应用”自然国际会议在宁举行操控原子可“按需造物”,南京已“先行一步”□南京日报/紫金山新闻记者张安琪11月11日至14日
2025-11-16 08:43:00
谁说养老只能慢节奏?记者带您解锁雄安颐养・智慧养老展示馆,三大科技彩蛋让你忍不住竖起大拇指!彩蛋1:AI健康管理机器人
2025-11-16 14:45:00
“先导杯”决赛在合肥打响 全国大学生比拼“智能计算”
大皖新闻讯 AI正在加速改变世界,但其根基仍在“算”。11月15日-16日,2025全国大学生计算机系统能力大赛——智能计算创新设计赛(先导杯)线下决赛及颁奖典礼在合肥举行
2025-11-16 14:46:00
从好房子到好生活:海尔智家以智慧重新定义未来人居
《晏子春秋》云:“君子居必择居,游必择士。”安居乐业,始终是中国人最朴素的向往。过去,一处遮风避雨的“安身之所”已是百姓慰藉
2025-11-16 15:16:00
海尔智慧家庭与小度达成全面战略合作
当智能家居行业从各自分散走向共创融合,一场新的家庭生活变革正在悄然发生。11月13日,百度世界2025于北京召开。现场
2025-11-16 15:18:00
张宣科技金属制品公司研发锌铝镁合金新产品
河北新闻网讯(董佳倩)近日,在张宣科技金属制品公司镀锌丝厂房里,一根根钢丝平稳浸入锌锅,然后裹着“银装”出锅上行,穿越配药箱之后
2025-11-16 16:19:00
东南网11月16日讯(本网记者 卢金福)随着AI技术的普及,电商平台上AI展示商品的现象日益增多。AI模特穿AI衣服做AI直播
2025-11-16 22:09:00
海尔智慧家庭与小度战略合作:双向控制,生态互通
伴随市场需求从单品向全屋智能深入,智能家居生态正从过去单一入口向着多入口、多圈层的生态体系迈进。特别是互联平台的兼容性方面
2025-11-16 15:16:00
摘要:本文围绕企业绩效管理体系的构建与完善展开研究,首先明确该体系的核心构成,包含目标设定、过程监控、评估实施与结果应用四个相互衔接的环节
2025-11-15 05:22:00
厦门软件园健康马拉松赛开跑 引入AI陪跑员
厦门网讯(厦门日报记者 林露虹 摄影报道)“我的‘跑友’是机器人!”昨日,厦门软件园第十七届健康马拉松赛在软件园二期热力开跑
2025-11-15 08:20:00