• 我的订阅
  • 科技

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

类别:科技 发布时间:2024-10-13 14:15:00 来源:浅语科技

快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。

在论文中,研究人员通过一个简单的数学问题证明了这一点。

他们提出了一个关于采摘猕猴桃的问题:奥利弗在周五挑选了 44 个猕猴桃,然后他在周六挑选 58 个猕猴桃,周日,他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃?

此时,LLM能够正确地计算出答案。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

但是,一旦问题中加入了无关的细节,如“其中5个奇异果比平均小”,模型便给出了错误的答案。

研究人员进一步对数百个类似的问题进行了修改,发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

这一发现表明,LLM并未真正理解数学问题,而是更多地依赖于训练数据中的模式进行预测。

当需要进行真正的逻辑推理时,这些模型往往无法产生合理的结果,这一发现对人工智能的发展提供了重要的参考。

虽然LLM在许多领域表现优异,但其推理能力仍有待改进。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:文祥

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-13 17:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1带火的CoT到底行不行?新论文引发了论战
... CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9
2024-09-21 09:37:00
大模型面临四大关键缺陷,“知识方程”能否通向强人工智能
...大模型面临的最重要的挑战之一。第二,大模型的数学和逻辑推理能力仍然需要加强。虽然GPT-4在某些考试中表现优异,但在面对一些精心设计的逻辑推理问题时,大模型的回答与随机答案相
2023-08-23 11:03:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」这一结论得到了 Keras 之父 François Chollet 和美国心理学家
2024-10-14 09:55:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、
2024-09-18 15:01:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型
2024-09-13 13:34:00
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought
2023-01-09 21:57:00
号称博士生水准!OpenAI最新模型仍分不出9.11和9.8哪个大
...出现的松鼠。这类游戏的逻辑相对复杂,更考验OpenAI o1的逻辑推理能力。官方还表示,相较于GPT-4o等现有的大模型
2024-09-14 10:18:00
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2
2025-03-05 15:54:00
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k
2024-07-01 08:58:00
更多关于科技的资讯:
“安徽省电竞产业研究合作基地”聘任10名顾问
大皖新闻讯 2025年11月16日,安徽电竞创新发展大会在合肥举行。汇聚来自政府部门、行业协会、知名企业及高校的众多嘉宾
2025-11-17 09:24:00
为进一步提升网点服务能力与柜员专业素养,夯实业务基础,打造有温度的金融服务,近日,邮储银行唐山市分行组织开展了“星暖燕赵 星星闪耀”星级柜员竞赛活动
2025-11-17 10:07:00
张家口农商银行宣泰支行打破传统服务边界,以“线上服务提质、直播互动破圈、短视频赋能”为抓手,将便捷与温度融入数字金融场景
2025-11-17 10:11:00
阿里全力进军AI to C市场 千问APP上线公测
11月17日,阿里巴巴正式宣布“千问”项目,全力进军AI to C市场。当天,千问APP公测版上线,基于全球性能第一的开源模型Qwen3
2025-11-17 11:08:00
中新经纬11月17日电 据韩联社报道,三星集团将在未来五年对本土科学研究与试验发展等领域共投资450万亿韩元(约合人民币2
2025-11-17 11:48:00
近日,南都湾财社记者注意到,因为小天才电话手表社交圈的流行,已经产生了相应的产业链——加好友、冲点赞、买“靓号”、卖“高粉”账号
2025-11-17 12:04:00
“25岁,我勇敢从大厂裸辞”“37岁年薪百万,却主动告别互联网大厂”“离开大厂两年,我活成了想要的样子”……近来,“大厂离职”话题在社交平台持续升温
2025-11-17 12:05:00
潍坊联通圆满完成2025潍坊企业家大会通信保障任务
鲁网11月17日讯在第6个潍坊市 “企业家日”到来之际,2025潍坊企业家大会于11月1日隆重召开,主会场设在富华国际会议中心
2025-11-17 14:33:00
蓝盾出击!一场与病毒的闪电战——记潍坊联通快速响应团队的72小时攻坚
鲁网11月17日讯2025年10月21日下午,一阵急促的电话铃声在某单位响起,揭开了与病毒赛跑的序幕。“系统异常!多台办公电脑感染未知病毒
2025-11-17 14:34:00
安谋科技Arm China发布“周易”X3 NPU IP,破局AI算力勾勒智能未来全景图
2025年11月13日,国内领先的芯片IP设计与服务提供商安谋科技Arm China,正式揭开了新一代NPU IP“周易”X3的神秘面纱
2025-11-17 14:35:00
凯盛浩丰集团创新人力资源管理斩获北森2025AI应用先锋奖
鲁网11月17日讯近日,凯盛浩丰集团凭借人力资源领域的AI创新实践,斩获“北森2025AI应用先锋奖”。通过将AI技术融入招聘
2025-11-17 14:35:00
2026亚洲100必打卡榜目的地!福州入选
日前,携程正式发布口碑榜2026年度榜单,福州入选“2026亚洲100目的地榜”“2026中国100目的地榜”两个榜单
2025-11-17 15:20:00
当“工业硬核”遇见“健康温度”:如新在一汽开放日奏响家企健康新乐章
鲁网11月17日讯11月15日的青岛,寒意初显,但一汽解放青岛汽车有限公司的即墨厂区内却暖流涌动。一场名为“扬帆家年华·领航新乐章”的2025员工家属开放日暨员工音乐节正在这里温情上演
2025-11-17 15:45:00
2025年中共中央、国务院印发的《教育强国建设规划纲要(2024-2035年)》指出要全面推进智能化,促进人工智能助力教育变革
2025-11-17 16:28:00
吉林“智造”再启航:长光卫星三颗新星成功出征!
2025年11月17日,在吉林省航天信息产业园,长光卫星技术股份有限公司隆重举行了“瑶海科创号”、“电力工程号B星”及“吉星”高分07B01星三颗卫星的出征仪式
2025-11-17 16:36:00