• 我的订阅
  • 科技

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

类别:科技 发布时间:2024-10-13 14:15:00 来源:浅语科技

快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。

在论文中,研究人员通过一个简单的数学问题证明了这一点。

他们提出了一个关于采摘猕猴桃的问题:奥利弗在周五挑选了 44 个猕猴桃,然后他在周六挑选 58 个猕猴桃,周日,他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃?

此时,LLM能够正确地计算出答案。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

但是,一旦问题中加入了无关的细节,如“其中5个奇异果比平均小”,模型便给出了错误的答案。

研究人员进一步对数百个类似的问题进行了修改,发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

这一发现表明,LLM并未真正理解数学问题,而是更多地依赖于训练数据中的模式进行预测。

当需要进行真正的逻辑推理时,这些模型往往无法产生合理的结果,这一发现对人工智能的发展提供了重要的参考。

虽然LLM在许多领域表现优异,但其推理能力仍有待改进。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:文祥

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-13 17:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1带火的CoT到底行不行?新论文引发了论战
... CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9
2024-09-21 09:37:00
大模型面临四大关键缺陷,“知识方程”能否通向强人工智能
...大模型面临的最重要的挑战之一。第二,大模型的数学和逻辑推理能力仍然需要加强。虽然GPT-4在某些考试中表现优异,但在面对一些精心设计的逻辑推理问题时,大模型的回答与随机答案相
2023-08-23 11:03:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」这一结论得到了 Keras 之父 François Chollet 和美国心理学家
2024-10-14 09:55:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、
2024-09-18 15:01:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型
2024-09-13 13:34:00
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought
2023-01-09 21:57:00
号称博士生水准!OpenAI最新模型仍分不出9.11和9.8哪个大
...出现的松鼠。这类游戏的逻辑相对复杂,更考验OpenAI o1的逻辑推理能力。官方还表示,相较于GPT-4o等现有的大模型
2024-09-14 10:18:00
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k
2024-07-01 08:58:00
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2
2025-03-05 15:54:00
更多关于科技的资讯:
深圳香蜜丽格成功举办2025LA-HA中国激光医学研讨会。续写Fotona4D发展新篇章
鹏城8月,热力全开!2025年8月5日,“2025LA-HA中国激光医学研讨会暨Fotona欧洲之星基石方案临床应用交流会”在深圳香蜜丽格圆满落幕
2025-08-08 20:05:00
中新经纬8月8日电 据深交所微信公众号8日消息,8月5日,深交所在杭州举办第二十六期“创享荟”活动,围绕创新药的现状未来及资本市场支持行业高质量发展举办专题座谈交流
2025-08-08 19:27:00
一杯“秋奶”喝出节气新经济:益禾堂立秋单日总GMV破6700万!
当二十四节气与新茶饮浪漫邂逅,一杯奶茶如何成为秋日仪式感的代名词?8月7日立秋,益禾堂以“秋天宠你”为情感内核,成功引爆全民“秋天的第一杯奶茶”消费热潮
2025-08-08 19:34:00
2025跑步机选购榜单:减震技术如何守护你的膝盖舒适与运动健康?
跑步机的价值,最终由膝盖说了算!本榜聚焦长期使用下的膝盖舒适度与耐用性两大核心价值,评选真正懂呵护的跑步机。膝盖舒适度&
2025-08-08 19:34:00
2025最新进口纳豆激酶品牌排行榜!哪个牌子效果好又安全?科研实力+口碑双认证!
在当今健康意识不断提升的时代,纳豆激酶凭借其卓越的心血管保健功效,已成为众多家庭必备的营养补充品。面对市场上琳琅满目的产品选择
2025-08-08 19:34:00
中能拾贝深度赋能某上市发电企业,构建电力生产全链条数字化新范式
随着“双碳”目标的深入推进与数字技术的迅猛发展,能源电力行业正迎来绿色转型与智能升级的关键窗口期。中能拾贝深耕能源电力行业二十载
2025-08-08 19:34:00
2025采购与供应管理大会将于9月在厦门开幕
2025年9月14日—16日,全球供应链管理领域的目光将聚焦于福建省厦门市。在这座美丽的海滨城市,一场备受瞩目的国际盛会——“2025年采购与供应管理大会暨第六届中国供应链管理年会”即将拉开帷幕
2025-08-08 19:34:00
益禾堂“秋奶”狂潮席卷全国,立秋当日总GMV破6700万,创历史新高!
8月7日立秋,“秋天的第一杯奶茶”全民狂欢再度引爆!益禾堂以“益趣”为核心,主打“秋天宠爱”,推出轻乳茶新品,结合创意营销攻势
2025-08-08 19:34:00
在茶馆遇见茶的温度与品牌的厚度:解码小罐茶全新茶馆生态
在快节奏的城市生活中,逐渐兴起的“茶空间”逐渐成为人们逃离压力、精神栖息、社交娱乐的都市新场景。这种生活消费方式的转变
2025-08-08 19:34:00
北京最有人气的购物中心,要被卖了
近日,有市场知情人士透露,英格卡购物中心正计划打包出售国内的10座荟聚购物中心。首批将出售位于无锡、北京、武汉的三座荟聚购物中心
2025-08-08 09:16:00
李现也来参与的“观鸟”,在全球拥有千亿级市场|产品观察
作者 | 张子怡编辑 | 彭孝秋今年春天,明星李现带火一个小众赛道。他分享的观鸟vlog被生态环境部公开表扬,此后一连数日的热搜都跟“观鸟”
2025-08-08 11:22:00
商品多退少补太繁琐?小鹅通称重分拣功能上线,高效管理每一克!
小鹅发现,不少社区团购商家在用小鹅通卖生鲜时,采用的是先销后采的方式,缺少"称重分拣"的环节,销转过程低效还易出错。现在
2025-08-08 12:22:00
外卖大战背后,最直观的受益者当属消费者。数据显示,90后日均打开外卖App的频次已达3.2次,25-45岁人群贡献了82%的订单
2025-08-08 10:39:00
随着美团、饿了么、京东的官宣,这场外卖大战似乎会暂告一段落。其间出现各种意想不到的现象,也引起各方对外卖行业发展的反思
2025-08-08 10:39:00
外卖内卷,算得上今年的一个现象级话题。2月11日京东宣布入局外卖,一池春水即被搅动。美团升级“闪购”,饿了么联合淘宝闪购
2025-08-08 10:39:00