• 我的订阅
  • 科技

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

类别:科技 发布时间:2024-10-13 14:15:00 来源:浅语科技

快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。

在论文中,研究人员通过一个简单的数学问题证明了这一点。

他们提出了一个关于采摘猕猴桃的问题:奥利弗在周五挑选了 44 个猕猴桃,然后他在周六挑选 58 个猕猴桃,周日,他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃?

此时,LLM能够正确地计算出答案。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

但是,一旦问题中加入了无关的细节,如“其中5个奇异果比平均小”,模型便给出了错误的答案。

研究人员进一步对数百个类似的问题进行了修改,发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

这一发现表明,LLM并未真正理解数学问题,而是更多地依赖于训练数据中的模式进行预测。

当需要进行真正的逻辑推理时,这些模型往往无法产生合理的结果,这一发现对人工智能的发展提供了重要的参考。

虽然LLM在许多领域表现优异,但其推理能力仍有待改进。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:文祥

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-13 17:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1带火的CoT到底行不行?新论文引发了论战
... CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9
2024-09-21 09:37:00
大模型面临四大关键缺陷,“知识方程”能否通向强人工智能
...大模型面临的最重要的挑战之一。第二,大模型的数学和逻辑推理能力仍然需要加强。虽然GPT-4在某些考试中表现优异,但在面对一些精心设计的逻辑推理问题时,大模型的回答与随机答案相
2023-08-23 11:03:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」这一结论得到了 Keras 之父 François Chollet 和美国心理学家
2024-10-14 09:55:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、
2024-09-18 15:01:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型
2024-09-13 13:34:00
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought
2023-01-09 21:57:00
号称博士生水准!OpenAI最新模型仍分不出9.11和9.8哪个大
...出现的松鼠。这类游戏的逻辑相对复杂,更考验OpenAI o1的逻辑推理能力。官方还表示,相较于GPT-4o等现有的大模型
2024-09-14 10:18:00
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k
2024-07-01 08:58:00
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2
2025-03-05 15:54:00
更多关于科技的资讯:
10月27日,第三届山西省智能制造推进大会在太原举行。在山西省卓越级智能工厂和智能制造优秀供应商授牌仪式上,太钢不锈钢股份有限公司
2025-10-28 07:23:00
从“复活”一只龙鸟到定义一个产业,越疆用具身智能撬动文化科技新生态
当电影《博物馆奇妙夜》中展品“活”过来的奇幻场景照进现实,一场由科技驱动的文旅产业变革正悄然拉开序幕。近日,越疆初息工厂宣布成功打造全球首个超仿生具身智能体——以多模态具身智能技术“复活”的中华龙鸟
2025-10-28 07:48:00
近400名人才角逐南京市“双创项目”人才“赛马”金陵城,创新与产业双向奔赴□南京日报/紫金山新闻记者 张安琪10月26日
2025-10-28 07:50:00
中国消费者协会与中国物品编码中心合作,于近日在“全国消协智慧315”小程序上线“消协帮您找,扫码辨商品”新功能。该功能依托编码中心国家商品数据库的权威信息
2025-10-28 07:58:00
近日,大金科工(天津)车业有限公司(以下简称“大金科工”)开业仪式在武清开发区举行。大金科工由大行科工(深圳)股份有限公司与金轮集团共同注资成立
2025-10-27 14:11:00
电竞赛事下沉 重构经济文化新生态
第十二届王者荣耀全国大赛举办颁奖礼第十二届王者荣耀全国大赛总决赛落地天津五大道民园广场无畏契约嘉年华 前王者荣耀职业联赛选手刺痛(右)与粉丝合影无畏契约瓦友社迎新季线下活动和平精英村镇赛广东清远站
2025-10-27 14:11:00
据IDC数据显示,2025年中国GEO市场规模突破200亿元,年复合增长率高达67%,超过78%的企业已将GEO纳入品牌增长与智能营销的核心战略
2025-10-27 14:20:00
中国品牌出海:从产品制造向品牌价值跃升
“不出海,就出局。”这句话听起来很极端,但折射出中国制造业在全球化时代的现实处境。今天,中国企业出海,已不再是讨生活般的生存选择
2025-10-27 14:23:00
喜讯!毕节这家电厂获两项国家实用新型专利
多彩贵州网讯(通讯员 田永梅 张仁玉)近日,纳雍电厂自主研发的“一种可移动手持电压波形示波器判断N600中性线断线装置”与“一种新型二次回路防误碰接线端子隔板”两项创新成果
2025-10-27 15:05:00
顺丰超脑2.0获2025 CCF科技成果奖,本年度物流领域唯一!
10月24日,在中国计算机大会(CNCC 2025)的颁奖典礼上,顺丰科技携手深圳大学申报的“面向物流网络的专家智能体+垂域 AI 模型协同决策技术研究与规模化应用”项目脱颖而出
2025-10-27 15:40:00
近日,2025年《财富》中国最佳设计榜单正式揭晓,东软集团全资子公司东软云科技推出的“重塑用药指导体验”创新数字服务实践成功登榜
2025-10-27 15:46:00
“运动健身”交易同比增长超111%!贵州年轻人健康消费升温
记者日前从美团获悉,今年以来,贵州地区各种潮流运动消费需求明显,“运动”关键词搜索量同比增长超51%,其中,“保龄球”搜索量同比增长超181%
2025-10-28 00:32:00
重塑智慧农业新未来 | 潍柴雷沃发布中国首个智慧农业AI大模型
鲁网10月27日讯10月26日,在2025中国国际农业机械展览会上,潍柴雷沃智慧农业AI大模型全场景重磅发布,全面赋能农业生产从播种
2025-10-27 16:21:00
内功修炼+市场开拓 河钢张宣科技镀锌产线强势创效
河北新闻网讯(董佳倩)近日,河钢集团张宣科技传来捷报,其镀锌产线凭借“内功修炼+市场开拓”实现经营创效。9月份,该公司镀锌丝产品销量环比增长77%
2025-10-27 18:01:00
全球合同管理系统市场正以15.5%的年复合增长率狂奔,443.9亿元的庞大市场背后,是AI技术对传统合同管理方式的彻底颠覆
2025-10-27 17:36:00