• 我的订阅
  • 科技

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

类别:科技 发布时间:2024-10-13 14:15:00 来源:浅语科技

快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。

在论文中,研究人员通过一个简单的数学问题证明了这一点。

他们提出了一个关于采摘猕猴桃的问题:奥利弗在周五挑选了 44 个猕猴桃,然后他在周六挑选 58 个猕猴桃,周日,他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃?

此时,LLM能够正确地计算出答案。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

但是,一旦问题中加入了无关的细节,如“其中5个奇异果比平均小”,模型便给出了错误的答案。

研究人员进一步对数百个类似的问题进行了修改,发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

这一发现表明,LLM并未真正理解数学问题,而是更多地依赖于训练数据中的模式进行预测。

当需要进行真正的逻辑推理时,这些模型往往无法产生合理的结果,这一发现对人工智能的发展提供了重要的参考。

虽然LLM在许多领域表现优异,但其推理能力仍有待改进。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:文祥

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-13 17:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1带火的CoT到底行不行?新论文引发了论战
... CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9
2024-09-21 09:37:00
大模型面临四大关键缺陷,“知识方程”能否通向强人工智能
...大模型面临的最重要的挑战之一。第二,大模型的数学和逻辑推理能力仍然需要加强。虽然GPT-4在某些考试中表现优异,但在面对一些精心设计的逻辑推理问题时,大模型的回答与随机答案相
2023-08-23 11:03:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」这一结论得到了 Keras 之父 François Chollet 和美国心理学家
2024-10-14 09:55:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、
2024-09-18 15:01:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型
2024-09-13 13:34:00
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought
2023-01-09 21:57:00
号称博士生水准!OpenAI最新模型仍分不出9.11和9.8哪个大
...出现的松鼠。这类游戏的逻辑相对复杂,更考验OpenAI o1的逻辑推理能力。官方还表示,相较于GPT-4o等现有的大模型
2024-09-14 10:18:00
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2
2025-03-05 15:54:00
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k
2024-07-01 08:58:00
更多关于科技的资讯:
鲁网2月13日讯随着春节气息愈发浓厚,一场覆盖消费、民生多场景的促消费行动正在青岛温暖铺开。面对新消费趋势与实体经济的实际需求
2026-02-13 11:26:00
大麦娱乐与快达票达成战略投资合作 将共同开发港澳台市场
2月13日,大麦娱乐与香港知名票务平台快达票达成战略投资合作,双方宣布将透过各自在大中华地区门票销售的丰富经验,打造跨平台的升级购票体验
2026-02-13 11:32:00
建行启动2026年春节促消费专项活动
鲁网2月13日讯近日,建设银行积极响应商务部等9部委2026“乐购新春”春节特别活动号召,启动2026年春节促消费专项活动
2026-02-13 12:01:00
新春添文韵 云上赏瑰宝BesTV上海博物馆中国古代雕塑馆重磅上线
马年新春佳节来临之际,“BesTV上海博物馆”特为广大观众呈上一份荧幕文化盛宴——“中国古代雕塑馆”正式上线云端,把又一文化大礼包“搬”进市民家中
2026-02-13 12:35:00
当前经济形势复杂多变、行业监管日益趋严,叠加全媒体时代信息传播的裂变式特征,保险业的声誉风险管理已从“加分项”变为“必答题”
2026-02-13 12:35:00
智电领航新征程 研学赋能绘绿能——南京工程学院\
2026年2月10日,南京工程学院电力工程学院“盐电数创团”赴国网盐城供电公司开展了一场深入的社会实践活动。活动聚焦电力行业数字化与智能化转型
2026-02-13 12:39:00
现在给宝宝选纸尿裤,真的会被市面上五花八门的款式挑花眼——货架上摆满了不同品牌、不同系列,每个都宣称“低敏、透气、防漏”
2026-02-13 12:39:00
科技赋能新春年味,智身科技亮相央视新闻“保姆机器人大会”机器人年货大集!
近日,由央视新闻主办的“CMG智享未来——保姆机器人大会”机器人年货大集”活动,在江苏省苏州市吴中区龙湖苏州东吴天街开启
2026-02-13 12:39:00
西安科技大学团队破解电磁防护难题!成果刊发国际顶刊《Advanced Science》
在千米深的煤矿井下,大型采矿机械轰鸣运转,变频器、通风系统高速工作,这些设备在保障开采效率的同时,会产生一种无形的“干扰源”——电磁干扰
2026-02-13 13:16:00
潮流IP联名快闪落地北京apm 多元活动打造京城地标新年体验
新春序幕徐徐拉开,喜庆的氛围已悄然漫溢于城市街巷,值此新春时节,2026年2月6日至3月15日,泡泡玛特于北京apm首层中庭倾力呈现「闪光绮愿派对」θ SKULLPANDA x 小马宝莉联名系列主题快闪
2026-02-13 12:37:00
春节前夕,继“年货节”之后,拼多多接棒上线“春节不打烊”活动,加大对水果生鲜、粮油米面、肉禽蛋奶、零食滋补、酒水饮料、日用百货等春节必需品的补贴力度
2026-02-13 08:29:00
买年货,不仅仅是坚果、腊味、粮油。随着马年春节的临近,一股“科技年货热”正在杭州兴起。2月11日,记者来到了位于杭州市西湖区的文三数字生活街区
2026-02-13 08:31:00
青岛将高水平打造北方OPC先行示范城
鲁网2月12日讯2月12日,青岛市政府新闻办召开新闻发布会,介绍青岛OPC发展的有关情况。OPC,又称“一人公司”,是指由一人或几人借助AI工具创办的小微企业
2026-02-13 08:59:00
中国钛谷·東吉:专研航天材料的民用革命
近年来,随着健康消费理念的普及与材料科技的不断突破,钛金属凭借“亲生物、天然抑菌、耐腐蚀、轻质高强”等特性,正从航空航天等高端领域
2026-02-13 10:08:00
2月11日上午,随着锣声响起,2026年科创板首家浙江企业、易思维(杭州)科技股份有限公司成功上市。“赶在马年春节前,办妥了这件大事
2026-02-13 09:02:00