• 我的订阅
  • 科技

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

类别:科技 发布时间:2024-10-13 14:15:00 来源:浅语科技

快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

尽管这些模型在生成人类水平的文本方面表现出色,但当处理简单的数学问题时,即使问题仅进行了微小的改动,如添加无关信息,模型的表现也会急剧下降。

在论文中,研究人员通过一个简单的数学问题证明了这一点。

他们提出了一个关于采摘猕猴桃的问题:奥利弗在周五挑选了 44 个猕猴桃,然后他在周六挑选 58 个猕猴桃,周日,他采摘的猕猴桃数量是周五的两倍。奥利弗有多少个猕猴桃?

此时,LLM能够正确地计算出答案。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

但是,一旦问题中加入了无关的细节,如“其中5个奇异果比平均小”,模型便给出了错误的答案。

研究人员进一步对数百个类似的问题进行了修改,发现几乎所有问题的修改都导致了LLM回答成功率的大幅降低。

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

这一发现表明,LLM并未真正理解数学问题,而是更多地依赖于训练数据中的模式进行预测。

当需要进行真正的逻辑推理时,这些模型往往无法产生合理的结果,这一发现对人工智能的发展提供了重要的参考。

虽然LLM在许多领域表现优异,但其推理能力仍有待改进。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:文祥

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-13 17:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

o1带火的CoT到底行不行?新论文引发了论战
... CoT 带来增益最大的三类任务分别是:符号推理、数学、逻辑推理。在这三个任务上,CoT 实现的平均性能为 56.9
2024-09-21 09:37:00
大模型面临四大关键缺陷,“知识方程”能否通向强人工智能
...大模型面临的最重要的挑战之一。第二,大模型的数学和逻辑推理能力仍然需要加强。虽然GPT-4在某些考试中表现优异,但在面对一些精心设计的逻辑推理问题时,大模型的回答与随机答案相
2023-08-23 11:03:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...降。我们假设这种下降是因为当前的 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的推理步骤。」这一结论得到了 Keras 之父 François Chollet 和美国心理学家
2024-10-14 09:55:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、
2024-09-18 15:01:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...凌晨1时许,AI时代迎来崭新的起点——能够进行通用复杂推理的大模型终于走到台前。OpenAI在官网发布公告称,开始向全体订阅用户开始推送OpenAI o1预览模型——也就是此前被广泛期待的“草莓”大模型
2024-09-13 13:34:00
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought
2023-01-09 21:57:00
号称博士生水准!OpenAI最新模型仍分不出9.11和9.8哪个大
...出现的松鼠。这类游戏的逻辑相对复杂,更考验OpenAI o1的逻辑推理能力。官方还表示,相较于GPT-4o等现有的大模型
2024-09-14 10:18:00
对话北大赵东岩:为啥DeepSeek幻觉率这么高?用户如何避免被AI“欺骗”?
...达14.3%,显著高于DeepSeek-V3的3.9%,也远远超过行业的其他推理模型,比如OpenAI-o1的测试结果是2
2025-03-05 15:54:00
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
...水平(图中0.0边界)甚至超越,其中不乏非常有挑战性的逻辑推理任务,比如需要复杂多步骤推理的BBH(Big-Bench Hard)和数学应用题测试集GSK8k
2024-07-01 08:58:00
更多关于科技的资讯:
AI时代,“养小龙虾”就能创业成功?
有人研究怎么把企业做大,有人研究怎么把企业做快,这个人却一头扎进历史堆里,研究一件事:为什么有些企业能活很久,有些却中途消失
2026-03-10 20:17:00
当前AI技术正在深入影响内容创作行业,对于AI编曲现象,全国政协委员王黎光表示,AI虽然能代替创作过程但不能代替人工。AI编曲是以大模型的储备量和收集量为基础的
2026-03-10 20:39:00
在银行业竞争日趋激烈、利差收窄的宏观环境下,镇江农商银行坚持以精细化管理为抓手,通过实施“熵减工程”“蜂巢工程”和结构调优三大举措
2026-03-10 22:41:00
中新经纬3月10日电 小红书“薯管家”官方账号发布公告称,近期,平台发现部分用户采用AI托管模式运营账号,通过技术手段自动生成内容
2026-03-10 21:19:00
中国网3月10日讯 据“国家互联网应急中心CNCERT”微信公众号消息,近期,OpenClaw(“小龙虾”,曾用名Clawdbot
2026-03-10 20:05:00
春风送千岗,AI助求职:2026年综合专场招聘会暨春风行动就业援助活动圆满结束
3月7日上午,“AI聘·才汇来”相城区2026年综合类专场招聘会暨春风行动就业援助活动在相城区人力资源市场成功举办。作为“春风行动”系列活动之一
2026-03-10 17:45:00
国科光锐研发生产基地项目落户黄桥
江南时报讯 3月4日,国科光锐研发生产基地项目签约仪式顺利举行,抢抓高端装备制造产业发展机遇,完善先进制造业发展支撑体系
2026-03-10 17:48:00
“养龙虾”,多地砸钱支持
中新经纬3月10日电 “养龙虾”,这是近日的AI热词,即部署和使用名为OpenClaw‌的开源AI智能体框架,因其图标为一只红色龙虾
2026-03-10 19:10:00
鲁网3月10日讯(记者 张佳伟)3月9日,由中国生物发酵产业协会主办、安琪酵母股份有限公司承办的“2026第十一届发酵培养基应用与发展技术论坛”在济南黄河国际会展中心举行
2026-03-10 17:24:00
两会,就这Young!丨万亿存量市场怎么激活?全国人大代表郭兴田用“两天”作答
编者按:今年全国两会,大河网两位00后记者首次踏上两会征程,以“萌新”视角记录两会,为网友带来全新体验:不背稿、不装样
2026-03-10 14:21:00
让家陪伴成长——金隅天坛家居Mall 3月7日启幕,定义“家生活”新方式
在快速更迭的时代,人们对家的期待已超越功能满足,转而追求情感承载与成长陪伴。正是基于这一洞察,金隅天坛家居Mall提出“我家的长期主义”核心主张——让家能够伴随家庭成长
2026-03-10 14:26:00
在教育选择中,高途网课是否靠谱、教育机构是否可靠、办学是否正规,是学习者和家长最为关注的核心问题。高途 2025 财年第四季度及全年财报
2026-03-10 14:27:00
文化认同融入创新表达,“欢笑中国年”如何抓住大众情绪的小切口?
2026 年春节,红包大战再度迎来内卷与爆发,随着AI平台扎堆涌入,用户在春节期间的注意力被分散、现金激励的边际效应减弱
2026-03-10 16:50:00
灵寿县:灵活就业AI分析让求职成功率提升25%
“把这次春风行动搜集到的信息尽快录入系统,用AI分析一下,精准做好匹配。”3月8日,灵寿县零工市场有关负责人张杉认真梳理了上一场“春风行动”收集到的用工求职信息
2026-03-10 11:30:00
杭州的人形机器人太超前 德国留学生专程为它来学习
近日,浙江科技大学机器人现代产业学院实验室里,来自德国德累斯顿技术经济大学的硕士研究生马克西米利安·穆勒正在开展关于宇树人形机器人的毕业论文研究
2026-03-10 11:36:00