• 我的订阅
  • 科技

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

类别:科技 发布时间:2024-08-19 13:49:00 来源:Datasky成都

Google DeepMind团队发表了一篇研究论文,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的错误倾向。

研究背景

人类在推理过程中存在两种系统:“直觉系统”和“理性系统”,而已有知识和经验常常影响推理结果。研究表明,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。Google DeepMind的研究进一步揭示,大型语言模型也表现出类似的行为,在提示下能够表现出一致的逻辑推理,但也会受到“内容效应”的影响,即在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理相悖的信息时,可能出现偏差或错误。

研究任务

研究团队设计了三种推理任务:自然语言推断(NLI)、三段论推理和Wason选择任务,分别测试人类和语言模型的表现。

自然语言推断(NLI):任务要求模型判断两个句子之间的逻辑关系(如蕴涵、矛盾或中性)。研究发现,当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。人类和语言模型在这种任务上的错误率相近,表明语言模型在某些方面的推理能力已经接近人类水平。 三段论推理:三段论推理任务要求模型判断由两个前提和一个结论组成的逻辑链条的有效性。研究发现,无论前提和结论的语义内容是否合理,语言模型和人类都容易受到语义内容的影响,导致错误判断。 Wason选择任务:该任务测试个体对条件语句的理解和验证能力。结果显示,语言模型和人类在这一任务的错误率相近,且都容易选择没有信息价值的卡片。然而,当任务的规则涉及社会相关内容时,模型和人类的表现会有所改善。

研究结论与展望

研究结果表明,当前的语言模型在推理任务方面与人类表现相似,甚至犯错的方式也如出一辙,特别是在涉及语义内容的任务中。尽管这些发现揭示了语言模型的局限性,但也为未来的改进提供了方向。

研究团队指出,这项研究存在一定局限性,例如任务种类较少,限制了对人类和语言模型在不同任务中的内容效应的全面理解。此外,语言模型接受的语言数据训练量远远超过任何人类,难以确定这些效应是否会在更接近人类语言数据规模的情况下出现。

未来研究可以探索通过因果操纵模型训练来减少内容偏见,评估这些偏见在更类似人类数据规模的训练中是否仍会出现。此外,研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现,也将有助于进一步理解语言模型和人类在推理过程中的相似性和差异,使其在更广泛的应用场景中发挥更大的作用。

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

成都数据天空科技有限公司深耕生成式人工智能领域,致力于通过前沿的人工智能技术提升企业的效率和个人的能力。为了响应AIGC时代对数据隐私保护和个性化需求日益增长的呼声,公司推出了专为国内市场设计的DataSky AI云盒。

DataSky AI云盒的服务支持多种主流大模型,如:ChatGPT系列、Claude系列,用户可以安心享受AIGC带来的便利,并借此推动企业的智能化转型和增长。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软华人团队发布全新基准AGIEval,专为人类考试而生
...知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4在各个领域已经表现出非常强大的能力,可以辅助人类处理日常事件,甚
2023-05-13 21:28:00
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...一般。他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 智能涌现:只是“即兴表演”?AI 大模型的“涌现能力”来自哪里?它是否真如
2024-08-19 09:31:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...致的行动空间来确保跨平台通用性。为了解决以往工作的局限性,他们在模型中集成了明确的规划和推理功能,增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI
2024-12-10 09:53:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。 此
2025-02-04 04:25:00
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...也有人表示经过实测可见,它仍然具有 Transformer 架构的局限性。对此,图灵奖获得者 Yann LeCun 表示
2024-06-25 09:45:00
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性,以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法,
2024-06-29 09:37:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。论文概述论文标题:GSM-Symbolic: Understanding the Limitations of
2024-10-14 09:55:00
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...构建高效的、针对专门任务的语言模型的关键。 结论与局限性尽管OpenScholar在ScholarQABench在评估中表现出了强大的性能
2024-11-27 13:33:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...基准测试中,表现能够与博士生水平类似。该讲讲缺点和局限性了不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个
2024-09-13 13:34:00
更多关于科技的资讯:
集装箱卡车“混行”井然有序 厦门港海润码头上线水平运输智能调度系统
操作人员通过屏幕实时查看设备调度情况。(通讯员 林鸿涛 摄)厦门网讯(厦门日报记者 林桂桢)1月29日,走进厦门港海润码头的中控指挥台
2026-02-02 08:29:00
在药食同源产业蓬勃发展的当下,霍山铁皮石斛凭借其独特的养生价值与道地属性,成为中式养生市场的核心品类。据皖西日报2026年最新报道
2026-02-02 09:34:00
心动榜主理人|7位餐饮掌舵者,在抖音解锁增长新答案
当餐饮行业进入存量竞争与流量重构的新阶段,如何在坚守品牌初心的同时,与年轻消费者建立深度链接?抖音生活服务心动榜餐厅打造的《心动榜主理人》专栏
2026-02-02 10:11:00
京东与英中贸易协会达成战略合作 以供应链助力英国品牌深耕中国市场
1月30日,在英国首相斯塔默来华访问期间,京东集团与英中贸易协会(CBBC)在中英商务论坛上正式签署战略合作协议。英国财政部经济国务大臣露西·里格比等见证签约仪式
2026-02-02 10:12:00
海尔三筒洗衣机泰国上市填补高端分区洗护空白
1月28日,海尔智家在曼谷Central World举办主题快闪活动。现场不仅有泰国人气明星亲临互动,还设置了丰富的沉浸式体验环节
2026-02-02 10:46:00
QuestMobile2025年度价值榜单发布:华为应用市场斩获三大奖项
1月30日,QuestMobile“数聚共生・智算未来”2025年度趋势发布暨颁奖晚宴在北京举行。活动聚焦行业趋势与增长路径研讨
2026-02-02 10:46:00
海尔、Candy获评葡萄牙消费者喜爱品牌
1月23日,葡萄牙消费者满意度评估中心揭晓了2026年度“消费者选择”大奖。海尔智家旗下两大品牌——海尔与Candy分别摘得冰箱品类“优选品牌”与洗碗机品类“顶级品牌”称号
2026-02-02 10:49:00
海尔泰国在曼谷举行快闪活动
1月28日,海尔泰国在曼谷Central World广场开启为期5天的快闪展示。活动以场景化形式集中呈现全品类高端家电
2026-02-02 10:50:00
自从一脚迈入AI时代,机器人便“跌跌撞撞”地奔向我们。有人无情调侃,有人顶礼膜拜,也有人在一旁默默搀扶、托举——不久前
2026-02-02 09:23:00
刘涛摘要:医药零售销售预测在库存管理、供应链协同与公共健康保障中具有核心地位,但其需求形成机制显著不同于一般消费品市场
2026-02-02 07:00:00
自去年泰山玻璃纤维(太原)二号生产线达产达效以来,公司年产30万吨高性能玻璃纤维智能制造项目已完成全面布局。目前,公司持续紧盯产值目标不放松
2026-02-02 07:22:00
2025年的最后一个月,杭州又创造了一个“票房神话”——音乐剧“天花板之作”《剧院魅影》首次来杭,连演16场,轰动全城
2026-02-02 07:22:00
打破“禁戒定理” 中国科大提出不需要共同参考系的分布式量子传感协议
大皖新闻讯 “这种反向编码协议,打破了由于共同参考系缺失造成的‘禁戒定理’。”相关人员表示。2月1日,大皖新闻记者从中国科学技术大学获悉
2026-02-01 19:36:00
商报讯 近日,钱江世纪城2025“世纪云想”第五届新锐成长企业年度路演成功举办。活动以“赋能成长、洞见未来”为核心,吸引来自电商
2026-02-01 08:32:00
河北日报讯(见习记者康晓博、李畅)1月31日,2026年雄安新区“人工智能+”创新生态系列活动举办。活动现场,清华大学与稳准智能(雄安)科技有限公司(以下简称“稳准智能”)联合研发的“极数”数据大模型(LimiX)发布最新成果与战略规划
2026-02-01 07:45:00