• 我的订阅
  • 科技

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

类别:科技 发布时间:2024-08-19 13:49:00 来源:Datasky成都

Google DeepMind团队发表了一篇研究论文,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的错误倾向。

研究背景

人类在推理过程中存在两种系统:“直觉系统”和“理性系统”,而已有知识和经验常常影响推理结果。研究表明,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。Google DeepMind的研究进一步揭示,大型语言模型也表现出类似的行为,在提示下能够表现出一致的逻辑推理,但也会受到“内容效应”的影响,即在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理相悖的信息时,可能出现偏差或错误。

研究任务

研究团队设计了三种推理任务:自然语言推断(NLI)、三段论推理和Wason选择任务,分别测试人类和语言模型的表现。

自然语言推断(NLI):任务要求模型判断两个句子之间的逻辑关系(如蕴涵、矛盾或中性)。研究发现,当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。人类和语言模型在这种任务上的错误率相近,表明语言模型在某些方面的推理能力已经接近人类水平。 三段论推理:三段论推理任务要求模型判断由两个前提和一个结论组成的逻辑链条的有效性。研究发现,无论前提和结论的语义内容是否合理,语言模型和人类都容易受到语义内容的影响,导致错误判断。 Wason选择任务:该任务测试个体对条件语句的理解和验证能力。结果显示,语言模型和人类在这一任务的错误率相近,且都容易选择没有信息价值的卡片。然而,当任务的规则涉及社会相关内容时,模型和人类的表现会有所改善。

研究结论与展望

研究结果表明,当前的语言模型在推理任务方面与人类表现相似,甚至犯错的方式也如出一辙,特别是在涉及语义内容的任务中。尽管这些发现揭示了语言模型的局限性,但也为未来的改进提供了方向。

研究团队指出,这项研究存在一定局限性,例如任务种类较少,限制了对人类和语言模型在不同任务中的内容效应的全面理解。此外,语言模型接受的语言数据训练量远远超过任何人类,难以确定这些效应是否会在更接近人类语言数据规模的情况下出现。

未来研究可以探索通过因果操纵模型训练来减少内容偏见,评估这些偏见在更类似人类数据规模的训练中是否仍会出现。此外,研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现,也将有助于进一步理解语言模型和人类在推理过程中的相似性和差异,使其在更广泛的应用场景中发挥更大的作用。

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

成都数据天空科技有限公司深耕生成式人工智能领域,致力于通过前沿的人工智能技术提升企业的效率和个人的能力。为了响应AIGC时代对数据隐私保护和个性化需求日益增长的呼声,公司推出了专为国内市场设计的DataSky AI云盒。

DataSky AI云盒的服务支持多种主流大模型,如:ChatGPT系列、Claude系列,用户可以安心享受AIGC带来的便利,并借此推动企业的智能化转型和增长。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软华人团队发布全新基准AGIEval,专为人类考试而生
...知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4在各个领域已经表现出非常强大的能力,可以辅助人类处理日常事件,甚
2023-05-13 21:28:00
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...一般。他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 智能涌现:只是“即兴表演”?AI 大模型的“涌现能力”来自哪里?它是否真如
2024-08-19 09:31:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...致的行动空间来确保跨平台通用性。为了解决以往工作的局限性,他们在模型中集成了明确的规划和推理功能,增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI
2024-12-10 09:53:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。 此
2025-02-04 04:25:00
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...也有人表示经过实测可见,它仍然具有 Transformer 架构的局限性。对此,图灵奖获得者 Yann LeCun 表示
2024-06-25 09:45:00
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性,以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法,
2024-06-29 09:37:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。论文概述论文标题:GSM-Symbolic: Understanding the Limitations of
2024-10-14 09:55:00
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...构建高效的、针对专门任务的语言模型的关键。 结论与局限性尽管OpenScholar在ScholarQABench在评估中表现出了强大的性能
2024-11-27 13:33:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...基准测试中,表现能够与博士生水平类似。该讲讲缺点和局限性了不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个
2024-09-13 13:34:00
更多关于科技的资讯:
厦门网讯(厦门日报记者 李晓平)如今,拍照不再停留在平面,“一站式”3D人像打印,正让影像“立”起来,成为更多人的选择
2025-10-08 08:12:00
小牛FX风速款首销战报:5小时全渠道销量14252台,以“价值重构”引爆全民抢购潮
2025年9月29日,全球高端智能电动车领导品牌小牛电动正式发布FX风速款首销战报。数据显示,这款被业界称为“价格屠夫”的新品在9月28日首发后
2025-10-08 09:00:00
稳就业 稳企业 稳市场 稳预期|从 “设备制造” 到 “全链服务”:陕西电子长岭电气纺织机电产业的进阶之路
9月29日,由陕西省委宣传部举办的“稳就业、稳企业、稳市场、稳预期”主题媒体行活动,带领陕西多家主流媒体走进陕西电子陕西长岭电气有限责任公司参观考察
2025-10-08 17:51:00
近日,中国物流与采购联合会公布全国第十批5A级供应链服务企业名单,华远国际陆港集团正式通过评审,获评“5A级供应链服务企业”
2025-10-08 18:01:00
货丰价稳、活动密集、销售井喷、消费升级……在这个中秋国庆假期,我市消费市场“热”力值拉满,处处繁荣兴旺、活力十足。10月8日
2025-10-08 18:32:00
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00
2025年全国大学生计算机大赛总决赛落幕 西工大获奖数量质量再创新高
近日,2025年全国大学生计算机系统能力大赛各赛道总决赛圆满落幕。本届大赛吸引了来自清华大学、北京大学、复旦大学、华中科技大学
2025-10-07 11:40:00
太划算!遵义多重补贴点燃消费热情
多彩贵州网讯国庆中秋“双节”同至,遵义市推出的“悦·遵义‘双节’欢乐购”促消费活动覆盖整个长假,其中“焕新过节·乐享生活”家电家居促销活动形式丰富
2025-10-07 14:51:00
□南京日报/紫金山新闻记者 张安琪9月23日,2025南京金秋经贸洽谈会开幕式上,一批全球首个、国内首批、性能全球最高的科技成果密集亮相
2025-10-06 09:49:00
国庆中秋长假期间,新能源汽车已成为众多家庭出游的重要选择。为进一步破解高速服务区“充电难、排队久”的现实困境,山西交控集团坚持“科技创新+服务升级”双轮驱动
2025-10-06 18:01:00
邮储信用卡气球雨惊喜派对即将空降青岛李沧万达,国庆中秋邀您共启幸运之旅!
鲁网9月30日讯2025年国庆、中秋双节同庆之际,为回馈广大市民与持卡人长期以来的支持,邮储银行青岛分行将于10月1日-8日
2025-10-06 14:11:00
□南京日报/紫金山新闻记者 于洁尘 通讯员陈天骄“干我们这行的,哪有节假日?越是假期越要忙。”10月5日一大早,28岁的陈潇离开南京
2025-10-06 09:48:00
节日我在岗丨十堰高周波:抓创新赶订单 全力冲刺年度目标
十堰广电讯(全媒体记者 陈林)在国庆中秋假期,位于十堰经济开发区的十堰高周波科工贸有限公司抓创新赶订单,全力冲刺年度目标
2025-10-05 20:21:00