• 我的订阅
  • 科技

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

类别:科技 发布时间:2024-08-19 13:49:00 来源:Datasky成都

Google DeepMind团队发表了一篇研究论文,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的错误倾向。

研究背景

人类在推理过程中存在两种系统:“直觉系统”和“理性系统”,而已有知识和经验常常影响推理结果。研究表明,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。Google DeepMind的研究进一步揭示,大型语言模型也表现出类似的行为,在提示下能够表现出一致的逻辑推理,但也会受到“内容效应”的影响,即在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理相悖的信息时,可能出现偏差或错误。

研究任务

研究团队设计了三种推理任务:自然语言推断(NLI)、三段论推理和Wason选择任务,分别测试人类和语言模型的表现。

自然语言推断(NLI):任务要求模型判断两个句子之间的逻辑关系(如蕴涵、矛盾或中性)。研究发现,当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。人类和语言模型在这种任务上的错误率相近,表明语言模型在某些方面的推理能力已经接近人类水平。 三段论推理:三段论推理任务要求模型判断由两个前提和一个结论组成的逻辑链条的有效性。研究发现,无论前提和结论的语义内容是否合理,语言模型和人类都容易受到语义内容的影响,导致错误判断。 Wason选择任务:该任务测试个体对条件语句的理解和验证能力。结果显示,语言模型和人类在这一任务的错误率相近,且都容易选择没有信息价值的卡片。然而,当任务的规则涉及社会相关内容时,模型和人类的表现会有所改善。

研究结论与展望

研究结果表明,当前的语言模型在推理任务方面与人类表现相似,甚至犯错的方式也如出一辙,特别是在涉及语义内容的任务中。尽管这些发现揭示了语言模型的局限性,但也为未来的改进提供了方向。

研究团队指出,这项研究存在一定局限性,例如任务种类较少,限制了对人类和语言模型在不同任务中的内容效应的全面理解。此外,语言模型接受的语言数据训练量远远超过任何人类,难以确定这些效应是否会在更接近人类语言数据规模的情况下出现。

未来研究可以探索通过因果操纵模型训练来减少内容偏见,评估这些偏见在更类似人类数据规模的训练中是否仍会出现。此外,研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现,也将有助于进一步理解语言模型和人类在推理过程中的相似性和差异,使其在更广泛的应用场景中发挥更大的作用。

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

成都数据天空科技有限公司深耕生成式人工智能领域,致力于通过前沿的人工智能技术提升企业的效率和个人的能力。为了响应AIGC时代对数据隐私保护和个性化需求日益增长的呼声,公司推出了专为国内市场设计的DataSky AI云盒。

DataSky AI云盒的服务支持多种主流大模型,如:ChatGPT系列、Claude系列,用户可以安心享受AIGC带来的便利,并借此推动企业的智能化转型和增长。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软华人团队发布全新基准AGIEval,专为人类考试而生
...知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4在各个领域已经表现出非常强大的能力,可以辅助人类处理日常事件,甚
2023-05-13 21:28:00
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...一般。他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 智能涌现:只是“即兴表演”?AI 大模型的“涌现能力”来自哪里?它是否真如
2024-08-19 09:31:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...致的行动空间来确保跨平台通用性。为了解决以往工作的局限性,他们在模型中集成了明确的规划和推理功能,增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI
2024-12-10 09:53:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。 此
2025-02-04 04:25:00
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...也有人表示经过实测可见,它仍然具有 Transformer 架构的局限性。对此,图灵奖获得者 Yann LeCun 表示
2024-06-25 09:45:00
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性,以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法,
2024-06-29 09:37:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。论文概述论文标题:GSM-Symbolic: Understanding the Limitations of
2024-10-14 09:55:00
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...构建高效的、针对专门任务的语言模型的关键。 结论与局限性尽管OpenScholar在ScholarQABench在评估中表现出了强大的性能
2024-11-27 13:33:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...基准测试中,表现能够与博士生水平类似。该讲讲缺点和局限性了不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个
2024-09-13 13:34:00
更多关于科技的资讯:
一年一度的天猫双11购物节再次引爆消费市场。但与往年不同,今年的关键词不再是简单的“低价”或“流量”,而是全面转向“效率”
2025-11-10 20:57:00
这个周末,朋友圈彻底被KPL总决赛刷屏了。这场赛事创下12秒售罄门票、6.2万人现场观赛的亮眼成绩,一举打破单场电竞赛事观众人数最多的吉尼斯世界纪录
2025-11-10 16:46:00
重获森林呼吸:“半亩森林”在杭发布新品,开启环境益生菌空气净化新纪元
2025年11月8日,杭州梦想小镇络绎科学社区迎来了一场充满科技想象与生活温度的创新体验活动——体验π|环境益生菌,开启“森林呼吸”新纪元
2025-11-10 15:40:00
武当山智慧旅游平台升级 多语种 AI 客服暖心上线
近日,武当山智慧旅游平台迎来重要升级,智能 AI 客服多语种功能正式上线,为全球游客打造无障碍智慧游览新体验,也标志着景区公共服务国际化水平迈上新台阶
2025-11-10 15:31:00
“双11”火到海外,全球网民纷纷加入抢购浪潮厦门空港迎来跨境电商出口高峰东南网11月10日讯(海峡导报记者孙春燕)一年一度的购物狂欢节——“双11”正在如火如荼的进行中
2025-11-10 11:19:00
中国银行与中国银联、华住集团举办提振消费主题签约活动
11月6日,中国银行携手中国银联、华住集团,在商务部、文旅部、人民银行上海总部、上海市政府的共同见证下,成功举办“聚力进博新引擎
2025-11-10 11:26:00
澳柯玛推出2026年风冷无霜、立式多系列冷柜新品
鲁网11月10日讯近日,“双擎智控,深冷领鲜”——澳柯玛2026年制冷营销峰会在青岛隆重召开。来自全国各地的合作伙伴、渠道商及主流媒体代表齐聚一堂
2025-11-10 11:31:00
赛德斯耳机产品线深度盘点:以精准科技满足全场景音频需求
在竞争激烈的音频市场,一个品牌能否立足,关键在于其产品线能否精准覆盖多元化的用户场景。游戏耳机品牌赛德斯(SADES)通过其精心布局的耳机产品矩阵
2025-11-10 12:08:00
神都镜像照见数字文明 作家维摩眼中的“河洛智慧”
大河网讯(记者 赵檬)在千年古都洛阳的深厚文明积淀与瞬息万变的互联网浪潮之间,一场跨越时空的对话正在展开。11月5日,作家维摩参加了2025河南省网络文明大会
2025-11-10 12:39:00
2025青岛虚拟现实创新大会|专访自然语义(青岛)科技有限公司CMO薛铮:以轻量化“语义桥梁”助推虚拟现实产业智能升级
鲁网11月10日讯 (记者 尤奕钧 刘晓伟)人工智能技术快速发展,离不开其背后的核心驱动力——自然语言处理(NLP),NLP依赖于算法和模型分析
2025-11-10 11:34:00
卖场变生活场能否“赢”客?解码五缘湾商圈零售新生态
京东MALL的DIY电竞区人气高。(京东MALL 供图)五缘湾天虹超市将闽南古早味引进精品区。(记者 庄筱婧 摄)五缘湾天虹超市将“烟火市集”升级为顾客的“星级家庭后厨”
2025-11-10 08:13:00
在2025年世界互联网大会乌镇峰会主论坛上,国家移民局、国家网信办联合发布外国人资讯服务App——SinoGuide。SinoGuide旨在帮助外国人更好融入并体验中国丰富便捷的数字化服务
2025-11-10 09:49:00
本报讯(全媒体记者黄祥晟、罗晋粤)11月8日,在2025年世界互联网大会乌镇峰会“互联网之光”博览会现场,从算力基建到智能产品
2025-11-10 07:03:00
11月7日从太原福莱瑞达科技有限公司获悉,2025年度“机械工业科学技术奖”获奖名单日前公示,福莱瑞达与太原科技大学联合研发的“多形态货物的智能抓取与装车技术及装备”项目
2025-11-10 07:19:00
江苏南京:以“智”赋“能”,南京AI军团点亮智能制造
建模降本、“鹰眼”护安全、机器人夜检地铁……以“智”赋“能”,南京AI军团点亮智能制造□南京日报/紫金山新闻记者 徐宁周容璇 实习生黄倩以“激光扫描+AI建模”
2025-11-10 08:00:00