• 我的订阅
  • 科技

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

类别:科技 发布时间:2024-08-19 13:49:00 来源:Datasky成都

Google DeepMind团队发表了一篇研究论文,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的错误倾向。

研究背景

人类在推理过程中存在两种系统:“直觉系统”和“理性系统”,而已有知识和经验常常影响推理结果。研究表明,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。Google DeepMind的研究进一步揭示,大型语言模型也表现出类似的行为,在提示下能够表现出一致的逻辑推理,但也会受到“内容效应”的影响,即在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理相悖的信息时,可能出现偏差或错误。

研究任务

研究团队设计了三种推理任务:自然语言推断(NLI)、三段论推理和Wason选择任务,分别测试人类和语言模型的表现。

自然语言推断(NLI):任务要求模型判断两个句子之间的逻辑关系(如蕴涵、矛盾或中性)。研究发现,当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。人类和语言模型在这种任务上的错误率相近,表明语言模型在某些方面的推理能力已经接近人类水平。 三段论推理:三段论推理任务要求模型判断由两个前提和一个结论组成的逻辑链条的有效性。研究发现,无论前提和结论的语义内容是否合理,语言模型和人类都容易受到语义内容的影响,导致错误判断。 Wason选择任务:该任务测试个体对条件语句的理解和验证能力。结果显示,语言模型和人类在这一任务的错误率相近,且都容易选择没有信息价值的卡片。然而,当任务的规则涉及社会相关内容时,模型和人类的表现会有所改善。

研究结论与展望

研究结果表明,当前的语言模型在推理任务方面与人类表现相似,甚至犯错的方式也如出一辙,特别是在涉及语义内容的任务中。尽管这些发现揭示了语言模型的局限性,但也为未来的改进提供了方向。

研究团队指出,这项研究存在一定局限性,例如任务种类较少,限制了对人类和语言模型在不同任务中的内容效应的全面理解。此外,语言模型接受的语言数据训练量远远超过任何人类,难以确定这些效应是否会在更接近人类语言数据规模的情况下出现。

未来研究可以探索通过因果操纵模型训练来减少内容偏见,评估这些偏见在更类似人类数据规模的训练中是否仍会出现。此外,研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现,也将有助于进一步理解语言模型和人类在推理过程中的相似性和差异,使其在更广泛的应用场景中发挥更大的作用。

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

成都数据天空科技有限公司深耕生成式人工智能领域,致力于通过前沿的人工智能技术提升企业的效率和个人的能力。为了响应AIGC时代对数据隐私保护和个性化需求日益增长的呼声,公司推出了专为国内市场设计的DataSky AI云盒。

DataSky AI云盒的服务支持多种主流大模型,如:ChatGPT系列、Claude系列,用户可以安心享受AIGC带来的便利,并借此推动企业的智能化转型和增长。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软华人团队发布全新基准AGIEval,专为人类考试而生
...知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4在各个领域已经表现出非常强大的能力,可以辅助人类处理日常事件,甚
2023-05-13 21:28:00
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...一般。他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 智能涌现:只是“即兴表演”?AI 大模型的“涌现能力”来自哪里?它是否真如
2024-08-19 09:31:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...致的行动空间来确保跨平台通用性。为了解决以往工作的局限性,他们在模型中集成了明确的规划和推理功能,增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI
2024-12-10 09:53:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。 此
2025-02-04 04:25:00
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...也有人表示经过实测可见,它仍然具有 Transformer 架构的局限性。对此,图灵奖获得者 Yann LeCun 表示
2024-06-25 09:45:00
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性,以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法,
2024-06-29 09:37:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。论文概述论文标题:GSM-Symbolic: Understanding the Limitations of
2024-10-14 09:55:00
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...构建高效的、针对专门任务的语言模型的关键。 结论与局限性尽管OpenScholar在ScholarQABench在评估中表现出了强大的性能
2024-11-27 13:33:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...基准测试中,表现能够与博士生水平类似。该讲讲缺点和局限性了不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个
2024-09-13 13:34:00
更多关于科技的资讯:
大年初六,位于余杭区“中国飞谷”的重隼智能科技(浙江)有限公司马力全开,以开局即冲刺的姿态,奋力跑出新年发展第一棒。“作为一家深耕无人机具身智能集成创新的科技型企业
2026-02-23 07:58:00
2月20日上午9时,太原武宿综合保税区A座环球优选品牌店的大门准时开启,300余款新春礼盒整齐排列,品类丰富,琳琅满目
2026-02-23 07:29:00
“十五五”开局看河北|淡季不淡,冀东普天产销两旺
新年首月销售额近8000万元,同比增长14.3%淡季不淡,冀东普天产销两旺1月26日,冀东普天线缆有限公司工人正在优化生产设备
2026-02-23 07:37:00
河北日报讯(记者孙也达)2月14日,秦皇岛晟成自动化设备有限公司生产的全球首台套出口型电磁加热多层层压机完成拆解,运往美国
2026-02-23 07:48:00
双轮驱动,智启未来:刘晓春与AI智能体×机器人“姊妹组合战略”的全球布局
2026,智能时代的分水岭2026年的春天,马年春晚的舞台上,一场科技盛宴惊艳了全球观众——30多台国产机器人协同起舞
2026-02-22 12:05:00
新春走基层丨厦企加快数字化转型步伐 提前返岗忙生产赶订单
明翰电气的工人春节期间坚守岗位。(记者 林铭鸿 摄)厦门网讯(厦门日报记者 林露虹)放置材料、调试机台……正月初五,厦门明翰电气股份有限公司(以下简称“明翰电气”)已忙碌起来
2026-02-22 08:50:00
新春走基层 | 森一量子为赶订单全员在线 生产线满负荷运转
昨日记者走进森一量子,这一企业春节期间全员加班加点。厦门网讯(厦门日报记者 李晓平)长晶、 切割、减薄、抛光、镀膜……当大多数人还沉浸在春节的喜庆中
2026-02-22 08:50:00
我带着一款AI眼镜回家过年
记者带回家的AI眼镜二伯买的宇树机器狗Go2今年的春晚有一个格外醒目的变化——“AI含量”明显提升。年夜饭桌上,亲戚们都在聊各自手机里的各种“AI”App
2026-02-22 07:49:00
中国科大实现碳化硅改性双空位色心的电荷态调控
大皖新闻讯 2月21日,大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队在碳化硅改性双空位色心电荷态调控的研究中取得了新进展
2026-02-21 16:48:00
戛纳世界人工智能大会探讨“音乐人工智能”
中国青年报客户端讯(中青报·中青网记者 蒋肖斌)2026戛纳世界人工智能大会(WAICF 2026),近日在法国戛纳举办
2026-02-21 12:10:00
杭州一家高科技创业公司员工 每人领一个陪伴机器人回家过年
春节去各地见见世面长长“脑子”这个春节,大多数打工人都卸下KPI返乡团聚。杭州一家名为镭萌科技的创业公司,却有一群特殊的“员工”在忙着长“脑子”
2026-02-21 08:11:00
建设一流创新生态 激发创新投资需求杭州日报讯 日前,浙江(杭州)知识产权创新产业园内,一场旨在连接技术与资本的专利产业化投融资专项对接活动火热举行
2026-02-21 08:11:00
新春佳节,浙江不少企业春节“不打烊”,抢订单、赶交付、跑海外,把年过在了车间里和海外展台前。走进宁波这家科技企业,工作人员正紧盯屏幕
2026-02-20 15:04:00
马年春节,杭城消费市场持续升温。一批全国首店、浙江首店、杭州首店密集登陆湖滨、武林、钱江新城、奥体等核心商圈,覆盖潮玩
2026-02-20 07:31:00