• 我的订阅
  • 科技

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

类别:科技 发布时间:2024-08-19 13:49:00 来源:Datasky成都

Google DeepMind团队发表了一篇研究论文,揭示了当前人工智能(AI),特别是大型Transformer语言模型(LMs)在推理任务中的表现及其局限性。研究结果显示,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的错误倾向。

研究背景

人类在推理过程中存在两种系统:“直觉系统”和“理性系统”,而已有知识和经验常常影响推理结果。研究表明,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。Google DeepMind的研究进一步揭示,大型语言模型也表现出类似的行为,在提示下能够表现出一致的逻辑推理,但也会受到“内容效应”的影响,即在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理相悖的信息时,可能出现偏差或错误。

研究任务

研究团队设计了三种推理任务:自然语言推断(NLI)、三段论推理和Wason选择任务,分别测试人类和语言模型的表现。

自然语言推断(NLI):任务要求模型判断两个句子之间的逻辑关系(如蕴涵、矛盾或中性)。研究发现,当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。人类和语言模型在这种任务上的错误率相近,表明语言模型在某些方面的推理能力已经接近人类水平。 三段论推理:三段论推理任务要求模型判断由两个前提和一个结论组成的逻辑链条的有效性。研究发现,无论前提和结论的语义内容是否合理,语言模型和人类都容易受到语义内容的影响,导致错误判断。 Wason选择任务:该任务测试个体对条件语句的理解和验证能力。结果显示,语言模型和人类在这一任务的错误率相近,且都容易选择没有信息价值的卡片。然而,当任务的规则涉及社会相关内容时,模型和人类的表现会有所改善。

研究结论与展望

研究结果表明,当前的语言模型在推理任务方面与人类表现相似,甚至犯错的方式也如出一辙,特别是在涉及语义内容的任务中。尽管这些发现揭示了语言模型的局限性,但也为未来的改进提供了方向。

研究团队指出,这项研究存在一定局限性,例如任务种类较少,限制了对人类和语言模型在不同任务中的内容效应的全面理解。此外,语言模型接受的语言数据训练量远远超过任何人类,难以确定这些效应是否会在更接近人类语言数据规模的情况下出现。

未来研究可以探索通过因果操纵模型训练来减少内容偏见,评估这些偏见在更类似人类数据规模的训练中是否仍会出现。此外,研究教育因素对模型推理能力的影响,以及不同训练特征如何影响内容效应的出现,也将有助于进一步理解语言模型和人类在推理过程中的相似性和差异,使其在更广泛的应用场景中发挥更大的作用。

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性

成都数据天空科技有限公司深耕生成式人工智能领域,致力于通过前沿的人工智能技术提升企业的效率和个人的能力。为了响应AIGC时代对数据隐私保护和个性化需求日益增长的呼声,公司推出了专为国内市场设计的DataSky AI云盒。

DataSky AI云盒的服务支持多种主流大模型,如:ChatGPT系列、Claude系列,用户可以安心享受AIGC带来的便利,并借此推动企业的智能化转型和增长。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

微软华人团队发布全新基准AGIEval,专为人类考试而生
...知识、推理和计算)的全面分析揭示了这些模型的优势和局限性。AGIEval数据集近年来,大型基础模型如GPT-4在各个领域已经表现出非常强大的能力,可以辅助人类处理日常事件,甚
2023-05-13 21:28:00
打脸“AI灭绝伦”!研究反驳:大模型涌现能力不会威胁人类生存
...一般。他们表示,这一发现有助于理解 LLM 的实际能力和局限性,并为未来的模型优化提供新的方向。 智能涌现:只是“即兴表演”?AI 大模型的“涌现能力”来自哪里?它是否真如
2024-08-19 09:31:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...致的行动空间来确保跨平台通用性。为了解决以往工作的局限性,他们在模型中集成了明确的规划和推理功能,增强了其自主导航和与复杂数字环境交互的能力。他们构建了一个大规模的 GUI
2024-12-10 09:53:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...解锁了诸多新的能力,但目前仍处于早期阶段,存在一些局限性。根据内部评估,尽管其错误率显著低于现有的ChatGPT模型,但深度研究仍可能在回答中生成虚假信息或做出错误推断。 此
2025-02-04 04:25:00
语言≠思维,大模型学不了推理:一篇Nature让AI社区炸锅了
...也有人表示经过实测可见,它仍然具有 Transformer 架构的局限性。对此,图灵奖获得者 Yann LeCun 表示
2024-06-25 09:45:00
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
...的字幕恢复任务巧妙地揭开了现有模型图像 - 文本对齐的局限性,以及模型与人类在高级认知任务上的推理能力差异。相信这一任务可以启发未来更加有效的 VLM 训练、评测和推理方法,
2024-06-29 09:37:00
给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理
...新生也会被误导,或许人类在推理方面具有和 LLM 类似的局限性。论文概述论文标题:GSM-Symbolic: Understanding the Limitations of
2024-10-14 09:55:00
「学术版ChatGPT」登场!Ai2打造科研效率神器OpenScholar,让LLM帮你搞定文献综述
...构建高效的、针对专门任务的语言模型的关键。 结论与局限性尽管OpenScholar在ScholarQABench在评估中表现出了强大的性能
2024-11-27 13:33:00
AI新时代揭幕!会“思考解题逻辑”的OpenAI推理大模型登场
...基准测试中,表现能够与博士生水平类似。该讲讲缺点和局限性了不难理解,会自己思考问题的AI模型,对于程序员、创意工作者,以及几乎所有的理科相关专业工作者而言是有益的升级,但这个
2024-09-13 13:34:00
更多关于科技的资讯:
可梦AI开放测试获首批企业盛赞!“短剧男频标杆”的蜜糖网络实力入驻,共启AI短剧工业化新篇
短剧行业全流程智能平台可梦AI正式开启企业测试通道,凭借“真AI驱动全链路、需求响应极速、企业服务定制化”的核心优势,迅速赢得首批入驻企业的高度认可
2025-11-04 13:50:00
CFCA安心诉存证服务,融资租赁行业的电子证据守护者
目前,融资租赁行业正在快速向数字化转型迈进,行业内线上业务的繁荣发展,使得电子数据在交易出现司法纠纷时所起到的作用愈发重要
2025-11-04 13:51:00
当年轻人开始在夏天“进补”,巨量星图如何用一场计划“养”出多个品牌破圈增长
当养生成为这届年轻人的日常,一边熬夜一边搜索“祛湿攻略”,左手冰美式右手胶原蛋白,已成为他们的生活常态。对于大健康品牌来说
2025-11-04 13:52:00
平台化协同·场景为先--中叉网对话安庆联动属具公司的高质量跃迁
2025年8月上旬,“合力改变物流搬运方式--合力•中叉网 | 2025中国叉车和移动机器人高质量发展万里行”再次走进安徽叉车集团旗下的安庆联动属具股份有限公司
2025-11-04 13:52:00
智造能力的跃升,正在成为中国品牌突破创新的底气
智造能力的跃升,正在从结构上打破「高端化」市场格局。以厨电市场为例,以往在单价8万元/㎡以上住宅项目中,进口厨电占比高达78%
2025-11-04 08:12:00
畅通京津冀算力“高速路”!河北大力推进京津冀三地网络协同、服务协同、算力资源协同
河北大力推进京津冀三地网络协同、服务协同、算力资源协同畅通京津冀算力“高速路”10月17日,在2025中国国际数字经济博览会上
2025-11-04 08:12:00
厦门网讯(厦门日报记者 李晓平)近日,省工信厅公布省级人工智能硬件优质产品名单,全省18个入选产品中,厦门独占8席,包括瑞为
2025-11-04 08:38:00
在生成式AI重构流量分配格局的2025年,中国GEO服务商市场已形成清晰的三大梯队。据《2025中国生成式AI搜索生态白皮书》数据显示
2025-11-04 08:49:00
在生成式AI重构流量分配规则的2025年,企业面临着一个核心问题:为什么同样是GEO服务,不同服务商带来的商业回报差距能高达300%以上
2025-11-04 08:50:00
厦门网讯(厦门日报记者 吴燕如 李晓平)我市再添人工智能新型孵化载体——10月31日,位于数字立方大厦的思明未来科技园正式揭牌运营
2025-11-04 09:10:00
大皖新闻讯 11月4日,星巴克咖啡公司宣布与博裕投资达成战略合作,双方将成立合资企业,共同运营星巴克在中国市场的零售业务
2025-11-04 09:31:00
在远程操控下,焦炉“四大车”(装煤车、推焦车、拦焦车、熄焦车)有条不紊地进行作业;通过设备预测性维护系统,设备的早期故障得到智能诊断……在河北新兴能源科技股份有限公司(以下简称“新兴能源科技公司”)
2025-11-04 09:01:00
“产业炬光灯”聚焦厦企笃正新能源 紧跟市场谋创新
“产业炬光灯”聚焦笃正新能源。厦门网讯(厦门日报记者 林露虹)把阳光“存”起来,变成随时可用的电能。厦门企业笃正新能源在离网光伏储能领域持续深耕
2025-11-04 08:07:00
需求释放结构升级,消费市场涌动“焕新”潮
“还有咖啡节”在玄武湖公园打造了时尚潮流集市,吸引许多市民前来消费打卡,在明媚秋光中度过惬意周末。 通讯员 常成 南京日报/紫金山新闻记者 孙中元 摄今日关注数字4
2025-11-04 07:41:00
机器人“派上用场”,课堂知识接轨产业需求
105支高校战队在宁角逐“埃斯顿杯”——机器人“派上用场”,课堂知识接轨产业需求机器人正在进行自主抓取挑战︐参赛选手紧张调试
2025-11-04 07:41:00