• 我的订阅
  • 科技

大语言模型逻辑推理“很糟糕”

类别:科技 发布时间:2024-06-12 18:15:00 来源:每日看点快看

本文转自:参考消息

参考消息网6月12日报道 据法新社6月4日报道,以人工智能的旗舰产品GPT-4为代表的大语言模型在逻辑测试中的推理表现很糟糕:它们犯下前后不一致的错误,而且推理过程往往是荒谬的。

近日发表在《皇家学会开放科学》杂志上的一项研究表明,大语言模型所依赖的语料库往往反映了人类的性别、伦理和道德偏见。

伦敦大学学院信息学系博士生奥利维娅·麦克米伦-斯科特问道:“它们是否也反映了人类在推理测试中的认知偏差?”

她总结自己的研究成果称,这些大语言模型“经常表现出非理性推理,但表现方式与人类不同”。

在伦敦大学学院教授兼机器智能实验室主任米尔科·穆索莱西的指导下,麦克米伦-斯科特对七个大语言模型进行了一系列人类心理测试,其中包括开放人工智能研究中心的两版GPT(3.5和4)、谷歌的“巴德”、Anthropic公司的“克劳德2”和元宇宙公司Llama的三个版本。

例如,它们如何应对“比例偏差”?“比例偏差”指的是比起正确比例的方案,更倾向于元素最多的方案。

一个盒子里有9个白球和1个红球,另一个盒子有92个白球和8个红球,选择哪个盒子更有可能抽到红球?与直觉相反,正确答案是第一个盒子,因为从第一个盒子抽到的可能性是10%,而第二个只有8%。

研究人员根据答案是否正确以及答案所包含的逻辑推理是否有效,对大语言模型的答案进行了分类。

实验的第一个结果是,在每个测试重复十次的情况下,答案是不一致的。例如,在同一个测试中,有的模型十次中答对了六次,有的只答对了两次。

麦克米伦-斯科特说:“我们每次得到的答案都不一样。”她指出:“如果要在现实世界中使用,可靠性就尤为重要。”她描述道,大语言模型“在解决复杂数学题时会表现得非常好……直到你发现7加3等于12”。

最令人惊讶的是什么?答案往往与基于逻辑和概率的推理脱节。例如,在盒子测试中,“克劳德2”有一半次数能给出正确答案,但它的每次推理看上去都带有逻辑,类似于人类的逻辑推理。

更令人吃惊的是,一些大语言模型拒绝回答测试,如“Llama 2 70b”,理由是该陈述包含“有害的性别刻板印象”。

研究指出:“模型在执行这些任务时失败的方式和人类不一样。”穆索莱西教授总结道,“机器错误:有一种逻辑推理,在每个阶段看起来都是正确的,但从整体上看是错的”。

机器的工作方式是“一种线性思维”。例如,“巴德”在一个阶段正确地完成了某项任务,在下一个阶段又正确地完成了另一项任务,然而最后只保留了最后一个阶段的结果——总之,没有全局观。

当被问及这个问题时,洛林大学信息学教授马克西姆·安布拉尔指出,“大语言模型和所有生成式人工智能一样,并不像人类那样工作”。他告诉法新社,人类是“讲道理的机器”,而机器做不到这一点。

和人类一样,参加测试的模型也不尽相同。总的来说,GPT-4虽然并非无懈可击,但参加测试的表现比其他模型好。

麦克米伦-斯科特怀疑,这种所谓的“封闭”模型(即操作代码保密)“在后台编入了其他机制”来解答数学问题。

然而在现阶段,将决定权交给大语言模型是不可想象的。但为什么不利用它们奇怪的思维方式来帮助思考呢?

穆索莱西教授认为,另一种方法是训练它们在遇到相应情况时回答“我不太确定”。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-12 21:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

人类和AI在推理任务中的表现相似,Google DeepMind研究揭示AI局限性
...,尽管这些模型在处理自然语言方面表现卓越,但在复杂逻辑推理任务中,人类和语言模型都会受到语义内容合理性和可信度的影响,表现出类似的错误倾向。研究背景人类在推理过程中存在两种系
2024-08-19 13:49:00
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...看看DoT长啥样。大模型复杂推理新框架 如前所述,DoT将逻辑推理过程建模为在单个LLM内构建有向无环图(DAG)。其框架内部管理三个关键角色:提议者:生成命题或推理步骤,
2024-09-24 13:36:00
谷歌最新自然语言推理算法
...读理解和问答等任务中取得了极高的性能,但这些模型在逻辑推理方面的性能仍然十分滞后。去年5月「思维链」(ChainofThought
2023-01-09 21:57:00
重磅!OpenAI o1模型还没有实现真正的逻辑推理能力
...二、社会评测与同行水平社会评测普遍认可o1 系列模型的逻辑推理能力优于 GPT-4o,但也有很多人提出了不同看法。差评XPIN邀请了理综三科的博士测评,物理评价较高,而生物、
2024-09-18 15:01:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...竞赛不仅是对人类(碳基智能)思维敏捷性、知识掌握和逻辑推理的极限挑战,更是AI(“硅基智能”)锻炼的绝佳练兵场,是衡量AI与“超级智能”距离的重要标尺。OlympicAren
2024-06-25 09:45:00
罗格斯大学团队提出思想链概念,提高大模型的算数推理能力
...概念,提高了大语言模型(LLM,large language models)在复杂推理任务上的性能,例如算术推理、常识推理和符号推理等
2024-03-15 10:41:00
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...地,也一定要对时间、数字和逻辑敏感,无论让它做多跳推理,还是逻辑规则数字计算,而这些恰好是大语言模型所不擅长的,包括前一段时间热议的 9.9 和 9.12 比大小的例子。基于
2024-09-13 13:33:00
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
...地依赖于训练数据中的模式进行预测。当需要进行真正的逻辑推理时,这些模型往往无法产生合理的结果,这一发现对人工智能的发展提供了重要的参考。虽然LLM在许多领域表现优异,但其推理
2024-10-13 14:15:00
图灵奖得主杨立昆:AI的逻辑推理和规划能力有限,会犯事实错误和逻辑错误
...”杨立昆表示,人工智能距离人类和动物的能力差距在于逻辑推理和规划,这是智能的重要特征,现在的大模型只能“本能反应”。“如果你用一万亿或两万亿个token来训练它们,机器的性能
2023-06-10 05:00:00
更多关于科技的资讯:
未来到底怎么飞?2025智博会揭秘蓝天新赛道
大河网讯 低空经济是当下热议的话题,也是智能制造新赛道。在此背景下,2025世界智能产业博览会设置了低空经济专区,展现了各色各样的无人机和低空飞行器
2025-09-07 23:22:00
“跨界玩家”涌现,追觅、MOVA、TCL正用AI重划家电版图|硬氪直击IFA2025
编者按:2025年IFA(柏林国际电子消费品展览会),中国厂商又一次攻占会场。坐拥全球最完善、复杂的供应链,储备下数量最多
2025-09-07 10:05:00
8月26日,太原重工股份有限公司发布《2025年半年度报告》。上半年,太原重工实现营业收入47.59亿元,同比增长30
2025-09-07 08:20:00
海信IFA再亮相,海信棉花糖Ultra全家筒首次登上国际舞台
9月5日,全球顶级消费电子盛会——德国柏林国际电子消费品展览会(IFA2025)迎来海信的重磅动作:海信正式官宣成为2026 FIFA世界杯官方合作伙伴
2025-09-07 12:18:00
petgugu亮相IFA 2025:冲水式智能猫马桶引爆全球智能养宠新潮流
IFA柏林国际电子消费品展览会是全球最具影响力的消费科技盛会之一,与CES、MWC并列为行业三大展会。作为全球创新风向标
2025-09-07 18:45:00
三年研发获专利341项!乖宝宠物自有品牌业务达35亿
齐鲁晚报·齐鲁壹点 陶春燕乖宝宠物食品集团股份有限公司成立于2006年,专注于宠物犬猫食品研发、生产和销售,提供符合犬猫天性的全生命周期营养解决方案
2025-09-07 21:43:00
日销25万只!莘县新立信“立信烤鸡”全国销量领先
齐鲁晚报·齐鲁壹点 陶春燕莘县新立信食品科技有限公司是一家专业鸡肉调理品生产企业,公司有完善的质量管控体系、食品安全检验检测体系
2025-09-07 21:45:00
围标串标!理工光科被3年禁入网络空间部队采购
近日,军队采购网发布关于对武汉理工光科股份有限公司失信处理公告。经调查核实,武汉理工光科股份有限公司在参加项目编号:2024-JC20-F1111采购活动中
2025-09-07 21:45:00
2025中国国际时装周(秋季)在京开幕,首秀数量超140场
中国青年报客户端讯(实习生 蔡熙妍 中青报·中青网记者 张敏)中国传统文化与当代时尚服饰结合,北京再次化身时尚之都。9月5日
2025-09-07 22:44:00
●厦门日报全媒体记者 吴君宁在今年投洽会上,当投资者走进厦门国际会展中心B1馆,将感受到一场精心编排的资本“芭蕾”:展馆划分出中央舞台
2025-09-07 08:49:00
威马汽车官宣9月复产 温州市场部门7月曾发布信息:组建汽车产业复工复产服务专班
大皖新闻讯 9月6日,停更两年多后,威马汽车官方微信号发布《致供应商白皮书》,透露出复工复产的希望,让这家曾在两年多前不断传出负面消息的造车新势力车企
2025-09-07 11:17:00
四个90后拼出一条亿元产业链
9月3日,贵州镇宁产业园。27岁的姚秉忠坐在办公室里一边查看订单,一边算账。在他身后的仓库里,几十名工人正将国家地理标志产品——镇宁小黄姜装入印有“黔货云仓”的定制纸箱
2025-09-07 11:56:00
双奖全球见证:海信洗衣机获IFA官方创新与科技价值双重认证
2025年9月5日,柏林国际电子消费品展览会(IFA2025)现场,当海信三筒洗衣机——棉花糖Ultra全家筒荣获IFA官方颁发的“最佳设计奖”时
2025-09-07 13:24:00
“组团作战”研发一种高品质汽车用钢创新联合体,解汽车制造业“痛点”日前,一个好消息从长城汽车股份有限公司传来:一种新研发的纯锌镀层热成形钢
2025-09-07 07:50:00