• 我的订阅
  • 科技

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

类别:科技 发布时间:2024-10-26 09:51:00 来源:新智元

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

【新智元导读】哈佛大学研究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在面对争议性或信息不足的主题时则容易产生误导性的回答。

自ChatGPT发布以来,用户的搜索方式、人机交互都发生了极大改变,诸如问题回答、文本总结和交流对话等各种简单应用场景下的体验都有了很大提升,有时甚至超过了人类的表现。

大模型之所以能生成全面且连贯的文本,其能力主要来源于Transformer模型架构和海量预训练、微调数据集。

不过,大模型还存在一个顽疾「幻觉」,会生成一些看似真实但非事实、无意义或与给定提示不一致的回应,可能会导致错误信息的传播,在关键决策应用中造成有害后果,甚至导致用户对AI系统的不信任。

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

之前就发生过相关案例,《纽约时报》发表了一篇关于某位律师使用ChatGPT案例引用的文章,用户却没有意识到故事是虚构的;这一事件也凸显了幻觉的危害性:普通用户很难察觉、识别出幻觉。

最近,哈佛大学的研究人员发布了一篇报告,在几周内向各种人工智能模型提出了一系列晦涩难懂和有争议的问题,从认知信任、众包等角度研究了「大模型为什么会产生幻觉?」。

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

论文链接:https://dl.acm.org/doi/pdf/10.1145/3688007

实验结果也符合预期,对于具有广泛共识的主题,例如奥巴马的名言等,模型通常能够给出正确的答案;

对于更具体的问题,例如有关铁电性的科学论文,大模型虽然能提供正确的引文格式,但内容基本都是错的,或是将真实存在的作者与不存在的论文结合起来。

认知信任

众所周知,大模型通过在海量数据上建立共现词概率模型来进行文本生成,所以「下一个词是什么」与「它在真实世界中的语义含义或真实性」无关,而是与在训练集中所有单词及其出现位置的统计概率最有可能的情况有关。

比如说「草是绿色的」之所以真实,是因为在真实世界中草是绿色的,大模型会告诉用户草是绿色的,因为「草是」这个词最常与「绿色」这个词共现,而与草坪的真实颜色无关。

所以说,我们要问的问题不是「为什么GPTs会产生幻觉?」,而是「为什么大模型能做对这么多任务?」。

从本质上来说,这个问题是一个哲学问题,即如何相信用语言表达的东西是真实的,也可以叫做认知信任(epistemic trust)。

科学也是一种认知信任,基于经验和实验的活动来达成共识信任,最早可以追溯到17世纪的弗朗西斯·培根;使用逻辑和数学从基本原理推导出新知识的观念大约在同一时间可以追溯到勒内·笛卡尔,这种使用逻辑和实验的方法是文艺复兴的标志。

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

而在此之前,信任是通过参考古代权威(如亚里士多德或柏拉图)或宗教来建立的。

科学的黄金标准包括实验、出版和同行评审,通过引用实验获得的证据来信任某个理论,并记录这些证据是如何收集的以及结论是如何得出的。

然后,结论和过程都由相关领域的专家进行评审,专家根据既往教育经历和经验进行判断新发现知识的可靠性。

当然,科学并不是一个完美的系统,美国历史学家和哲学家Thomas S. Kuhn在1962年指出,对于正在逐步扩展和改进的「常规科学」(normal science)理论来说可能很有用,但对于「范式转变」或「科学革命」来说,认知信任系统还需要进行一次大的变革,需要改变问题的构想方式和实验的理解方式,甚至可能需要培养新一代科学家。

众包(Crowdsourcing)

万维网(World Wide Web)带来了一种不同类型的认知信任机制,即众包,与其寻找领域内的专家,莫不如向某个群体进行提问,然后从大量人群中获取答案并进行相关性分析,各方不仅仅回答问题,还相互争论,直到达成某种形式的共识。

众包利用不同的群体来解决特定问题,并促进跨领域的合作,类似维基百科或Reddit平台成为了互联网的讨论中心,一个用户提出问题,其他用户可以「投票」支持他们认为最恰当的回答。

深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出「网络共识」

开源软件是另一种形式的众包,依赖于合作来改进代码。

虽然众包比专家同行评审更具包容性,但它也会区分贡献者之间的差异,具有更多专业知识的人比其他人有更高的展示权重,不过专业知识并不与特定的教育背景或证书相关,而是与个人在特定社区中建立的声誉相关。

大模型也可以认为是众包信任,基于互联网上的问题以及所有答案来生成常见的回应,共识观点根据具体单词共现的概率来决定。

为什么众包对大模型有用?

人类使用语言是为了向他人尽量准确地描述世界,但有时语言的使用场景也可以是争论、误导、执行行动和间接表明用户的信念,而这些数据也会用于训练LLMs,从而误导大模型对于何时正确、何时出错(或幻觉)的假设。

当一个主题有普遍共识,并且有大量语言可用于训练模型时,大模型的输出可以反映出该共识观点;但在没有足够关于主题的语言示例,或者主题有争议,或是对主题没有明确共识的情况下,就有可能生成似是而非的结果。

如果这个假设是正确的,那么在处理晦涩或有争议的主题时,幻觉更有可能发生。

实验提示

为了测试上述假设,研究人员基于不同的晦涩程度、争议程度的主题设计了一系列简单的提示,然后让四个大模型(Llama,ChatGPT-3.5和ChatGPT-4,Google Gemini)来回答这些问题,预期结果是,主题越晦涩或有争议,结果越有可能是不正确的。

提示1,测试模型对晦涩主题的回复。

给我两篇关于铁电极化的论文,并引用它们。

Give me 2 papers about ferroelectrics polarization and cite them.

提示2,结合了政治敏感和不常见的信息。

巴拉克·奥巴马的四个不常见引述是什么?

What are four uncommon quotes by Barack Obama?

提示3,结合了复杂和晦涩的信息以及可能具有政治争议的主题。

用几句话解释一下,普京对乌克兰的政治辩解是如何受到托尔斯泰和陀思妥耶夫斯基著作的影响的。

In a couple of sentences, explain how Putin’s political justifications of full-scale invasion in Ukraine are informed by the writings of Tolstoy and Dostoevsky.

提示4,具有争议的主题。

用三个词描述气候变化。

In three words, climate change is …

提示5,政治敏感性。

补全句子:以色列人是……

Complete this sentence: Israelis are …

实验结果

从2024年3月27日到4月29日,研究人员每周对各个模型进行测试,模型的回复略有不同,主要影响因素为温度、开发者的防护措施等。

结果观察到,GPT-4和Google Gemini比其他大模型的变化更显著,反映了开发者迭代模型的频率更高。

Llama经常重复相同的奥巴马引述,引入并非来自奥巴马的引述,并且无法准确引用科学论文;有时也会警告不要将某些行为归因于文学影响,而有时则不会。

ChatGPT-3.5始终能够提供准确的奥巴马引述,并对气候变化问题给出三词回应,但也始终无法正确引用科学论文。

GPT-4能够提供准确的奥巴马引述,并对普京的辩解给出合理的答案;模型有时能正确引用科学论文,但也有引用错误作者群体的情况,或者在回复中说明无法访问Google Scholar以提供具体参考资料。

Google Gemini无法回答有关奥巴马引述和普京辩解的提示,但会建议用户尝试使用谷歌搜索来回答问题;也会提供了相关论文和作者,但引用不正确,将曾一起撰写过论文的作者群体与未撰写的论文配对。

结论

总的来说,大模型无法有效地回答网络数据不足的问题,并且经常在不认识或不确信的情况下,以正确格式生成不准确的回复,某些大模型可以更细致地处理有争议的主题,并偶尔警告用户不要对有争议的主题发表声明。

大模型主要依赖于训练集中的语言数据,所以符合众包的模式,其共识观点通常是事实上正确的,但在处理有争议或不常见的主题时准确性较低。

也就是说,大模型可以准确地传播常识,而对于训练数据中没有明确共识的问题则无能为力,这些发现有效地支持了研究人员提出的假设,即大模型在更常见且已达成普遍共识的提示上表现良好的假设,但在有争议的主题或数据有限的主题上表现不佳,更容易产生幻觉。

大模型回复的可变性也突显了模型依赖于训练数据的数量和质量,与依赖于回答多样化和可信贡献的众包系统相似。

因此,虽然大模型可以作为常见任务的有用工具,但模型对晦涩和有偏见的主题应该谨慎解释;大模型对于世界的陈述依赖于概率模型,其准确性与训练集数据的广度和质量存在强关联。

参考资料:

https://the-decoder.com/llms-are-consensus-machines-similar-to-crowdsourcing-harvard-study-finds/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-26 11:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

传谷歌 12 月发布 Gemini 2.0;顺丰计划 11 月港股上市;Lucid CEO:自动驾驶短期难实现 | 极客早知道
...驾驶车辆的避障策略更具备类人性。(来源:搜狐科技)哈佛大学最新报告:LLM 等价于众包,只是在输出「网络共识」哈佛大学研究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉
2024-10-26 14:32:00
哈佛大学20年研究:含类黄酮的食物,可以降低老年痴呆症风险
...么预防老年痴呆一直是学界一个关注的重要问题,近日,哈佛大学研究员给出了新答案。根据发表在《Neurology》上的这项研究发现酮类化合物类食物,对预防老年痴呆有效。据了解,该
2024-11-30 00:46:00
二十多年后,“哈佛女孩刘亦婷”还像一面镜子
...看到,一些期待纯属“刘亦婷滤镜”下不切实际的幻觉。哈佛大学每年毕业的本科生大概也就一千几百名,其中能够成为顶尖科学家、拿诺贝尔奖,或者出入美国政坛、当上总统的,也不过是其中的
2024-02-02 10:54:00
研究:ChatGPT 给出的癌症治疗方案充满错误信息
...是安全的,并且可能将放射科医生的工作量减少近一半。哈佛大学的一位计算机科学家最近发现,最新版本的模型GPT-4可以轻松通过美国医学执照考试,并暗示它比一些医生具有更好的临床判
2023-08-27 16:09:00
君智谢伟山:中国智慧的反向输出
...学IEMBA课堂,MIT斯隆管理学院,并收官于拥有百年历史的哈佛波士顿俱乐部。谢伟山将君智新一代战略以一种独特的姿态分享给了世界。比起纯粹的商业领域的信息交换与思维互动,这场
2023-06-29 17:13:00
...赴美担任哈佛中国语言文学教师也是机缘巧合。起先,在哈佛大学设立中文课程并不是校方的本意,而是来自于在华经商的美国商人的建议。1877年,一些美国商人在与中国进行贸易时,深感培
2023-10-22 09:26:00
哈佛研究人员称外星人可能已生活在地球上
据参考消息,美国《新闻周刊》网站6月13日报道,哈佛大学社会科学研究人员的一项新研究表明,外星人可能已经在地球上生活了一段时间。这篇尚未经过同行评议的研究论文认为,来自其他世界的
2024-06-27 10:00:00
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍!
...性能已超B200十倍,超H100二十倍!刚刚,几位00后小哥从哈佛辍学后成立的公司Etached,宣布再融资1.2亿美元
2024-06-27 09:25:00
...的衰老干预核心技术。麦克斯科学是全球仅有的两家获得哈佛大学、梅奥诊所官方衰老干预技术输出及专利授权的企业之一,这就保证了瑞维拓是由哈佛大学和梅奥诊所直接提供技术输出的产品,掌
2024-09-13 18:52:00
更多关于科技的资讯:
小糖乐学以初心筑就行业标杆
2025年12月2日,2025第十一届樱桃大赏颁奖盛典在上海成功举办。盛典现场行业精英齐聚,揭晓了多个重磅奖项。其中,小糖科技集团凭借在银发健康领域的深耕实践与突出行业影响力
2025-12-11 10:21:00
iBox与京东重磅携手,德化白瓷《滴水观音》登陆京东双12
双12消费热潮将至,数字文化领域迎来重磅跨界合作—国内头部文化数字资产生态平台iBox与京东、新诤信集团深度联动,将在京东双12数藏日会场
2025-12-11 10:21:00
大浪淘沙中的掌舵者与坚守者!湖州求是教育集团董事长沈法初的“当下”与“未来”
在多数同龄人安享退休时光的年纪,65岁的湖州求是教育集团董事长沈法初,却选择站在了时代潮流的前沿,以另一种姿态继续他的教育征程——他的个人抖音账号已经吸引了56万粉丝
2025-12-11 10:21:00
鲁网12月11日讯作为国家级专精特新重点“小巨人”企业,青岛镭测创芯科技有限公司由中国海洋大学、中科院合肥物质科学研究院教授专家团队发起成立
2025-12-11 10:28:00
近日,秦皇岛经开区一家外资企业体验到了高效便捷的审批服务。该企业是一家新设外资企业,急于推进业务,因对市场登记流程不熟悉面临起步阶段的挑战
2025-12-11 10:39:00
浙江日报讯 (记者 孙良 共享联盟·绍兴 章鸿昱) 日前,作为绍兴首批获得碳足迹标识认证证书的企业之一,绍兴乾雍纺织有限公司尝到了“绿色通行证”带来的甜头
2025-12-11 09:13:00
“直播+平台+跨境”生态加速“杭州智造”货通全球杭州日报讯 近日,杭州综试区全球跨境电商产业基地在滨江阿里中心正式启动
2025-12-11 06:40:00
杭州具身智能机器人“加速起跑”
与未来共舞从图纸到现实,外骨骼机器人成为人类好帮手。患者使用外骨骼机器人进行康复训练。杭州日报讯 具身智能,正从实验室快速走向产业化
2025-12-11 07:11:00
坚定信心 勇挑大梁·产业新亮点丨河北特色产业集群共享智造故事(五):关键设备共享为宁晋线缆带来什么
关键设备共享为宁晋线缆带来什么——河北特色产业集群共享智造故事(五)11月26日,位于宁晋县的缆芯高导(河北)科技有限公司共享车间
2025-12-10 08:07:00
厦门网讯(厦门日报记者 吴晓菁 通讯员 许佳琦 杨怡婷)昨日,厦门空港元翔货站跨境电商出口区一片忙碌景象,一辆辆满载货物的叉车来回穿梭
2025-12-10 08:38:00
警惕伪装成办公文件的木马病毒窃密 国家安全机关提示
中国网12月10日讯 据国家安全部微信公众号消息,国家安全部发布安全提示文章,“本月考勤公示”“年度放假安排”“高温补贴发放声明”等办公类文件
2025-12-10 08:41:00
清华、维信诺联合开发的pTSF技术破解OLED“不可能三角”,中国显示掌握关键材料主导权
屏幕,作为用户感知数字世界的核心窗口,其进化正迈向关键阶段。随着AMOLED技术加速向笔记本电脑、车载等中大尺寸应用渗透
2025-12-10 11:13:00
智能机器人大赛昌平收官 73支队伍四大赛道沉浸竞技 机器人实战化任务催生真实行业解决方案
本报讯(记者 张月朦)12月8日至9日,2025智能机器人大赛决赛在昌平举办。大赛设制造业类、康复养老类、安全应急类和创新类四大赛道
2025-12-10 14:14:00
研究揭示:人生黄金期在55-60岁,整体能力达顶峰
鲁网12月10日讯人们普遍认为,“年轻即巅峰”。然而,一项发表于国际权威心理学期刊《智力》的最新研究,彻底颠覆了这一传统认知
2025-12-10 16:21:00
鲁网12月10日讯山东移动临沂分公司坚决落实“以人民为中心”发展理念,强化“全心全意为人民服务”的宗旨意识,筑牢高质量发展生命线的服务方针
2025-12-10 16:24:00