• 我的订阅
  • 科技

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

类别:科技 发布时间:2024-11-11 13:32:00 来源:新智元

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。

到现在为止,我们仍旧对大模型「幻觉」如何、为何产生,知之甚少。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

最近,来自Technion、谷歌和苹果的研究人员发现,LLM「真实性」的信息集中在特定的token,而且并得均匀分布。

正如论文标题所示,「LLM知道的往往要比表现出来的更多」。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

论文地址:https://arxiv.org/pdf/2410.02707

不仅如此,他们还发现,内部表征可以用来预测LLM可能会犯错的错误类型。

它的优势在于,未来有助于开发出针对性的解决方案。

最后,研究团队还解释了,大模型内部编码和外部行为之间存在的差异:

它们可能在内部编码了正确答案,却持续生成错误答案。

幻觉,如何定义?

事实错误、偏见,以及推理失误,这些统称为「幻觉」。

以往,大多数关于幻觉的研究,都集中在分析大模型的外部行为,并检查用户如何感知这些错误。

然而,这些方法对模型本身如何编码、处理错误提供了有限的见解。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

近期另有一些研究表明,LLM内部状态其实「知道」那些输出可能是错误的,而且这种「知识」被编码在模型内部状态中。

这一发现可以帮助提高错误检测的性能,并进一步缓解这些问题。

不过其中一个缺陷是,这些研究主要集中了检验模型生成最后一个token、或提示符中最后一个token。

由于LLM通常会生成长篇的相应,因此这一做法可能会错过关键细节。

在最新研究中,研究团队采取了不同的方法:

不只是看最终的输出,而是分析「确切的答案token」,如若修改,将会改变答案的正确性的相应token。

最终证明了,LLM内部表征所包含的真实性信息,比以往要多得多。

但这种错误检测器难以在不同数据集之间泛化,这说明真实性编码并非统一的,而是多方面的。

更好的错误检测

给定一个大模型M,输入提示p、模型生成的响应ŷ,任务预测ŷ是正确还是错误的。

假设可以访问LLM内部状态(即白盒设置),但不能访问任何外部资源(如搜索引擎或其他LLM)。

数据集使用的是,包含N个问题-标签对,代表着一系列问题,代表着对应的真实答案。

对于每个问题q_i,作者让模型M生成响应y_i,得到预测答案集。

接下来, 研究人员构建了错误检测数据集,通过将每个生成的响应ŷ_i与真实标签y_i比较,以评估其正确性。

比较结果会产生出一个正确的标签z_i ∈ {0, 1}(1表示正确,0表示错误)。

这种比较可以通过自动启发式方法,在指令型LLM的协助下完成。

最终的错误检测数据集为。其排除了LLM拒绝回答的情况,因为这些可以轻易地被分类为错误。

接下来,研究人员在Mistral 7B和Llama 2模型的四个变体上进行了实验。

这些模型跨越了十个数据集,涵盖了各种任务。

其中包括问答、自然语言推理、数学问题解决、情感分析。

他们允许模型生成不受限制的响应,来模拟真实世界的使用情况。

这里,一共用到了三种错误检测方法:Aggregated probabilities / logits、P(True)、Probing。

精确答案token

现有的方法经常忽略一个关键的细微差别:用于错误检测的token选择,通常关注最后生成的token或取平均值。

然而,由于大模型通常会生成长篇回复,这种做法可能会错过关键细节。

还有一些方法使用提示最后的一个token,但本质上是不正确的,因为大模型的单向性,未能考虑生成响应和丢失的情况,其中同一模型的不同采样答案在不同情况下,有所不同正确性。

对此,研究人员检查了以往未经检查的token位置:确切的答案token,代表生成响应中最有意义的部分。

他们将精确答案token定义为那些修改会改变答案的正确性token,而忽略了后续生成的内容。

如下图图1,说明了不同的token位置。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

实验结果

真实性编码模式

研究人员首先专注于探索分类器,以了解LLM的内部表征。

具体来说,广泛分析了层和token选择对这些分类器激活提取的影响。这是通过系统地探测模型的所有层来完成的,从最后一个问题token开始,一直到最终生成的token。

下图2显示了Mistral-7b-Instruct各个层和token中经过训练的探测器的AUC指标。

虽然,某些数据似乎更容易进行错误预测,但所有数据集都表现出一致的真实性编码模式。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

对于token来说,提示后立即出现了强烈的真实性信号,表明这种表征编码了有关模型正确回答问题的一般能力的信息。

对着文本生成的进行,该信号会减弱,但在确切的答案token处,再次达到峰值。

再生成过程即将结束时,信号强度再次上升,表明了该表征编码了整个生成过程的特征,尽管它仍弱于确切答案token。

错误检测结果

接下来,研究人员通过比较使用、不使用精确答案token的性能,来评估各种错误检测方法。

表1比较了三个代表性数据集的AUC。

在这里,他们展示了最后一个精确答案token的结果,它的性能优于第一个精确答案token及其前面的token,而最后一个精确答案token之后的token性能类似。

合并精确答案token,有助于改进几乎所有数据集中的不同错误检测方法。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

任务之间的泛化

以上,探测分类器在检测错误方面有效性,表明了大模型对其输出的真实性进行了编码。

但目前仍不清楚的是,它们跨任务的通用性。

然而,理解这一点对于实际应用至关重要,因为错误检测器可能会遇到与训练时完全不同的示例。

因此,研究人员探讨在一个数据集上训练的探测器,是否可以检测其他数据集的错误。

如下图3显示了Mistral-7b-Instruct的泛化结果。在这种情况下,高于0.5的值表明泛化成功。

乍一看,结果似乎与之前的研究一致:大多数热图值超过0.5,这意味着跨任务具有一定程度的泛化性。

然而,再仔细检查,发现大部分性能可以通过基于logit的真实性检测来实现,该检测仅观察输出logits。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

图3b显示了从最强的基于Logit的基线(Logit-min-exact)中减去结果后的相同热图。

这张 调整后的热图揭示了探测器的泛化能力很少超过单独检查 logits所能达到的效果。

这意味着明显的概括并非源于真实性的普遍内部编码,而是反映了已经可以通过逻 辑等外部特征获取的信息。

调查错误类型

在确定了错误检测的局限性后,研究人员转向错误分析。

错误分类

图4说明了,三种代表性的错误类型。

在其中一个(图4a)中,模型通常会给出正确的答案,但偶尔会出错,这意味着存在正确的信息,但采样可能会导致错误。

在第二种类型中(图4b),模型经常做出错误的响应,尽管它能够提供正确的答案,这表明尽管不断犯同样的错误,但仍然保留了一些知识。

在第三种类型中(图4c),模型生成了大多数答案都是错误的,反映出对任何生成的答案的信心较低。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

研究人员通过记录每个示例的三个特定特征来对错误进行分类:(a)生成的不同答案的数量;(b) 正确答案的频率;(c) 最常见的错误答案的频率。

预测错误类型

表2列出了所有模型的测试集结果。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

检测正确答案

最后,在确定模型编码各种与真实性相关的信息后,作者又研究了这种内部真实性,如何在响应生成过程中,与外部行为保持一致。

为此,他们使用了探测器(5个经过错误检测训练),从针对同一问题生成的30个响应中,选择一个答案。

然后,根据所选答案来衡量模型的准确性。

Mistral-7b-instruct的结果如下图5所示,总体而言,使用探测器选择答案可以提高大模型在所有检查任务中的准确性。

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

总之,这项研究的发现,可以帮助未来研究人员去设计更好的幻觉环节系统。

遗憾的是,它使用的技术需要访问内部LLM表征,这也主要适用于开源模型的使用。

参考资料:

https://venturebeat.com/ai/study-finds-llms-can-identify-their-own-mistakes/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-11 15:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Apple Intelligence提示词原来是这样,还告诉大模型:别幻觉
...人将选择这些问题的答案,这将有助于减少撰写回复时的幻觉。请输出最佳问题及每个问题的可能答案 / 选项。不要问回复片段中已经回答的问题。问题应简短,不超过 8 个字。答案也应简
2024-08-08 09:39:00
高盛与苹果“分手”内幕曝光
【高盛与苹果“分手”内幕曝光】腾讯科技讯据外媒报道,美国投行高盛集团首席执行官大卫·所罗门(David Solomon)最近向合伙人承认,该公司在消费者借贷领域犯了错误,并在寻找
2023-12-04 14:32:00
《驻站》郑义畏罪自杀后,常胜才知晓王冬雨举报父亲的惊人内幕
电视剧《驻站》要说它引人入胜,简直是“抓心捏肝”的代名词。故事里有叛徒、有举报、有自杀,这些看似普通的事件,却像沙漏中的细沙般渐渐汇聚成了一场无法避免的命运灾难。你有没有想过,如
2025-01-23 13:51:00
“苹果GPT”秘密开发中?
...布一项“与人工智能相关的重大声明”。在“苹果GPT”的背后,是苹果的Ajax框架。该框架创建于去年,基于谷歌JAX
2023-07-20 16:00:00
成龙私生子终曝光,28年内幕深入揭秘
娱乐圈这个大千世界,总是藏着一个个看不见的惊喜和隐藏的秘密。而今天,我们就要揭开一个长达28年的家族秘密!这位影帝大哥成龙,居然有个神秘的私生子?!啧啧,这还真是让人大跌眼镜,一
2024-08-14 21:01:00
...种关联性获得准确信息并给出产品时,ChatGPT就可能出现幻觉和错误,得出一个错误结论和文本来交差。从这种情况来看,如果要让ChatGPT或其他AI软件生成的产品更符合实际,
2023-12-14 00:26:00
人工智能的“胡言乱语”,有没有解法?
...I的强大功能,并由此感叹其是否可能取代人类劳动时,AI幻觉问题也越来越不容忽视,成为AI进一步发展的阻碍。 Yann LeCun——世界深度学习三巨头之一,“卷积神经网之络
2023-08-31 10:10:00
朱啸虎:AI的赚钱风向,彻底变了!
...不容易。为什么AIGC很难落地?最主要就两个问题:一是幻觉问题;二是结果不可控。一旦AI有幻觉就会出错,而且你不知道什么时候会出错,每次结果还都不一样,所以结果不可控。随着大
2024-06-26 11:53:00
爱情的幻觉?女人情人的真面目!
你是否曾好奇过,为何有些女性似乎总是偏爱成为情人?她们究竟有何共性和动机?在爱情世界中,有些现象常令人思索,想要揭开背后的原因。今天,我们就一同来探讨这个话题,揭秘喜欢成为情人的
2024-04-11 13:06:00
更多关于科技的资讯:
马年春节,杭城消费市场持续升温。一批全国首店、浙江首店、杭州首店密集登陆湖滨、武林、钱江新城、奥体等核心商圈,覆盖潮玩
2026-02-20 07:31:00
大年初三,杭州苏宁易购庆春路店暖意融融。大厅里“焕新幸福年”的红色标语格外醒目。店内客流平稳,多为全家同行的家庭顾客,虽不似年前拥挤
2026-02-20 08:01:00
“库迪咖啡竟然涨价了,9.9元的咖啡以后还能闭眼冲吗?”春节前最后一个工作日,东北姑娘小乔中午赶到杭州火车东站,准备坐高铁回老家
2026-02-20 08:01:00
潮声丨从“Made in”到“Design by”,浙江品牌出海记
新春,义乌老板们已经忙碌起来。这几天,24家义乌企业亮相2026年美国拉斯维加斯服装服饰及面料展,带着新品抢订单、拓市场
2026-02-19 16:24:00
新春走基层|“解码”潮玩盲盒:Z世代用情绪消费点亮团圆年
中青报·中青网记者沈杰群余冰玥李怡蒙见习记者蒋欣雨95后北京职员王之怡在新加坡休假时,特意去了环球影城附近的泡泡玛特,店内挤满了年轻人
2026-02-19 12:05:00
大年初一,匆匆赶到湖州的生产基地,给春节坚持留守在生产一线的一百多名员工发完新春红包后,金羽新能董事长兼总经理黄杜斌又拿起了手机
2026-02-19 08:20:00
以下为报道原文:从“猜你喜欢”到“懂你需要” 人工智能加速“嵌入”日常生活人民日报 记者 谷业凯“帮我订春节假期南京到三亚的往返机票
2026-02-18 17:52:00
重要突破!中国科大发现新型有序物态——理想非晶体
大皖新闻讯 2月18日,大皖新闻记者从中国科学技术大学获悉,该校童华教授、徐宁教授及其合作者在非晶物态理论研究中取得重要突破
2026-02-18 17:53:00
新岁启程,马蹄声疾。骉(biāo),《说文解字》解读为“众马也”。单从字形便觉气势如虹,三马叠加,并辔而行。从一马当先
2026-02-18 14:39:00
以“兴趣”为引,开启银龄健康生活新方式:简橙太极如何助力科学养生、乐享晚年
在当今社会,随着健康老龄化的理念日益深入人心,越来越多的中老年人开始积极追求丰富多彩的退休生活和身心和谐的健康状态。这一趋势催生了对优质
2026-02-18 12:53:00
【网络中国节·春节】AI机器人带来新春消费新体验 带旺厦门文旅市场
AI机器人带来新春消费新体验厦门通过AI赋能打造新业态新场景,带旺假期文旅消费市场市民游客观看机器人咖啡师制作咖啡。(夏商咖啡供图)厦门网讯(厦门日报记者 沈彦彦 王元晖)厦门中山路“两岸数智非遗年”现场
2026-02-18 09:55:00
全力保交付 海辰储能厦门基地春节期间维持满负荷生产
位于同翔高新城的海辰储能厦门基地春节期间——满负荷生产 全力保交付春节期间,海辰储能满负荷生产。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹)大年初一
2026-02-18 10:26:00
成功捕获到约6500光年外的宇宙线信号网通院参研的LACT首台望远镜完成“首光”河北新闻网讯(河北日报记者王璐丹)近日
2026-02-18 07:58:00
2026年央视马年春晚,成为机器人扎堆亮相的“超级秀场”。而最牵动人心的,当属杭州宇树科技机器人与河南塔沟武术学校的小朋友同台呈现的节目《武BOT》
2026-02-18 07:04:00
2026年央视春晚演出现场,观众席间不少人佩戴的红围巾火了。微博上有网友实时提问:哪里能买到同款?这条名为“骐骥驰骋”的红围巾
2026-02-18 07:04:00