我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

谷歌苹果曝出LLM惊人内幕，自主识别错误却装糊涂！AI幻觉背后藏着更大秘密

类别：科技发布时间：2024-11-11 13:32:00 来源：新智元

【新智元导读】大模型幻觉，究竟是怎么来的？谷歌、苹果等机构研究人员发现，大模型知道的远比表现的要多。它们能够在内部编码正确答案，却依旧输出了错误内容。

到现在为止，我们仍旧对大模型「幻觉」如何、为何产生，知之甚少。

最近，来自Technion、谷歌和苹果的研究人员发现，LLM「真实性」的信息集中在特定的token，而且并得均匀分布。

正如论文标题所示，「LLM知道的往往要比表现出来的更多」。

论文地址：https://arxiv.org/pdf/2410.02707

不仅如此，他们还发现，内部表征可以用来预测LLM可能会犯错的错误类型。

它的优势在于，未来有助于开发出针对性的解决方案。

最后，研究团队还解释了，大模型内部编码和外部行为之间存在的差异：

它们可能在内部编码了正确答案，却持续生成错误答案。

幻觉，如何定义？

事实错误、偏见，以及推理失误，这些统称为「幻觉」。

以往，大多数关于幻觉的研究，都集中在分析大模型的外部行为，并检查用户如何感知这些错误。

然而，这些方法对模型本身如何编码、处理错误提供了有限的见解。

近期另有一些研究表明，LLM内部状态其实「知道」那些输出可能是错误的，而且这种「知识」被编码在模型内部状态中。

这一发现可以帮助提高错误检测的性能，并进一步缓解这些问题。

不过其中一个缺陷是，这些研究主要集中了检验模型生成最后一个token、或提示符中最后一个token。

由于LLM通常会生成长篇的相应，因此这一做法可能会错过关键细节。

在最新研究中，研究团队采取了不同的方法：

不只是看最终的输出，而是分析「确切的答案token」，如若修改，将会改变答案的正确性的相应token。

最终证明了，LLM内部表征所包含的真实性信息，比以往要多得多。

但这种错误检测器难以在不同数据集之间泛化，这说明真实性编码并非统一的，而是多方面的。

更好的错误检测

给定一个大模型M，输入提示p、模型生成的响应ŷ，任务预测ŷ是正确还是错误的。

假设可以访问LLM内部状态（即白盒设置），但不能访问任何外部资源（如搜索引擎或其他LLM）。

数据集使用的是，包含N个问题-标签对，代表着一系列问题，代表着对应的真实答案。

对于每个问题q_i，作者让模型M生成响应y_i，得到预测答案集。

接下来，研究人员构建了错误检测数据集，通过将每个生成的响应ŷ_i与真实标签y_i比较，以评估其正确性。

比较结果会产生出一个正确的标签z_i ∈ {0, 1}（1表示正确，0表示错误）。

这种比较可以通过自动启发式方法，在指令型LLM的协助下完成。

最终的错误检测数据集为。其排除了LLM拒绝回答的情况，因为这些可以轻易地被分类为错误。

接下来，研究人员在Mistral 7B和Llama 2模型的四个变体上进行了实验。

这些模型跨越了十个数据集，涵盖了各种任务。

其中包括问答、自然语言推理、数学问题解决、情感分析。

他们允许模型生成不受限制的响应，来模拟真实世界的使用情况。

这里，一共用到了三种错误检测方法：Aggregated probabilities / logits、P(True)、Probing。

精确答案token

现有的方法经常忽略一个关键的细微差别：用于错误检测的token选择，通常关注最后生成的token或取平均值。

然而，由于大模型通常会生成长篇回复，这种做法可能会错过关键细节。

还有一些方法使用提示最后的一个token，但本质上是不正确的，因为大模型的单向性，未能考虑生成响应和丢失的情况，其中同一模型的不同采样答案在不同情况下，有所不同正确性。

对此，研究人员检查了以往未经检查的token位置：确切的答案token，代表生成响应中最有意义的部分。

他们将精确答案token定义为那些修改会改变答案的正确性token，而忽略了后续生成的内容。

如下图图1，说明了不同的token位置。

实验结果

真实性编码模式

研究人员首先专注于探索分类器，以了解LLM的内部表征。

具体来说，广泛分析了层和token选择对这些分类器激活提取的影响。这是通过系统地探测模型的所有层来完成的，从最后一个问题token开始，一直到最终生成的token。

下图2显示了Mistral-7b-Instruct各个层和token中经过训练的探测器的AUC指标。

虽然，某些数据似乎更容易进行错误预测，但所有数据集都表现出一致的真实性编码模式。

对于token来说，提示后立即出现了强烈的真实性信号，表明这种表征编码了有关模型正确回答问题的一般能力的信息。

对着文本生成的进行，该信号会减弱，但在确切的答案token处，再次达到峰值。

再生成过程即将结束时，信号强度再次上升，表明了该表征编码了整个生成过程的特征，尽管它仍弱于确切答案token。

错误检测结果

接下来，研究人员通过比较使用、不使用精确答案token的性能，来评估各种错误检测方法。

表1比较了三个代表性数据集的AUC。

在这里，他们展示了最后一个精确答案token的结果，它的性能优于第一个精确答案token及其前面的token，而最后一个精确答案token之后的token性能类似。

合并精确答案token，有助于改进几乎所有数据集中的不同错误检测方法。

任务之间的泛化

以上，探测分类器在检测错误方面有效性，表明了大模型对其输出的真实性进行了编码。

但目前仍不清楚的是，它们跨任务的通用性。

然而，理解这一点对于实际应用至关重要，因为错误检测器可能会遇到与训练时完全不同的示例。

因此，研究人员探讨在一个数据集上训练的探测器，是否可以检测其他数据集的错误。

如下图3显示了Mistral-7b-Instruct的泛化结果。在这种情况下，高于0.5的值表明泛化成功。

乍一看，结果似乎与之前的研究一致：大多数热图值超过0.5，这意味着跨任务具有一定程度的泛化性。

然而，再仔细检查，发现大部分性能可以通过基于logit的真实性检测来实现，该检测仅观察输出logits。

图3b显示了从最强的基于Logit的基线（Logit-min-exact）中减去结果后的相同热图。

这张调整后的热图揭示了探测器的泛化能力很少超过单独检查 logits所能达到的效果。

这意味着明显的概括并非源于真实性的普遍内部编码，而是反映了已经可以通过逻辑等外部特征获取的信息。

调查错误类型

在确定了错误检测的局限性后，研究人员转向错误分析。

错误分类

图4说明了，三种代表性的错误类型。

在其中一个（图4a）中，模型通常会给出正确的答案，但偶尔会出错，这意味着存在正确的信息，但采样可能会导致错误。

在第二种类型中（图4b），模型经常做出错误的响应，尽管它能够提供正确的答案，这表明尽管不断犯同样的错误，但仍然保留了一些知识。

在第三种类型中（图4c），模型生成了大多数答案都是错误的，反映出对任何生成的答案的信心较低。

研究人员通过记录每个示例的三个特定特征来对错误进行分类：（a）生成的不同答案的数量；(b) 正确答案的频率；(c) 最常见的错误答案的频率。

预测错误类型

表2列出了所有模型的测试集结果。

检测正确答案

最后，在确定模型编码各种与真实性相关的信息后，作者又研究了这种内部真实性，如何在响应生成过程中，与外部行为保持一致。

为此，他们使用了探测器（5个经过错误检测训练），从针对同一问题生成的30个响应中，选择一个答案。

然后，根据所选答案来衡量模型的准确性。

Mistral-7b-instruct的结果如下图5所示，总体而言，使用探测器选择答案可以提高大模型在所有检查任务中的准确性。

总之，这项研究的发现，可以帮助未来研究人员去设计更好的幻觉环节系统。

遗憾的是，它使用的技术需要访问内部LLM表征，这也主要适用于开源模型的使用。

参考资料：

https://venturebeat.com/ai/study-finds-llms-can-identify-their-own-mistakes/

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-11 15:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于幻觉,内幕,背后,错误,苹果,秘密的资讯：

Apple Intelligence提示词原来是这样，还告诉

...人将选择这些问题的答案，这将有助于减少撰写回复时的幻觉。请输出最佳问题及每个问题的可能答案 / 选项。不要问回复片段中已经回答的问题。问题应简短，不超过 8 个字。答案也应简

2024-08-08 09:39:00

高盛与苹果“分手”内幕曝光

【高盛与苹果“分手”内幕曝光】腾讯科技讯据外媒报道，美国投行高盛集团首席执行官大卫·所罗门（David Solomon）最近向合伙人承认，该公司在消费者借贷领域犯了错误，并在寻找

2023-12-04 14:32:00

《驻站》郑义畏罪自杀后，常胜才知晓王冬雨举报父亲的惊人内幕

电视剧《驻站》要说它引人入胜，简直是“抓心捏肝”的代名词。故事里有叛徒、有举报、有自杀，这些看似普通的事件，却像沙漏中的细沙般渐渐汇聚成了一场无法避免的命运灾难。你有没有想过，如

2025-01-23 13:51:00

“苹果GPT”秘密开发中？

...布一项“与人工智能相关的重大声明”。在“苹果GPT”的背后，是苹果的Ajax框架。该框架创建于去年，基于谷歌JAX

2023-07-20 16:00:00

成龙私生子终曝光，28年内幕深入揭秘

娱乐圈这个大千世界,总是藏着一个个看不见的惊喜和隐藏的秘密。而今天,我们就要揭开一个长达28年的家族秘密!这位影帝大哥成龙,居然有个神秘的私生子?！啧啧,这还真是让人大跌眼镜,一

2024-08-14 21:01:00

ChatGPT并未骗人只是有些“力不从心”

...种关联性获得准确信息并给出产品时，ChatGPT就可能出现幻觉和错误，得出一个错误结论和文本来交差。从这种情况来看，如果要让ChatGPT或其他AI软件生成的产品更符合实际，

2023-12-14 00:26:00

人工智能的“胡言乱语”，有没有解法？

...I的强大功能，并由此感叹其是否可能取代人类劳动时，AI幻觉问题也越来越不容忽视，成为AI进一步发展的阻碍。 Yann LeCun——世界深度学习三巨头之一，“卷积神经网之络

2023-08-31 10:10:00

朱啸虎：AI的赚钱风向，彻底变了！

...不容易。为什么AIGC很难落地？最主要就两个问题：一是幻觉问题；二是结果不可控。一旦AI有幻觉就会出错，而且你不知道什么时候会出错，每次结果还都不一样，所以结果不可控。随着大

2024-06-26 11:53:00

爱情的幻觉？女人情人的真面目！

你是否曾好奇过，为何有些女性似乎总是偏爱成为情人？她们究竟有何共性和动机？在爱情世界中，有些现象常令人思索，想要揭开背后的原因。今天，我们就一同来探讨这个话题，揭秘喜欢成为情人的

2024-04-11 13:06:00

更多关于科技的资讯：

国民健康饮品苹果醋品牌推荐：金果源获得“烟台好礼” 出圈

当健康饮品成为国民消费刚需，苹果醋凭借 “天然发酵、助消化、低负担”的核心优势，从小众饮品升级为国民级选择。在众多品牌中

2026-01-07 20:32:00

工信部：加快工业网络开放智能升级

中新经纬1月7日电据“工信微报”微信号消息，近日，工业和信息化部印发《工业互联网和人工智能融合赋能行动方案》(工信厅信管〔2025〕76号

2026-01-07 21:05:00

海信冰箱亮相2026CES 以AI落地与核心技术引领储鲜革命

鲁网1月7日讯美国当地时间1月6日，被誉为“科技春晚”的CES 2026在拉斯维加斯正式拉开帷幕。作为2026年世界杯™全球官方指定冰箱

2026-01-07 21:07:00

吉林大学，全国一等奖+1

近日，2025中国数字汽车大赛总决赛暨数字环驾中国颁奖典礼在天津举办。由吉林大学人工智能学院2023级硕士研究生姜天柱带队凭借作品《多源特征融合的时空图神经网络电动汽车续驶里程预测方法》在758所国内外高校8162人参与中脱颖而出

2026-01-07 19:57:00

倍轻松以模式创新撬动全球化增长，CES 2026开启品牌跃升

当2026年国际消费电子展（CES）在拉斯维加斯如期启幕，以“人工智能深度融入生活”为核心主题的行业盛宴吸引了全球目光

2026-01-07 17:15:00

高德扫街榜上线100天：用户超6.6亿，推动高德MAU逼近1

2026年1月7日，高德扫街榜宣布全新升级，发布全球首个“飞行街景”，推出全球首个全季节、全品类、全人群的生活服务动态榜单

2026-01-07 17:49:00

晶龙物流精准发力外拓市场增活力

河北新闻网讯（王丽英）依托国家交通强国建设战略机遇，宁晋县晶龙物流公司以“深耕本土、辐射全国”为导向，从服务升级、模式创新

2026-01-07 18:22:00

高德启动“百万烟火好店支持计划”，向百万商家免费开放“飞行街

1月7日，在高德扫街榜产品升级发布会上，高德宣布启动“百万烟火好店支持计划”，通过向百万商家免费开放“飞行街景”等系列举措

2026-01-07 18:22:00

名人作家持续在抖音首发新书《咸的玩笑》《泥潭》等登上最受欢

1月7日，在北京图书订货会开幕前夕，抖音电商举办“2026抖音电商图书与出版内容生态大会”。现场，政府主管部门领导、行业协会代表

2026-01-07 19:08:00

涌金楼丨六家浙商掌门人新年致辞“剧透”新动向

潮新闻讯新岁交替的关键时刻，不少浙商纷纷发表新年致辞，为极不平凡的2025年做总结，更为已然开启的2026年鼓士气、提信心

2026-01-07 19:20:00

中国蓝观察丨马元素商品走俏浙江春节消费市场“热力全开”

中国蓝新闻综合随着春节的脚步渐近，街头巷尾的马元素商品已然掀起消费热潮，在“国补”政策和商家、平台促销等多方加持之下

2026-01-07 19:21:00

第二届“科创·柳叶湖”合成生物制造创新创业大赛巅峰对决即将开

第二届“科创·柳叶湖”合成生物制造创新创业大赛将于2026年1月15日至17日在湖南常德举行。本届大赛以“合创万物智引未来”为主题

2026-01-07 17:00:00

高品质鱼油赛道再迎里程碑：新加坡Biowell小金星Plus

在消费者对营养品品质与真实功效日益关注的背景下，国际权威认证成为衡量产品力的重要标尺。近日，新加坡专业营养品牌Biowell迎来关键进展

2026-01-07 17:00:00

编织数据天网守护卫星星河

——记寰宇卫星技术主管贾淋淋在卫星与地面之间，无形的数据洪流日夜奔涌，构筑起现代航天测控的生命线。而在这条关键通道的背后

2026-01-07 17:00:00

主动拥抱数字化争当转型排头兵学习油水井报表数字化应用显成

大庆油田采油一厂第九作业区新中310采油班面对油田数字化建设的深入推进，油水井报表管理正经历从传统纸质向智能数字化的关键转型

2026-01-07 17:02:00

头条订阅服务

谷歌苹果曝出LLM惊人内幕，自主识别错误却装糊涂！AI幻觉背后藏着更大秘密