• 我的订阅
  • 科技

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

类别:科技 发布时间:2024-12-03 13:33:00 来源:机器之心Pro

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

本文将介绍数学推理场景下的首个分布外检测研究成果。该篇论文已被 NeurIPS 2024 接收,第一作者王一鸣是上海交通大学计算机系的二年级博士生,研究方向为语言模型生成、推理,以及可解释、可信大模型。该工作由上海交通大学和阿里巴巴通义实验室共同完成。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

论文题目:Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning 论文地址:https://arxiv.org/abs/2405.14039 OpenReview: https://openreview.net/forum?id=hYMxyeyEc5 代码仓库:https://github.com/Alsace08/OOD-Math-Reasoning

背景与挑战

分布外(Out-of-Distribution, OOD)检测是防止深度网络模型遭遇分布偏移数据时产生不可控输出的重要手段,它对模型在现实世界中的部署安全起到了关键的作用。随着语言模型的发展,复杂生成序列的错误传播会使得 OOD 数据带来的负面影响更加严重,因此语言模型下的 OOD 检测算法变得至关重要。

常规的检测方法主要面向传统生成任务(例如翻译、摘要),它们直接计算样本在输入 / 输出空间中的 Embedding 和分布内(In-Distribution,ID)数据的 Embedding 分布之间的马氏距离(Mahalanobis Distance)。然而,在数学推理场景下,这种静态 Embedding 方法遭遇了不可行性。研究团队可视化比较了数学推理和传统文本生成任务在不同域上的输入 / 输出空间:

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

相比于文本生成,数学推理场景下不同域的输入空间的聚类特征并不明显,这意味着 Embedding 可能难以捕获数学问题的复杂度; 更重要地,数学推理下的输出空间呈现出高密度叠加特性。研究团队将这种特性称作 “模式坍缩”,它的出现主要有两个原因: (1) 数学推理的输出空间是标量化的,这会增大不同域上的数学问题产生同样答案的可能性。例如 和 这两个问题的结果都等于 4; (2) 语言模型的建模是分词化的,这使得在数学意义上差别很大的表达式在经过分词操作后,共享大量的 token(数字 0-9 和有限的操作符)。研究团队量化了这一观察,其中表示出现的所有 token 数,表示出现过的 token 种类, 表示 token 重复率,表示 token 种类在词表中的占比,发现在一些简单的算术场景下,token 重复率达到了惊人的 99.9%!

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

为了应对这个挑战,研究团队跳出了静态 Embedding 的方法框架,提出了一种全新的基于动态 Embedding 轨迹 的 OOD 检测算法,称作 “TV Score”,以应对数学推理场景下的 OOD 检测问题。

动机与方法

1. 定义:什么是 Embedding 轨迹?

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

2. 动机:为什么用 Embedding 轨迹?

理论直觉

在数学推理场景下,输出空间具有显著的高密度模式坍缩特征,这使得在输入空间相差较大的两个起始点,通过隐藏层转移至输出空间后,将收敛到非常近的距离。这个 “终点收敛” 现象将增大不同样本的 Embedding 轨迹之间产生差异的可能性,如下图所示。该理论分析的数学建模和证明详见论文。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

经验分析

在初步获取了使用 Embedding 轨迹作为测度的理论直觉后,需要继续深入分析 ID 和 OOD 样本的 Embedding 轨迹之间会产生怎样的个性化差异。研究团队在 Llama2-7B 模型上统计了不同的 ID 和 OOD 数据集下的 Embedding 轨迹特征。其中,横坐标表示层数,纵坐标表示该层与其邻接层的 Embedding 之间的差值 2 - 范数,数值越大表示这两个邻接层之间的 Embedding 转换幅度越大。通过统计数据得出如下发现:

在 20 层之前,ID 和 OOD 样本都几乎没有波动;在 20 层之后,ID 样本的 Embedding 变化幅度先增大后又被逐渐抑制,而 OOD 样本的 Embedding 变化幅度一直保持在相对较高的范围; 通过这个观察,可以得出 ID 样本的 “过早稳定” 现象:ID 样本在中后层完成大量的推理过程,而后仅需做简单的适应;而 OOD 样本的推理过程始终没有很好地完成 —— 这意味着 ID 样本的 Embedding 转换相对平滑。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

3. 方法:怎么用 Embedding 轨迹?

基于上述发现,研究团队提出了 TV Score,它可以衡量一个样本属于 ID 或 OOD 类别的可能性。受到静态 Embedding 方法的启发,文章希望通过计算新样本的 Embedding 轨迹和 ID 样本的 Embedding 轨迹分布之间的距离来获取测度,但轨迹分布和轨迹距离的计算并不直观。

因此,文章将 TV Score 的计算分为了三个步骤:

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

进一步地,考虑到轨迹中的异常点可能会影响特征提取的精度,研究团队在此基础上加入了差分平滑技术 (Differential Smoothing, DiSmo):

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

实验与结果

研究团队使用了 11 个数学推理数据集(其中 1 个 ID 数据集和 10 个 OOD 数据集)在两个不同规模的语言模型(Llama2-7B 和 GPT2-XL)上进行了实验。根据和 ID 数据集之间的难度差异大小,这 10 个 OOD 数据集被分为两组,分别代表 Far-shift OOD 和 Near-shift OOD。实验在离线检测和在线检测这两个场景下进行:

离线检测场景:给定一组 ID 和 OOD 样本的混合集合,检测 TV Score 对这两类样本的区分精度(本质上是一个判别任务)。评估指标采用 AUROC 和 FPR95。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

在 Far-shift OOD 场景下:AUROC 指标提高了 10 个点以上,FPR95 指标更是降低了超过 80%; 在 Near-shift OOD 场景下:TV Score 展现出更强的鲁棒性。Baseline 方法从 Far-shift 转移到 Near-shift 场景后,性能出现明显下降,而 TV Score 仍然保持卓越的性能。这说明对于更精细的 OOD 检测场景,TV Score 表现出更强的适应性。

在线检测场景:在离线检测场景中获取一个分类阈值,之后面对新的开放世界样本时,可以通过和阈值的大小比较自动判定属于 ID 或 OOD 类别。评估指标采用 Accuracy。结果表明,TV Score 在开放世界场景下仍然具有十分优秀的判别准确度。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

泛化性测试

研究团队还对 TV Score 的泛化性进行了进一步的测试,主要分为任务泛化和场景泛化两个方面:

任务泛化:测试了 OOD 场景下的生成质量估计,使用 Kendall 和 Spearman 相关系数来计算 TV Score 和模型回答正确性之间的相关性。结果表明,TV Score 在该任务下仍然展现出了最优性能。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

场景泛化:研究团队认为,TV Score 可以被推广到所有输出空间满足 “模式坍缩” 特性的场景,例如多项选择题,因为它的输出空间仅包含 ABCD 等选项。文章选取了 MMLU 数据集,从中挑选了 8 个域的子集,依次作为 ID 子集来将剩余 7 个域作为 OOD 检测目标。结果表明,TV Score 仍然展现出良好的性能,这验证了它在更丰富场景下的使用价值。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

总结

本文是 OOD 检测算法在数学推理场景下的首次探索。该工作不仅揭示了传统检测算法在数学推理场景下的不适用性,还提出了一种全新的基于动态 Embedding 轨迹的检测算法,可以精准适配数学推理场景。

随着大模型的发展,模型的应用场景越来越广泛,而这些场景也越来越具有挑战性,早已不局限于最传统的文本生成任务。因此,传统安全算法在新兴场景下的跟进也是维护大模型在真实世界中稳定且安全地发挥作用的不可或缺的一环。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-03 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv
2024-03-04 10:23:00
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...解决复杂数学问题的能力。通过此,他们不仅提高了算法推理速度,还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster100,也更加符合算法在复杂数学问题下的评价场
2024-03-13 10:26:00
对标o1,Kimi放出了最能打的国产模型
...历新一轮技术范式的变化,预训练 Scaling Law 放缓之后,推理时间计算成为了新的性能提升关键。两个月前,OpenAI o1 的诞生再次引领了大模型技术的突破
2024-11-19 09:50:00
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...凸优化理论、神经网络优化理论、机制设计等领域有颇多研究成果。姚期智姚期智是中国科学院院士、清华大学交叉信息研究院院长;同时也是“图灵奖”创立以来首位获奖的亚裔学者、迄今为止获
2024-09-24 13:36:00
...学习活动,旨在引导学生进行操作、观察、分析、猜想和推理等数学活动,在经历数学知识的“再创造”与“再发现”过程中,亲身体验数学、理解数学。 “数学实验”不是让学生机械地、盲目
2023-10-31 09:06:00
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力,训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶,往往意味着人类智慧极限的突破。迄今
2024-06-14 11:54:00
...共同交流探讨小学基础认知能力训练与游戏化教学的最新研究成果和教学方法,有效推进小学基础认知能力的训练与低段数学游戏化教学的发展。
2024-05-24 10:00:00
诸城一中数学老师演绎精彩课堂
...课堂改革方案得失,梳理实施过程与实践经验,总结提炼研究成果,作为课堂教学改革的重要参考。 (二)解决问题方法1、由于教学进度压力和教材内容设置与实际教学的差异,教师要巧妙设
2024-09-05 21:39:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...理路径。 第四,是输出模块,是系统的"表达者",负责将研究成果转化为专业的呈现形式。它能够根据用户需求,生成格式规范的报告、论文或分析图表。在这个过程中,系统会严格遵循学术规
2025-02-04 04:25:00
更多关于科技的资讯:
海尔智慧家庭与小度战略合作:双向控制,生态互通
伴随市场需求从单品向全屋智能深入,智能家居生态正从过去单一入口向着多入口、多圈层的生态体系迈进。特别是互联平台的兼容性方面
2025-11-16 15:16:00
摘要:本文围绕企业绩效管理体系的构建与完善展开研究,首先明确该体系的核心构成,包含目标设定、过程监控、评估实施与结果应用四个相互衔接的环节
2025-11-15 05:22:00
厦门软件园健康马拉松赛开跑 引入AI陪跑员
厦门网讯(厦门日报记者 林露虹 摄影报道)“我的‘跑友’是机器人!”昨日,厦门软件园第十七届健康马拉松赛在软件园二期热力开跑
2025-11-15 08:20:00
吉林本土动画电影《疯狂电脑城》,凭啥在海外频频获奖?
在温哥华华语电影节上,吉林动画学院师生联合打造的《疯狂电脑城》摘得“最佳动画片奖”,这已经不是该片第一次出海,2024年
2025-11-15 19:01:00
摘要:本文聚焦数字化转型背景下企业行政管理效率提升问题,首先剖析数字化转型与企业行政管理的内在关联,指出二者通过流程优化
2025-11-15 05:22:00
2025网聚美好安徽|“双路由”直连上海 看宿州腾“云”而上
大皖新闻讯 11月14日,“皖美十四五 再启新征程”2025网聚美好安徽网络主题活动采访团走进位于宿州高新区的汴水之畔超级计算中心
2025-11-15 10:05:00
“世界舞台”上秀一圈,南京收获了什么?
进博会圆满落幕,南京交易分团意向成交9.98亿美元“世界舞台”上秀一圈,南京收获了什么?□南京日报/紫金山新闻记者 黄琳燕11月10日
2025-11-14 08:38:00
埃斯顿工业机器人出货量持续增长 宁企连续三季霸榜国内“一哥”
11月13日,在江宁开发区埃斯顿智能制造示范车间内,工业机器人正在做各种场景应用展示。宁企埃斯顿今年前三季度机器人总销量约25000台
2025-11-14 08:39:00
一批创新产品亮相“宁创新品”信创产业教育专场活动 只需3步,20分钟完成全班作业批改南报网讯(记者徐宁)上传空白试卷和答案
2025-11-14 08:39:00
以AI引擎打造数字化转型山西模式
图片由讲述人提供讲述人 山西数据流量谷副总经理邵同旭我是山西数据流量谷的邵同旭,长期专注于数据要素与人工智能领域。多年来
2025-11-14 08:52:00
岁末是金融服务的“大考期”,业务量激增、客户需求多元叠加。张家口农商银行宣泰支行聚焦柜面运营核心环节,以“压降投诉、提升质量
2025-11-14 10:07:00
秋实如今,快节奏的都市生活中,“情绪消费”成为一种新的消费方式。数据显示,超九成青年认可情绪价值,近六成青年愿意为情绪价值买单
2025-11-14 11:28:00
新华社记者王雨萧周蕊一杯咖啡,能勾勒出怎样的经济图景?从云南绵延百万余亩的咖啡种植园,到上海梧桐树下香气氤氲的创意特调
2025-11-14 11:28:00
惠依近日,深圳大学深圳城市传播创新研究中心发布《短视频用户的算法实践与“破茧”报告》。《报告》显示,与一些人担忧“信息茧房”形成对比
2025-11-14 11:28:00
如新荣获2025消费责任对话活动客户服务创新典型案例
2025年11月5日,以“大力提振消费 品质服务担当”为主题的消费责任对话活动在成都成功举办。本次活动由中国消费者协会
2025-11-14 11:29:00