• 我的订阅
  • 科技

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

类别:科技 发布时间:2024-12-03 13:33:00 来源:机器之心Pro

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

本文将介绍数学推理场景下的首个分布外检测研究成果。该篇论文已被 NeurIPS 2024 接收,第一作者王一鸣是上海交通大学计算机系的二年级博士生,研究方向为语言模型生成、推理,以及可解释、可信大模型。该工作由上海交通大学和阿里巴巴通义实验室共同完成。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

论文题目:Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning 论文地址:https://arxiv.org/abs/2405.14039 OpenReview: https://openreview.net/forum?id=hYMxyeyEc5 代码仓库:https://github.com/Alsace08/OOD-Math-Reasoning

背景与挑战

分布外(Out-of-Distribution, OOD)检测是防止深度网络模型遭遇分布偏移数据时产生不可控输出的重要手段,它对模型在现实世界中的部署安全起到了关键的作用。随着语言模型的发展,复杂生成序列的错误传播会使得 OOD 数据带来的负面影响更加严重,因此语言模型下的 OOD 检测算法变得至关重要。

常规的检测方法主要面向传统生成任务(例如翻译、摘要),它们直接计算样本在输入 / 输出空间中的 Embedding 和分布内(In-Distribution,ID)数据的 Embedding 分布之间的马氏距离(Mahalanobis Distance)。然而,在数学推理场景下,这种静态 Embedding 方法遭遇了不可行性。研究团队可视化比较了数学推理和传统文本生成任务在不同域上的输入 / 输出空间:

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

相比于文本生成,数学推理场景下不同域的输入空间的聚类特征并不明显,这意味着 Embedding 可能难以捕获数学问题的复杂度; 更重要地,数学推理下的输出空间呈现出高密度叠加特性。研究团队将这种特性称作 “模式坍缩”,它的出现主要有两个原因: (1) 数学推理的输出空间是标量化的,这会增大不同域上的数学问题产生同样答案的可能性。例如 和 这两个问题的结果都等于 4; (2) 语言模型的建模是分词化的,这使得在数学意义上差别很大的表达式在经过分词操作后,共享大量的 token(数字 0-9 和有限的操作符)。研究团队量化了这一观察,其中表示出现的所有 token 数,表示出现过的 token 种类, 表示 token 重复率,表示 token 种类在词表中的占比,发现在一些简单的算术场景下,token 重复率达到了惊人的 99.9%!

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

为了应对这个挑战,研究团队跳出了静态 Embedding 的方法框架,提出了一种全新的基于动态 Embedding 轨迹 的 OOD 检测算法,称作 “TV Score”,以应对数学推理场景下的 OOD 检测问题。

动机与方法

1. 定义:什么是 Embedding 轨迹?

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

2. 动机:为什么用 Embedding 轨迹?

理论直觉

在数学推理场景下,输出空间具有显著的高密度模式坍缩特征,这使得在输入空间相差较大的两个起始点,通过隐藏层转移至输出空间后,将收敛到非常近的距离。这个 “终点收敛” 现象将增大不同样本的 Embedding 轨迹之间产生差异的可能性,如下图所示。该理论分析的数学建模和证明详见论文。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

经验分析

在初步获取了使用 Embedding 轨迹作为测度的理论直觉后,需要继续深入分析 ID 和 OOD 样本的 Embedding 轨迹之间会产生怎样的个性化差异。研究团队在 Llama2-7B 模型上统计了不同的 ID 和 OOD 数据集下的 Embedding 轨迹特征。其中,横坐标表示层数,纵坐标表示该层与其邻接层的 Embedding 之间的差值 2 - 范数,数值越大表示这两个邻接层之间的 Embedding 转换幅度越大。通过统计数据得出如下发现:

在 20 层之前,ID 和 OOD 样本都几乎没有波动;在 20 层之后,ID 样本的 Embedding 变化幅度先增大后又被逐渐抑制,而 OOD 样本的 Embedding 变化幅度一直保持在相对较高的范围; 通过这个观察,可以得出 ID 样本的 “过早稳定” 现象:ID 样本在中后层完成大量的推理过程,而后仅需做简单的适应;而 OOD 样本的推理过程始终没有很好地完成 —— 这意味着 ID 样本的 Embedding 转换相对平滑。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

3. 方法:怎么用 Embedding 轨迹?

基于上述发现,研究团队提出了 TV Score,它可以衡量一个样本属于 ID 或 OOD 类别的可能性。受到静态 Embedding 方法的启发,文章希望通过计算新样本的 Embedding 轨迹和 ID 样本的 Embedding 轨迹分布之间的距离来获取测度,但轨迹分布和轨迹距离的计算并不直观。

因此,文章将 TV Score 的计算分为了三个步骤:

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

进一步地,考虑到轨迹中的异常点可能会影响特征提取的精度,研究团队在此基础上加入了差分平滑技术 (Differential Smoothing, DiSmo):

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

实验与结果

研究团队使用了 11 个数学推理数据集(其中 1 个 ID 数据集和 10 个 OOD 数据集)在两个不同规模的语言模型(Llama2-7B 和 GPT2-XL)上进行了实验。根据和 ID 数据集之间的难度差异大小,这 10 个 OOD 数据集被分为两组,分别代表 Far-shift OOD 和 Near-shift OOD。实验在离线检测和在线检测这两个场景下进行:

离线检测场景:给定一组 ID 和 OOD 样本的混合集合,检测 TV Score 对这两类样本的区分精度(本质上是一个判别任务)。评估指标采用 AUROC 和 FPR95。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

在 Far-shift OOD 场景下:AUROC 指标提高了 10 个点以上,FPR95 指标更是降低了超过 80%; 在 Near-shift OOD 场景下:TV Score 展现出更强的鲁棒性。Baseline 方法从 Far-shift 转移到 Near-shift 场景后,性能出现明显下降,而 TV Score 仍然保持卓越的性能。这说明对于更精细的 OOD 检测场景,TV Score 表现出更强的适应性。

在线检测场景:在离线检测场景中获取一个分类阈值,之后面对新的开放世界样本时,可以通过和阈值的大小比较自动判定属于 ID 或 OOD 类别。评估指标采用 Accuracy。结果表明,TV Score 在开放世界场景下仍然具有十分优秀的判别准确度。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

泛化性测试

研究团队还对 TV Score 的泛化性进行了进一步的测试,主要分为任务泛化和场景泛化两个方面:

任务泛化:测试了 OOD 场景下的生成质量估计,使用 Kendall 和 Spearman 相关系数来计算 TV Score 和模型回答正确性之间的相关性。结果表明,TV Score 在该任务下仍然展现出了最优性能。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

场景泛化:研究团队认为,TV Score 可以被推广到所有输出空间满足 “模式坍缩” 特性的场景,例如多项选择题,因为它的输出空间仅包含 ABCD 等选项。文章选取了 MMLU 数据集,从中挑选了 8 个域的子集,依次作为 ID 子集来将剩余 7 个域作为 OOD 检测目标。结果表明,TV Score 仍然展现出良好的性能,这验证了它在更丰富场景下的使用价值。

NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了

总结

本文是 OOD 检测算法在数学推理场景下的首次探索。该工作不仅揭示了传统检测算法在数学推理场景下的不适用性,还提出了一种全新的基于动态 Embedding 轨迹的检测算法,可以精准适配数学推理场景。

随着大模型的发展,模型的应用场景越来越广泛,而这些场景也越来越具有挑战性,早已不局限于最传统的文本生成任务。因此,传统安全算法在新兴场景下的跟进也是维护大模型在真实世界中稳定且安全地发挥作用的不可或缺的一环。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-03 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

港中文团队提出大模型元推理范式,革新大模型的评价体系
...一定启示。日前,相关论文以《大型语言模型评价中的元推理革命》(MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation)为题发在 arXiv
2024-03-04 10:23:00
科学家推出大模型数据集,涵盖奥赛数学题,有望让AI辅导数学课程
...解决复杂数学问题的能力。通过此,他们不仅提高了算法推理速度,还提高了算法搜索中间结果的质量。所新推出的数据集 TriMaster100,也更加符合算法在复杂数学问题下的评价场
2024-03-13 10:26:00
对标o1,Kimi放出了最能打的国产模型
...历新一轮技术范式的变化,预训练 Scaling Law 放缓之后,推理时间计算成为了新的性能提升关键。两个月前,OpenAI o1 的诞生再次引领了大模型技术的突破
2024-11-19 09:50:00
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...凸优化理论、神经网络优化理论、机制设计等领域有颇多研究成果。姚期智姚期智是中国科学院院士、清华大学交叉信息研究院院长;同时也是“图灵奖”创立以来首位获奖的亚裔学者、迄今为止获
2024-09-24 13:36:00
...学习活动,旨在引导学生进行操作、观察、分析、猜想和推理等数学活动,在经历数学知识的“再创造”与“再发现”过程中,亲身体验数学、理解数学。 “数学实验”不是让学生机械地、盲目
2023-10-31 09:06:00
AI表现直逼国际奥数优秀选手, 它要 “征服”数学了吗?
...同步揭晓。这项赛事的目的是推动发展大语言模型的数学推理能力,训练出更高数学水平的新AI模型。纯数学领域中的重大发现是推理和创造力的灵感结晶,往往意味着人类智慧极限的突破。迄今
2024-06-14 11:54:00
...共同交流探讨小学基础认知能力训练与游戏化教学的最新研究成果和教学方法,有效推进小学基础认知能力的训练与低段数学游戏化教学的发展。
2024-05-24 10:00:00
诸城一中数学老师演绎精彩课堂
...课堂改革方案得失,梳理实施过程与实践经验,总结提炼研究成果,作为课堂教学改革的重要参考。 (二)解决问题方法1、由于教学进度压力和教材内容设置与实际教学的差异,教师要巧妙设
2024-09-05 21:39:00
OpenAI新功能 “深度研究” 登场,人类终极考试的表现超过DeepSeek R1
...理路径。 第四,是输出模块,是系统的"表达者",负责将研究成果转化为专业的呈现形式。它能够根据用户需求,生成格式规范的报告、论文或分析图表。在这个过程中,系统会严格遵循学术规
2025-02-04 04:25:00
更多关于科技的资讯:
曹县汉服“遇上”拼多多:95后的创业翻盘记
鲁网10月24日讯曹县,素有“中国汉服产业重镇”之称,曾见证无数小微创业者在行业竞争中艰难求索。对许多创业者而言,汉服市场度过初期蓝海阶段后
2025-10-24 14:29:00
突破光谱检测瓶颈!中国计量大学本科生团队研制高分辨率光谱仪
通讯员:吴瑞鹏 何秋阳近日,第十九届“挑战杯”全国大学生课外学术科技作品竞赛正火热备赛中,全国高校参赛队伍蓄势待发。中国计量大学光学与电子科技学院本科生团队项目——“基于微反射镜阵列的高分辨率光谱仪”
2025-10-24 15:02:00
开普勒机器人登陆IROS 2025 以开放平台携手全球开发者共筑新生态
10月19日至25日,全球机器人领域两大顶级国际会议之一的2025年IEEE/RSJ智能机器人与系统国际会议(IROS 2025)在杭州隆重举行
2025-10-24 15:02:00
蓝月亮:用十二年为洁净艺术种下一棵“树”
10月23日,第十七届国际大学生暨青年艺术博览会(简称:大艺博)开幕。在武汉东部的中国光谷科技会展中心10000平方米的专业展馆内
2025-10-24 15:14:00
京东工业与南方电网供应链集团签署战略合作 以数智技术驱动供应链全面升级
10月20日,京东工业与南方电网供应链集团在广州正式签署战略合作协议,双方相关负责人出席签约仪式。此次合作标志着京东集团与南方电网在供应链领域的协作迈入全新阶段
2025-10-24 15:23:00
从OS到AI OS:荣耀MagicOS 10定义AI OS新时代
2025年10月23日,荣耀全球开发者大会暨AI终端生态大会在深圳坪山燕子湖国际会展中心隆重举行。本次大会系统阐释了MagicOS 10的品牌战略与发展路径
2025-10-24 15:32:00
最后窗口期!2025FHC上海环球食品展免费领票即将截止
2025FHC上海环球食品展已进入开幕倒计时!这场被誉为“全球食饮贸易超级接口”的盛会,已成为零售买家囤货、拓品的关键“战场”—20万㎡展出面积
2025-10-24 15:47:00
K90定价后引热议闪电降价,雷军:标准版12GB+512GB 版本首销月直降300元
2025年10月23日的红米K90发布会后,12GB+512GB版本原定价为3199元,但因用户反馈该版本与其他配置差价过大
2025-10-24 15:57:00
iPhone 17系列首批用户反应褪色? 苹果官方客服回应
近日,部分苹果 iPhone 17 Pro 及 iPhone 17 Pro Max 的首批用户在社交平台反映,其设备遭遇了机身褪色问题
2025-10-24 15:59:00
阿里夸克AI眼镜开启预售 体验者:轻若无物,稳如长在脸上“看一眼”就能支付
阿里巴巴首款自研AI眼镜——夸克AI眼镜24日0时在夸克智能设备天猫旗舰店开启预售。88VIP会员实际到手价为3699元
2025-10-24 16:35:00
河北新闻网讯(梁轩轩)“原以为开业办税很繁琐,没想到这么简单!”近日,石家庄市桥西区律吕五金产品商行法人柴浩在桥西区税务局办税大厅完成税务申报后
2025-10-24 16:59:00
近日,瑞众人寿河北分公司在保定举办了2025年嘉年华客服节系列活动之“养老规划线下体验日”活动,通过创新融合中医药文化
2025-10-24 17:06:00
“尖货”频出!临安这里科技含量UpUpUp
是一场什么样的比赛技术“尖货”频出“硬核”创新不断近日,2025“海康创行・瓴创青山”智能物联青山湖科技城高层次人才创业大赛第二期
2025-10-24 17:07:00
日前,邮储银行唐山市分行在其辖内网点全面推广集成化的“智能云柜”系统。该设备功能强大,整合了现金、非现金、凭证管理等逾400项个人业务
2025-10-24 17:08:00
行业领先全场景安装!海尔给“老铁门”装好了智能锁
近年来,智能门锁市场需求快速增长。数据显示,2025年上半年中国智能门锁全渠道销量达897万套,同比增长6.8%。市场火热的同时
2025-10-24 17:09:00