• 我的订阅
  • 科技

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

类别:科技 发布时间:2024-10-30 09:57:00 来源:量子位

让大模型能快速、准确、高效地吸收新知识!

被EMNLP 2024收录的一项新研究,提出了一种检索增强的连续提示学习新方法,可以提高知识终身学习的编辑和推理效率。

模型编辑旨在纠正大语言模型中过时或错误的知识,同时不需要昂贵的代价进行再训练。终身模型编辑是满足LLM持续编辑要求的最具挑战性的任务。

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

之前的工作主要集中在单次或批量编辑上,由于灾难性的知识遗忘和模型性能的下降,这些方法在终身编辑场景中表现不佳。尽管基于检索的方法缓解了这些问题,但它们受到将检索到的知识集成到模型中的缓慢而繁琐的过程的阻碍。

而名为RECIPE的最新方法,它首先将知识描述转换为简短且信息丰富的连续提示的token表示,作为LLM输入查询嵌入的前缀,有效地细化基于知识的生成过程。

它还集成了知识哨兵机制,作为计算动态阈值的媒介,确定检索库是否包含相关知识。

检索器和提示编码器经过联合训练,以实现知识编辑属性,即可靠性、通用性和局部性。

在多个权威基座模型和编辑数据集上进行终身编辑对比实验,结果证明了RECIPE性能的优越性。

这项研究由阿里安全内容安全团队与华东师范大学计算机科学与技术学院、阿里云计算平台针对大语言模型知识编辑的联合推出。

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

研究背景

即使有非常强大的语言理解能力,像ChatGPT这样的大型语言模型(LLM)也并非没有挑战,特别是在保持事实准确性和逻辑一致性方面。

一个重要的问题是,是否能够有效地更新这些LLM以纠正不准确之处,而无需进行全面的继续预训练或持续训练过程,这些操作带来的机器资源开销大且耗时。

编辑LLM模型提供了一种有前景的解决方案,允许在特定感兴趣的模型中进行修改,同时在各任务中保持模型整体性能。

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

之前各种知识编辑的模型方法和架构包括类似于:修改模型内部参数、增加额外参数和基于检索方法都会有冗长的编辑前缀影响推理效率。对模型本身进行微调可能会导致过拟合,从而影响其原始性能。

为了解决上述问题,研究人员期望探索更有效的检索和即时编辑方式,以及对模型进行更小的干预,以避免在编辑数据集上过度拟合。

模型方法

知识编辑相关背景

在本文中,研究团队首先形式化模型编辑任务在终身学习场景中的任务定义形式,然后介绍模型编辑中的重要评估属性。

任务定义

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

任务属性

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

RECIPE终身编辑方法

总体模型框架如下:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

构造和更新知识检索仓库

在第t个时间步,给定一个新的知识描述kt,则新知识表示通过编码器frm中的MLP层可以获得:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

其中frm编码器将输出token表示的最大、最小、平均的池化级联到一个向量空间中作为新知识表示。然后连续prompt表示pkt可以被其他初始化的MLP层实现:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

最终知识检索仓库被从Kt-1更新到Kt

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

基于知识哨兵的动态prompt检索

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

动态编辑模型的推理

研究人员认为LLM将被编辑为:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

给定输入查询q和连续检索prompt p(kr) = KS(q), 推理过程可以被重新形式化为:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

其中⊕表示检索到的连续提示矩阵和q的单词嵌入矩阵的连接。

本文方法的可行性得到了P-Tuning等先前工作的支持,该工作证明了训练连续提示嵌入可以提高LLM在下游任务上的性能有效性。

在RECIPE中,研究人员将每个知识陈述的编辑视为一项小任务,没有为每个小任务微调特定的提示编码器,而是通过训练生成连续提示的RECIPE模块来实现这些小任务的目标,确保LLM遵守相应的知识。

模型训练

制定损失是为了确保对生成的连续提示进行编辑,并有效检索LLM的查询相关知识。给定包含b个编辑样例的训练数据:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

对应的泛化性和局部性数据为:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

因此损失形式化如下:

编辑损失训练:编辑损失旨在确保生成的连续提示引导LLM遵循可靠性、通用性和局部性的特性。基于输入的编辑数据,对应于这三个属性的样本损失定义如下:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

模型编辑的批量损失函数推导如下:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

prompt损失训练:prompt学习的训练损失是基于对比学习,并与可靠性、通用性和局部性的特性相一致。对于一批样本,学习连续提示的损失函数形式化如下:

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

实验结果

实验设置

测试编辑能力的数据集:研究人员使用了三个公共模型编辑数据集,包括ZSRE、CounterFact(CF)和Ripple Effect(RIPE)作为实验数据集。

ZSRE是通过BART问答和手动过滤生成的,包括162555个训练和19009个测试样本。每个样本包括一个编辑样本及其改写和不相关的对应样本,与可靠性、通用性和局部性编辑属性相匹配。

CF数据集的特点是编辑虚假事实,包括10000个训练样本和10000个测试样本。这些虚假事实更有可能与LLM中的原始知识相冲突,使编辑过程更具挑战性,从而对编辑执行的能力进行强有力的评估。

RIPE将通用性和局部性属性分为细粒度类型,包括3000个训练样本和1388个测试样本。每个样本的一般性包括逻辑泛化、组合I、组合II和主题混叠,而局部数据则包括遗忘和关系特异性。

测试通用能力的数据集:为了评估编辑对LLM总体性能的损害,研究人员选择了四个流行的基准来评估LLM的总体通用能力。分别是用于评估常识知识的CSQA、用于推理能力的ANLI、用于衡量考试能力的MMLU和用于理解技能的SQuAD-2。PromptBench被用作本实验的评估框架。 模型baseline:除了微调(FT)作为基本基线外,研究人员还将RECIPE方法与各种强大的编辑基线进行了比较。

MEND训练MLP,以转换要编辑的模型相对于编辑样本的梯度的低秩分解。ROME首先使用因果中介分析来定位对编辑样本影响最大的层。MEMIT基于ROME将编辑范围扩展到多层,从而提高了编辑性能并支持批量编辑。T-Patcher(TP)在要编辑的模型最后一层的FFN中附着并训练额外的神经元。MALMEN将参数偏移聚合表述为最小二乘问题,随后使用正态方程更新LM参数。WILKE根据编辑知识在不同层之间的模式匹配程度来选择编辑层。

研究人员还利用基于检索的编辑方法来进一步验证其有效性。

GRACE提出了用于连续编辑的检索适配器,它维护一个类似字典的结构,为需要修改的潜在表示构建新的映射。RASE利用事实信息来增强编辑泛化,并通过从事实补丁存储器中检索相关事实来指导编辑识别。

在基线设置中,研究人员使用ROME模型作为RASE的特定基本编辑器来执行名为R-ROME的编辑任务。LTE激发了LLM遵循知识编辑指令的能力,从而使他们能够有效地利用更新的知识来回答查询。

编辑能力的实验效果

下面两个表格分别表示在LLAMA2和GPT-J模型上的编辑效果对比。

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

从单次编辑的角度来看,本文方法在大多数测试场景中表现出最佳性能。

在终身编辑场景中,研究人员有以下观察结果:

修改LLM参数的方法在单次编辑中显示出出色的编辑性能。然而,随着编辑次数的增加,它们的编辑性能显著下降。这一趋势与已有工作强调的毒性积累问题相一致; 引入额外参数的方法在终身编辑过程中保持了一定程度的可靠性和通用性。然而,在ZSRE中观察到的局部性明显恶化证明,额外参数的累积添加会损害原始推理过程 基于检索的方法对越来越多的编辑表现出鲁棒性。其中,本文方法取得了最好的结果,肯定了检索的优势,也验证了策略的有效性。

通用能力的实验效果

虽然这三个编辑指标有效地展示了编辑性能,但研究人员进一步研究了这些编辑器在多大程度上影响了模型的通用能力。

通过实验可以看出,非基于检索的方法会导致通用能力的显著降低。这可以归因于编辑的外部干预造成的模式不匹配的累积。在基于检索的方法中,LTE也表现出性能下降。

相比之下,RECIPE不涉及对LLM参数的直接干预,而是依赖于连接一个简短的提示来指导LLM对知识的遵守。它展示了对通用性能的最佳保护,表明它对模型造成的伤害最小。

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

模型编辑效率对比

通过下方表格可以看出,在利用MEND、MALMEN、LTE和RECIPE等编辑特定训练的方法中,与在编辑过程中需要多次迭代反向传播的技术相比,编辑时间显著减少。

对于推理速度,修改模型参数的方法保持一致的速度,因为它们不会改变原始的推理pipeline。T-Patcher由于神经元的积累而减慢了推理速度。

在基于检索的方法中,GRACE由于其独特的字典配对机制,降低了模型推理的并行性。R-ROME和LTE需要动态计算编辑矩阵并分别连接长编辑指令。

相比之下,RECIPE通过连接连续的短提示进行编辑,有效地保留了LLM的原始推理速度。最短的总时间也突显了RECIPE的效率优势。

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

消融实验效果对比

研究人员使用LLAMA-2对ZSRE、CF和RIPE进行消融研究。在没有CPT的情况下,研究人员求助于使用知识语句的单词嵌入作为从知识库中检索的提示。排除KS涉及应用传统的对比学习损失,使可靠性和通用性样本表示更接近编辑知识,同时与局部样本的表示保持距离。

在训练完成后,研究人员采用绝对相似性阈值决策策略来过滤无关知识。尽管局部性很高,但省略CPT会严重损害RECIPE的可靠性和通用性。

可以观察到,结果与完全不使用编辑器获得的结果几乎相同。

免训练大模型知识编辑,吸收新数据更高效|EMNLP'24

这强调了仅使用原始连接的知识前缀无法使LLM符合编辑指令。相反,CPT有助于LLM遵守指定的编辑。此外,丢弃KS会导致编辑效率下降,特别是影响普遍性和局部性。原因是绝对相似性阈值无法充分解决不同查询所需的不同阈值。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

2023内容科技应用典型案例:农业银行大模型ChatABC
本文转自:人民网研究院一、案例概述农业银行大模型ChatABC,对于大模型精调、提示工程、知识增强、检索增强、人类反馈的强化学习(RLHF) 等大模型相关新技术进行了深入探索和综
2024-04-08 17:06:00
近日,由浪潮云打造的浪潮海若大模型产品正式通过备案,并正式上线开放服务。浪潮海若大模型定位行业大模型市场,是面向政府、交通、能源、健康医疗、司法、智能制造等行业进行知识增强、安全
2023-12-19 14:04:00
百度文心大模型4.0技术进展
...023在北京首钢园举办,百度首席技术官王海峰解读文心大模型4.0背后的关键技术和最新进展。王海峰表示,文心大模型4.0的理解、生成、逻辑、记忆四大能力都有显著提升,9月已开始
2023-10-18 04:20:00
大模型时代结束?大佬齐预测:AI模型或需先缩小规模,才能再次扩大规模
【新智元导读】小模型强势来袭,「大模型时代」或将落幕?「小模型周」过去了 ,小模型的最新战场才刚刚开辟。上周GPT-4o mini和Mistral NeMo二连发
2024-07-23 09:40:00
被DeepSeek带火的知识蒸馏 开山之作曾被拒:诺奖得主坐镇都没用
...蒸馏这一概念,能在保证准确率接近的情况下,大幅压缩模型参数量,让模型能够部署在各种资源受限的环境。比如Siri能够出现在手机上,就是用知识蒸馏压缩语音模型。自它之后,大模型用
2025-02-07 17:44:00
百度CTO王海峰:文心大模型的底色和成色
...长兼首席执行官(CEO)李彦宏用一个多小时发布了“基础模型全面升级”的文心大模型4.0,展示其在理解、生成、逻辑和记忆等能力上的显著提升,并介绍了新搜索、新地图等10余款被大
2023-10-19 05:50:00
百川智能发布baichuan3稳定语言模型
1月29日,百川智能发布超千亿参数的大语言模型Baichuan3。在多个权威通用能力评测如CMMLU、GAOKAO和AGI-Eval中
2024-01-29 19:57:00
文档处理效能飙升!浩鲸科技“文档大模型”核心技术揭秘!
在当今大模型技术日新月异的背景下,数据已跃升为构建企业大模型知识库、优化训练与微调,乃至驱动模型创新不可或缺的核心要素。对于企业来说,积累的宝贵知识广泛散布于形式多样的电子文档之
2024-09-26 13:36:00
酷克数据推出AI开发工具箱HashML 加速企业级AI应用落地投产
...的核心场所,蕴藏着规模庞大的数据资产。然而,通用的模型和算法的效果往往只能达到差强人意的“及格线”。只有通过AI算法与应用场景及企业自有数据紧密协同,才能充分释放数据潜力,达
2023-09-12 11:31:00
更多关于科技的资讯:
双城耀国庆 绮梦筑新章——恐龙园集团文旅产品“出圈”更“出彩”
今年国庆、中秋假期恐龙园集团旗下环球恐龙城与东方盐湖城凭借全新业态与沉浸式体验双双跻身长三角文旅“顶流”双节期间,约62
2025-10-09 21:49:00
NBA中国携手阿里云开启多年合作,球迷互动体验新惊喜在哪?
10月9日,NBA中国和阿里云宣布达成多年合作,阿里云将正式成为NBA中国官方云计算与人工智能合作伙伴,基于通义千问大模型和云计算基础设施
2025-10-09 22:19:00
获充换电大会官方推荐及星级认证, 公牛充电桩全场景方案引关注
9月27日至29日,2025中国汽车充换电生态大会在合肥举行,此次大会由国家能源局电力司、安徽省汽车办、中国汽车工业协会共同指导
2025-10-09 17:04:00
“北京榜样•最美互联网从业者”提名人选|我爱我家陈少亮:数字浪潮中的筑梦人
2025年的北京,秋阳穿过写字楼玻璃幕墙,在键盘上投下斑驳光影。在我爱我家集团总部技术中心,陈少亮正盯着屏幕上的数据流图
2025-10-09 17:05:00
中新经纬10月9日电 工信部网站9日消息,工业和信息化部、国家标准化管理委员会近期联合发布《云计算综合标准化体系建设指南(2025版)》(下称《指南》)
2025-10-09 13:06:00
当下,网络热搜榜单已经成为我们感知世界的一个重要窗口。这个窗口展示的内容是否真实、健康、积极,直接影响着数亿网民的认知判断
2025-10-09 10:31:00
高低2025年国庆中秋双节,中国电影市场成绩亮眼:国庆档总票房破17亿元,10月2日年度总票房达425.02亿元,超2024年全年
2025-10-09 10:49:00
厦门网讯(厦门日报记者 李晓平)如今,拍照不再停留在平面,“一站式”3D人像打印,正让影像“立”起来,成为更多人的选择
2025-10-08 08:12:00
小牛FX风速款首销战报:5小时全渠道销量14252台,以“价值重构”引爆全民抢购潮
2025年9月29日,全球高端智能电动车领导品牌小牛电动正式发布FX风速款首销战报。数据显示,这款被业界称为“价格屠夫”的新品在9月28日首发后
2025-10-08 09:00:00
稳就业 稳企业 稳市场 稳预期|从 “设备制造” 到 “全链服务”:陕西电子长岭电气纺织机电产业的进阶之路
9月29日,由陕西省委宣传部举办的“稳就业、稳企业、稳市场、稳预期”主题媒体行活动,带领陕西多家主流媒体走进陕西电子陕西长岭电气有限责任公司参观考察
2025-10-08 17:51:00
近日,中国物流与采购联合会公布全国第十批5A级供应链服务企业名单,华远国际陆港集团正式通过评审,获评“5A级供应链服务企业”
2025-10-08 18:01:00
货丰价稳、活动密集、销售井喷、消费升级……在这个中秋国庆假期,我市消费市场“热”力值拉满,处处繁荣兴旺、活力十足。10月8日
2025-10-08 18:32:00
佳盛机电乘风而上,今年前8月产值同比增长超38%抢占新赛道,270多名员工假期忙“冲刺”南报网讯(通讯员单维亮记者张希)“我们是智能电网产业链条上的配套企业
2025-10-07 08:41:00
培育壮大十大千亿级产业集群丨十堰臻融:创新与技改“双轮”驱动 产值同比增长30%
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新是提升核心竞争力关键。十堰臻融汽车科技有限公司以智能化装备升级与专利技术研发为双引擎
2025-10-07 20:43:00
沉浸式AR科技盛宴:打造“可触摸”的科普实验室,重构科普新形态
这个国庆去哪玩?中国科学技术馆告诉你!2025年10月1日——10月7日由中国科学技术馆、北京峰火文化科技有限公司、Rokid联合打造的以“探境・AR科技智慧”为主题的AR体验活动正火热开展中
2025-10-07 09:05:00