• 我的订阅
  • 科技

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

类别:科技 发布时间:2024-07-11 09:33:00 来源:机器之心Pro

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

2.4B 的 Memory3比更大的 LLM 和 RAG 模型获得了更好的性能。

近年来,大型语言模型 (LLM) 因其非凡的性能而获得了前所未有的关注。然而, LLM 的训练和推理成本高昂,人们一直在尝试通过各种优化方法来降低成本。

本文来自上海算法创新研究院、北京大学等机构的研究者受人类大脑记忆层次结构的启发,他们通过为 LLM 配备显式记忆(一种比模型参数和 RAG 更便宜的记忆格式)来降低这一成本。从概念上讲,由于其大部分知识都外化为显式记忆,因而 LLM 可以享受更少的参数大小、训练成本和推理成本。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

论文地址:https://arxiv.org/pdf/2407.01178

论文标题:Memory3 : Language Modeling with Explicit Memory

作为初步的概念证明,研究者从零开始训练了一个 2.4B 的 LLM,它比更大的 LLM 和 RAG 模型获得了更好的性能,并实现了比 RAG 更高的解码速度。这个模型被命名为 Memory3,因为在 LLM 中,显式记忆是继隐式记忆(模型参数)和工作记忆(上下文键值)之后的第三种记忆形式。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

具体而言,本文引入了一种新的记忆格式,即显式记忆,其特点是写入成本和读取成本相对较低。如图 1 所示,模型首先将知识库(或任何文本数据集)转换为显式记忆,实现为稀疏注意力键 - 值,然后在推理过程中调用这些内存并将其集成到自注意力层中。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

新的记忆格式定义了新的记忆层次结构:

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

此外,本文还介绍了一种支持知识外化的记忆电路理论,并提出了可以让存储易于处理的记忆稀疏机制和促进记忆形成的两阶段预训练方案。

总结而言:

Memory3 在推理过程中利用显式记忆,减轻了模型参数记忆特定知识的负担;

显式记忆是从构建的知识库中编码而来的,其中稀疏记忆格式保持了真实的存储大小;

研究者从头开始训练了一个具有 2.4B 非嵌入参数的 Memory3 模型,其性能超过了更大规模的 SOTA 模型。它还比 RAG 具有更好的性能和更快的推理速度;

此外,Memory3 提高了事实性并减轻了幻觉,并能够快速适应专业任务。

方法介绍

记忆电路理论有助于确定哪些知识可以存储为显式记忆,以及哪种模型架构适合读取和写入显式记忆。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

研究者将输入输出关系作为电路的内部机制,并将知识定义为输入输出关系及其电路。通过操纵这些电路,人们可以从 LLM 中分离出许多知识,同时保持其功能完好无损。

Memory3:在架构方面,本文的目标是为 Transformer LLM 设计一个显式的记忆机制,使其写入成本和读取成本都比较低。此外,本文希望将对 Transformer 架构的修改限制在尽可能小的范围内,不添加任何新的可训练参数,这样大多数现有的 Transformer LLM 都可以在几乎不进行微调的情况下转换为 Memory3 模型。简单的设计过程如下:

写入成本:在推理之前,LLM 将每个参考写入显式记忆,保存在驱动器上。记忆是从自注意力层的键值向量中选择的,因此写入过程不涉及训练。每个引用都是独立处理的,避免了长上下文注意力的成本。

读取成本:在推理过程中,显式记忆从驱动器中检索,并与通常的上下文键值一起由自注意力读取。每个记忆由来自少量注意力头的极少量键值组成,从而大大减少了额外的计算、GPU 存储、驱动器存储和加载时间。它允许 LLM 频繁检索许多参考,而对解码速度的影响有限。

推理过程如图 9 所示,每当 LLM 生成 64 个 token 时,它就会丢弃当前记忆,使用这 64 个 token 作为查询文本来检索 5 个新记忆,并继续使用这些记忆进行解码。同样,在处理提示时,LLM 会为每 64 个 token 块检索 5 个记忆。每个块都会关注自己的记忆,并且不同块之间的记忆可能会有所不同。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

写入与读取记忆:在推理过程中,LLM 可以通过其自注意力层直接读取检索到的显式记忆,方法是将它们与上下文键值连接起来(图 9)。具体来说,对于第 l 层的每个注意力头 h,如果它被选为记忆头,那么它的输出 Y^( l,h ) 将会改变:

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

此外,该研究对所有显式记忆采用并行位置编码,即所有键位置都位于长度为 128 的同一区间内,如图 9 所示。

两阶段预训练:预训练由两个阶段组成,warmup 和持续训练。只有持续训练阶段涉及显式记忆,而 warmup 阶段使用与普通预训练相同的格式。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

图 13 绘制了 warmup 阶段训练损失和学习率时间表。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

图 14 绘制了持续训练阶段训练损失和学习率时间表。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

实验结果

研究者评估了 Memory3 模型的一般能力(基准任务)、对话能力、专业能力(法律和医学)以及幻觉。此外,研究者还测量了 Memory3 的解码速度,并与类似和更大的 SOTA LLM 以及 RAG 模型进行了比较。

一般能力的评估结果如下所示,结果表明显式记忆使平均分提高了 2.51%。相比之下,Llama2-7B 与 13B 的得分差距为 4.91%。显式记忆可以将「有效模型大小」提高 2.51/4.91 ≈ 51.1%。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

接下来作者评估了 Memory3 的对话技巧,结果列于表 18 中,表明模型以更少的参数胜过 Vicuna-7B、Falcon-40B-Instruct 和 ChatGLM2-6B。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

目前,LLM 仍然面临幻觉问题。从概念上讲,Memory3 应该不太容易受到幻觉的影响,因为它的显式记忆直接对应于参考文本。为了评估幻觉,研究者选择了两个英文数据集进行评估。结果如表 19 所示,Memory3 在大多数任务上都取得了最高分。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

使用显式记忆的一个好处是,LLM 可以通过更新其知识库轻松适应新领域和任务。只需将与任务相关的参考导入 Memory3 的知识库,并可选择在热启动的情况下将其转换为显式记忆。然后,该模型可以利用这些新知识进行推理,跳过成本更高且可能有损的微调过程,并且运行速度比 RAG 更快。图 4 已证明这种成本降低,并且可以促进 LLM 在各个行业的快速部署。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

下表表明,Memory3 的表现优于大多数模型。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

最后,研究者通过每秒生成的 token 数来评估 Memory3 的解码速度或吞吐量。

鄂维南院士领衔新作:大模型不止有RAG、参数存储,还有第3种记忆

了解更多内容,请参考原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-11 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...交通大学人工智能未来科技对话会上,中国科学院院士鄂维南的发言引发不少与会者共鸣。高校若要引领下一代AGI的发展,需要解决哪些瓶颈?发力点在哪里?又该如何更好地输出AI人才与技
2024-04-21 05:57:00
AI数据之战:大模型的“燃料”还能烧多久?
...据分析的门槛和成本都会比较低。”在中国科学院院士鄂维南看来,如何将大量的非结构化数据转化为结构化形式,以降低数据分析门槛与成本,成为亟待解决的问题。非结构化数据,是如文本、图
2024-07-09 17:41:00
院士专家江苏行|鄂维南院士:建设人工智能时代的创新体系
...行暨国情考察活动高端科普报告会上,中国科学院院士鄂维南围绕当前人工智能发展的两大主题和对未来技术产业的影响,带来了一场精彩的“人工智能与科技创新”高端科普报告。活动由中国科协
2023-10-15 20:39:00
5年投资超1000亿,北京公布一系列AI重磅成果,北大清华百度蚂蚁微软大佬齐谈AI未来|钛媒体AGI
...生态计划。同时,包括北京大学教授、中国科学院院士鄂维南;中国工程院院士、清华大学信息科学技术学院院长戴琼海;百度CTO王海峰;蚂蚁集团CTO何征宇;微软全球资深副总裁、Mic
2024-04-28 11:00:00
...计划”建设工作座谈会在广州召开。钟南山、郑泉水、鄂维南、宋尔卫等国内外院士专家通过线上、线下等不同方式参加,科技部、广东省、广州市等有关单位领导出席座谈会。“π-HuB计划”
2024-12-17 18:01:00
《理解未来》科学讲座聚焦ChatGPT等 探索生物制药领域搭建模型
...授、北京大数据研究院院长、北京科学智能研究院院长鄂维南以《AI for Science:一场正在发生的科技革命》为题
2023-02-14 16:48:00
中科院院士领衔!德清打造国际首创的“数字地磁”系统
...清。共享联盟·德清 姚海翔 摄该项目由中国科学院院士领衔,主要构建天、空、地、海一体地球磁场实时监测网络系统和地球磁场模拟系统;开展各类地磁测量磁强计、芯片化角速度传感器等领
2023-04-21 22:56:00
院士专家江苏行暨国情考察活动高端科普报告会在南京举办
...科技自立自强走在前列做出重大贡献。中国科学院院士鄂维南以“人工智能与科技创新”为主题,围绕当前人工智能发展及其对未来技术产业的影响进行分享。“人工智能对集成电路、生物制药、高
2023-10-15 18:00:00
...I工程师与AI科学家等。北京大学教授、中国科学院院士鄂维南表示,百万卡规模的算力资源、多模态的数据资源、AI数据库能力,以及新模型框架、算法和工程能力,都是发展下一代AGI所
2024-04-27 21:09:00
更多关于科技的资讯:
邀用户亲测!双11买海尔空调,享政企双补贴
以往选购空调,用户大多只能在屏幕上对比参数,实际风感是否舒适、节能效果如何,往往要等到安装使用后才知晓。今年双11,海尔空调带来全新体验方式
2025-10-13 11:45:00
青春华章丨方寸之间,用“芯”绘就星图万里
华创微系列芯片产品化在即,保障天地“对话”,筑牢算力基石 方寸之间,用“芯”绘就星图万里□南京日报/紫金山新闻记者江芬芬编者按高质量发展是“十四五”乃至更长时期我国经济社会发展的主题
2025-10-13 08:05:00
宁企为能源发电站安装“智慧大脑”“一网统管”,巡检响应时间缩短一半,停机损失降低超30% □南京日报/紫金山新闻记者孙秉印通讯员麒轩“支路电流异常
2025-10-13 08:05:00
将税务服务从“送得对”到“传得开”、从“加急办”到“秒响应”、从“被动纠错”到“主动合规”……聚焦个体工商户办税缴费需求
2025-10-13 07:23:00
算力浪潮奔涌 夯实“数字底座”——河北以数字经济赋能高质量发展(一)在中国联通(怀来)大数据创新产业园的机房内,一排排机柜昼夜不息地嗡鸣
2025-10-13 08:00:00
双11重磅福利:88VIP点外卖5折,淘宝闪购1000万份免单等你抢!
淘宝闪购推出双11重磅福利:88VIP点外卖天天享五折,免单红包数量超1000万份!10月15日至11月14日,88VIP用户进入闪购频道
2025-10-12 05:27:00
这家宁企让足球邂逅时尚
本报记者 周京震 陆春花8月17日晚,“苏超”第9轮,南京迎战盐城。聚光灯下,南京队员战衣上那簇崭新的标识格外醒目——华瑞时尚
2025-10-12 05:27:00
这支“中国笔”,国内首款!
在常州经开区潞城街道江苏德尔福医疗器械有限公司的洁净工厂内工作人员正在忙碌地装配新型“电子笔”今年该企业三个型号的预充式电子笔式注射器获得国内首张医疗器械注册证标志着该类产品正式
2025-10-12 05:27:00
山东移动5G-A护航济南地铁4号线,打通地下通信“快车道”
近日,济南轨道交通4号线彭家庄站、程家庄站、唐冶站、唐冶南站(以上站名均为工程名)已完成移动5G-A通信覆盖,标志着这条串联城市东西的“黄金线路”在通信保障上迈出关键一步
2025-10-12 08:45:00
人保财险青岛分公司:科技赋能推动农险“双精准”再升级
齐鲁晚报·齐鲁壹点记者 尚青龙近日,青岛平度的肉牛也有了自己的“数字身份证”。人保财险青岛分公司借鉴内蒙古先进经验,引入内蒙古沃付国际物联网有限公司自主研发的人工智能畜牧业数字化管理平台
2025-10-12 11:53:00
一线保障人员“时刻在岗”,烟台联通守护高铁5G网络畅通运行
国庆中秋假期期间,面对持续攀升的客运高峰,烟台联通网络保障团队坚守岗位,全力投入高铁沿线5G网络实时保障工作,通过精细化运维与快速响应
2025-10-12 11:53:00
第十九届中国(临朐)家居门窗博览会12日开幕
齐鲁晚报·齐鲁壹点 王佳潼10月11日,第十九届中国(临朐)家居门窗博览会媒体见面会在临朐召开。记者在会上获悉,第十九届中国(临朐)家居门窗博览会定于2025年10月12日至15日在临朐国际会展中心举办
2025-10-12 11:55:00
济南热力以低空智巡护航聊热入济
近日,“聊热入济”长距离供热项目施工现场传来新进展——济南能源集团所属热力集团部署的无人机智慧巡检系统,正沿这条 “供热长龙” 精准巡航
2025-10-12 15:50:00
山东移动聊城分公司圆满完成高唐一中百年校庆通信保障任务
百年薪火传,同心向未来。10月2日,聊城市高唐县第一中学建校100周年庆祝大会在高唐县隆重举行。海内外校友、各界嘉宾及在校师生欢聚一堂
2025-10-12 16:23:00
冲刺四季度 打好收官战丨湖北佳恒:以“智”提“质” 产值已超去年全年
十堰广电讯(全媒体记者 何旭 通讯员 胡新)科技创新锻造核心竞争力,湖北佳恒科技以智能化改造与自主研发双轮并进,推动企业高质量发展
2025-10-12 19:27:00