• 我的订阅
  • 科技

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

类别:科技 发布时间:2024-09-03 09:59:00 来源:机器之心Pro

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。

前段时间,Mamba 的出现打破了这一局面,它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布,这些状态空间模型 (SSM) 在中小型规模上已经可以与 Transformer 匹敌,甚至超越 Transformer,同时还能维持随序列长度的线性可扩展性,这让 Mamba 具有有利的部署特性。

简单来说,Mamba 首先引入了一个简单却有效的选择机制,其可根据输入对 SSM 进行重新参数化,从而可让模型在滤除不相关信息的同时无限期地保留必要和相关的数据。

最近,一篇题为《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的论文证明:通过重用注意力层的权重,大型 transformer 可以被蒸馏成大型混合线性 RNN,只需最少的额外计算,同时可保留其大部分生成质量。

由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

论文地址:https://arxiv.org/pdf/2408.15237

该研究的性能最佳模型是从 Llama3-8B-Instruct 中蒸馏出来的,在 AlpacaEval 2 上相对于 GPT-4 实现了 29.61 的长度控制(length-controlled)胜率,在 MT-Bench 上实现了 7.35 的胜率,超越了最好的指令调整线性 RNN 模型。

方法

知识蒸馏(KD)作为一种模型压缩技术,用于将大型模型(教师模型)的知识迁移到较小的模型(学生模型)中,旨在训练学生网络模仿教师网络的行为。该研究旨在对 Transformer 进行蒸馏,使其性能与原始语言模型相当。

该研究提出了一种多级蒸馏方法,结合了渐进式蒸馏、监督微调和定向偏好优化。与普通蒸馏相比,这种方法可以获得更好的困惑度和下游评估结果。

该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中,并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段,MLP 层保持冻结状态,Mamba 层进行训练。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

该研究认为线性 RNN 和注意力机制之间天然存在一些联系。通过删除 softmax 可以线性化注意力公式:

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

但线性化注意力会导致模型能力退化。为了设计一个有效的蒸馏线性 RNN,该研究尽可能接近原始 Transformer 参数化,同时以有效的方式扩展线性 RNN 的容量。该研究没有尝试让新模型捕获精确的原始注意力函数,而是使用线性化形式作为蒸馏的起点。

如算法 1 所示,该研究将来自注意力机制的标准 Q、K、V 头直接馈入到 Mamba 离散化中,然后应用得到的线性 RNN。这可以看作是使用线性注意力进行粗略初始化,并允许模型通过扩展的隐藏状态学习更丰富的交互。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

该研究用微调线性 RNN 层直接替换 Transformer 注意力头,保持 Transformer MLP 层不变,不训练它们。这种方法还需要处理其他组件,例如跨头共享键和值的分组查询注意力。研究团队注意到,这种架构与许多 Mamba 系统中使用的架构不同,这种初始化允许用线性 RNN 块替换任何注意力块。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。

算法 2 和图 2 显示了完整的算法。该方法仅在缓存中保留一个 RNN 隐藏状态以进行验证,并根据多步内核的成功来延迟推进它。由于蒸馏模型包含 transformer 层,该研究还将推测解码扩展到 Attention/RNN 混合架构。在此设置中,RNN 层根据算法 2 执行验证,而 Transformer 层仅执行并行验证。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

为了验证这种方法的有效性,该研究使用 Mamba 7B 和 Mamba 2.8B 作为目标模型进行推测。结果如表 1 所示。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

图 3 显示了多步内核本身的性能特征。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

H100 GPU 上的加速。该研究提出的算法在 Ampere GPU 上表现出强大的性能,如上表 1 所示。但在 H100 GPU 上面临巨大挑战。这主要是因为 GEMM 操作速度太快,这使得缓存和重新计算操作产生的开销更加明显。实际上,该研究的算法的简单实现(使用多个不同的内核调用)在 3090 GPU 上实现了相当大的加速,但在 H100 上根本没有加速。

实验及结果

该研究使用两个 LLM 聊天模型进行实验:Zephyr-7B 是在 Mistral 7B 模型的基础上微调而来, 以及 Llama-3 Instruct 8B。对于线性 RNN 模型,该研究使用 Mamba 和 Mamba2 的混合版本,其中注意力层分别为 50%、25%、12.5% 和 0%,并将 0% 称为纯 Mamba 模型。Mamba2 是 Mamba 的一种变体架构,主要针对最近的 GPU 架构而设计。

在聊天基准上的评估

表 2 显示了模型在聊天基准上的性能,主要对比的模型是大型 Transformer 模型。结果显示:

蒸馏后的混合 Mamba 模型 (50%) 在 MT 基准测试中取得的分数与教师模型相似,在 LC 胜率和总体胜率方面都略优于 AlpacaEval 基准测试中的教师模型。

蒸馏后的混合 Mamba (25% 和 12.5%) 的性能在 MT 基准测试中略逊于教师模型,但即使在 AlpcaaEval 中具有更多参数,它仍然超越了一些大型 Transformer。

蒸馏后的纯 (0%) Mamba 模型的准确性确实显著下降。

值得注意的是,蒸馏后的混合模型的表现优于 Falcon Mamba,后者是从头开始训练的,使用了超过 5T 的 token。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

一般基准评估

零样本评估。表 3 显示了从不同教师模型中蒸馏出的 Mamba 和 Mamba2 在 LM Eval 基准中的零样本性能。从 Llama-3 Instruct 8B 中蒸馏出的混合 Mamba-Llama3 和 Mamba2-Llama3 模型与从头开始训练的开源 TRI Mamba 和 Nvidia Mamba 模型相比表现更好。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

基准评估。表 4 显示经过蒸馏的混合模型的性能与 Open LLM Leaderboard 上最好的开源线性 RNN 模型相匹配,同时在 GSM8K 和 CRUX 中优于相应的开源指令模型。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

混合推测性解码

对于 50% 和 25% 的蒸馏模型,与非推测基线相比,该研究在 Zephyr-Hybrid 上实现了超过 1.8 倍的加速。

实验还表明,该研究训练的 4 层 draft 模型实现了更高的接收率,不过由于 draft 模型规模的增加,额外开销也变大了。在后续工作中,该研究将专注于缩小这些 draft 模型。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

与其它蒸馏方法的比较:表 6(左)比较了不同模型变体的困惑度。该研究在一个 epoch 内使用 Ultrachat 作为种子提示进行蒸馏,并比较困惑度。结果发现删除更多层会使情况变得更糟。该研究还将蒸馏方法与之前的基线进行了比较,发现新方法显示出较小的退化,而 Distill Hyena 模型是在 WikiText 数据集中使用小得多的模型进行训练的,并且显示出较大的困惑度退化。

表 6(右)展示了单独使用 SFT 或 DPO 不会产生太大的改进,而使用 SFT + DPO 会产生最佳分数。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

表 7 比较了几种不同模型的消融研究。表 7(左)展示了使用各种初始化的蒸馏结果,表 7(右)显示渐进式蒸馏和将注意层与 Mamba 交错带来的收益较小。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

表 8 比较了使用两种不同初始化方法的混合模型的性能:结果证实注意力权重的初始化至关重要。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

表 9 比较了有 Mamba 块和没有 Mamba 块的模型的性能。有 Mamba 块的模型性能明显优于没有 Mamba 块的模型。这证实了添加 Mamba 层至关重要,并且性能的提高不仅仅归功于剩余的注意力机制。

Mamba作者新作:将Llama3蒸馏成混合线性 RNN

感兴趣的读者可以阅读论文原文,了解更多研究内容。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-03 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

科学家制备纳米片超晶格,让LED可直接发射强线性偏振光
...中单一非对称形状的各向异性量子点已被证明可以发出强线性偏振光,例如纳米线、纳米棒等。这些非对称的单一量子点的线性偏振能大于 70%。但是因为尺寸的不均一性等原因,如何将其在薄
2024-04-02 10:26:00
信号表征指数级强、内存节省35%,量子隐式表征网络
...架构QIREN 的总体架构如图 3 所示,由 N 个混合层和末端的线性层组成。该模型以坐标作为输入并输出信号值。数据最初进入混合层
2024-06-27 09:24:00
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...中,作者探索了不同的门控函数。首先使用的是最流行的线性投影门控函数,它通过一个线性层来生成专家子集的分配结果。此外,作者提出了一种新的门控机制,利用从预训练模型的 token
2024-11-01 09:27:00
RNN回归!Bengio新作大道至简与Transformer一较高下
...(input gate、output gate、forget gate)和输入的分量,都通过线性投影和非线性激活函数来得出
2024-10-26 09:53:00
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍
...即velocity)上进行了实验,包括DiT中改进后的DDPM和SiT中的线性随机插值,但实际中也同样可以考虑其他的训练目标
2024-10-23 09:55:00
3天把Llama训成Mamba,性能不降,推理更快!
...推测解码。最终,研究人员将Zephyr-7B、Llama-3 8B提炼为了线性RNN模型(混合Mamba和Mamba2)
2024-09-06 10:01:00
图结构转文本序列,大模型直接读懂!图推理性能大涨
...的新方法来了:将图(Graph)转换为适合Transformer架构的线性token序列。belike:这种最新图线性化方法
2024-12-03 13:33:00
infini-attention:谷歌大内存机制
...Infini-attention。它通过将压缩记忆(compressivememory)整合到线性注意力机制中,用来处理无限长上下文
2024-04-14 02:57:00
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...推理更为高效。相反,传统 RNN 的瓶颈在于其训练,需要线性训练时间(通过时间反向传播),这导致其最终被淘汰。人们对循环序列模型重新产生兴趣,是因为许多新的架构可以高效地进行
2024-10-15 09:56:00
更多关于科技的资讯:
在生成式AI搜索浪潮席卷而来的2025年,选择一名合格的GEO服务商,已成为企业营销决策者的核心课题。然而,市场喧嚣背后
2025-11-02 17:33:00
中新经纬11月1日电 题:零首付租赁,机器人“普惠时代”来了作者 王喜文 北京华夏工联网智能技术研究院院长近期,智元机器人联合飞阔科技
2025-11-02 10:54:00
中新经纬11月1日电 (袁媛)近期,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布
2025-11-02 10:58:00
鸿蒙电脑版微信强势升级:40+项功能释放办公社交新势能
作为超10亿人使用的国民级社交应用,微信深度适配鸿蒙电脑并不断进行版本更新。本次更新,鸿蒙电脑版微信一次性推出40+项实用功能
2025-11-02 14:26:00
正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势,以更高的效率和速度推动全球口腔健康市场的增长
2025-11-02 14:26:00
京东服饰联合天纺标发布《新舒适内衣》团体标准 共建行业品质新生态
10月31日,由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办
2025-11-02 14:26:00
华为擎云 W515y登顶自主创新性能榜 引领自主创新终端从可用迈向好用
在全球科技格局深刻演变、国际形势日趋复杂的背景下,自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求
2025-11-02 14:28:00
赛力斯2025前三季净利润超53亿元 盈利能力持续增强
10月30日,赛力斯披露了2025年三季报,以亮眼的经营表现和持续攀升的交付数据,再次印证其在中国新能源豪华车市场的领跑地位
2025-11-02 14:29:00
雄安人工智能算力调度平台正式上线运行
中国雄安官网11月1日电近日,雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行,标志着雄安新区在构建集约高效
2025-11-02 18:03:00
中国轻奢美护品牌黎科世亮相巴黎设计周,以生物科技融合感官美学
近日,中国轻奢美护品牌SENSLUX(黎科世)凭借其融合生物科技与感官美学的独特理念,在2025年9月举办的巴黎设计周中国创新馆中精彩亮相
2025-11-02 21:50:00
AI盛宴启幕!“科大讯飞1024科博展”燃动合肥
大皖新闻讯 11月2日,第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手
2025-11-02 22:42:00
走进院士专家工作站系列报道丨专家工作站“破局” 双兴智能实现豆类收获“芯”突破
编者按:科技是第一生产力,人才是第一资源。从田间地头到生产车间,从技术瓶颈到产业升级,十堰市科协主动作为,当好“科技红娘”
2025-11-02 20:13:00
英语培训机构教务系统高适配推荐:外教管理 + 分级排课 + 学员约课!
现代英语培训机构的高效运转,离不开专业教务系统的有力支撑。一套设计科学的英语培训机构教务管理系统,如同机构的智能中枢,将教学管理
2025-11-02 18:46:00
日前,位于山西转型综改示范区学府总部经济园区的医学影像数据人工智能大模型产业发展项目进入试运行阶段。目前已完成平台建设和医院对接
2025-11-02 18:06:00
□南京日报/紫金山新闻记者张甜甜 通讯员夏俊林娜10月31日,南京市统计局、国家统计局南京调查队发布南京经济“三季报”
2025-11-01 09:44:00