• 我的订阅
  • 科技

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

类别:科技 发布时间:2024-10-16 13:34:00 来源:机器之心Pro

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

在自然语言处理、语音识别和时间序列分析等众多领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。

因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI) 2024 上发表。

论文标题:MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling 论文地址:https://zhouchenlin.github.io/Publications/2024-E

例如,早期利用局部敏感哈希方案虽降低复杂度,但引入大常数因子;近期通过改变计算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。

线性 RNN 模型

线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。

然而,它们可能缺乏复杂序列建模任务所需的适应性和动态特性,并且像传统序列模型一样,缺少反馈机制和自适应控制。

MoE 模型

MoE 模型通过结合专家模块,能有效处理长序列并保持计算效率,根据输入数据自适应选择专家模块。

但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。

二、MixCon 的核心架构与技术

Conba 模型架构

1. 状态空间方程

3. 实施细节

神经网络近似:

4. 模型架构图如下所示:

MixCon 模型架构

MixCon 是结合注意力机制的 Transformer 层、Conba 层和 MoE 组件的创新混合解码器架构。

在内存使用方面,通过平衡注意力和 Conba 层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。

在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。

基本配置单位是 MixCon 块,由 Conba 或注意力层组合而成,每个层包含注意力模块或 Conba 模块,后接 MLP 或 MoE 层。MixCon 中的 MLP 层被 MoE 层替换,以增加模型容量同时保持较低计算负载。

对于 Conba 层实施,采用 RMSNorm 等技术,模型词汇量为 256K,使用 BPE 进行训练,每个数字为单独令牌。

模型架构图如下所示:

三、MixCon 的实验与评估

实施细节

选择特定配置适应单块 80GB A800 NVIDIA GPU 的计算能力,实现质量和吞吐量的优化。

序列由 4 个 MixCon 块组成,每个 MixCon 块含 8 层 L = 8,注意力层和 Conba 层比例为 2:6 (a:c = 2:6),每隔一层 (e = 2) 用 MoE 替换 MLP 模块,模型有 16 个专家 (n = 16),每个令牌使用 2 个顶级专家 (K = 2)。

上下文长度分析

MixCon 在单块 80GB A800 GPU 上的最大上下文长度是 Jamba 的两倍、Mixtral 的四倍、Llama - 2 - 70B 的十四倍(如图 3 所示)。

吞吐量分析

1. 配置一:考虑不同批大小,在单块 A800 80GB GPU(int8 量化)、8K 上下文长度下生成 512 个输出令牌,MixCon 吞吐量是 Mixtral 的三倍、Jamba 的两倍(如图 4 所示)。

2. 配置二:单批次(批大小 = 1)、四块 A800 GPUs(无量化)、不同上下文长度下生成 512 个输出令牌,处理 128K 令牌时,MixCon 吞吐量是 Jamba 的 1.5 倍、Mixtral 的 4.5 倍(如图 5 所示)。

数据集评估

本文在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同的学习策略。

MixCon 性能与类似或更大规模的先进公开模型相当或更优,尽管总参数比 Llama - 2 少,但作为稀疏模型,其活跃参数仅 5B,处理长序列时 KV 缓存仅需 2GB,而 Mixtral 需 32GB(如表 2 所示)。

消融实验

展示注意力和 Conba 层结合的优势及最佳比例和交织技术。纯 Conba 模型在上下文学习有困难,Attention - Conba 混合模型有类似纯 Transformer 模型的上下文学习能力。

以 HellaSwag(10 - shot)、WinoGrande(5 - shot)、Natural Questions(NQ,5 - shot)为指标,MixCon 表现稳健(如表 3 所示),MixCon(无 MoE)训练过程损失更低(如图 6 所示)。

长上下文评估

利用问答基准测试评估 MixCon 处理长上下文能力,使用 L - Eval 中最长上下文数据集的五个数据集,以少样本格式(每个实验用三个例子)进行实验。

在 NarrativeQA、LongFQA、Natural Questions(NQ)、CUAD 等数据集上评估,MixCon 在多数数据集上优于 Mixtral 和 Jamba,平均性能优越,且在长上下文任务中具有更好的吞吐量(如表 4 所示)。

结合注意力和 Conba 的优势及混合专家的影响

1. 注意力和 Conba 比例研究

用 13 亿参数模型在 2500 亿令牌上训练,MixCon 性能优于纯注意力或纯 Mamba,注意力和 Conba 层比例为 2:6 或 1:7 时性能差异小(如表 5 所示)。

2. 混合专家的影响

当在 MixCon 架构的大规模情境(5B 参数,在 50B 令牌上训练)中应用 MoE 技术时,性能有显著提升(如表 6 所示)。

四、MixCon 的优势与展望

MixCon 作为创新的混合序列建模架构,通过整合多种技术,在处理复杂动态序列时具有高效的计算效率,在各项任务中展现出显著优势,能高效处理长序列、内存使用低且吞吐量高,具有高可扩展性和实用性。然而,它仍有改进空间,如进一步优化状态空间表示、长序列的自适应控制、特定领域微调以及训练算法等。

总体而言,MixCon 为序列建模提供了新的解决方案,在复杂序列处理方面表现出色,为 NLP 及其他领域的应用开辟了新道路。未来,我们期待它在更多领域发挥更大的作用,为技术发展带来更多的突破和创新。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-16 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
【新智元导读】TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的
2024-10-30 09:58:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性
2024-10-23 09:55:00
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer
...现代通用基础模型能够将多模态数据编码成统一的 Token 序列,并有效捕捉它们之间的复杂依赖关系。相反,Token-Parameter 计算主要依赖于固定的 linear projection
2024-11-15 09:51:00
揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
...上的表现显著优于现有模型,而且在符号公式表示、时间序列预测和语言建模等实际任务中也同样表现出色,超过了Transformer等主流模型
2024-11-27 13:34:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...的推理中保持或超过了全注意力模型。同时,NSA在64k长度序列的解码、前向传播和后向传播过程中实现比全注意力机制显著的加速,验证其在整个模型生命周期中的效率。“此次DeepS
2025-02-19 18:43:00
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大
2024-09-03 09:59:00
infini-attention:谷歌大内存机制
...通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能减少内存占用和计算成本。线性注意力机制不同于传统Transformer中的二次方复杂度注意力机
2024-04-14 02:57:00
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...了降低计算成本,作者利用了 transformer 计算开销与输入序列大小(即每张图像的 patch 数量)的强依赖关系
2024-07-30 09:37:00
2023年度新车总结:纯电还是燃油?如今早已不是非黑即白的问题了!
...始,纯电动新车也开始了高性能取向的尝试,海外品牌AMG序列有了EQ车型,奥迪RS序列有了e-tron车型,中国品牌也有昊铂SSR
2023-12-29 09:15:00
更多关于科技的资讯:
廊坊推出算力券撬动人工智能产业每年投放总额不超过1000万元,已吸引23家初创企业落地河北日报讯(记者刘英、刘杰)“基于流程
2025-11-08 07:54:00
摘要:随着数字经济的深入发展,传统供应链金融暴露出信息不透明、业务流程复杂、风险管控难度大等突出问题,其数字化转型已成为当前行业发展的重要课题
2025-11-08 05:24:00
摘要:本文探讨数字化时代企业管理模式的创新路径,首先分析数字化对企业管理模式的核心影响,指出其推动管理对象向“人-财-物-数据”融合转变
2025-11-08 05:24:00
智推时代:用GEO打造品牌增长新引擎
在生成式AI重塑流量格局的当下,如何将前沿技术转化为可持续的商业增长,已成为品牌面临的核心挑战。智推时代精准切入这一赛道
2025-11-07 08:03:00
(一)开篇引言行业背景与痛点:中国信息通信研究院《2025年数字营销发展趋势报告》指出,截至2025年6月,国内生成式引擎月活用户已突破8
2025-11-07 08:05:00
一、旅游出行安全保险尚无权威排名,选择需聚焦三大核心指标目前旅游出行安全保险市场不存在公认的统一排名标准,产品选择应重点考察保险公司服务能力(偿付能力充足率
2025-11-07 08:06:00
当生成式AI技术以迅猛势头重构搜索生态时,如何为企业精准挑选高度契合需求的GEO(生成式引擎优化)服务供应商,已成为抢占下一代流量入口的核心战略动作
2025-11-07 08:06:00
科学实力获市场验证:任我行液体钙获全球销量第一认证
2025年11月初,德国Moms Garden任我行旗下成人液体钙产品确认获得尚普咨询集团授予的“成人液体钙全球销量第一”与“骨骼健康领导品牌”双重市场地位认证证书
2025-11-07 08:07:00
磷虾油产品对比 磷虾油品牌深度测评与科学选购指南
近年来随着健康意识的不断提升,富含Omega-3、磷脂和虾青素的磷虾油逐渐成为大众关注的营养补充剂。然而在市场快速扩张的背后
2025-11-07 08:07:00
道路“会思考” 出行更美好!数字道路建设赋能未来之城
数字道路建设赋能未来之城道路“会思考” 出行更美好雄安新区的街道上,看似普通的路灯杆集合了多种智能设备,成为智慧交通的“眼睛”
2025-11-07 08:20:00
今年9月27日,雄安图书馆正式向公众开放。一个多月来,已迎来访客20余万人次。这座形如书卷徐徐展开的建筑,不仅是新区一座崭新的文化地标
2025-11-07 08:20:00
关注进博会丨河北再赴进博之约(二):把全球好物装进“购物车”
把全球好物装进“购物车”——河北再赴进博之约(二)11月6日,在第八届中国国际进口博览会河北省主题展区,河北参展商正在进行路演活动
2025-11-07 08:21:00
南报网讯(通讯员王亚洲朱丽纯记者王婷婷)日前,“智云经开”品牌发布暨创新中心签约仪式在兴智科技园举行。南京经开区与省数据局
2025-11-07 08:23:00
今年以来,肥乡联社在省联社及邯郸审计中心的精准指导下,锚定代理保险业务作为中间业务增长的核心抓手,深挖县域保险市场潜力
2025-11-07 10:22:00
为全面提升金融服务安全性,切实保障广大客户的资金与信息安全,近期,行唐联社市仝信用社积极行动,开展了一系列网络安全宣传与防护活动
2025-11-07 10:24:00