• 我的订阅
  • 科技

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

类别:科技 发布时间:2024-10-16 13:34:00 来源:机器之心Pro

北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

在自然语言处理、语音识别和时间序列分析等众多领域中,序列建模是一项至关重要的任务。然而,现有的模型在捕捉长程依赖关系和高效建模序列方面仍面临诸多挑战。

因此,北京大学林宙辰、徐鑫提出了一种全新混合序列建模架构 ——MixCon,它为解决这些难题带来了创新性的方案。经实验验证,其性能远超 Mixtral、Mamba 和 Jamba。论文已在 European Conference on Artificial Intelligence (ECAI) 2024 上发表。

论文标题:MixCon: A Hybrid Architecture for Efficient and Adaptive Sequence Modeling 论文地址:https://zhouchenlin.github.io/Publications/2024-E

例如,早期利用局部敏感哈希方案虽降低复杂度,但引入大常数因子;近期通过改变计算顺序等方法近似 Softmax 函数,但仍存在性能不如 Softmax 注意力且可能增加额外开销的情况。

线性 RNN 模型

线性 RNN 模型如 Mamba 等通过将序列表示为状态空间并利用扫描操作,以线性时间复杂度提供了序列建模的新解决方案。

然而,它们可能缺乏复杂序列建模任务所需的适应性和动态特性,并且像传统序列模型一样,缺少反馈机制和自适应控制。

MoE 模型

MoE 模型通过结合专家模块,能有效处理长序列并保持计算效率,根据输入数据自适应选择专家模块。

但 MoE 模型的专家模块稀疏激活可能导致训练稳定性问题,部分参数不常使用降低参数效率,在处理长序列时可能在计算效率和训练稳定性方面面临挑战,且对动态变化适应性不足。

二、MixCon 的核心架构与技术

Conba 模型架构

1. 状态空间方程

3. 实施细节

神经网络近似:

4. 模型架构图如下所示:

MixCon 模型架构

MixCon 是结合注意力机制的 Transformer 层、Conba 层和 MoE 组件的创新混合解码器架构。

在内存使用方面,通过平衡注意力和 Conba 层,相比 Mamba 可将 KV 缓存减少 32 倍。例如,在 256K 令牌上下文环境中,MixCon 仍能保持较小的 KV 缓存优势(如表 1 所示)。

在吞吐量方面,处理长序列时,Conba 层计算效率更高,增加其比例可提高整体吞吐量。

基本配置单位是 MixCon 块,由 Conba 或注意力层组合而成,每个层包含注意力模块或 Conba 模块,后接 MLP 或 MoE 层。MixCon 中的 MLP 层被 MoE 层替换,以增加模型容量同时保持较低计算负载。

对于 Conba 层实施,采用 RMSNorm 等技术,模型词汇量为 256K,使用 BPE 进行训练,每个数字为单独令牌。

模型架构图如下所示:

三、MixCon 的实验与评估

实施细节

选择特定配置适应单块 80GB A800 NVIDIA GPU 的计算能力,实现质量和吞吐量的优化。

序列由 4 个 MixCon 块组成,每个 MixCon 块含 8 层 L = 8,注意力层和 Conba 层比例为 2:6 (a:c = 2:6),每隔一层 (e = 2) 用 MoE 替换 MLP 模块,模型有 16 个专家 (n = 16),每个令牌使用 2 个顶级专家 (K = 2)。

上下文长度分析

MixCon 在单块 80GB A800 GPU 上的最大上下文长度是 Jamba 的两倍、Mixtral 的四倍、Llama - 2 - 70B 的十四倍(如图 3 所示)。

吞吐量分析

1. 配置一:考虑不同批大小,在单块 A800 80GB GPU(int8 量化)、8K 上下文长度下生成 512 个输出令牌,MixCon 吞吐量是 Mixtral 的三倍、Jamba 的两倍(如图 4 所示)。

2. 配置二:单批次(批大小 = 1)、四块 A800 GPUs(无量化)、不同上下文长度下生成 512 个输出令牌,处理 128K 令牌时,MixCon 吞吐量是 Jamba 的 1.5 倍、Mixtral 的 4.5 倍(如图 5 所示)。

数据集评估

本文在一系列标准学术基准测试中评估 Conba 性能,包括常识推理任务(如 HellaSwag、WinoGrande、ARC - E、ARC - Challenge)、阅读理解任务(如 BoolQ、QuAC)、聚合基准测试(如 MMLU、BBH),采用不同的学习策略。

MixCon 性能与类似或更大规模的先进公开模型相当或更优,尽管总参数比 Llama - 2 少,但作为稀疏模型,其活跃参数仅 5B,处理长序列时 KV 缓存仅需 2GB,而 Mixtral 需 32GB(如表 2 所示)。

消融实验

展示注意力和 Conba 层结合的优势及最佳比例和交织技术。纯 Conba 模型在上下文学习有困难,Attention - Conba 混合模型有类似纯 Transformer 模型的上下文学习能力。

以 HellaSwag(10 - shot)、WinoGrande(5 - shot)、Natural Questions(NQ,5 - shot)为指标,MixCon 表现稳健(如表 3 所示),MixCon(无 MoE)训练过程损失更低(如图 6 所示)。

长上下文评估

利用问答基准测试评估 MixCon 处理长上下文能力,使用 L - Eval 中最长上下文数据集的五个数据集,以少样本格式(每个实验用三个例子)进行实验。

在 NarrativeQA、LongFQA、Natural Questions(NQ)、CUAD 等数据集上评估,MixCon 在多数数据集上优于 Mixtral 和 Jamba,平均性能优越,且在长上下文任务中具有更好的吞吐量(如表 4 所示)。

结合注意力和 Conba 的优势及混合专家的影响

1. 注意力和 Conba 比例研究

用 13 亿参数模型在 2500 亿令牌上训练,MixCon 性能优于纯注意力或纯 Mamba,注意力和 Conba 层比例为 2:6 或 1:7 时性能差异小(如表 5 所示)。

2. 混合专家的影响

当在 MixCon 架构的大规模情境(5B 参数,在 50B 令牌上训练)中应用 MoE 技术时,性能有显著提升(如表 6 所示)。

四、MixCon 的优势与展望

MixCon 作为创新的混合序列建模架构,通过整合多种技术,在处理复杂动态序列时具有高效的计算效率,在各项任务中展现出显著优势,能高效处理长序列、内存使用低且吞吐量高,具有高可扩展性和实用性。然而,它仍有改进空间,如进一步优化状态空间表示、长序列的自适应控制、特定领域微调以及训练算法等。

总体而言,MixCon 为序列建模提供了新的解决方案,在复杂序列处理方面表现出色,为 NLP 及其他领域的应用开辟了新道路。未来,我们期待它在更多领域发挥更大的作用,为技术发展带来更多的突破和创新。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-16 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先
【新智元导读】TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的
2024-10-30 09:58:00
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
...,为时序分析提供了丰富的训练资源,为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代,时序预测已成为众多领域不可或缺的核心组成。然而,构建一个兼具强大性
2024-10-23 09:55:00
Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer
...现代通用基础模型能够将多模态数据编码成统一的 Token 序列,并有效捕捉它们之间的复杂依赖关系。相反,Token-Parameter 计算主要依赖于固定的 linear projection
2024-11-15 09:51:00
揭示Transformer「周期建模」缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
...上的表现显著优于现有模型,而且在符号公式表示、时间序列预测和语言建模等实际任务中也同样表现出色,超过了Transformer等主流模型
2024-11-27 13:34:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...的推理中保持或超过了全注意力模型。同时,NSA在64k长度序列的解码、前向传播和后向传播过程中实现比全注意力机制显著的加速,验证其在整个模型生命周期中的效率。“此次DeepS
2025-02-19 18:43:00
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
...力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大
2024-09-03 09:59:00
infini-attention:谷歌大内存机制
...通过固定数量的参数来存储和回忆信息,而不是随着输入序列长度的增加而增加参数量,能减少内存占用和计算成本。线性注意力机制不同于传统Transformer中的二次方复杂度注意力机
2024-04-14 02:57:00
1890美元,就能从头训练一个还不错的12亿参数扩散模型
...了降低计算成本,作者利用了 transformer 计算开销与输入序列大小(即每张图像的 patch 数量)的强依赖关系
2024-07-30 09:37:00
2023年度新车总结:纯电还是燃油?如今早已不是非黑即白的问题了!
...始,纯电动新车也开始了高性能取向的尝试,海外品牌AMG序列有了EQ车型,奥迪RS序列有了e-tron车型,中国品牌也有昊铂SSR
2023-12-29 09:15:00
更多关于科技的资讯:
厦门网讯(厦门日报记者 林露虹 通讯员 管轩 雷飏)集护眼、通透、高刷新率于一体的天马 “天工屏”;“全球最窄四等边设计”的手机屏幕……今年以来
2025-10-10 08:28:00
2025河北国际工业设计周活动观察:全球智慧赋能未来智造
全球智慧赋能未来智造——2025河北国际工业设计周活动观察9月20日,2025河北国际工业设计周主会场活动在雄安新区举行
2025-10-10 08:40:00
工信部日前公布首批制造业数字化转型促进中心建设主体名单,太原福莱瑞达物流设备科技有限公司入选。制造业数字化转型促进中心是国家落实产业数字化战略的核心公共服务载体
2025-10-10 08:42:00
10月9日,从太原第二热电厂获悉,为全力保障太原市冬季供热安全稳定,持续提升供热服务质效,太原二热秉持“早谋划、早部署
2025-10-10 08:43:00
齐鲁晚报·齐鲁壹点客户端 李孟霏在刚刚过去的国庆中秋“双节”,山东移动威海乳山分公司移动社区营销团队实现品牌口碑与业务发展的双赢
2025-10-10 11:07:00
优优绿能(301590)成立于2015年,是国内直流充电桩模块领军企业之一,2024年在国内充电模块市占率达16%,位居行业第二
2025-10-10 23:06:00
恒润达生信披“迷雾”:“消失”的研发总监与首席科学家?
除研发核心人员离职或在外创办同行业企业外,上海恒润达生生物科技股份有限公司(下称“恒润达生”)招股书对研发团队人员信披的真实性
2025-10-10 23:06:00
互联网贷款普及后,不少初次接触的用户常因平台选择难、流程不熟悉犯愁。其实只要按步骤操作执行,安全又高效,下面由榕易有钱为大家梳理了几项关键步骤
2025-10-10 11:34:00
从志愿翻译到时装新星 河南姑娘在非洲书写青春与梦想
大河网讯 非洲大陆,机遇与挑战并存。越来越多的中国人选择在这里扎根创业,为当地发展注入新活力。毕业于河南工业大学的何方方便是其中之一
2025-10-10 12:11:00
姜杰秀:心中有梦,创业有方,用执着与努力让喜龙果出海
鲁网10月10日讯“我父亲就是做农副产品加工的,从小受父亲的熏陶,我对农副产品加工就有别样的情愫。于是,我就在农副产品加工上有了梦想
2025-10-10 13:56:00
中新经纬10月10日电 “市说新语”微信号10日消息,近日,国家市场监管总局(国家标准委)批准发布一批重要国家标准,涉及助老扶幼
2025-10-10 14:06:00
解锁工业自动化密码,威图与易盼2025IAS硬核破圈瞬间
"新质驱动、高端引领、数智赋能" ,2025中国国际工业博览会聚焦新工业新经济,旨在拉开加快构建一流产业生态,开启智能制造新时代的帷幕
2025-10-10 14:59:00
圆满收官 | 威图RiLineX全新一代配电平台正式发布
制造业行业数字化与智能化水平要求日益提升,这意味着制造业将面临集人力、技术、时间和成本全面优化的巨大挑战。配电系统作为工业场景下能源传输的载体
2025-10-10 14:59:00
河北日报讯(许君强、李晴宇)9月24日,2025河北国际工业设计周辛集分会场活动在辛集市工业设计创新中心启动。此次分会场以“跨界融合·创新设计”为主题
2025-10-10 15:23:00
中新经纬10月10日电 题:这届年轻人,为什么抢着把“国宝”贴冰箱上作者 周慎 中国科大先研院人工智能文旅融合研究院执行院长十一黄金周刚过
2025-10-10 15:45:00