• 我的订阅
  • 科技

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

类别:科技 发布时间:2024-12-11 09:53:00 来源:机器之心Pro

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

Mamba 是一种具有线性计算复杂度的状态空间模型,它能够以线性计算复杂度实现对输入序列的有效建模,在近几个月受到了广泛的关注。

本文给出了一个十分有趣的发现:强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性:本文用统一的公式表述了 Mamba 中的核心模块状态空间模型(SSM)和线性注意力,揭示了二者之间的密切联系,并探究了是哪些特殊的属性和设计导致了 Mamba 的成功。

实验结果表明,等效遗忘门和宏观结构设计是 Mamba 成功的关键因素。本文通过分析自然地提出了一个新的模型结构:Mamba-Inspired Linear Attention(MILA),它同时继承了 Mamba 和线性注意力的优点,在各种视觉任务中表现出超越现有的视觉 Mamba 模型的精度,同时保持了线性注意力优越的并行计算与高推理速度。

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

论文链接:https://arxiv.org/abs/2405.16605 代码链接:https://github.com/LeapLabTHU/MLLA 视频讲解:https://www.bilibili.com/video/BV1NYzAYxEbZ

最近,以 Mamba 为例的状态空间模型引起了广泛的研究兴趣。不同于 Transformer 的平方复杂度,Mamba 模型能够以线性复杂度实现有效的序列建模,在长文本、高分辨率图像、视频等长序列建模和生成领域表现出很大的潜力。

然而,Mamba 并不是第一个实现线性复杂度全局建模的模型。早期的线性注意力使用线性归一化代替 Softmax 注意力中的 Softmax 操作,将计算顺序从 (QK) V 更改为 Q (KV) ,从而将计算复杂度降低为线性。然而,之前的许多工作表明线性注意的表达能力不足,难以取得令人满意的效果。

令人惊讶的是,本文发现高性能的 Mamba 和表达能力不足的线性注意力的公式之间存在深层次的关联。因此,一个引人思考的研究问题是:是什么因素导致了 Mamba 的成功和它相较于线性注意力的显著优势?

从这个问题出发,本文在以下几个方面进行了探索:

1. 揭示了 Mamba 与 Linear Attention Transformer 之间的关系:Mamba 和 Linear Attention Transformer 可以使用统一的公式表示。进一步地,Mamba 可以视为具有若干特殊设计的线性注意力,其特殊设计为:输入门 (input gate)、遗忘门 (forget gate)、快捷连接 (shortcut)、无注意力的归一化、single-head 和更先进的宏观架构。

2. 实验证明,遗忘门和宏观架构很大程度上是 Mamba 性能成功的关键。然而,遗忘门会导致循环计算,可能并不适合视觉模型。本文发现,适当的位置编码能够在视觉任务中替代遗忘门的作用,同时保持并行计算和快速的推理。

3. 提出了一系列名为 MILA 的 Linear Attention Transformer 模型,它引入了 Mamba 的设计思想,并且比原始 Mamba 模型更适合视觉任务。

一、线性注意力与状态空间模型回顾

本文首先简略回顾线性注意力和状态空间模型的数学表达。本部分公式较多,详细推导请参考论文或视频讲解。

1. 线性注意力

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

2. 状态空间模型

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

二、Mamba 与线性注意力关系解析

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

图 2:线性注意力模型、Mamba 和 MILA 的宏观模型架构

总而言之,Mamba 可以视为具有 6 种特殊设计的线性注意力模型,其特殊设计为:输入门、遗忘门、shortcut、无注意力归一化、单头设计、更先进的宏观结构。

三、实验

Mamba 被视为 Transformer 的一种有力挑战者,而线性注意力通常性能不佳。在之前的分析中,本文发现这两种性能差距很大的模型具有深刻的相似性,并指出了他们之间的 6 个不同设计。接下来,本文通过实验来验证究竟是哪些设计导致了二者之间如此大的性能差距。

1. 核心验证实验

本文使用线性注意力作为 baseline 模型,在其基础上引入每一个不同设计,并在 ImageNet 上实验验证模型性能的变化。结果如下图所示:

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

图 3:每个不同设计的影响

可以看到,Mamba 的等效遗忘门和宏观设计对于模型性能最为关键,而其他设计影响不大或者不如线性注意力。同时,本文发现,由于遗忘门必须采用循环计算,引入遗忘门使得模型推理速度明显下降。遗忘门带来的循环计算对于语言模型等自回归模型是合适的,因为模型在推理时本来就需要不断自回归循环计算。然而,这种模式对于图像等非因果并不自然,因为它不仅限制了模型的感受野,还极大降低了模型的推理速度。本文发现,在视觉任务中,适当的位置编码能够引入类似遗忘门的位置信息,同时保持全局感受野、并行计算和更快的推理速度。

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

图 4:在视觉模型中用位置编码代替遗忘门

2. MILA 模型

基于以上分析和验证,本文将 Mamba 和线性注意力的优秀设计结合起来,将 Mamba 的两项核心设计的精髓引入线性注意力,构建了 Mamba-Inspired Linear Attention (MILA) 模型。MILA 能够以线性复杂度实现全局建模,同时享有并行计算和更快的推理速度,在多种视觉任务上都取得了优于各类视觉 Mamba 模型的效果。以下是一些实验结果:

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

图 5:ImageNet 分类实验

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

图 6:模型推理速度和性能的 Trade-off

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

图 7:高分辨率下游任务 —— 物体检测

四、总结

(1) Mamba 可以视为具有若干特殊设计的线性注意力,其特殊设计为:输入门 (input gate)、遗忘门 (forget gate)、快捷连接 (shortcut)、无注意力的归一化、单头设计 (single-head) 和更先进的宏观架构。

(2) 实验证明,遗忘门和宏观架构很大程度上是 Mamba 性能成功的关键。然而,遗忘门会导致循环计算,可能并不适合视觉模型。本文发现,适当的位置编码在视觉任务中替代遗忘门的作用,同时保持并行计算和快速的推理。

(3) 本文提出了一系列名为 MILA 的 Linear Attention Transformer 模型,它继承了 Mamba 的核心优点,并且比原始 Mamba 模型更适合视觉任务。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-11 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

4090笔记本0.37秒直出大片!英伟达联手MIT清华祭出Sana架构,性能秒杀FLUX
...潜在token的数量。线性DiT(Diffusion Transformer):用「线性注意力」替换了DiT中所有的普通注意力
2024-10-18 09:49:00
阿里开源版Sora上线即屠榜 4070就能跑 免费商用
...的多语言文本进行编码,并在每个Transformer块内加入交叉注意力机制,将文本嵌入到模型架构中。此外,Wan采用线性层和SiLU层来处理输入时间嵌入并分别预测六个调制参数
2025-02-26 20:05:00
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分
2024-09-03 09:59:00
清华大学丘成桐团队合作推出高维数据非传统去噪新方法
...性结构,新加坡国立大学统计与数据科学系的研究团队和清华丘成桐数学中心团队提出了一种新算法。该算法基于数据统计分布和隐含几何结构,旨在从高维环境空间中的离散样本点恢复出光滑的低
2024-02-01 10:58:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战,首批启动6个课题。清
2026-01-09 14:23:00
科学家为脉冲神经网络引入新架构,为超大模型奠定基础
...人工神经元,替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留,从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是,他们觉得这更像是一种人工神经网
2024-03-18 10:41:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
...是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响,业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步,将有力推动AI大模型技术的
2025-11-28 11:01:00
衔远科技周伯文:大模型需要与应用场景相结合,中美GPT追赶是个动态过程
...授,以及协同交互智能研究中心主任。周伯文提出的“自注意力融合多头机制”的自然语言表征机理,成为ChatGPT背后所使用的Transformer架构的核心思想之一
2023-05-31 11:00:00
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入
2024-04-14 02:57:00
更多关于科技的资讯:
人工智能如何赋能“安徽万物”?
大皖新闻讯 1月16日,《安徽省“人工智能+万物”应用行动方案》发布,到2030年,安徽“人工智能+万物”应用落地将超万个
2026-01-17 21:56:00
鲁网1月17日讯1月13日上午,普惠(临沂)投资服务有限公司考察组一行赴临沂市供应链金融协会开展学习交流活动。临沂市供应链金融协会会长
2026-01-17 14:47:00
1月16日,全球最大、起重量达2300吨的桥面吊机在河北省秦皇岛市一装备制造企业正式下线,标志着我国在大型桥梁施工装备领域又获重大突破
2026-01-17 15:44:00
2026天然苏打水市场趋势:健康化、场景化成主流 泉匠深耕多区域市场实现销量突破
随着健康消费理念的深度渗透,天然苏打水行业正迎来高质量发展的黄金期。据行业权威报告预测,2026年中国天然苏打水市场规模将突破260亿元
2026-01-17 15:58:00
开元云与广西大学人工智能学院达成战略合作,共建AI产教融合新高地
广西大学人工智能学院常务副院长张振荣、副院长赵志刚、陈燕教授等老师,出席双方产学研合作签约仪式。2026年1月15日 广西南宁
2026-01-17 15:58:00
数据接口安全风险监测国标正式发布!深信服深度参编
根据2025年12月2日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告(2025年第33号)
2026-01-17 16:00:00
近日,国网潢川县供电公司依托用电信息采集系统及“专变负载可视化”数据集,构建反向有功异常自动监测告警机制,实现非光伏用户反向用电异常精准识别处置
2026-01-17 16:00:00
新消费|万物皆可租!这届年轻人为何“能租就不买”?
租一台口袋相机只需30元一天专业优质的画质却可以让旅途回忆更生动用百来元就能配齐一整套露营装备花100元便能轻松满足整趟出国旅行的穿搭需要……如今越来越多的年轻人正通过“租赁”重新定义自己的消费方式近日
2026-01-17 16:54:00
冷暖省电双先锋!美的酷省电二代横扫抖音商城三榜冠军
2026刚开年,空调行业首款爆品已然出现——全新上市美的酷省电二代便凭硬核实力脱颖而出,强势斩获抖音商城智能空调爆款榜
2026-01-17 16:00:00
厦门钨业通过技术创新与人才创新,不断攻克行业技术难题,塑造发展新动能让“有色”更出色东南网1月17日讯 (福建日报记者 戴敏 李向娟)近日
2026-01-17 11:38:00
在漳州龙文区,智能机器人等一批前沿项目正在聚集,新质生产力蓬勃生长——“未来场景”来到家门口东南网1月17日讯 (福建日报报业集团记者 杨凌怡 通讯员 张小惠)广场前
2026-01-17 11:41:00
中国姚绣站上巴黎大展C位
1月15日至19日,非遗苏绣品牌姚绣(Yao Silk)再度亮相巴黎M&O展,成为本届展会Fine Craft(精品工艺)展区唯一中国品牌
2026-01-17 09:40:00
民大学子全国“摘金” AI巧解垃圾分类与楼宇管理难题
荆楚网(湖北日报网)讯(记者林杉 许文秀 通讯员陈韶月 张祎晗)面对垃圾分类的效率瓶颈,人工智能与机械设计如何给出更优解
2026-01-17 10:36:00
长白时评评论员 久泰平近日多起滥用“七天无理由退货”的新闻引发社会关注。有商家曝光,有学生集体网购演出服,演出后再把带着污渍
2026-01-17 05:55:00
1月14日消息,工业和信息化部近日公布了2025年全国中小企业人工智能典型应用场景名单,晋西春雷自主研发的“AI视觉质检实现铜带缺陷精准识别”项目成功入选
2026-01-17 07:39:00