我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型

类别：科技发布时间：2024-12-11 09:53:00 来源：机器之心Pro

Mamba 是一种具有线性计算复杂度的状态空间模型，它能够以线性计算复杂度实现对输入序列的有效建模，在近几个月受到了广泛的关注。

本文给出了一个十分有趣的发现：强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性：本文用统一的公式表述了 Mamba 中的核心模块状态空间模型（SSM）和线性注意力，揭示了二者之间的密切联系，并探究了是哪些特殊的属性和设计导致了 Mamba 的成功。

实验结果表明，等效遗忘门和宏观结构设计是 Mamba 成功的关键因素。本文通过分析自然地提出了一个新的模型结构：Mamba-Inspired Linear Attention（MILA），它同时继承了 Mamba 和线性注意力的优点，在各种视觉任务中表现出超越现有的视觉 Mamba 模型的精度，同时保持了线性注意力优越的并行计算与高推理速度。

论文链接：https://arxiv.org/abs/2405.16605 代码链接：https://github.com/LeapLabTHU/MLLA 视频讲解：https://www.bilibili.com/video/BV1NYzAYxEbZ

最近，以 Mamba 为例的状态空间模型引起了广泛的研究兴趣。不同于 Transformer 的平方复杂度，Mamba 模型能够以线性复杂度实现有效的序列建模，在长文本、高分辨率图像、视频等长序列建模和生成领域表现出很大的潜力。

然而，Mamba 并不是第一个实现线性复杂度全局建模的模型。早期的线性注意力使用线性归一化代替 Softmax 注意力中的 Softmax 操作，将计算顺序从 (QK) V 更改为 Q (KV) ，从而将计算复杂度降低为线性。然而，之前的许多工作表明线性注意的表达能力不足，难以取得令人满意的效果。

令人惊讶的是，本文发现高性能的 Mamba 和表达能力不足的线性注意力的公式之间存在深层次的关联。因此，一个引人思考的研究问题是：是什么因素导致了 Mamba 的成功和它相较于线性注意力的显著优势？

从这个问题出发，本文在以下几个方面进行了探索：

1. 揭示了 Mamba 与 Linear Attention Transformer 之间的关系：Mamba 和 Linear Attention Transformer 可以使用统一的公式表示。进一步地，Mamba 可以视为具有若干特殊设计的线性注意力，其特殊设计为：输入门 (input gate)、遗忘门 (forget gate)、快捷连接 (shortcut)、无注意力的归一化、single-head 和更先进的宏观架构。

2. 实验证明，遗忘门和宏观架构很大程度上是 Mamba 性能成功的关键。然而，遗忘门会导致循环计算，可能并不适合视觉模型。本文发现，适当的位置编码能够在视觉任务中替代遗忘门的作用，同时保持并行计算和快速的推理。

3. 提出了一系列名为 MILA 的 Linear Attention Transformer 模型，它引入了 Mamba 的设计思想，并且比原始 Mamba 模型更适合视觉任务。

一、线性注意力与状态空间模型回顾

本文首先简略回顾线性注意力和状态空间模型的数学表达。本部分公式较多，详细推导请参考论文或视频讲解。

1. 线性注意力

2. 状态空间模型

二、Mamba 与线性注意力关系解析

图 2：线性注意力模型、Mamba 和 MILA 的宏观模型架构

总而言之，Mamba 可以视为具有 6 种特殊设计的线性注意力模型，其特殊设计为：输入门、遗忘门、shortcut、无注意力归一化、单头设计、更先进的宏观结构。

三、实验

Mamba 被视为 Transformer 的一种有力挑战者，而线性注意力通常性能不佳。在之前的分析中，本文发现这两种性能差距很大的模型具有深刻的相似性，并指出了他们之间的 6 个不同设计。接下来，本文通过实验来验证究竟是哪些设计导致了二者之间如此大的性能差距。

1. 核心验证实验

本文使用线性注意力作为 baseline 模型，在其基础上引入每一个不同设计，并在 ImageNet 上实验验证模型性能的变化。结果如下图所示：

图 3：每个不同设计的影响

可以看到，Mamba 的等效遗忘门和宏观设计对于模型性能最为关键，而其他设计影响不大或者不如线性注意力。同时，本文发现，由于遗忘门必须采用循环计算，引入遗忘门使得模型推理速度明显下降。遗忘门带来的循环计算对于语言模型等自回归模型是合适的，因为模型在推理时本来就需要不断自回归循环计算。然而，这种模式对于图像等非因果并不自然，因为它不仅限制了模型的感受野，还极大降低了模型的推理速度。本文发现，在视觉任务中，适当的位置编码能够引入类似遗忘门的位置信息，同时保持全局感受野、并行计算和更快的推理速度。

图 4：在视觉模型中用位置编码代替遗忘门

2. MILA 模型

基于以上分析和验证，本文将 Mamba 和线性注意力的优秀设计结合起来，将 Mamba 的两项核心设计的精髓引入线性注意力，构建了 Mamba-Inspired Linear Attention (MILA) 模型。MILA 能够以线性复杂度实现全局建模，同时享有并行计算和更快的推理速度，在多种视觉任务上都取得了优于各类视觉 Mamba 模型的效果。以下是一些实验结果：

图 5：ImageNet 分类实验

图 6：模型推理速度和性能的 Trade-off

图 7：高分辨率下游任务 —— 物体检测

四、总结

(1) Mamba 可以视为具有若干特殊设计的线性注意力，其特殊设计为：输入门 (input gate)、遗忘门 (forget gate)、快捷连接 (shortcut)、无注意力的归一化、单头设计 (single-head) 和更先进的宏观架构。

(2) 实验证明，遗忘门和宏观架构很大程度上是 Mamba 性能成功的关键。然而，遗忘门会导致循环计算，可能并不适合视觉模型。本文发现，适当的位置编码在视觉任务中替代遗忘门的作用，同时保持并行计算和快速的推理。

(3) 本文提出了一系列名为 MILA 的 Linear Attention Transformer 模型，它继承了 Mamba 的核心优点，并且比原始 Mamba 模型更适合视觉任务。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-12-11 12:45:03

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于阿里,清华,线性,视角,注意力,模型的资讯：

4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出S

...潜在token的数量。线性DiT（Diffusion Transformer）：用「线性注意力」替换了DiT中所有的普通注意力

2024-10-18 09:49:00

阿里开源版Sora上线即屠榜 4070就能跑免费商用

...的多语言文本进行编码，并在每个Transformer块内加入交叉注意力机制，将文本嵌入到模型架构中。此外，Wan采用线性层和SiLU层来处理输入时间嵌入并分别预测六个调制参数

2025-02-26 20:05:00

Mamba作者新作：将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分

2024-09-03 09:59:00

清华大学丘成桐团队合作推出高维数据非传统去噪新方法

...性结构，新加坡国立大学统计与数据科学系的研究团队和清华丘成桐数学中心团队提出了一种新算法。该算法基于数据统计分布和隐含几何结构，旨在从高维环境空间中的离散样本点恢复出光滑的低

2024-02-01 10:58:00

科学家为脉冲神经网络引入新架构，为超大模型奠定基础

...人工神经元，替换成脉冲神经元。一些关键的操作比如自注意力算子等都被保留，从而让任务性能得到保障。这些早期工作为李国齐团队的工作带来了启发。但是，他们觉得这更像是一种人工神经网

2024-03-18 10:41:00

入选概率不及万分之二，阿里千问斩获顶级AI会议最佳论文

...是唯一获得该奖项的中国团队。该论文首次在业内揭秘了注意力门控机制对大模型性能和训练的影响，业内人士普遍认为该研究是突破当下大模型训练瓶颈的重要一步，将有力推动AI大模型技术的

2025-11-28 11:01:00

衔远科技周伯文：大模型需要与应用场景相结合，中美GPT追赶是

...授，以及协同交互智能研究中心主任。周伯文提出的“自注意力融合多头机制”的自然语言表征机理，成为ChatGPT背后所使用的Transformer架构的核心思想之一

2023-05-31 11:00:00

infini-attention：谷歌大内存机制

...最新SOTA。这就是谷歌最新提出的 Infini-attention机制（无限注意力）。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入

2024-04-14 02:57:00

476 万、模型构建与定制大单：阿里云（中）

...。中标候选人公示2025 年 4 月 2 日发布中标候选人公示，阿里云 4760283.02 元（不含税）中。第一

2025-04-03 00:31:00

更多关于科技的资讯：

机器人从样机走向量产离不开这个“6S店”

12月26日，位于杭州云栖小镇的国家机器人检测与评定中心（总部）浙江检测中心（以下简称“浙江检测中心”）正式启用。机器人从样机走向量产

2025-12-27 08:10:00

喜报|米糠云顺利通过双ISO体系认证，安全与品质再上新台阶

近日，深圳市米糠云科技有限公司顺利通过ISO27001信息安全管理体系认证与ISO9001质量管理体系认证。这标志着公司在信息安全管理和质量管理方面达到了国际标准

2025-12-27 14:34:00

退货仓分拣 “堵点” 怎么破？快宝共配给出答案

近年来，电商与直播电商的迅猛发展，不仅催生出庞大的正向物流需求，更让逆向物流成为快递行业名副其实的“蓝海”。消费者退换货需求呈爆炸式增长

2025-12-27 14:36:00

京东跨年盛典开启送好礼官方直降五折起还能抽祝福“大排面”

岁末迎新，跨年不只是一种仪式，更是一场表达与传递的情感盛宴。京东今年再度打造“年度宠粉”跨年盛典，不仅有众多官方直降5折起的尖货好物

2025-12-27 14:36:00

专为X3D处理器打造，技嘉X870E X3D系列主板全面上线

2025年最热门的CPU毫无疑问当属AMD锐龙X3D系列，而技嘉作为AMD核心合作伙伴之一，专为AMD X3D系列处理器量身定制了X870E X3D系列主板

2025-12-27 14:37:00

58同城2025中国好雇主盛典在深举行，勾勒数智时代雇主价值

12月26日，58同城2025“中国好雇主”盛典在深圳举办。作为国内极具影响力的雇主品牌盛会，本届盛典以“数智驱动，百业共生”为核心主题

2025-12-27 14:38:00

从“终于有了”到“真的好用”：“山大v卡通”鸿蒙版如何回应期

鲁网12月27日讯“终于有NFC校园卡了，自己的学校必须给个好评！”“NFC终于上了！” 在华为应用商店的评论区，山东大学师生们的真实留言

2025-12-27 17:30:00

想在短视频的蓝海遨游？别错过这部“实战指南”

都说“万物皆可短视频”，哪些内容让你眼前一亮？电筒拍大片、夜空光魔法、特效变装秀、用烘焙复刻文物、把大好河山“穿”在身上……在这个创意无限的世界里

2025-12-27 19:55:00

“新”中有数｜福建首张文旅研学领域数据产权登记证书落地福州

福州新闻网12月27日讯（记者颜澜萍）近日，福州冶城集团所属企业福建百宝图科技有限公司通过福建省大数据集团旗下福建省数据产权登记平台

2025-12-27 21:00:00

杭州发布两产品年度质量报告：保温杯和童鞋，多买“杭产品”

12月26日，杭州市市场监督管理局召开专题新闻通气会，对外公布了2025年不锈钢真空杯与儿童旅游鞋两类产品的质量比对结果

2025-12-27 07:39:00

“梦溪杯”宋韵文化创新大赛颁奖同期发布宋韵纹样3.0版展

昨天下午，2025“梦溪杯”宋韵文化创新大赛颁奖典礼在杭州凤凰里文创园举行。自10月15日启动至11月20日截稿，大赛共收到来自英国

2025-12-27 07:39:00

蓝天下郑伟龙：种地星球是个温暖治愈的“慢”星球

杭州市西湖区后陡门58号，原本只是城市边缘一个普通的小村子，仅仅三年，这里已经蜕变成“种地星”人的共同家园。这个开园仅两个多月的农文旅融合空间

2025-12-27 07:39:00

快递红酒为什么摔不破？菜鸟有个绿色包材实验室

装有红酒的纸箱从1米多的高度多次抛下，又被送入抗压测试机内，接受300公斤的压力测试，再经斜面冲击台俯冲撞向铁板，红酒依然完好无损……经过这一系列流程

2025-12-27 07:39:00

近八成职场人借助AI开展工作超四成职场人会与AI交流情感

近日，智联招聘发布的《2025雇佣关系趋势报告》显示，78.2%的职场人每周至少使用一次AI工具开展工作。该《报告》基于大量调研问卷生成

2025-12-27 07:39:00

北京2026人形机器人半马全面升级

原标题：北京2026人形机器人半马全面升级明年4月19日开启“人机共跑” 赛事报名通道正式开启2025年4月19日，北京亦庄半程马拉松暨人形机器人半程马拉松在北京亦庄鸣枪开跑

2025-12-26 15:22:00

头条订阅服务

从线性注意力视角揭秘视觉Mamba,清华、阿里合作提出全新MILA模型