• 我的订阅
  • 科技

Sigmoid注意力一样强,苹果开始重新审视注意力机制

类别:科技 发布时间:2024-09-19 12:02:00 来源:机器之心Pro
Sigmoid注意力一样强,苹果开始重新审视注意力机制

机器之心报道

机器之心编辑部

注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。

尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性,但它并非没有局限性。例如,softmax 函数有时会导致注意力集中在少数几个特征,而忽略了其他信息。

近来,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函数。最近,来自苹果的研究者重新审视了 sigmoid 注意力并进行了深入的理论和实验分析。

该研究证明:从理论上讲,与 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函数逼近器,并且受益于改进的正则化。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

论文地址:https://arxiv.org/pdf/2409.04431 项目地址:https://github.com/apple/ml-sigmoid-attention 论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

该研究还提出了一种硬件感知且内存高效的 sigmoid 注意力实现 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理内核速度比 FLASHATTENTION2 提高了 17%。

跨语言、视觉和语音的实验表明,合理归一化的 sigmoid 注意力与 softmax 注意力在广泛的领域和规模上性能相当,而之前的 sigmoid 注意力尝试无法实现这一点。

此外,该研究还用 sigmoid 内核扩展了 FLASHATTENTION2,将内核推理挂钟时间减少了 17%,将现实世界推理时间减少了 8%。

论文作者 Jason Ramapuram 表示:如果想让注意力快 18% 左右,你不妨试试 Sigmoid 注意力机制。他们用 Sigmoid 和基于序列长度的常量标量偏置取代了注意力机制中的传统 softmax。

Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制

igmoid 注意力理论基础

该研究对 SigmoidAttn 进行了分析,分析的目的主要有两个:(1)证明当 SigmoidAttn 取代 SoftmaxAttn 时,Transformer 架构仍然是一个通用函数逼近器;(2)通过计算 SigmoidAttn 的 Lipschitz 常数来恢复其规律性。

具有 Sigmoid 注意力的 Transformer 是通用逼近器吗?

经典 Transformer 可以将连续的序列到序列函数近似到任意精度,这一特性称为通用近似特性 (UAP,Universal Approximation Property)。UAP 非常受欢迎,因为它证明了架构的通用性和表示能力。由于 SigmoidAttn 修改了 Transformer 架构,因此从理论上保证这种修改不会影响表示能力并保留 UAP 的性能至关重要。该研究通过以下定理提供此保证。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

结果表明,即使使用 SigmoidAttn,一系列 transformer 块也可以实现上下文映射。

Sigmoid 注意力的正则性

与神经网络中的任何层一样,SigmoidAttn 的正则性值得研究,因为它可以深入了解相应网络的鲁棒性及其优化的难易程度。

SigmoidAttn 正则性定理为:

Sigmoid注意力一样强,苹果开始重新审视注意力机制

结果证明,SigmoidAttn 的局部 Lipschitz 常数远低于 SoftmaxAttn 的最差局部 Lipschitz 常数。

FLASHSIGMOID:硬件感知实现

现代架构上的注意力计算往往会受到内存访问 IO 的限制。FLASHATTENTION 和 FLASHATTENTION2 通过优化 GPU 内存层次结构利用率来加速注意力计算。得益于这些方法提供的速度提升,该研究开发了 SigmoidAttn 的硬件感知实现 ——FLASHSIGMOID,采用了三个核心思路:

Tiling:注意力分而治之的方法:与 FLASHATTENTION 和 FLASHATTENTION2 类似,FLASHSIGMOID 并行处理输入部分以计算块中的注意力输出,有效地组合部分结果以生成最终的注意力输出。 内核融合:与 FLASHATTENTION 和 FLASHATTENTION2 一样,FLASHSIGMOID 将 SigmoidAttn 的前向和后向传递的计算步骤实现为单个 GPU 内核,通过避免高带宽内存 (HBM) 上的中间激活具体化,最大限度地减少内存访问并提高内存效率。 激活重计算:sigmoid 注意力的向后传递需要 sigmoid 激活矩阵,如果在 GPU HBM 上具体化,则会导致执行速度变慢和内存效率低下。FLASHSIGMOID 通过仅保留查询、键和值张量来解决这个问题,以便在向后传递期间重新计算 sigmoid 激活矩阵。尽管增加了 FLOPs,但事实证明,与具体化和保留注意力矩阵的替代方法相比,这种方法在挂钟时间上更快,并且内存效率更高。

实验

为了实验验证 SigmoidAttn,该研究在多个领域进行了评估:使用视觉 transformer 进行监督图像分类、使用 SimCLR 进行自监督图像表示学习、BYOL(Bootstrap Your Own Latent)和掩码自动编码器 (MAE) 以及自动语音识别 (ASR) 和自回归语言建模 (LM)。

该研究还在 TED-LIUM v3 上验证了 ASR 的序列长度泛化,在所有这些领域和算法中,该研究证明 SigmoidAttn 的性能与 SoftmaxAttn 相当(图 2 和 21),同时提供训练和推理加速。

Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制

该研究得出以下观察结果:

SigmoidAttn 对于没有偏置的视觉任务是有效的(MAE 除外),但依赖于 LayerScale 以无超参数的方式匹配基线 SoftmaxAttn(图 9-a)的性能。除非另有说明,否则为 SoftmaxAttn 呈现的所有结果也公平地添加了 LayerScale。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

LM 和 ASR 对初始范数较为敏感。需要通过 (a) 相对位置嵌入进行调整;(b) 适当初始化 b 以实现相同效果 —— 允许使用任何位置嵌入。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-19 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...因为当前最佳的基于 Transformer 的 LLM 既深又宽,并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长
2024-08-05 09:35:00
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出
大模型的核心组件注意力机制,究竟如何诞生的?可能已经有人知道,它并非2017年Transformer开山论文《Attention is all you need》首创
2024-12-05 09:44:00
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分
2024-09-03 09:59:00
中国科研团队研发出低功耗类脑神经形态系统级芯片
...计算系统成为极具潜力的方向。本次研究基于的人脑中的注意力机制示意图。中国科学院自动化研究所/供图在本项研究中,合作团队提出“神经形态动态计算”的概念,通过设计一种类脑神经形态
2024-06-01 20:49:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek
2025-02-19 18:43:00
苹果 XR 头显专利曝光:可确定佩戴者注意力情况
...于眼睛注视的生物反馈”专利,可以确认XR头显佩戴者的注意力情况。苹果在专利中表示,头显佩戴者在扩展现实(XR)环境中,在进行观看教育或娱乐内容、冥想、学习新技能和阅读文档等场
2023-04-29 18:23:00
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入
2024-04-14 02:57:00
何生谈“注意与意识”:只有引起我们注意,才能被纳入意识
...孤立存在,而是整合为完整的物体表征。在这个过程中,注意力扮演着如同胶水的角色,将分散的信息有效地结合在一起。▷图注:注意力在信息整合时的角色。图源:由何生教授提供然而,何教授
2023-06-29 17:00:00
影响开发者生产力的因素有哪些?
...浪费大量时间之外,工具的速度过慢还会导致开发人员的注意力分散。由于工具缓慢而导致工作陷入停滞十分打击士气,特别是对于那些背负着沉重的时间压力的人来说。开发人员拥有的知识这是一
2023-07-20 16:00:00
更多关于科技的资讯: