• 我的订阅
  • 科技

Sigmoid注意力一样强,苹果开始重新审视注意力机制

类别:科技 发布时间:2024-09-19 12:02:00 来源:机器之心Pro
Sigmoid注意力一样强,苹果开始重新审视注意力机制

机器之心报道

机器之心编辑部

注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。

尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性,但它并非没有局限性。例如,softmax 函数有时会导致注意力集中在少数几个特征,而忽略了其他信息。

近来,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函数。最近,来自苹果的研究者重新审视了 sigmoid 注意力并进行了深入的理论和实验分析。

该研究证明:从理论上讲,与 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函数逼近器,并且受益于改进的正则化。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

论文地址:https://arxiv.org/pdf/2409.04431 项目地址:https://github.com/apple/ml-sigmoid-attention 论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

该研究还提出了一种硬件感知且内存高效的 sigmoid 注意力实现 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理内核速度比 FLASHATTENTION2 提高了 17%。

跨语言、视觉和语音的实验表明,合理归一化的 sigmoid 注意力与 softmax 注意力在广泛的领域和规模上性能相当,而之前的 sigmoid 注意力尝试无法实现这一点。

此外,该研究还用 sigmoid 内核扩展了 FLASHATTENTION2,将内核推理挂钟时间减少了 17%,将现实世界推理时间减少了 8%。

论文作者 Jason Ramapuram 表示:如果想让注意力快 18% 左右,你不妨试试 Sigmoid 注意力机制。他们用 Sigmoid 和基于序列长度的常量标量偏置取代了注意力机制中的传统 softmax。

Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制

igmoid 注意力理论基础

该研究对 SigmoidAttn 进行了分析,分析的目的主要有两个:(1)证明当 SigmoidAttn 取代 SoftmaxAttn 时,Transformer 架构仍然是一个通用函数逼近器;(2)通过计算 SigmoidAttn 的 Lipschitz 常数来恢复其规律性。

具有 Sigmoid 注意力的 Transformer 是通用逼近器吗?

经典 Transformer 可以将连续的序列到序列函数近似到任意精度,这一特性称为通用近似特性 (UAP,Universal Approximation Property)。UAP 非常受欢迎,因为它证明了架构的通用性和表示能力。由于 SigmoidAttn 修改了 Transformer 架构,因此从理论上保证这种修改不会影响表示能力并保留 UAP 的性能至关重要。该研究通过以下定理提供此保证。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

结果表明,即使使用 SigmoidAttn,一系列 transformer 块也可以实现上下文映射。

Sigmoid 注意力的正则性

与神经网络中的任何层一样,SigmoidAttn 的正则性值得研究,因为它可以深入了解相应网络的鲁棒性及其优化的难易程度。

SigmoidAttn 正则性定理为:

Sigmoid注意力一样强,苹果开始重新审视注意力机制

结果证明,SigmoidAttn 的局部 Lipschitz 常数远低于 SoftmaxAttn 的最差局部 Lipschitz 常数。

FLASHSIGMOID:硬件感知实现

现代架构上的注意力计算往往会受到内存访问 IO 的限制。FLASHATTENTION 和 FLASHATTENTION2 通过优化 GPU 内存层次结构利用率来加速注意力计算。得益于这些方法提供的速度提升,该研究开发了 SigmoidAttn 的硬件感知实现 ——FLASHSIGMOID,采用了三个核心思路:

Tiling:注意力分而治之的方法:与 FLASHATTENTION 和 FLASHATTENTION2 类似,FLASHSIGMOID 并行处理输入部分以计算块中的注意力输出,有效地组合部分结果以生成最终的注意力输出。 内核融合:与 FLASHATTENTION 和 FLASHATTENTION2 一样,FLASHSIGMOID 将 SigmoidAttn 的前向和后向传递的计算步骤实现为单个 GPU 内核,通过避免高带宽内存 (HBM) 上的中间激活具体化,最大限度地减少内存访问并提高内存效率。 激活重计算:sigmoid 注意力的向后传递需要 sigmoid 激活矩阵,如果在 GPU HBM 上具体化,则会导致执行速度变慢和内存效率低下。FLASHSIGMOID 通过仅保留查询、键和值张量来解决这个问题,以便在向后传递期间重新计算 sigmoid 激活矩阵。尽管增加了 FLOPs,但事实证明,与具体化和保留注意力矩阵的替代方法相比,这种方法在挂钟时间上更快,并且内存效率更高。

实验

为了实验验证 SigmoidAttn,该研究在多个领域进行了评估:使用视觉 transformer 进行监督图像分类、使用 SimCLR 进行自监督图像表示学习、BYOL(Bootstrap Your Own Latent)和掩码自动编码器 (MAE) 以及自动语音识别 (ASR) 和自回归语言建模 (LM)。

该研究还在 TED-LIUM v3 上验证了 ASR 的序列长度泛化,在所有这些领域和算法中,该研究证明 SigmoidAttn 的性能与 SoftmaxAttn 相当(图 2 和 21),同时提供训练和推理加速。

Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制

该研究得出以下观察结果:

SigmoidAttn 对于没有偏置的视觉任务是有效的(MAE 除外),但依赖于 LayerScale 以无超参数的方式匹配基线 SoftmaxAttn(图 9-a)的性能。除非另有说明,否则为 SoftmaxAttn 呈现的所有结果也公平地添加了 LayerScale。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

LM 和 ASR 对初始范数较为敏感。需要通过 (a) 相对位置嵌入进行调整;(b) 适当初始化 b 以实现相同效果 —— 允许使用任何位置嵌入。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-19 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...因为当前最佳的基于 Transformer 的 LLM 既深又宽,并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长
2024-08-05 09:35:00
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出
大模型的核心组件注意力机制,究竟如何诞生的?可能已经有人知道,它并非2017年Transformer开山论文《Attention is all you need》首创
2024-12-05 09:44:00
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分
2024-09-03 09:59:00
中国科研团队研发出低功耗类脑神经形态系统级芯片
...计算系统成为极具潜力的方向。本次研究基于的人脑中的注意力机制示意图。中国科学院自动化研究所/供图在本项研究中,合作团队提出“神经形态动态计算”的概念,通过设计一种类脑神经形态
2024-06-01 20:49:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek
2025-02-19 18:43:00
苹果 XR 头显专利曝光:可确定佩戴者注意力情况
...于眼睛注视的生物反馈”专利,可以确认XR头显佩戴者的注意力情况。苹果在专利中表示,头显佩戴者在扩展现实(XR)环境中,在进行观看教育或娱乐内容、冥想、学习新技能和阅读文档等场
2023-04-29 18:23:00
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入
2024-04-14 02:57:00
何生谈“注意与意识”:只有引起我们注意,才能被纳入意识
...孤立存在,而是整合为完整的物体表征。在这个过程中,注意力扮演着如同胶水的角色,将分散的信息有效地结合在一起。▷图注:注意力在信息整合时的角色。图源:由何生教授提供然而,何教授
2023-06-29 17:00:00
影响开发者生产力的因素有哪些?
...浪费大量时间之外,工具的速度过慢还会导致开发人员的注意力分散。由于工具缓慢而导致工作陷入停滞十分打击士气,特别是对于那些背负着沉重的时间压力的人来说。开发人员拥有的知识这是一
2023-07-20 16:00:00
更多关于科技的资讯:
比黄金涨的还猛!羽毛球价格上涨100% 网友纷纷提前囤货
快科技4月1日消息,近两年,众所周知,黄金价格真是一路狂飙。今日上午10点25分,黄金涨至3139.92美元的新纪录高位
2025-04-01 19:09:00
本文转自:人民网人民网北京4月1日电 (记者夏晓伦)当下,消费市场的竞争日益激烈,餐饮行业也在不断探寻新的发展路径与价值增长点
2025-04-01 19:16:00
全自研高性能RISC-V服务器芯片在前海首发
本文转自:人民网睿思芯科创始人、CEO谭章熹正式发布灵羽处理器。主办方供图人民网深圳4月1日电 (刘森君)3月31日,深圳前海企业睿思芯科举办2025春季新品发布会
2025-04-01 19:35:00
比亚迪腾势赵长江:Z9GT 120km/h追尾大货车 电池完好无损没有起火自燃
快科技4月1日消息,车辆碰撞后电池起火事件频发,再次引发大家对于新能源车安全的关注。今日,腾势销售事业部总经理赵长江微博发文称
2025-04-01 19:40:00
比亚迪腾势汽车3月销量达12620辆:平均成交价36.5万元
快科技4月1日消息,2025年4月1日,腾势汽车发布最新销量数据。3月,腾势汽车累计销量达12620辆,同比增长22.8%
2025-04-01 19:40:00
SU7爆燃致3人死亡:小米汽车遭遇最严峻的信任危机
经历了一整晚的微信聊天记录发酵之后,小米SU7在安徽高速上智驾发生车祸,导致三名花季少女丧生的命案,登上了热榜的头条。巨大的舆论风波背后
2025-04-01 19:40:00
女子冒风烧纸祈福引燃9辆车 官方通报:刑拘
快科技4月1日消息,清明将至,又到了祭祖祈福的时候,尤其需要提醒大家注意用火安全。据“北京朝阳消防”最新通报,3月30日
2025-04-01 19:40:00
10年来最大改版iOS 19六月登场!3款iPhone遭淘汰无缘升级
快科技4月1日消息,苹果将于6月10日举办WWDC开发者大会,届时将公开新一代iOS 19操作系统,有消息称这将是近十年来iOS系统最大幅度的改版
2025-04-01 19:40:00
连续53年吃35000个汉堡!美国72岁奇男子创纪录:非常健康
这绝对是一个不良的示范,但美国男子唐纳德·戈斯克(DonaldGorske)是个幸运儿!他是麦叔叔家巨无霸的“终极粉丝”
2025-04-01 19:40:00
天钡新款迷你机首发4099元:锐龙7 Pro 8845HS、6个3.5寸硬盘位
快科技4月1日消息,天钡WTR MAX“NAS型迷你主机”已经上市,首发4099元。新款迷你机采用全新模具,全金属一体化构造
2025-04-01 19:40:00
中国科大实现毫秒级可集成量子存储器
大皖新闻讯 大皖新闻记者从中国科学技术大学获悉,该校郭光灿院士团队的李传锋、周宗权研究组基于团队原创的无噪声光子回波方案
2025-04-01 19:49:00
夫妻自如租房5年:妻子多项指标异常
4月1日消息,据媒体报道,一对夫妻在杭州租住自如房屋5年,妻子体检发现多项指标异常,包括胸闷、过敏性咽炎、抵抗力降低、肺部结节
2025-04-01 20:10:00
十堰广电讯(全媒体记者 张陈堰 朱江 通讯员 纪宏新)3月底,世界规模最大原址保护的恐龙蛋化石遗址青龙山恐龙蛋化石群,首次成功尝试运用三维激光扫描技术
2025-04-01 20:24:00
携手十五载 共赢新未来:新克尔光电生产基地乔迁佛山
3月29日,广东新克尔光电科技有限公司(以下简称:新克尔光电)在佛山市三水区中南高科高端电子信息港举行生产基地乔迁仪式暨年度供应商大会
2025-04-01 20:26:00
海外媒体宣发:如何用全球声音塑造品牌影响力
一、案例启示:国际品牌的破圈密码在当今全球化的市场环境下,品牌影响力的提升已成为企业在激烈竞争中脱颖而出的关键因素。海外媒体发稿作为一种高效的品牌传播方式
2025-04-01 20:52:00