• 我的订阅
  • 科技

Sigmoid注意力一样强,苹果开始重新审视注意力机制

类别:科技 发布时间:2024-09-19 12:02:00 来源:机器之心Pro
Sigmoid注意力一样强,苹果开始重新审视注意力机制

机器之心报道

机器之心编辑部

注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键对应的注意力权重。

尽管 SoftmaxAttn 中的 softmax 具有广泛的用途和有效性,但它并非没有局限性。例如,softmax 函数有时会导致注意力集中在少数几个特征,而忽略了其他信息。

近来,一些研究探索了 Transformer 中 softmax 注意力的替代方案,例如 ReLU 和 sigmoid 激活函数。最近,来自苹果的研究者重新审视了 sigmoid 注意力并进行了深入的理论和实验分析。

该研究证明:从理论上讲,与 softmax 注意力相比,具有 sigmoid 注意力的 Transformer 是通用函数逼近器,并且受益于改进的正则化。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

论文地址:https://arxiv.org/pdf/2409.04431 项目地址:https://github.com/apple/ml-sigmoid-attention 论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

该研究还提出了一种硬件感知且内存高效的 sigmoid 注意力实现 ——FLASHSIGMOID。FLASHSIGMOID 在 H100 GPU 上的推理内核速度比 FLASHATTENTION2 提高了 17%。

跨语言、视觉和语音的实验表明,合理归一化的 sigmoid 注意力与 softmax 注意力在广泛的领域和规模上性能相当,而之前的 sigmoid 注意力尝试无法实现这一点。

此外,该研究还用 sigmoid 内核扩展了 FLASHATTENTION2,将内核推理挂钟时间减少了 17%,将现实世界推理时间减少了 8%。

论文作者 Jason Ramapuram 表示:如果想让注意力快 18% 左右,你不妨试试 Sigmoid 注意力机制。他们用 Sigmoid 和基于序列长度的常量标量偏置取代了注意力机制中的传统 softmax。

Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制

igmoid 注意力理论基础

该研究对 SigmoidAttn 进行了分析,分析的目的主要有两个:(1)证明当 SigmoidAttn 取代 SoftmaxAttn 时,Transformer 架构仍然是一个通用函数逼近器;(2)通过计算 SigmoidAttn 的 Lipschitz 常数来恢复其规律性。

具有 Sigmoid 注意力的 Transformer 是通用逼近器吗?

经典 Transformer 可以将连续的序列到序列函数近似到任意精度,这一特性称为通用近似特性 (UAP,Universal Approximation Property)。UAP 非常受欢迎,因为它证明了架构的通用性和表示能力。由于 SigmoidAttn 修改了 Transformer 架构,因此从理论上保证这种修改不会影响表示能力并保留 UAP 的性能至关重要。该研究通过以下定理提供此保证。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

结果表明,即使使用 SigmoidAttn,一系列 transformer 块也可以实现上下文映射。

Sigmoid 注意力的正则性

与神经网络中的任何层一样,SigmoidAttn 的正则性值得研究,因为它可以深入了解相应网络的鲁棒性及其优化的难易程度。

SigmoidAttn 正则性定理为:

Sigmoid注意力一样强,苹果开始重新审视注意力机制

结果证明,SigmoidAttn 的局部 Lipschitz 常数远低于 SoftmaxAttn 的最差局部 Lipschitz 常数。

FLASHSIGMOID:硬件感知实现

现代架构上的注意力计算往往会受到内存访问 IO 的限制。FLASHATTENTION 和 FLASHATTENTION2 通过优化 GPU 内存层次结构利用率来加速注意力计算。得益于这些方法提供的速度提升,该研究开发了 SigmoidAttn 的硬件感知实现 ——FLASHSIGMOID,采用了三个核心思路:

Tiling:注意力分而治之的方法:与 FLASHATTENTION 和 FLASHATTENTION2 类似,FLASHSIGMOID 并行处理输入部分以计算块中的注意力输出,有效地组合部分结果以生成最终的注意力输出。 内核融合:与 FLASHATTENTION 和 FLASHATTENTION2 一样,FLASHSIGMOID 将 SigmoidAttn 的前向和后向传递的计算步骤实现为单个 GPU 内核,通过避免高带宽内存 (HBM) 上的中间激活具体化,最大限度地减少内存访问并提高内存效率。 激活重计算:sigmoid 注意力的向后传递需要 sigmoid 激活矩阵,如果在 GPU HBM 上具体化,则会导致执行速度变慢和内存效率低下。FLASHSIGMOID 通过仅保留查询、键和值张量来解决这个问题,以便在向后传递期间重新计算 sigmoid 激活矩阵。尽管增加了 FLOPs,但事实证明,与具体化和保留注意力矩阵的替代方法相比,这种方法在挂钟时间上更快,并且内存效率更高。

实验

为了实验验证 SigmoidAttn,该研究在多个领域进行了评估:使用视觉 transformer 进行监督图像分类、使用 SimCLR 进行自监督图像表示学习、BYOL(Bootstrap Your Own Latent)和掩码自动编码器 (MAE) 以及自动语音识别 (ASR) 和自回归语言建模 (LM)。

该研究还在 TED-LIUM v3 上验证了 ASR 的序列长度泛化,在所有这些领域和算法中,该研究证明 SigmoidAttn 的性能与 SoftmaxAttn 相当(图 2 和 21),同时提供训练和推理加速。

Sigmoid注意力一样强,苹果开始重新审视注意力机制
Sigmoid注意力一样强,苹果开始重新审视注意力机制

该研究得出以下观察结果:

SigmoidAttn 对于没有偏置的视觉任务是有效的(MAE 除外),但依赖于 LayerScale 以无超参数的方式匹配基线 SoftmaxAttn(图 9-a)的性能。除非另有说明,否则为 SoftmaxAttn 呈现的所有结果也公平地添加了 LayerScale。

Sigmoid注意力一样强,苹果开始重新审视注意力机制

LM 和 ASR 对初始范数较为敏感。需要通过 (a) 相对位置嵌入进行调整;(b) 适当初始化 b 以实现相同效果 —— 允许使用任何位置嵌入。

感兴趣的读者可以阅读论文原文,了解更多研究内容。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-19 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
...因为当前最佳的基于 Transformer 的 LLM 既深又宽,并且计算注意力的成本会随 prompt 中 token 数量而呈二次增长
2024-08-05 09:35:00
揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出
大模型的核心组件注意力机制,究竟如何诞生的?可能已经有人知道,它并非2017年Transformer开山论文《Attention is all you need》首创
2024-12-05 09:44:00
Mamba作者新作:将Llama3蒸馏成混合线性 RNN
Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分
2024-09-03 09:59:00
苹果 XR 头显专利曝光:可确定佩戴者注意力情况
...于眼睛注视的生物反馈”专利,可以确认XR头显佩戴者的注意力情况。苹果在专利中表示,头显佩戴者在扩展现实(XR)环境中,在进行观看教育或娱乐内容、冥想、学习新技能和阅读文档等场
2023-04-29 18:23:00
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
...v。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek
2025-02-19 18:43:00
中国科研团队研发出低功耗类脑神经形态系统级芯片
...计算系统成为极具潜力的方向。本次研究基于的人脑中的注意力机制示意图。中国科学院自动化研究所/供图在本项研究中,合作团队提出“神经形态动态计算”的概念,通过设计一种类脑神经形态
2024-06-01 20:49:00
金博智慧:注意力训练仪的原理与可行性分析
注意力训练仪通过调节特定脑区(如前额叶皮层和顶叶皮层)的兴奋性,影响大脑网络(如前额顶叶网络和背侧注意网络)的连接性,并促进神经可塑性(如诱导LTP/LTD样效应、影响BDNF表
2025-07-25 15:03:00
infini-attention:谷歌大内存机制
...最新SOTA。这就是谷歌最新提出的 Infini-attention机制(无限注意力)。它能让Transformer架构大模型在有限的计算资源里处理无限长的输入
2024-04-14 02:57:00
血压偏高的人,平时需要注意饮食,多吃5种“降压”食物
...这可能是一个不好的征兆暗示高血压恶化的一个信号。6.注意力不集中高血压初期此症状不明显,但是随着病情发展,中度或者重度高血压人群容易注意力分散,很难记住近期发生的事,却对陈年
2023-01-05 21:38:00
更多关于科技的资讯:
百度发债,释放何种信号?
9月8日,百度宣布计划于美国境外以离岸交易方式,发行以人民币计值的优先无担保票据;票据发行所得款项净额将用作一般公司用途
2025-09-13 09:38:00
不挤牙膏、全面堆料,iPhone 17能赢回中国用户吗?
“透视图”是36氪新推出的轻量化数据图文栏目——以数据透视趋势,以图片呈现要点。"Talk is Cheap. Show me the data
2025-09-13 14:55:00
全网高呼“小米太子你糊涂啊”,他被辞退揭开大厂的头号隐患
数日前人们讨论得有多热闹,如今的沉默就多震耳欲聋。小米辞退被外界称为“雷军接班人”的王腾一事,似乎再无下文。就连王腾以前几乎天天发的微博
2025-09-13 23:24:00
鲁网9月12日讯近日,北京国际大数据交易所专家朱大培携蘑菇车联信息科技有限公司、北京优锘科技有限公司、泰安协同软件有限公司一行来高新区调研数据要素相关工作
2025-09-13 08:51:00
德百家电澳德乐店开业盛典暨卡萨帝美食争霸赛报名火热开启
鲁网9月12日讯(记者 逯广宇 实习记者 李安琦)当智能科技邂逅舌尖美味,一场兼具创意与惊喜的盛宴即将登场!9月10日
2025-09-13 09:26:00
江苏南京:机器人“交警” “上岗”倒计时
机器人“交警” “上岗”倒计时能指挥交通,会查酒驾和巡逻,正由宁企携手国内人形机器人“领头羊”联手开发众擎机器人未来将走上大街
2025-09-13 09:57:00
济南能投集团斩获CMMI5级国际认证,软件研发实力跻身国际领先水平!
近日,济南能投集团山东和同信息科技股份有限公司(以下简称“和同信息”)成功通过全球软件能力成熟度模型集成最高等级——CMMI5级认证
2025-09-13 12:04:00
济南能源投资控股集团2025年高校毕业生业务轮训圆满收官
9月12日,济南能源投资控股集团2025年高校毕业生业务轮训工作正式落下帷幕。本次轮训为期两周,聚焦新入职大学生成长需求与能投集团人才储备目标
2025-09-13 12:11:00
数智化会员经济峰会暨数韵商城产业集群品牌盛典圆满落幕!
数智化会员经济峰会暨数韵商城产业集群品牌盛典2025年9月9日,湖南长沙星光熠熠、热潮涌动!绿之韵·数韵国际重磅打造的数智化会员经济峰会暨数韵商城产业集群品牌盛典盛大启幕
2025-09-13 15:20:00
叫叫亮相2025年服贸会 儿童数字内容领域创新成果集中亮相
2025 年 9 月 10 日至 14 日,以 “数智领航,服贸焕新” 为年度主题的中国国际服务贸易交易会(简称 “服贸会”)在北京盛大举办
2025-09-13 15:20:00
贵州酒业封坛策划公司亿加管理助力酱酒产业峰会、封坛文化节落地
项目总策划总负责人:龙亿加(龙娟)项目总督导执行人:甘霖项目服务体系督导:甘霖项目营销体系建设:胡建强项目销讲营销成交:胡建强项目营销辅导:刘进路项目品牌视觉管理:张怀宇项目仪式指导司仪:一洋从 “基础筑基” 到 “细节落地”
2025-09-13 15:21:00
当前,人工智能以颠覆性力量重塑教育生态,为人们带来高效、个性化的学习体验。聚焦国内,教育数字化已成为我国开辟教育发展新赛道
2025-09-13 15:22:00
亲邻科技双展联动首发骑手友好通行服务 智慧社区方案硕果累累
近日,深耕行业十年的亲邻科技,以“智慧社区整体解决方案”先后亮相“2025世界智能产业博览会”和“2025外滩大会”。通过此次双展联动
2025-09-13 15:24:00
“苏超”元素闪耀2025中国体育“两个博览会”
如今的苏州,什么最能牵动人心?是曲径通幽的古典园林,还是夜半钟声的千年古刹?是,却也不全是。一种全新的城市脉搏正在这里强劲跳动——那便是“苏超”
2025-09-13 17:53:00
为什么年轻人拒绝精致累?今年秋天,舒服才是最大的时髦
时尚不再只为被看见,更为被感知。TikTok Shop最新趋势报告指出,舒适、功能与多场景适配成为消费者决策的关键。一
2025-09-13 21:17:00