• 我的订阅
  • 科技

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

类别:科技 发布时间:2024-12-05 09:44:00 来源:量子位

大模型的核心组件注意力机制,究竟如何诞生的?

可能已经有人知道,它并非2017年Transformer开山论文《Attention is all you need》首创,而是来自2014年Bengio实验室的另一篇论文。

现在,这项研究背后更多细节被公开了!来自Karpathy与真正作者两年前的邮件往来,引起了很多讨论。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

到现在已有整10年历史。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

一作Dzmitry Bahdanau,当时是Bengio实验室的一位实习生,在实习只剩5周时灵光一现提出了一个简化方案,相当于实现了对角注意力。

Pytorch等经典代码中,正是把注意力称为Bahdanau Attention,还保留着他贡献的痕迹。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

Karpathy之所以现在提起这段往事,是因为最近社区中流传着一些误解,认为Transformer作者受到科幻电影《降临》中外星人交流方式的启发。

但其实Transformer作者中的Illia Polosukhin只是很久以后接受采访时用《降临》来类比。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

真正2014年Attention机制的灵感,其实来自人类翻译文字过程中来回看材料的行为。

除了澄清这一点之外,这段真实故事中还有更多亮点,对今天的研究仍有很多启发。

2014年的Attention,与同期Alex Graves论文Neural Turing Machines,和Jason Weston论文Memory Networks有类似之处,但这些研究出发点和动机不同。

说明在技术积累的临界点上,不同研究者常会独立地提出相似的创新。

原本的名字“RNNSearch”不够直观,后来在Yoshua Bengio的建议下改为“注意力”,更能抓住核心概念。

原来起个好名字,真的可以提升技术的传播和影响力。

有网友看过这个故事之后,感叹这封邮件“应该放在计算机科学博物馆”。

给这些改变世界的发现几乎总是从实验开始的,而且没有人真正提前知道它们的结局。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

以下为Dzmitry Bahdanau发给Karpathy的原始邮件全文翻译,邮件写于2022年。

10年前,Attention真正的诞生

嗨,Andrej。

很高兴为您讲述8年前发生的故事!

我在Jakobs University(德国雅各布大学)跟随Herbert Jaeger完成了硕士一年级的学业后,来到Yoshua(图灵奖得主Yoshua Bengio)的实验室实习。

我向Yoshua表示我愿意从事任何工作,他便让我参与机器翻译项目,与Kyunghyun Cho及团队展开合作。

我对将一系列单词塞进向量的想法非常怀疑,但我也真的很想要一个博士学位的offer,所以我卷起袖子,开始做我擅长的事情——编写代码、修复Bug等等。

在某个时候,我对团队正在进行的工作有了足够的了解,Yoshua邀请我攻读博士学位。2014年是个好时代,只需这些工作就足以让我读博了——美好的旧时光!

我很高兴,我觉得是时候享受乐趣并发挥创造力了。

于是我开始思考如何避免Encoder-Decoder RNN之间的信息瓶颈。

我的第一个想法是建立一个带有两个“光标”的模型:一个在源序列中移动,由BiRNN编码;另一个在目标序列中移动。光标轨迹将使用动态规划边际化。

Kyunghyun Cho认为这相当于Alex Graves的RNN Transducer模型。之后,我可能也读了Graves的手写识别论文,但这种方法对于机器翻译来说似乎不太合适。

上述带有光标的方法在我实习的剩余5周内很难实现,所以我尝试了更简单的方法——两个光标同时同步移动,实际上相当于硬编码的对角注意力。

这种方法有点效果,但缺乏优雅。

所以有一天我有了新的想法,让Decorder RNN学会在源序列中搜索放置光标的位置。这在一定程度上受到了我中学英语学习中翻译练习的启发。

在翻译时,你的目光会在源序列和目标序列之间来回移动,我将软搜索表示为softmax,然后对BiRNN 状态进行加权平均。从第一次尝试就效果很好,我非常兴奋。

我将这个架构称为RNNSearch,在1个GPU上运行。由于我们知道谷歌的Ilya(OpenAI前首席科学家Ilya Sutskever)团队使用8个GPU的LSTM模型在某些方面领先于我们,所以我们赶紧在ArXiV上发表了一篇论文。

后来发现,这个名字并不好。更好的名字(注意力)是Yoshua在最后的一次修改中添加到结论中的。

直观地说,这在解码器中实现了一种注意力机制,解码器决定源语句的哪些部分需要关注。通过让解码器具有注意力机制,我们减轻了编码器将源语句中的所有信息编码为固定长度向量的负担。通过这种新方法,信息可以分布在整个注释序列中,解码器可以相应地有选择地检索。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

一个半月后,我们看到了Alex Graves的论文。确实是完全相同的想法,尽管他的动机完全不同。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

在我们这边,发明新算法是需求驱动的。我猜在他那边,是连接神经学派和符号学派的雄心?Jason Weston团队的Memory Networks论文也有类似的机制。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

我没有预见到注意力可以在更低的层次上使用,作为表示学习的核心算法。

但当我看到Transformer论文时,我立即向实验室的同事宣布:RNN已死。

回到您最初的问题:在蒙特利尔Yoshua的实验室中“可微且数据依赖的加权平均”的发明与神经图灵机、Memory Networks以及90年代(甚至 70 年代;但我无法提供链接)的一些相关认知科学论文无关。

这是Yoshua推动实验室追求雄心壮志的领导成果,Kyunghyun Cho在管理由初级博士生和实习生组成的大型机器翻译项目方面的出色技能,以及我自己多年来在编程竞赛中磨练出的创造力和编程技能的结果。

即使我自己、Alex Graves和这个故事中的其他角色当时没有从事深度学习工作,离这个想法出现也不会太远了。

注意力只是深度学习中实现灵活空间连接的自然方式,这几乎是一个显而易见的想法,一直在等待GPU足够快,让人们有动力并认真对待深度学习研究。

自从我意识到这一点,我对AI的大志向就是启动像机器翻译那样令人惊叹的应用项目。

良好的研发工作可以为基础技术的进步做出更多贡献,而不是我们通常认为“真正的”人工智能研究的所有花哨的理论。

就酱!非常好奇听到更多关于您的AI教育项目的消息(我从 Harm de Vries 那里听到了一些传闻)。

干杯,Dima

One More Thing

Karpathy感叹,有点惊讶这篇真正的注意力起源论文没有获得足够多的关注。

自从Attention is all you need一飞冲天之后,大家意识到给论文起一个好名字对技术传播的影响,后面的论文标题就放飞了。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

除了扎堆模仿xx is all you need之外,最近甚至还出现了Taylor Unswift。

讲的是把模型权重转换成泰勒级数的参数,来保护已发布模型的所有权并防止被滥用。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

就,emmm……

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

提到的论文:

Neural Machine Translation by Jointly Learning to Align and Translate

https://arxiv.org/abs/1409.0473

Attention is All You Need

https://arxiv.org/abs/1706.03762

Neural Turing Machines

https://arxiv.org/abs/1410.5401

Generating Sequences With Recurrent Neural Networks

https://arxiv.org/abs/1308.0850

Memory Networks

https://arxiv.org/abs/1410.3916

Sequence to Sequence Learning with Neural Networks

https://arxiv.org/abs/1409.3215

Taylor Unswift:

https://arxiv.org/abs/2410.05331

参考链接:[1]https://x.com/karpathy/status/1864028921664319735

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-05 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

《索菲的起源》游戏特色介绍
...以独特的方式体验索菲的恐惧和悲伤。3、玩家需要集中注意力,利用特殊的精密机械来驾驭索菲的力量。4、游戏里有着行走、奔跑、跳跃和躲避的技能机制,还有特殊精密机械等待解锁。5、一
2024-01-20 00:30:00
高级外星文明在600万年前对黑猩猩基因改造创造了人类?
...上显得独一无二。然而,这一特征也引发了无数关于人类起源的猜想,其中最为引人入胜的莫过于外星人创造论。染色体的每一个变化,无论多微小,都可能对生物体产生深远的影响。拿人类常见的
2024-09-18 10:32:00
发行11年后,《CS:GO》迎来了续作
...迎来了不同程度的改变。▂文 / 派酱「明天大行动,后天起源2!」这个《CS:GO》社区最具代表性的梗,成为了过去式
2023-04-04 10:33:00
《Viewfinder》评测:恰到好处的视觉骗局
...与叙事间的关系——因为我实在很难在解题的过程中,将注意力集中在那些带有过多无用信息的文本和录音当中。说实话,直到游戏结束,我也没能完全理清几名出场角色间的关系。某些服务于“故
2023-08-05 21:51:00
... (记者 陈静)近年来,科学界的发现证明,真核生物可能起源于古菌中的“阿斯加德古菌”,但起源于“阿斯加德古菌”的哪一支类群,这关乎真核生物细胞在地球上首次出现的时间以及彼时古
2025-05-08 10:40:00
《中华文明的形成》考古专著:早期中华文明是“一元多支一体”格局
...共同的文化基因,同时存在“多支”文化系统和多种文明起源路径或子模式,并发展交融形成以黄河—长江—西辽河流域为主体的、以黄河中游(中原地区)为核心的、多层次“一体”文化格局。中
2024-11-20 20:20:00
地球突遭19亿年前最强宇宙辐射,伽马射线暴始末离奇不可思议!
...释放,是宇宙中最为强大和短暂的事件之一。伽马射线暴起源于宇宙中的极端物理事件,主要有两个备受关注的方向。一种是恒星死亡,特别是超新星爆发,它们是质量较大的恒星在能量耗尽后快速
2023-12-27 10:35:00
《变形金刚起源》设定在30亿年前,《蝙蝠侠》“史诗犯罪传奇”确认
来看一下最新的消息1、【变形金刚】《变形金刚:起源》发布了全新的预告——这次的预告聚焦于电影的主要矛盾,也就是擎天柱和威震天的决裂。一些非主要角色也都有了一定的戏份,红蜘蛛正式确
2024-07-27 18:08:00
何生谈“注意与意识”:只有引起我们注意,才能被纳入意识
...孤立存在,而是整合为完整的物体表征。在这个过程中,注意力扮演着如同胶水的角色,将分散的信息有效地结合在一起。▷图注:注意力在信息整合时的角色。图源:由何生教授提供然而,何教授
2023-06-29 17:00:00
更多关于科技的资讯:
《视野》杂志启动AI协作创作大赛
中国青年报客户端讯(中青报·中青网记者 马富春)2月13日,《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开
2026-02-14 20:52:00
新春走基层丨76秒,一套汽车零部件焊接就能下线
见习记者 朱荣琛2月12日,农历腊月廿五。春节临近,廊坊经开区道路两旁挂上了大红灯笼,沿街企业的大门已贴上了大对联。热热闹闹的年味儿在这个城市的大街小巷悄然弥漫
2026-02-14 22:12:00
针对春节期间服务需求,中国银行隆尧支行近日聚焦自助服务渠道,启动了专项保障工作。针对县域网点分布广、运维半径长的特点,隆尧支行依托历史运行数据
2026-02-14 22:17:00
领航新质生产力——2025浙江省科学企业家这个专题,是省科协和潮新闻联合举办的,已陆续推出了近二十位具有科技创新精神的浙商企业家
2026-02-14 22:34:00
深圳地铁陪你「返屋企」,跨场景互动刷新通勤与春运体验
近日,深圳地铁迎来了新春限定数字人,结合AI原创音乐与互动体验,走到了春运最前沿。这是深圳地铁数字IP首次以完整的互动形态沉浸式接入城市公共空间
2026-02-14 20:26:00
2月14日消息,2026年“新春招聘月”系列活动将于2月24日(正月初八)在五一广场太原人才大市场(迎泽区零工示范站)正式启幕
2026-02-14 17:37:00
星火空间完成数千万天使+轮融资 核心产品“进化一号”发动机完成首次试车
大皖新闻讯 此前关于合肥要造火箭的消息引发外界广泛关注,背后则是合肥星火空间科技有限公司(以下简称“星火空间”)落户合肥新站高新区
2026-02-14 18:45:00
国医大师李佃贵为2026雄安国际医疗大健康技术应用大赛发声推介。他表示,当下是中西医并重、传统智慧与现代科技深度融合的时代,中医核心思想与大健康领域发展目标高度契合,期待中医药领
2026-02-14 19:13:00
中国科大取得重要突破 首次实现量子李雅普诺夫指数的精确提取
大皖新闻讯 ”这一结果意义重大,为观测混沌的量子世界提供了全新视角。”相关人员如此评价说。2月14日,大皖新闻记者从中国科学技术大学获悉
2026-02-14 17:35:00
鲁网2月14日讯为提升居民网络使用体验,助力智慧社区建设,近日,山东移动临沂分公司装维团队深入多个社区,开展 “移动装维进社区”专项服务活动
2026-02-14 15:10:00
山东移动临沂分公司:智慧装维服务升级,开启家庭网络新体验
鲁网2月14日讯“您好,我是中国移动装维工程师张师傅,现在上门为您检测网络,这是我的工作证件。”周六上午9点,临沂北城新区书香苑小区的王女士刚结束早间会议
2026-02-14 15:11:00
字节跳动发布豆包大模型2.0,主打真实世界复杂任务执行力
在连续发布Seedance 2.0视频模型、Seedream 5.0 Lite图像模型之后,2月14日,字节跳动宣布推出豆包大模型2
2026-02-14 15:35:00
从米兰冬奥会看全球消费趋势:为何“由你”成了2026年的新叙事?
过去十年,全球化品牌的策略多为“We are the best”,强调品牌的权威感。但现在的趋势是“Its your turn”
2026-02-14 16:20:00
千问大免单再加3天,邀请全国人民体验AI买电影票,激活春节AI新消费
2月14日,千问突然宣布免单再加3天,接入大麦、飞猪,邀请全国人民体验AI买电影票、门票等新功能,激活春节AI新消费。从今天下午3点到大年初一
2026-02-14 16:36:00
依据河北省消费者权益保护委员会联合北京阳光消费大数据研究院于2025年8月发布的智能坐便器比较试验结果,九牧送检样品(型号ZD9640-SA-CJM000
2026-02-14 15:10:00