• 我的订阅
  • 科技

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

类别:科技 发布时间:2024-12-05 09:44:00 来源:量子位

大模型的核心组件注意力机制,究竟如何诞生的?

可能已经有人知道,它并非2017年Transformer开山论文《Attention is all you need》首创,而是来自2014年Bengio实验室的另一篇论文。

现在,这项研究背后更多细节被公开了!来自Karpathy与真正作者两年前的邮件往来,引起了很多讨论。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

到现在已有整10年历史。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

一作Dzmitry Bahdanau,当时是Bengio实验室的一位实习生,在实习只剩5周时灵光一现提出了一个简化方案,相当于实现了对角注意力。

Pytorch等经典代码中,正是把注意力称为Bahdanau Attention,还保留着他贡献的痕迹。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

Karpathy之所以现在提起这段往事,是因为最近社区中流传着一些误解,认为Transformer作者受到科幻电影《降临》中外星人交流方式的启发。

但其实Transformer作者中的Illia Polosukhin只是很久以后接受采访时用《降临》来类比。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

真正2014年Attention机制的灵感,其实来自人类翻译文字过程中来回看材料的行为。

除了澄清这一点之外,这段真实故事中还有更多亮点,对今天的研究仍有很多启发。

2014年的Attention,与同期Alex Graves论文Neural Turing Machines,和Jason Weston论文Memory Networks有类似之处,但这些研究出发点和动机不同。

说明在技术积累的临界点上,不同研究者常会独立地提出相似的创新。

原本的名字“RNNSearch”不够直观,后来在Yoshua Bengio的建议下改为“注意力”,更能抓住核心概念。

原来起个好名字,真的可以提升技术的传播和影响力。

有网友看过这个故事之后,感叹这封邮件“应该放在计算机科学博物馆”。

给这些改变世界的发现几乎总是从实验开始的,而且没有人真正提前知道它们的结局。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

以下为Dzmitry Bahdanau发给Karpathy的原始邮件全文翻译,邮件写于2022年。

10年前,Attention真正的诞生

嗨,Andrej。

很高兴为您讲述8年前发生的故事!

我在Jakobs University(德国雅各布大学)跟随Herbert Jaeger完成了硕士一年级的学业后,来到Yoshua(图灵奖得主Yoshua Bengio)的实验室实习。

我向Yoshua表示我愿意从事任何工作,他便让我参与机器翻译项目,与Kyunghyun Cho及团队展开合作。

我对将一系列单词塞进向量的想法非常怀疑,但我也真的很想要一个博士学位的offer,所以我卷起袖子,开始做我擅长的事情——编写代码、修复Bug等等。

在某个时候,我对团队正在进行的工作有了足够的了解,Yoshua邀请我攻读博士学位。2014年是个好时代,只需这些工作就足以让我读博了——美好的旧时光!

我很高兴,我觉得是时候享受乐趣并发挥创造力了。

于是我开始思考如何避免Encoder-Decoder RNN之间的信息瓶颈。

我的第一个想法是建立一个带有两个“光标”的模型:一个在源序列中移动,由BiRNN编码;另一个在目标序列中移动。光标轨迹将使用动态规划边际化。

Kyunghyun Cho认为这相当于Alex Graves的RNN Transducer模型。之后,我可能也读了Graves的手写识别论文,但这种方法对于机器翻译来说似乎不太合适。

上述带有光标的方法在我实习的剩余5周内很难实现,所以我尝试了更简单的方法——两个光标同时同步移动,实际上相当于硬编码的对角注意力。

这种方法有点效果,但缺乏优雅。

所以有一天我有了新的想法,让Decorder RNN学会在源序列中搜索放置光标的位置。这在一定程度上受到了我中学英语学习中翻译练习的启发。

在翻译时,你的目光会在源序列和目标序列之间来回移动,我将软搜索表示为softmax,然后对BiRNN 状态进行加权平均。从第一次尝试就效果很好,我非常兴奋。

我将这个架构称为RNNSearch,在1个GPU上运行。由于我们知道谷歌的Ilya(OpenAI前首席科学家Ilya Sutskever)团队使用8个GPU的LSTM模型在某些方面领先于我们,所以我们赶紧在ArXiV上发表了一篇论文。

后来发现,这个名字并不好。更好的名字(注意力)是Yoshua在最后的一次修改中添加到结论中的。

直观地说,这在解码器中实现了一种注意力机制,解码器决定源语句的哪些部分需要关注。通过让解码器具有注意力机制,我们减轻了编码器将源语句中的所有信息编码为固定长度向量的负担。通过这种新方法,信息可以分布在整个注释序列中,解码器可以相应地有选择地检索。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

一个半月后,我们看到了Alex Graves的论文。确实是完全相同的想法,尽管他的动机完全不同。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

在我们这边,发明新算法是需求驱动的。我猜在他那边,是连接神经学派和符号学派的雄心?Jason Weston团队的Memory Networks论文也有类似的机制。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

我没有预见到注意力可以在更低的层次上使用,作为表示学习的核心算法。

但当我看到Transformer论文时,我立即向实验室的同事宣布:RNN已死。

回到您最初的问题:在蒙特利尔Yoshua的实验室中“可微且数据依赖的加权平均”的发明与神经图灵机、Memory Networks以及90年代(甚至 70 年代;但我无法提供链接)的一些相关认知科学论文无关。

这是Yoshua推动实验室追求雄心壮志的领导成果,Kyunghyun Cho在管理由初级博士生和实习生组成的大型机器翻译项目方面的出色技能,以及我自己多年来在编程竞赛中磨练出的创造力和编程技能的结果。

即使我自己、Alex Graves和这个故事中的其他角色当时没有从事深度学习工作,离这个想法出现也不会太远了。

注意力只是深度学习中实现灵活空间连接的自然方式,这几乎是一个显而易见的想法,一直在等待GPU足够快,让人们有动力并认真对待深度学习研究。

自从我意识到这一点,我对AI的大志向就是启动像机器翻译那样令人惊叹的应用项目。

良好的研发工作可以为基础技术的进步做出更多贡献,而不是我们通常认为“真正的”人工智能研究的所有花哨的理论。

就酱!非常好奇听到更多关于您的AI教育项目的消息(我从 Harm de Vries 那里听到了一些传闻)。

干杯,Dima

One More Thing

Karpathy感叹,有点惊讶这篇真正的注意力起源论文没有获得足够多的关注。

自从Attention is all you need一飞冲天之后,大家意识到给论文起一个好名字对技术传播的影响,后面的论文标题就放飞了。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

除了扎堆模仿xx is all you need之外,最近甚至还出现了Taylor Unswift。

讲的是把模型权重转换成泰勒级数的参数,来保护已发布模型的所有权并防止被滥用。

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

就,emmm……

揭秘注意力机制真正起源!10年前3项研究几乎同时独立提出

提到的论文:

Neural Machine Translation by Jointly Learning to Align and Translate

https://arxiv.org/abs/1409.0473

Attention is All You Need

https://arxiv.org/abs/1706.03762

Neural Turing Machines

https://arxiv.org/abs/1410.5401

Generating Sequences With Recurrent Neural Networks

https://arxiv.org/abs/1308.0850

Memory Networks

https://arxiv.org/abs/1410.3916

Sequence to Sequence Learning with Neural Networks

https://arxiv.org/abs/1409.3215

Taylor Unswift:

https://arxiv.org/abs/2410.05331

参考链接:[1]https://x.com/karpathy/status/1864028921664319735

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-05 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

《索菲的起源》游戏特色介绍
...以独特的方式体验索菲的恐惧和悲伤。3、玩家需要集中注意力,利用特殊的精密机械来驾驭索菲的力量。4、游戏里有着行走、奔跑、跳跃和躲避的技能机制,还有特殊精密机械等待解锁。5、一
2024-01-20 00:30:00
高级外星文明在600万年前对黑猩猩基因改造创造了人类?
...上显得独一无二。然而,这一特征也引发了无数关于人类起源的猜想,其中最为引人入胜的莫过于外星人创造论。染色体的每一个变化,无论多微小,都可能对生物体产生深远的影响。拿人类常见的
2024-09-18 10:32:00
发行11年后,《CS:GO》迎来了续作
...迎来了不同程度的改变。▂文 / 派酱「明天大行动,后天起源2!」这个《CS:GO》社区最具代表性的梗,成为了过去式
2023-04-04 10:33:00
《Viewfinder》评测:恰到好处的视觉骗局
...与叙事间的关系——因为我实在很难在解题的过程中,将注意力集中在那些带有过多无用信息的文本和录音当中。说实话,直到游戏结束,我也没能完全理清几名出场角色间的关系。某些服务于“故
2023-08-05 21:51:00
《中华文明的形成》考古专著:早期中华文明是“一元多支一体”格局
...共同的文化基因,同时存在“多支”文化系统和多种文明起源路径或子模式,并发展交融形成以黄河—长江—西辽河流域为主体的、以黄河中游(中原地区)为核心的、多层次“一体”文化格局。中
2024-11-20 20:20:00
地球突遭19亿年前最强宇宙辐射,伽马射线暴始末离奇不可思议!
...释放,是宇宙中最为强大和短暂的事件之一。伽马射线暴起源于宇宙中的极端物理事件,主要有两个备受关注的方向。一种是恒星死亡,特别是超新星爆发,它们是质量较大的恒星在能量耗尽后快速
2023-12-27 10:35:00
《变形金刚起源》设定在30亿年前,《蝙蝠侠》“史诗犯罪传奇”确认
来看一下最新的消息1、【变形金刚】《变形金刚:起源》发布了全新的预告——这次的预告聚焦于电影的主要矛盾,也就是擎天柱和威震天的决裂。一些非主要角色也都有了一定的戏份,红蜘蛛正式确
2024-07-27 18:08:00
何生谈“注意与意识”:只有引起我们注意,才能被纳入意识
...孤立存在,而是整合为完整的物体表征。在这个过程中,注意力扮演着如同胶水的角色,将分散的信息有效地结合在一起。▷图注:注意力在信息整合时的角色。图源:由何生教授提供然而,何教授
2023-06-29 17:00:00
如果地球质量不变,半径缩小,卫星会掉下来吗?
...行,而且围绕太阳运行的轨道面还有诸多的行星,地球的起源理论上是和太阳系的起源同步的。目前最主流的学说认为,太阳系由一个原始星云团溃缩形成的,中间最大团物质云形成了母恒星~太阳
2024-06-11 09:46:00
更多关于科技的资讯: