• 我的订阅
  • 科技

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

类别:科技 发布时间:2024-10-15 09:56:00 来源:机器之心Pro

自从 Transformer 模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷。

这次登场的选手,不仅要挑战 Transformer 的地位,还致敬了经典论文的名字。

再看这篇论文的作者列表,图灵奖得主、深度学习三巨头之一的 Yoshua Bengio 赫然在列。

论文标题:Were RNNs All We Needed? 论文地址:https://arxiv.org/pdf/2410.01201v1

最近,大家重新对用循环序列模型来解决 Transformer 长上下文的问题产生了兴趣,出现了一大批有关成果,其中 Mamba 的成功引爆了 AI 圈,更是点燃了大家的研究热情。

Bengio 和他的研究团队发现,这些新的序列模型有很多共同点,于是他们重新审视了 LSTM 和 GRU 这两种经典 RNN 模型。

结果发现,精简掉其中的隐藏状态依赖之后,不再需要基于时间反向传播的 LSTM 和 GRU 的表现就能和 Transformer 打个平手。

LSTM 和 GRU 仅能顺序处理信息,并且在训练时依赖反向传播,这使得它们在处理大量数据时速度缓慢,最终被淘汰。

基于以上发现,他们进一步简化了 LSTM 和 GRU,去掉了它们对输出范围的限制,并确保它们的输出在时间上是独立的,进而得到了 minLSTM 和 minGRU。

相比传统 RNN,它们不仅训练时所需的参数显著减少,还可以并行训练,比如上下文长度为 512 时,速度能提升 175 倍。

这其实也是 Bengio 长期关注 RNN 的系列研究成果。在今年五月,Bengio 及其研究团队和加拿大皇家银行 AI 研究所 Borealis AI 合作发布了一篇名为《Attention as an RNN》的论文。

正如论文名字所示,他们将注意力机制重新诠释为一种 RNN,引入了一种基于并行前缀扫描(prefix scan)算法的新的注意力公式,该公式能够高效地计算注意力的多对多(many-to-many)RNN 输出。基于新公式的模块 Aaren,不仅可以像 Transformer 一样并行训练,还可以像 RNN 一样高效更新。

更多详情,可以参见机器之心之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer,但超级省内存》

简化 LSTM 和 GRU

在这一部分,研究者通过简化和移除各种门中的若干隐藏状态依赖关系,证明 GRU 和 LSTM 可通过并行扫描进行训练。

在此基础上,研究者进一步简化了这些 RNN,消除了它们对输出范围的限制(即 tanh),并确保输出在规模上与时间无关。

综合上述步骤,研究者提出了 GRUs 和 LSTMs 的最小版本(minGRUs 和 minLSTMs),它们可通过并行扫描进行训练,且性能可与 Transformers 和最近提出的序列方法相媲美。

minGRU

研究者结合了两个简化步骤,得到了一个极简版的 GRU(minGRU)。

minLSTM

研究者结合了三个简化步骤,得到 LSTM 的最小版本(minLSTM):

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?

Were RNNs All We Needed?

在本节中,研究者将对最小版本(minLSTMs 和 minGRUs)与传统版本(LSTMs 和 GRUs)以及现代序列模型进行了比较。

Minimal LSTMs 和 GRU 非常高效

在测试时,循环序列模型会按顺序推出,从而使其推理更为高效。相反,传统 RNN 的瓶颈在于其训练,需要线性训练时间(通过时间反向传播),这导致其最终被淘汰。人们对循环序列模型重新产生兴趣,是因为许多新的架构可以高效地进行并行训练。

研究者对比了训练传统 RNN(LSTM 和 GRU)、它们的最小版本(minLSTM 和 minGRU)以及一种最新的序列模型所需的资源,还特别将重点放在与最近大受欢迎的 Mamba 的比较上。实验考虑了 64 的批大小,并改变了序列长度。研究者测量了通过模型执行前向传递、计算损失和通过后向传递计算梯度的总运行时间和内存复杂度。

运行时间。在运行时间方面(见图 1(左)),简化版 LSTM 和 GRU(minLSTM 和 minGRU)Mamba 的运行时间相近。对 100 次运行进行平均,序列长度为 512 的 minLSTM、minGRU 和 Mamba 的运行时间分别为 2.97、2.72 和 2.71 毫秒。

对于长度为 4096 的序列,运行时间分别为 3.41、3.25 和 3.15 毫秒。相比之下,传统的 RNN 对应程序(LSTM 和 GRU)所需的运行时间与序列长度成线性关系。对于 512 的序列长度,在 T4 GPU 上,minGRUs 和 minLSTMs 每个训练步骤的速度分别比 GRUs 和 LSTMs 快 175 倍和 235 倍(见图 1(中))。随着序列长度的增加,minGRUs 和 minLSTMs 的改进更为显著,在序列长度为 4096 时,minGRUs 和 minLSTMs 的速度分别提高了 1324 倍和 1361 倍。因此,在 minGRU 需要一天才能完成固定数量的 epoch 训练的情况下,其传统对应的 GRU 可能需要 3 年多的时间。

内存。通过利用并行扫描算法高效地并行计算输出,minGRU、minLSTM 和 Mamba 创建了一个更大的计算图,因此与传统的 RNN 相比需要更多内存(见图 1(右))。与传统的 RNN 相比,最小变体(minGRU 和 minLSTM)多用了 88% 的内存。与 minGRU 相比,Mamba 多用了 56% 的内存。但实际上,运行时间是训练 RNN 的瓶颈。

训练稳定性。层数的另一个影响是稳定性增强,随着层数的增加,准确率的差异减小(见表 1)。此外,虽然 minLSTM 和 minGRU 都能解决选择性复制任务,但可以看到 minGRU 是一种经验上比 minLSTM 更稳定的方法,它能以更高的一致性和更低的方差解决该任务。在训练过程中,这两组参数的调整方向不同,使得比率更难控制和优化。相比之下,minGRU 的信息丢弃和添加由单组参数(更新门)控制,因此更容易优化。

Minimal LSTMs 和 GRUs 表现良好

上述内容展示了简化传统 RNN 所带来的显著效率提升。这部分将探讨最小版本的 LSTM 和 GRU 与几种流行的序列模型相比的经验性能。

选择性复制。此处考虑 Mamba 论文中的长序列选择性复制任务。与最初的复制任务不同,选择性复制任务的输入元素相对于输出元素是随机间隔的,这增加了任务的难度。为了解决这个任务,模型需要进行内容感知推理,记忆依赖的 token 并过滤掉不依赖的 token。

表 2 将简化版的 LSTM 和 GRU(minLSTM 和 minGRU)与可以并行训练的著名循环序列模型进行了比较:S4、H3、Hyena 和 Mamba (S6)。这些基线的结果引自 Mamba 论文。在所有这些基线中,只有 Mamba 论文中的 S6 能够解决这一任务。minGRU 和 minLSTM 也能解决选择性复制任务,其性能与 S6 相当,并优于所有其他基线。LSTM 和 GRU 利用内容感知门控机制,使得这些最小版本足以解决许多热门序列模型无法解决的这一任务。

强化学习。接下来,研究者讨论了 D4RL 基准中的 MuJoCo 运动任务。具体来说考虑了三种环境:HalfCheetah、Hopper 和 Walker。对于每种环境,模型都在三种不同数据质量的数据集上进行训练:中等数据集(M)、中等游戏数据集(M-R)和中等专家数据集(M-E)。

表 3 将 minLSTM 和 minGRU 与各种 Decision Transformer 变体进行了比较,包括原始 Decision Transformer (DT)、Decision S4 (DS4)、Decision Mamba 和(Decision)Aaren。minLSTM 和 minGRU 的性能优于 Decision S4,与 Decision Transformer、Aaren 和 Mamba 相比也不遑多让。与其他循环方法不同,Decision S4 是一种循环转换不感知输入的模型,这影响了其性能。从 3 × 3 = 9 个数据集的平均得分来看,minLSTM 和 minGRU 优于所有基线方法,只有 Decision Mamba 的差距很小。

语言建模。研究者使用 nanoGPT 框架对莎士比亚作品进行字符级 GPT 训练。图 2 用交叉熵损失绘制了学习曲线,将所提出的最小 LSTM 和 GRU(minLSTM 和 minGRU)与 Mamba 和 Transformers 进行了比较。结果发现,minGRU、minLSTM、Mamba 和 Transformers 的测试损失相当,分别为 1.548、1.555、1.575 和 1.547。Mamba 的表现略逊于其他模型,但训练速度更快,尤其是在早期阶段,在 400 步时达到最佳表现,而 minGRU 和 minLSTM 则分别持续训练到 575 步和 625 步。相比之下,Transformers 的训练速度明显较慢,需要比 minGRU 多 2000 步(∼ 2.5 倍)的训练步骤才能达到与 minGRU 相当的性能,这使得它的训练速度明显更慢,资源消耗也更大(与 minGRU、minLSTM 和 Mamba 的线性复杂度相比,Transformers 的复杂度为二次方)。

更多研究细节,可参考原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-15 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

大模型不是未来?你需要学习下图灵奖得主Yann LeCun选择的“世界模型”
最近一段时间,以 GPT 为代表的大型语言模型(LLM)成就非凡,应用丛生,还被很多人视为实现通用人工智能(AGI)的重大里程碑,也由此带来了一些「大规模失业论」甚至「AI 末日
2023-06-26 13:37:00
图灵奖得主杨立昆:AI的逻辑推理和规划能力有限,会犯事实错误和逻辑错误
出品|搜狐科技作者|郑松毅6月9日,2023智源人工智能大会在北京举办。法国当地时间凌晨四点,被誉为“世界深度学习三巨头”之一的杨立昆(Yann LeCun)在法国视频连线北京现
2023-06-10 05:00:00
图灵奖得主杨立昆“炮轰”机器人:演示惊艳实际很蠢 不少公司都在豪赌
快科技3月15日消息,近日,图灵奖得主、Meta首席AI科学家杨立昆在一档播客节目中“炮轰”人形机器人,“很多人形机器人演示令人印象深刻,但实际很蠢,不少机器人公司都在豪赌未来3
2025-03-15 10:53:00
英伟达撑腰+图灵奖得主投资 这家企业赛道的公司成为AI领域第三大独角兽
...者不仅包括英伟达、甲骨文、Salesforce等巨头,同时还有图灵奖得主Geoffrey Hinton、斯坦福AI教授李飞飞等一众圈内大佬
2023-06-15 11:57:00
外滩大会今日开幕 近20位“两院”院士、诺贝尔奖和图灵奖得主参会 【外滩大会今日开幕 近20位“两院”院士、诺贝尔奖和图灵奖得主参会】《科创板日报》7日讯
2023-09-07 10:06:00
本文转自:新华网近日,图灵奖获得者约翰·霍普克罗夫特回到了上海,他此行将继续努力促进上海交通大学等高校的本科教育。今年84岁的约翰·霍普克罗夫特在计算机科学领域教了五十余年的书,
2023-08-03 09:00:00
图灵奖得主:中国可以在人工智能道路取得领先地位
本文转自:中国新闻网中新社北京3月25日电 (王梦瑶)图灵奖得主约瑟夫·希发基思(Joseph Sifakis)24日在中国发展高层论坛2024年年会上表示
2024-03-25 13:01:00
53岁周鸿祎考上清华博士;图灵奖得主杨立昆炮轰ChatGPT:五年内就没人用了;Red Hat恪守对开源的承诺|极客头条
...PT-4!谷歌 DeepMind CEO 自曝:下一代大模型将与 AlphaGo 合体图灵奖得主杨立昆炮轰 ChatGPT
2023-06-28 11:00:00
多位菲尔兹奖、图灵奖得主齐聚,2024国际基础科学大会开幕
...rew Chi-Chih Yao)、莱斯利·瓦利安特(Leslie G. Valiant)等3位图灵奖得主,国际数学联盟主席中岛启(Hiraku Nakajima)
2024-07-15 09:45:00
更多关于科技的资讯:
山东移动聊城分公司:助力宾馆网络升级,打造数字化入住新体验
鲁网10月13日讯近日,山东移动聊城分公司顺利完成阳谷鼎盛商务宾馆47条企业宽带的全面部署与调试,通过“定制化组网+高效服务”模式
2025-10-13 22:04:00
引力一号遥二火箭问天,烟台联通圆满完成海上发射通信保障任务
10月11日10时19分,全球最大固体运载火箭“引力一号”(遥二)在山东海阳东方航天港附近海域点火升空,搭载三颗卫星顺利进入预定轨道
2025-10-13 22:49:00
邀用户亲测!双11买海尔空调,享政企双补贴
以往选购空调,用户大多只能在屏幕上对比参数,实际风感是否舒适、节能效果如何,往往要等到安装使用后才知晓。今年双11,海尔空调带来全新体验方式
2025-10-13 11:45:00
青春华章丨方寸之间,用“芯”绘就星图万里
华创微系列芯片产品化在即,保障天地“对话”,筑牢算力基石 方寸之间,用“芯”绘就星图万里□南京日报/紫金山新闻记者江芬芬编者按高质量发展是“十四五”乃至更长时期我国经济社会发展的主题
2025-10-13 08:05:00
宁企为能源发电站安装“智慧大脑”“一网统管”,巡检响应时间缩短一半,停机损失降低超30% □南京日报/紫金山新闻记者孙秉印通讯员麒轩“支路电流异常
2025-10-13 08:05:00
将税务服务从“送得对”到“传得开”、从“加急办”到“秒响应”、从“被动纠错”到“主动合规”……聚焦个体工商户办税缴费需求
2025-10-13 07:23:00
算力浪潮奔涌 夯实“数字底座”——河北以数字经济赋能高质量发展(一)在中国联通(怀来)大数据创新产业园的机房内,一排排机柜昼夜不息地嗡鸣
2025-10-13 08:00:00
双11重磅福利:88VIP点外卖5折,淘宝闪购1000万份免单等你抢!
淘宝闪购推出双11重磅福利:88VIP点外卖天天享五折,免单红包数量超1000万份!10月15日至11月14日,88VIP用户进入闪购频道
2025-10-12 05:27:00
这家宁企让足球邂逅时尚
本报记者 周京震 陆春花8月17日晚,“苏超”第9轮,南京迎战盐城。聚光灯下,南京队员战衣上那簇崭新的标识格外醒目——华瑞时尚
2025-10-12 05:27:00
这支“中国笔”,国内首款!
在常州经开区潞城街道江苏德尔福医疗器械有限公司的洁净工厂内工作人员正在忙碌地装配新型“电子笔”今年该企业三个型号的预充式电子笔式注射器获得国内首张医疗器械注册证标志着该类产品正式
2025-10-12 05:27:00
山东移动5G-A护航济南地铁4号线,打通地下通信“快车道”
近日,济南轨道交通4号线彭家庄站、程家庄站、唐冶站、唐冶南站(以上站名均为工程名)已完成移动5G-A通信覆盖,标志着这条串联城市东西的“黄金线路”在通信保障上迈出关键一步
2025-10-12 08:45:00
人保财险青岛分公司:科技赋能推动农险“双精准”再升级
齐鲁晚报·齐鲁壹点记者 尚青龙近日,青岛平度的肉牛也有了自己的“数字身份证”。人保财险青岛分公司借鉴内蒙古先进经验,引入内蒙古沃付国际物联网有限公司自主研发的人工智能畜牧业数字化管理平台
2025-10-12 11:53:00
一线保障人员“时刻在岗”,烟台联通守护高铁5G网络畅通运行
国庆中秋假期期间,面对持续攀升的客运高峰,烟台联通网络保障团队坚守岗位,全力投入高铁沿线5G网络实时保障工作,通过精细化运维与快速响应
2025-10-12 11:53:00
第十九届中国(临朐)家居门窗博览会12日开幕
齐鲁晚报·齐鲁壹点 王佳潼10月11日,第十九届中国(临朐)家居门窗博览会媒体见面会在临朐召开。记者在会上获悉,第十九届中国(临朐)家居门窗博览会定于2025年10月12日至15日在临朐国际会展中心举办
2025-10-12 11:55:00
济南热力以低空智巡护航聊热入济
近日,“聊热入济”长距离供热项目施工现场传来新进展——济南能源集团所属热力集团部署的无人机智慧巡检系统,正沿这条 “供热长龙” 精准巡航
2025-10-12 15:50:00