• 我的订阅
  • 科技

RNN回归!Bengio新作大道至简与Transformer一较高下

类别:科技 发布时间:2024-10-26 09:53:00 来源:新智元

RNN回归!Bengio新作大道至简与Transformer一较高下

【新智元导读】近日,深度学习三巨头之一的Yoshua Bengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。

在Transformer统治的AI时代之下,

散落在世界各地的「RNN神教」信徒,一直相信并期待着RNN回归的那天:

RNN回归!Bengio新作大道至简与Transformer一较高下

毕竟,凭借强大的顺序和上下文感知能力,RNN曾在各种任务中表现惊艳。

直到后来遭遇了反向训练的瓶颈,因Scaling Law而跌落神坛。

然而,人们并没有忘记RNN。

RNN回归!Bengio新作大道至简与Transformer一较高下

RWKV、Mamba、xLSTM等RNN衍生模型接连出现,欲挑战Transformer之霸主地位。

就在近日,又有重量级人物下场——

深度学习三巨头之一的Yoshua Bengio,带领团队推出了全新的RNN架构,以大道至简的思想与Transformer一较高下。

RNN回归!Bengio新作大道至简与Transformer一较高下

论文地址:https://arxiv.org/pdf/2410.01201v1

研究人员对传统的两种RNN架构LSTM和GRU,进行了大刀阔斧的改造,从中诞生了两个新模型:minLSTM和minGRU。

这俩极简主义的版本到底怎么样?咱们先看疗效。

首先是RNN最大的问题:训练速度。

RNN回归!Bengio新作大道至简与Transformer一较高下

上图展示了几种模型在T4 GPU上训练花费的时间,以及新模型带来的加速比。横轴为输入数据的序列长度,批量大小为64。

可以看到,相比于原版的LSTM和GRU,minLSTM、minGRU和Mamba的运行时间不会随序列长度而增加(后3个模型的线在左图中重叠了)。

当序列长度为4096时,新架构相对于传统版本达到了1300多倍的加速比!

相当于原版GRU需要3年才能做完的事情,minGRU一天就搞定了。

那么对线Transformer的战绩如何?

RNN回归!Bengio新作大道至简与Transformer一较高下

在本文测试的语言建模任务中,minGRU和minLSTM分别在600步左右达到最佳性能点。

相比之下,Transformer需要比minGRU多花大概2000步,训练速度慢了约2.5倍。

对此,YC上的网友表示:「我非常喜欢这个新架构的简单性」。

RNN回归!Bengio新作大道至简与Transformer一较高下

毕竟,俗话说的好,「最好的PR是那些删除代码的PR」。

模型架构

下面来感受一下极简模型的诞生过程。

首先,这是传统的RNN架构:

RNN回归!Bengio新作大道至简与Transformer一较高下

LSTM在RNN的每个cell中加入了比较复杂的门控:

RNN回归!Bengio新作大道至简与Transformer一较高下

三个门控(input gate、output gate、forget gate)和输入的分量,都通过线性投影和非线性激活函数来得出,并且依赖于上一个时刻的隐藏状态ht-1。

RNN回归!Bengio新作大道至简与Transformer一较高下

这些值再经过线性和非线性计算,得到本时刻的输出ct和隐藏状态ht。

GRU在LSTM的基础上做了一些简化:

RNN回归!Bengio新作大道至简与Transformer一较高下

少了显式计算ct,用于门控的项也缩减到2个,相应的参数量和计算量也减少了。

RNN回归!Bengio新作大道至简与Transformer一较高下

那么我们就从相对简单的GRU入手,开始改造。

改造的目的是使RNN能够应用并行扫描(Parallel Scan)算法,解决自身训练困难的问题。

简单来说,就是将网络中的计算改造成vt = at ⊙ vt−1 + bt的形式。

minGRU

第一步,公式中含有对之前隐藏状态ht-1的依赖,没办法用并行扫描,所以把ht-1直接删掉。

RNN回归!Bengio新作大道至简与Transformer一较高下

ht-1没了,负责调控ht-1的rt也没用了,删掉。

第二步,双曲正切函数(tanh)负责限制隐藏状态的范围,并减轻因sigmoid(σ)而导致的梯度消失。

但是现在ht-1和rt都没了,tanh也失去了存在的意义,删掉。

那么最终,minGRU就是下面这三个公式:

RNN回归!Bengio新作大道至简与Transformer一较高下

相比于原版,参数量和计算量再次减少,最重要的是能够使用并行扫描来显著加快训练速度。

minLSTM

经过上面的叙述,minLSTM的由来就很好理解了。

首先还是去除隐藏状态的依赖:

RNN回归!Bengio新作大道至简与Transformer一较高下

接着是拿掉相关的tanh:

RNN回归!Bengio新作大道至简与Transformer一较高下

最后,为了保证LSTM输出的尺度与时间无关,以及hidden state在缩放上与时间无关,还需要删掉output gate。

output gate没了,ct也就没必要单独存在了,删掉;剩下的两个门控通过归一化来调配hidden state进入的比例。

RNN回归!Bengio新作大道至简与Transformer一较高下

——emmm......好像变成GRU了,算了不管了。

最终改造好的minLSTM是下面这个样子:

RNN回归!Bengio新作大道至简与Transformer一较高下

Were RNNs All We Needed?

全新的RNN搞出来了,能打Transformer吗?

别急,先打内战证明价值。

除了传统的RNN(LSTM和GRU),这里特别关注与Mamba的比较。

首先是训练上的提升:

RNN回归!Bengio新作大道至简与Transformer一较高下

实验在批次大小64的情况下改变序列长度,测量了模型执行前向传递、计算损失和向后传递计算梯度的总运行时间以及内存占用。

在运行时间方面,minLSTM、minGRU与Mamba实现了类似的效率。

序列长度为512时的运行时间(超过100次的平均值),分别为 2.97、2.72和2.71毫秒;序列长度为4096时,运行时间分别为3.41、3.25和3.15。

相比之下,LSTM和GRU的运行时间随序列长度线性增加。所以序列长度为512时,minGRU和minLSTM的训练加速了175倍和235倍;序列长度为4096时,加速比达到了1324和1361。

内存方面,利用并行扫描算法时会创建更大的计算图,所以minGRU、minLSTM和Mamba ,比传统RNN需要更多的内存(大概多出88%)。

——但这并不重要,因为对于RNN来说,训练时间才是瓶颈。

去除隐藏状态的效果

minLSTM和minGRU的训练效率是通过降低它们的门控对先前隐藏状态的依赖来实现的。

尽管单层minLSTM或minGRU的门控只与输入有关,而与时间无关,但是在深度学习中,模型是通过堆叠模块来构建的。

从第二层开始,minLSTM和minGRU的门也将与时间相关,从而对更复杂的函数进行建模。

下表比较了不同层数的模型在选择性复制任务上的性能。我们可以看到时间依赖性的影响:将层数增加会大大提高模型的性能。

RNN回归!Bengio新作大道至简与Transformer一较高下

训练稳定性

层数的另一个影响是稳定性,随着层数的增加,精度的方差减小。

此外,尽管minLSTM和minGRU都解决了选择性复制任务,但我们可以看到minGRU在经验上是一种比minLSTM更稳定的方法(更高的一致性和更低的方差)。

minLSTM丢弃旧信息并添加新信息,使用两组参数(forget gate 和input gate)控制比率。在训练期间,两组参数会向不同的方向进行调整,使得比率更难控制和优化。相比之下,minGRU的丢弃和添加信息由一组参数控制,更容易优化。

选择性复制

选择性复制任务的输入元素相对于其输出是随机间隔的,为了解决这项任务,模型需要执行内容感知推理,记住相关token并过滤掉不相关的token。

RNN回归!Bengio新作大道至简与Transformer一较高下

上表将minLSTM和minGRU与可以并行训练的知名RNN模型进行了比较(S4,H3,Hyena和Mamba(S6)),基线结果引自Mamba论文。

在所有这些基线中,只有Mamba的S6,以及本文的minGRU和minLSTM能够解决此任务,体现了LSTM和GRU的内容感知门控机制。

强化学习

下面开始对战Transformer。

考虑D4RL基准中的MuJoCo运动任务,包括三个环境:HalfCheetah、Hopper和Walker。

对于每个环境,模型在三个数据质量不同的数据集上进行训练:Medium(M)、Medium-Replay(M-R)和Medium-Expert(M-E)。

RNN回归!Bengio新作大道至简与Transformer一较高下

上表将minLSTM和minGRU与各种决策模型进行了比较,包括原始的Decision Transformer(DT)、Decision S4 (DS4) 、Decision Mamba和Aaren。

由结果可知,minLSTM和minGRU的性能优于Decision S4,与Decision Transformer、Aaren和Mamba相媲美(Decision S4的递归转换不是输入感知的,这会影响它的性能)。就平均分数而言,minLSTM和minGRU的表现优于除Decision Mamba之外的所有基线。

语言建模

最后考虑语言建模任务,使用nanoGPT框架在莎士比亚的作品上训练字符级GPT。

RNN回归!Bengio新作大道至简与Transformer一较高下

上图绘制了具有交叉熵损失的学习曲线,可以发现minGRU、 minLSTM、 Mamba和Transformers分别实现了1.548、1.555、1.575和1.547的可比测试损耗。

Mamba的表现略差于其他模型,但训练速度更快(400步),minGRU和minLSTM分别花费575步和625步。而Transformer直接比minGRU多了2000 步,慢了大概2.5倍。

参考资料:

https://arxiv.org/pdf/2410.01201v1

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-26 11:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
...更多详情,可以参见机器之心之前的报道:《Bengio 等人新作:注意力可被视为 RNN,新模型媲美 Transformer
2024-10-15 09:56:00
大模型新趋势之MoE:现状、挑战及研究方向
...型性能和效率的技术架构。其主要由一组专家模型和一个门控模型组成,核心思想是在处理任务时只激活部分专家模型,并通过门控模型控制专家模型的选择和加权混合。简言之,MoE在训练过程
2024-11-04 16:00:00
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
...外,Moirai-MoE 提出了一种新型的利用预训练模型中知识的门控函数,并采用自回归的训练目标来提高训练效率。下面简要介绍 Moirai-MoE 的模块
2024-11-01 09:27:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
...段具有更好的泛化能力。3. NVLM-X:X-attention模型NVLM-X使用门控交叉注意力来处理图像token
2024-09-24 13:36:00
专家模型不要专家并行!微软开源MoE新路径
...arseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了,训练中改用数据
2024-11-12 09:57:00
金博智慧:感统训练+注意力训练仪 帮助小安实现成绩跨越
...因此必须把感觉输入和中枢执行放在同一时间窗。2.感觉门控模型:脑干网状结构是“降噪器”,前庭-本体-视觉协同刺激可提升门控效率
2025-08-13 15:35:00
infini-attention:谷歌大内存机制
...ads):这些头在训练过程中学习到了特定的功能,它们的门控得分(gatingscore)接近0或1。这意味着它们要么通过局部注意力机制处理当前的上下文信息
2024-04-14 02:57:00
循环神经网络(RNN):如何处理自然语言?
...处理长序列时的性能,而优化后的长短期记忆(LSTM)和门控循环单元(GRU)可以有效的解决这些问题。一、基本原理在处理序列数据时,我们通常希望能够考虑到序列中的元素之间的依赖
2024-02-17 14:00:00
GPT-4劲敌,谷歌进入高能+高产模式
...Gemini 1.5 Pro官宣两小时发布Sora这枚重磅炸弹,颇有“一较高下”的劲头。只是由于当下大家的视线焦点集中在视频领域
2024-02-21 14:05:00
更多关于科技的资讯:
“中国脑机谷”落户新奥新智感知产业园 政企研协同构建脑机接口产业新生态
河北新闻网讯(张新)9月26日,脑机接口产业联盟首届“脑机接口50人论坛”暨天津脑机接口产业创新发展推进会举办。会上,由新奥集团旗下的天津新智感知科技有限公司
2025-10-01 08:40:00
国网三明供电公司:守护灯火庆华诞 主动运维显担当
国网三明供电公司检修人员及时更换损坏器件并调整传动系统并完成设备修复及全套试验。(纪长添 摄)东南网10月1日讯 9月28日
2025-10-01 09:19:00
9月26日,由华东政法大学与上海星瀚律师事务所联合主办的第三届“星瀚杯”走进企业的法律课公益大赛正式启动。腾讯云作为大赛的技术支持单位
2025-10-01 09:56:00
平望实小承办吴江区骨干教师(数学)讲学团活动
为进一步发挥吴江区骨干教师的示范和辐射作用,推进课堂教学改革,有效提升教师教学业务能力。2025年9月24日,由苏州市吴江区教师发展中心主办的2025年吴江区骨干教师(数学)讲学团活动在平望实验小学举行
2025-10-01 09:58:00
AI技术让抗战文物“活起来”,人民日报数字传播联合百度推抗战文物智能体
9月30日,由人民日报数字传播与中国国家博物馆、中国人民大学、百度文心大模型、百度百科联合出品的《80年,80件》智能体和3D文物词条正式上线
2025-10-01 10:00:00
新时达2025工博会圆满落幕 | STEP 2.0战略引领智能制造新篇章
2025年9月23日至27日,第二十五届中国国际工业博览会在国家会展中心(上海)盛大举行。新时达以"智拓无界 共创未来"为主题
2025-10-01 10:00:00
从课堂到产线,河北工大学子开展智慧物流与“地狼”系统自动化技术实训
河北新闻网讯(胡广涛)组装调试机器人、体验智慧仓储系统、探索自动化技术前沿……近日,河北工业大学人工智能与数据科学学院2022级自动化专业全体学生在廊坊分校
2025-10-01 11:12:00
中国青年报客户端讯(中青报·中青网记者 夏瑾)9月30日,由湖州师范学院音乐学院、湖州市音声数据挖掘与智能服务重点实验室主办的“1617系列明代魏氏乐虚拟乐器音源”全球发布会在浙江省杭州市举办
2025-10-01 14:11:00
“智慧武当”给游客带来数字文旅新体验
十堰广电讯(通讯员 汪伟 周琼 耿宇)“一部手机游武当”预约购票、AI导游、《入境武当》VR大空间、问道武当数字客厅……国庆假日
2025-10-01 18:35:00
津云文旅电商版块上线 首发“笑漾海河”优选线路 扫码阅读手机版
10月1日,天津鹏欣水游城14周年庆暨津云新媒体“笑漾海河”文旅电商线路首发仪式成功举办。近年来,随着“文旅+电商”模式的快速发展
2025-10-01 18:55:00
陕西数字贸易闪耀第四届数贸会 数字贸易合作成果丰硕
9月29日,为期5天的第四届全球数字贸易博览会(以下简称“数贸会”)在浙江杭州大会展中心圆满落下帷幕。此次盛会,陕西代表团表现亮眼
2025-10-01 18:58:00
高德扫街榜国庆提醒:全国十大吃货友好高铁站看这里
2025年国庆节与中秋节叠加,全国铁路预计发送旅客2.19亿人次。赶高铁如何吃饱吃好?今天,高德扫街榜发布“十大吃货友好高铁站”
2025-10-01 20:19:00
能效提升15%,山东港口日照港顺岸式全自动化码头再迎新突破
9月29日,在山东港口日照港全自动化集装箱码头,随着A23自动化轨道吊精准将集装箱吊起、转运,标志着日照港研发的新一代双悬臂轻量化轨道吊投产试运行
2025-10-01 23:08:00
健康之旅,“媒”好同行!爱康集团烟威区域媒体开放日圆满结束
为构建与公众的沟通桥梁,让烟威人民更好地了解爱康的医疗品质及优质体检服务,9月25日下午爱康集团烟威区域媒体开放日活动于爱康莱山区分院成功举办
2025-10-01 20:51:00
人工智能不仅能分析人脸情绪,还能读取脑电波信号,为人定制香氛;恐龙变为AI数字虚拟形象,成为人们的“萌宠”——这不是科幻电影
2025-09-30 08:09:00