我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

打乱/跳过Transformer层会怎样？最新研究揭开其信息流动机制

类别：科技发布时间：2024-07-27 09:29:00 来源：量子位

Transformer中的信息流动机制，被最新研究揭开了：

所有层都是必要的吗？中间层在做同样的事吗？层的顺序重要吗？

如果跳过一些层，比如第4层输出接到第6层会怎样。随机打乱层的顺序，比如4-6-5-7又会怎样。

最近一项名为“Transformer Layers as Painters”的研究火了，由来自AI初创公司Sakana AI、Emergence AI的研究团队完成。

他们从Transformer内部工作原理出发，经过一系列实验对以上问题得出了结论。团队表示深入理解这些原理不仅能提高现有模型利用效率，还能帮助改进架构开发新的变体。

谷歌DeepMind研究员、ViT作者Lucas Beyer看过后直接点了个赞：

很棒的总结！尽管一些实验在之前的研究中已经被展示过了，但我喜欢你添加的新细节，特别是强调了“推理”类任务比其他任务受影响更大！

还有不少学者、工程师也表示强烈推荐。

敢打赌，其中一些见解最终将会用于改进Transformer。

其中的实验再次证实了：复制层对创造性任务有帮助，但对推理任务通常无效；改变层的顺序行不通；剪枝在中间层效果最佳，但仍需要进行修复调整。

所以，在这项研究中，研究团队都进行了哪些实验？回答了哪些问题？

实验模型选择和基准

先来看一下实验配置～

实验在decoder-only和encoder-only模型上进行。

其中decoder-only模型选择的是Llama2，主要研究32层、70亿参数的Llama2-7B，扩展实验中也包含13B（40层）和70B（80层）模型。

encoder-only模型选择的是BERT，有24层、3.4亿参数。

研究人员使用这些模型的标准预训练checkpoints。在所有实验中，模型都是冻结的，除BERT的评估中包含一个标准的微调步骤，其它情况未通过微调等方法修改模型参数。

基准测试方面，Llama2使用以下标准基准：ARC（科学考试问题）、HellaSwag（常识问题）、GSM8K（数学题），WinoGrande（常识推理）、LAMBADA（词汇预测）。其中LAMBADA用于测困惑度，与训练期间使用的原始token预测最接近。

对于Llama2的性能评估，提供了基准测试的标准化中位数，将性能从0到1（模型最优性能）进行量化。

对于BERT，采用GLUE基准并遵循其评估指标，包括基准的未标准化平均分。注意，标准的BERT评估包括一个微调步骤，因此对模型进行了适应性调整。在附录中研究人员也展示了一个只有模型头部可以调整的评估结果。

实验动机最初源于这样一个问题：

是否可以将多个层以某种方式合并成一个可能更大的单一层？假设可能由于训练过程中使用了残差连接，神经网络的中间层可能使用了一个共同的表征空间。（对于标准的多层感知机来说不成立，它们之间没有促使共同表征或层间排列一致性的机制）

如果层能共享一个表征空间，将对后续条件计算或向预训练Transformer模型动态添加新知识及下游应用产生重要影响。

关于Transformer的8大问题

层是否使用相同的表征空间？

为确定不同层是否共享相同的表征空间，研究人员检验了Transformer对于跳过特定层或更改相邻层顺序的鲁棒性。

例如，在Llama2-7B模型中将输出流从“第4层->第5层->第6层”的正常顺序，改为“第4层->第6层”，跳过第5层，会怎样？

又或者将第4层的输出送到第6层，然后将第6层的输出送到第5层，再送到第7层，会怎样？

如下图所示，实验发现除了最前面的和最末尾的几层，Llama2-7B跳过或改变层序表现出很好的鲁棒性。

也就是说，中间层共享一个表征空间，中间层与“外层”（最前面的和最末尾的几层）具有独立的表征空间。

为了进一步证实这一假设，研究人员测量了不同模型（Llama2-7B、Llama2-13B和BERT-Large）中不同层的隐藏状态激活之间的平均余弦相似度，并跨基准测试进行了比较。

下图3展示了所有中间层之间的一致性。例如，底部第四层的激活与顶部第四层的激活高度相似。对于40层的Llama2-13B，可以看到这些层按相似性可划分成4-5个组：第0层，1-3层，中间层，然后是最后一两层。

这表明模型可能对“开始”、“中间”和“结束”层具有三个不同的表征空间。研究人员还发现，“开始层”的数量似乎随着模型总层数的增加而增加。

此外，高余弦相似度可能证明有一个共享的表征空间，低相似度更能表明这些空间不是共享的。而上图3中Llama2-7B的数据与图2所示的性能结果高度一致，这进一步证明了：

至少中间层的表征空间是共享的。

所有层都是必要的吗？

为了进一步验证中间层的表征空间真正共享，研究人员还进行了层跳过实验（实验中未进行任何微调）。

具体来说，将第N层的输出直接传递为第N+M层的输入（M>1），从而“跳过”了M-1层，如下图所示。

原本第N+M层仅针对来自第N+M-1层的输入进行训练，那么现在它能否理解第N层的激活？

此类实验中，研究人员正常执行第一层和最后N-1层，而跳过或修改第N+1到第T-N层（T是模型总层数）。

如下图4，在多个基准测试中，Llama2-7B和BERT-Large的性能均逐渐下降（图从左至右展示了跳过层数逐渐递增的变化）。这一结果揭示了：

不是所有层都是必要的，至少省略部分中间层不会对整体性能造成严重影响。

中间层是否都执行相同的功能？

如果中间层共享一个共同的表征空间，这些层是否多余？

为了解答该问题，研究人员重新进行了前面的“跳过”实验，但这次不是跳过中间层，而是用最中心层的权重替换了这些所有中间层的权重，如下图所示。

实际上就是在最中心层上循环执行了T-2N+1次，其中T是模型总层数（Llama2-7B为32层，BERT-Large为24层）。

结果基准测试中，随着被替换的层数增加，模型性能迅速下降。而且性能下降速度比仅仅跳过某些层要严重得多，这种权重替换极具破坏性。

因此，中间层各执行不同的功能并非多余，中间层之间共享权重会产生灾难性后果。

层的顺序重要吗？

上面实验表明中间层虽共享表征空间，却在该空间上执行不同操作。那么这些操作顺序重要吗？研究人员进行了两组实验。

首先，将中间层按照与其训练顺序相反的顺序（逆序）执行。将第T-N层的输出传递给第T-N-1层，依此类推，直至第N层，然后将该层的输出传至最后的T-N层。

如下图：

第二个实验，随机排列中间层顺序，并平均10个随机种子结果。

结果如下图，两种情况模型都呈现出缓慢的性能下降。

这里剧透一下下面的一项实验结果，无论是逆序还是随机顺序，模型表现均优于直接跳过这些层，说明即使层在非训练顺序的输入上运行，依然能进行有效输出。

因此，层顺序重要吗？结论是：

层顺序调整对性能有一定影响，随机顺序和逆序都表现出一定的性能退化。

值得注意的是，随机顺序性能优于逆序。可能是因为逆序与训练时的顺序完全相反，而任何随机顺序都至少保持了一些顺序上的连贯性（即某层i总在另一层j之后，其中i>j）。

可以并行运行这些层吗？

如果层的存在，即没有被跳过，比它们执行的顺序更重要，那么是否可以考虑独立地运行这些层，然后将它们的结果合并？如下图所示。

研究人员进行了一个实验，不是跳过第N到第T-N层，而是并行运行这些中间层，然后将它们的平均结果传递到最后的N层。

结果如下图所示，除了GSM8K数学题基准外，所有基准测试都表现出缓慢的性能退化。

有趣的是，并行层的表现优于跳过层，但不如逆序运行层。

总之，可以并行运行这些层吗？答案是：可以，数学为主的基准测试除外。

对于某些任务，顺序是否更重要？

大多数变体（包括逆序、跳过和并行）在抽象推理ARC或数学推理GSM8K基准中，表现出最快速的性能下降。

可以解释为逐步推理任务比“语义”任务（如Winogrande或HellaSwag）对层顺序的变化更为敏感。

这是因为推理任务需要结合结构和语义双重信息，而HellaSwag这类任务仅需语义即可完成。

通过实验，研究人员得出结论：数学和推理任务比“语义”任务更依赖顺序。

迭代对并行层有帮助吗？

如果把Transformer内部运行机制比作是画一幅画的过程：画布（输入）在一些画家之间传递，一些画家专门画鸟，一些则更擅长画轮子……每个画家都依次从另一位画家手里接过画布，然后决定对这幅画进行补充，还是将其直接传递给下一位画家（使用残差连接）。

可以想象，某些层在收到适当的输入时才会对画作进行“补充”。例如，如果“画轮子”的画家先看到汽车的车身，才更有可能画上轮子。

在Transformer中，某些层可能只有在接收到适当的输入时才会对前向传递发挥作用，而不是通过残差连接将输入直接传递出去。

这么来看的话，那么相比于仅执行一次并行层，迭代执行并行层应该会提高性能。

研究人员通过将并行层的平均输出回馈到同一层并固定迭代次数来进行测试，如下图：

下图9中，研究人员展示了并行层迭代3次的结果，这种方法显著优于仅执行一次并行层。

唯一的例外是在Llama2-7B的起始层N为15或BERT的起始层N为11时。在这种情况下，循环并行3次的效果相当于仅重复中间层3次，此时的并行层等同于完整模型。

研究人员还用不同的迭代次数重复进行了实验。

下图展示了Llama2-7B的性能随并行层数M和迭代次数的变化而变化。

每个M的最佳迭代次数用红框表示。除了M=29和M=31（几乎并行所有层）外，最佳迭代次数大致与并行层数成线性比例。

因此结论是：迭代对并行层有帮助，最佳迭代次数与并行层数成比例。

哪些变体对性能损害最小？

最后，研究人员将实验中的所有不同变体在同一图表上进行了比较。

结果显示，重复单一层（如上面提到的用同等数量的最中心的层替换中间层）效果最差，性能迅速退化至随机基准线。

迭代并行和随机层顺序性能退化最小，其中迭代并行在BERT和Llama2-7B中表现最好。

论文附录中还补充了更多实验结果，感兴趣的家人们可以查看原论文。

论文链接：https://arxiv.org/abs/2407.09298v1参考链接：https://x.com/A_K_Nain/status/1812684597248831912

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-27 11:45:06

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于流动,机制,研究,信息,中间层,顺序的资讯：

揭秘地球内部：惊险挖掘下有何秘密？

...。地壳是最外层，相对较薄，而地幔则是厚达2900公里的中间层，地核则位于地幔下方，是地球的最内层。地震勘探不仅揭示了地球内部的结构，还对我们研究地球的动力学过程提供了宝贵的信

2023-09-28 11:03:00

百模大战又添新势力！李未可科技将发布自研AI大模型

...场的选手越来越多，孰强孰弱还难下定论但可以肯定的是中间层及终端应用层的布局是各家必争之地。而李未可科技这类结合自身业务垂类场景，提前布局中间层及终端应用层的自研大模型或许能给

2024-03-29 15:00:00

适合数据云平台的架构长啥样奇点云DataSimbaR4.9

...项目成员对象；又如，要实现一个去中心化的DAG任务调度中间层及调度实例化，则需要利用任务域中的作业对象、任务对象和实例对象。基于全新的架构，DataSimba以Simba O

2023-06-29 19:00:00

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

...性的表征还不是来自最后一层，而是 Transformer 模块内的中间层！因此，他们便将这些中间特征用作了最终的图像表征。对于图像生成任务，他们设计了一种采样策略，使模型可以

2024-11-27 13:32:00

党建引领，打造产教融合文化共同体

...职业院校基层党组织，应尝试构建产教融合文化共同体的中间层，打造横向融通教育格局。凭借自身组织功能和政治功能，打破政府、院校、企业之间的界限，以产教融合职业教育阵线联盟，加强校

2024-03-22 05:06:00

科学家打造基于量子芯片的神经储存器，有望用于自然语言处理任务

...米和 120 纳米厚度的薄金膜。但是，即使使用钛膜来作为中间层，金膜在光刻胶的显影过程中仍会出现剥离，于是他们二次返工制备了更厚的金膜。芯片上的引线键合工艺，则涉及到通过引线

2024-05-24 10:38:00

超级码科技发布镂空AI保险胶带，重塑包装防伪新标准

...（防黏层、镂空层、数码层），当胶带被揭开时，表层与中间层分离，显露出客户定制的“阴阳对应图文”（如“VOID”字样或品牌LOGO），同时胶带与包装箱表面分别残留不可逆的破坏痕

2025-04-10 10:46:00

AI自己长出了类似大脑的脑叶？新研究揭示LLM特征的惊人几何

...各向同性的，而是呈现出一种特征值的幂律分布，并且在中间层的斜率最陡。此外，他们还量化了聚类熵如何随层数的变化而变化。这项研究吸引了不少研究者的注意。有人评论说，AI 系统在处

2024-11-04 09:52:00

红魔10pro系列新品发布会将于11月13日举行

...液金采用了创新三明治结构：上下两层采用了低温合金，中间层为铟基，机身温度变高时，低温合金会处于微融状态附着在铟基上，在确保导热性能的基础上不会流动，也兼顾了安全性。红魔10P

2024-11-08 01:08:00

更多关于科技的资讯：

山东移动聊城分公司：助力宾馆网络升级，打造数字化入住新体验

鲁网10月13日讯近日，山东移动聊城分公司顺利完成阳谷鼎盛商务宾馆47条企业宽带的全面部署与调试，通过“定制化组网+高效服务”模式

2025-10-13 22:04:00

引力一号遥二火箭问天，烟台联通圆满完成海上发射通信保障任务

10月11日10时19分，全球最大固体运载火箭“引力一号”（遥二）在山东海阳东方航天港附近海域点火升空，搭载三颗卫星顺利进入预定轨道

2025-10-13 22:49:00

邀用户亲测！双11买海尔空调，享政企双补贴

以往选购空调，用户大多只能在屏幕上对比参数，实际风感是否舒适、节能效果如何，往往要等到安装使用后才知晓。今年双11，海尔空调带来全新体验方式

2025-10-13 11:45:00

青春华章丨方寸之间，用“芯”绘就星图万里

华创微系列芯片产品化在即，保障天地“对话”，筑牢算力基石方寸之间，用“芯”绘就星图万里□南京日报/紫金山新闻记者江芬芬编者按高质量发展是“十四五”乃至更长时期我国经济社会发展的主题

2025-10-13 08:05:00

宁企为能源发电站安装“智慧大脑”

宁企为能源发电站安装“智慧大脑”“一网统管”，巡检响应时间缩短一半，停机损失降低超30% □南京日报/紫金山新闻记者孙秉印通讯员麒轩“支路电流异常

2025-10-13 08:05:00

小店税务数字化辅导助力个体工商户合规经营

将税务服务从“送得对”到“传得开”、从“加急办”到“秒响应”、从“被动纠错”到“主动合规”……聚焦个体工商户办税缴费需求

2025-10-13 07:23:00

河北以数字经济赋能高质量发展｜算力浪潮奔涌夯实“数字底座”

算力浪潮奔涌夯实“数字底座”——河北以数字经济赋能高质量发展（一）在中国联通（怀来）大数据创新产业园的机房内，一排排机柜昼夜不息地嗡鸣

2025-10-13 08:00:00

双11重磅福利：88VIP点外卖5折，淘宝闪购1000万份免

淘宝闪购推出双11重磅福利：88VIP点外卖天天享五折，免单红包数量超1000万份！10月15日至11月14日，88VIP用户进入闪购频道

2025-10-12 05:27:00

这家宁企让足球邂逅时尚

本报记者周京震陆春花8月17日晚，“苏超”第9轮，南京迎战盐城。聚光灯下，南京队员战衣上那簇崭新的标识格外醒目——华瑞时尚

2025-10-12 05:27:00

这支“中国笔”，国内首款！

在常州经开区潞城街道江苏德尔福医疗器械有限公司的洁净工厂内工作人员正在忙碌地装配新型“电子笔”今年该企业三个型号的预充式电子笔式注射器获得国内首张医疗器械注册证标志着该类产品正式

2025-10-12 05:27:00

山东移动5G-A护航济南地铁4号线，打通地下通信“快车道”

近日，济南轨道交通4号线彭家庄站、程家庄站、唐冶站、唐冶南站（以上站名均为工程名）已完成移动5G-A通信覆盖，标志着这条串联城市东西的“黄金线路”在通信保障上迈出关键一步

2025-10-12 08:45:00

人保财险青岛分公司：科技赋能推动农险“双精准”再升级

齐鲁晚报·齐鲁壹点记者尚青龙近日，青岛平度的肉牛也有了自己的“数字身份证”。人保财险青岛分公司借鉴内蒙古先进经验，引入内蒙古沃付国际物联网有限公司自主研发的人工智能畜牧业数字化管理平台

2025-10-12 11:53:00

一线保障人员“时刻在岗”，烟台联通守护高铁5G网络畅通运行

国庆中秋假期期间，面对持续攀升的客运高峰，烟台联通网络保障团队坚守岗位，全力投入高铁沿线5G网络实时保障工作，通过精细化运维与快速响应

2025-10-12 11:53:00

第十九届中国（临朐）家居门窗博览会12日开幕

齐鲁晚报·齐鲁壹点王佳潼10月11日，第十九届中国（临朐）家居门窗博览会媒体见面会在临朐召开。记者在会上获悉，第十九届中国（临朐）家居门窗博览会定于2025年10月12日至15日在临朐国际会展中心举办

2025-10-12 11:55:00

济南热力以低空智巡护航聊热入济

近日，“聊热入济”长距离供热项目施工现场传来新进展——济南能源集团所属热力集团部署的无人机智慧巡检系统，正沿这条 “供热长龙” 精准巡航

2025-10-12 15:50:00

头条订阅服务

打乱/跳过Transformer层会怎样？最新研究揭开其信息流动机制