我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

类别：科技发布时间：2024-11-08 09:47:00 来源：机器之心Pro

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

自从 ResNet 提出后，残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题，使得网络的训练更加稳定。

但是，现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡，无法同时解决。

为此，字节豆包大模型 Foundation 团队于近日提出超连接（Hyper-Connections），针对上述 “跷跷板式” 困境，实现了显著提升。

该方法适用于大规模语言模型（LLMs）的预训练，在面向 Dense 模型和 MoE 模型的实验中，展示了显著性能提升效果，使预训练收敛速度最高可加速 80%。

研究团队还发现，超连接在两个小型的视觉任务中表现同样优异，这表明，该方法在多个领域有广泛的应用前景。

论文标题：Hyper-Connections 论文链接：https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及，残差连接的两种主要变体Pre-Norm和Post-Norm各自都有其局限性，具体体现如下：

Pre-Norm：在每个残差块之前进行归一化操作，可有效减少梯度消失问题。然而，Pre-Norm 在较深网络中容易导致表示崩溃，即深层隐藏表示过于相似，从而削弱了模型学习能力。 Post-Norm：在残差块之后进行归一化操作，有助于减少表示崩溃问题，但也重新引入梯度消失问题。在 LLM 中，通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接（Depth-connections）和宽度连接（Width-connections）。

从理论上，这使得模型不仅能够动态调整不同层之间的连接强度，甚至能重新排列网络层次结构，弥补了残差连接在梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。

深度连接与宽度连接

起初，该方法会将网络输入扩展为 n 个隐向量（n 称作 Expansion rate）。之后每一层的输入都会是 n 个隐向量，超连接会对这些隐向量建立以下两类连接：

深度连接（Depth-Connections）：这些连接类似于残差连接，只为输入与输出之间的连接分配权重，允许网络学习不同层之间的连接强度。宽度连接（Width-Connections）：这些连接使得每一层多个隐藏向量之间可进行信息交换，从而提高模型表示能力。

静态与动态超连接

超连接可以是静态的，也可以是动态的。

其中，静态超连接（Static Hyper-Connections, SHC）意味着连接权重在训练结束后固定不变。而动态超连接（Dynamic Hyper-Connections, DHC）则对应连接权重可根据输入动态调整。实验表明，动态超连接效果更好。

3. 为什么使用超连接（Hyper-Connections）

研究团队认为，残差连接的两种变体，即前归一化（Pre-Norm）和后归一化（Post-Norm），可以被视为不可训练的超连接。

随后，团队引入了顺序 - 并行二象性概念，展示了超连接如何动态优化层的排列以提升网络性能。

顺序 - 并行二象性

给定一系列神经网络模块，我们可以将它们顺序排列或并行排列。作者认为，超连接可以学习如何将这些层重新排列，形成顺序和并行配置的混合。

在不失一般性的情况下，可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习，神经网络将被顺序排列：

在这种情况下，深度连接退化为残差连接，如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时，神经网络每两层将被并行排列，类似于 Transformer 中的 parallel transformer block 的排列方式，如图 (b) 所示。

因此，通过学习不同形式的超连接矩阵，网络层的排列可以超越传统的顺序和并行配置，形成软混合甚至动态排列。对于静态超连接，网络中的层排列在训练后保持固定；而对于动态超连接，排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上，涵盖了 Dense 模型和 MoE 模型。

实验结果表明，使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验

只要扩展率 > 1，效果就十分显著，且训练更稳定，消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型，效果也十分亮眼，同时可以看到有超连接的网络训练更稳定。

7B 候选激活 1.3B 的 MoE 模型实验

可以看到，下游指标全涨，在 ARC-Challenge 上甚至涨了 6 个百分点。

综上，研究团队介绍了超连接（Hyper-Connections），它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明，超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是，超连接的引入几乎不增加额外的计算开销或参数量，团队认为，该成果具有广泛的应用潜力，可以推广到文音视图模态的不同任务上，包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题，尤其在 LLMs 和多模态方面，期望实现更多突破。

更多团队技术研究进展，可以通过「豆包大模型团队」技术解读栏目了解。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-08 12:45:02

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于残差,豆包,收敛,字节,模型,团队的资讯：

字节跳动向大模型大乱斗扔出一个豆包

...首个大模型独立 App 今天上线，是一个 AI 对话产品，叫 " 豆包 "。不知道豆包是不是 "dou bot" 的谐音

2023-08-18 23:01:00

字节探索 AI 耳机、眼镜等产品，与豆包大模型联动

...团队负责人为 Kayden（花名），他正带领团队开发一款与豆包大模型和豆包 App 联动的智能耳机。Kayden 同时在推动豆包大模型与其它手机厂商的智能助手合作

2024-09-11 09:54:00

字节豆包团队推出稀疏模型架构UltraMem：推理成本可降8

快科技2月13日消息，据报道，字节跳动豆包大模型Foundation团队近日宣布了一项重要创新成果——UltraMem稀疏模型架构。这一架构通过将计算和参数解耦，在保证模型效果的

2025-02-13 19:51:00

8位数年薪！“最懂阿里大模型的人”带整个团队跳槽加入！字节跳

...度搜索、文库、地图等各种应用中全部植入了AI能力时，豆包App刚上线不久，这也是当时字节唯一一款AI原生应用。字节提速，从抢人开始从2023年年中开始，这座工厂AI方向的

2024-12-07 09:52:00

联合实验室的科研将基于字节跳动豆包大模型展开

12月13日消息，北京大学联合字节跳动于12月12日成立豆包大模型系统软件联合实验室。联合实验室的科研将基于字节跳动豆包大模型展开。来自高校和企业的科研人员将在实验室内，重点围绕

2024-12-14 01:07:00

字节跳动清华AIR成立联合研究中心推动大模型产学研合作

...首席科学家马维英教授，AIR执行院长刘洋教授，字节跳动豆包大模型大语言模型团队负责人乔木，SIA Lab主任、清华AIR 周浩副教授

2024-10-12 14:01:00

字节开源全栈AI编程基准，不小心曝光豆包代码大模型

豆包代码大模型，不小心给曝光了！在字节开源的代码大模型评估基准FullStack Bench里面，出现了此前字节未披露过的Doubao-Coder

2024-12-06 09:50:00

字节启动AGI长期研究计划代号Seed Edge

华商网讯（记者祁鹏玉）1月23日，据媒体报道，字节豆包大模型团队已在内部组建AGI长期研究团队，代号“Seed Edge”

2025-01-23 09:51:00

实时对话的耳机要来了？“摸着PICO过河”，字节借“豆包”重

...者从一位接近字节的人士处了解到，字节正在开发一款与豆包大模型结合的智能耳机，正在为这款耳机添加AI对话、“AI+本地生活”等功能。有市场消息称，字节还在探索AI眼镜的开发，为

2024-09-13 13:35:00

更多关于科技的资讯：

上海迪拜同发讯飞AI翻译耳机 “中国技术”连接全球

大皖新闻讯一个是中国对外开放的前沿窗口，一个是中东地区商业中心和“一带一路”重要节点城市，10月14日下午，科大讯飞在上海世界会客厅举行“对话世界

2025-10-15 17:21:00

东湖评论：严打“伪新闻”账号带货

近日，一批仿冒新闻机构的自媒体账号被依法关闭，据报道，这些账号以“新闻”为名，行“带货”之实。但记者调查发现，此类“李鬼”账号仍在各大平台潜伏

2025-10-15 17:59:00

蛋糕里吃出“牙”，和解填不满食品安全的信任缺口

齐鲁晚报·齐鲁壹点评论员刘雅菲10月14日，有上海网友发布视频称，自己在上海的山姆会员商店外高桥店购买的枣泥核桃蛋糕中

2025-10-15 16:00:00

三联家电&海信集团强强联手！10.25重磅惠民活动即将启幕

鲁网10月15日讯为抢占四季度消费市场高地，深化品牌战略合作布局，10月11日，山东三联家用电器有限公司与海信集团联合召开“三联家电10

2025-10-15 14:59:00

京东官宣发布新车，称像买手机一样方便，已注册多枚京东汽车商标

10月14日，京东微博账号发文称：2025京东11.11期间，京东联合广汽、宁德时代将正式推出一款神秘国民好车，官方将在10月底将陆续开启内测版

2025-10-15 10:46:00

固安：开足马力赶订单满足京津冀市场需求

河北新闻网讯（万倩、陈放）10月13日，走进位于固安县固安镇的秋兹科技（固安）有限公司生产车间，自动化裁切设备高速运转

2025-10-15 09:56:00

斩获银奖！“南京智造”闪耀广交会

参展企业334家，展位数再创新高达840个斩获银奖！“南京智造”闪耀广交会南报网讯（记者黄琳燕通讯员宁商轩）第138届广交会将于10月15日在广州开幕

2025-10-15 08:09:00

“云”上调度雨中守护|雷沃数智化服务为抢收装上智慧大脑

秋收关键期遭遇连绵阴雨，让秋收秋种受阻。除了满足抢收抢烘抢播的智能农机，潍柴雷沃还创新数智化服务，通过智能调度与精准服务

2025-10-15 01:05:00

茶酒融合催生“微醺”新赛道，新茶饮品牌争饮“昼夜”经济

当白天的提神茶饮与夜晚的放松酒品打破边界，正催生出国内消费市场一股新的“微醺”风潮。近期，茶百道经典白酒奶茶回归即创下销量佳绩

2025-10-14 11:33:00

嘎子谢孟伟被执行超1400万，已被限高，此前因穿警服带货被行

近日，因穿警服直播带货被行政拘留、账号遭封禁的嘎子谢孟伟发视频称 “我回来了”，并向所有观众诚恳道歉。视频中，其透露公司员工已被安排回老家

2025-10-14 11:33:00

平谷将打造全国农业科创中心

原标题：世界农业科创大会开幕农业中关村核心区2.0发布平谷将打造全国农业科创中心本报讯（记者赵婷婷）昨天，2025世界农业科技创新大会（WAFI）在北京平谷开幕

2025-10-14 11:59:00

小票文学为何戳中年轻人

据大象新闻报道，近期蜜雪冰城的小票成了年轻人追捧的“追更凭证”，其上连载着名为《雪王在古代卖咖啡》的小说，20个章节随机印在消费小票上

2025-10-14 12:10:00

电通创意发布《2025首席营销官报告》：算法与人性的重构力量

AI时代，品牌的长期价值回归于人性与文化共鸣，人类的创造力、同理心与文化相关性愈加重要。•AI已成日常：几乎所有CMO都在使用AI

2025-10-14 13:29:00

外卖骑手可屏蔽无理顾客是服务业健康发展的一种进步

近日，一则“美团外卖骑手能屏蔽顾客”的消息在网络上引发热议。据媒体报道，美团已在福建晋江、浙江绍兴等七个城市试点上线骑手评价用户和屏蔽用户功能

2025-10-14 13:40:00

这座产业园一年制造千万颗球胆、百万颗整球——沂南县“造球记”

齐鲁晚报·齐鲁壹点记者公绪成李其峰通讯员陈婉塑炼、分切、热压......沂南县泽辉体育产业园内，工人们正紧忙制作新一批篮球内胆10月9日

2025-10-14 15:00:00

头条订阅服务

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%