• 我的订阅
  • 科技

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

类别:科技 发布时间:2024-11-08 09:47:00 来源:机器之心Pro

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。

自从 ResNet 提出后,残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题,使得网络的训练更加稳定。

但是,现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡,无法同时解决。

为此,字节豆包大模型 Foundation 团队于近日提出超连接(Hyper-Connections),针对上述 “跷跷板式” 困境,实现了显著提升。

该方法适用于大规模语言模型(LLMs)的预训练,在面向 Dense 模型和 MoE 模型的实验中,展示了显著性能提升效果,使预训练收敛速度最高可加速 80%。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

研究团队还发现,超连接在两个小型的视觉任务中表现同样优异,这表明,该方法在多个领域有广泛的应用前景。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

论文标题:Hyper-Connections 论文链接:https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及,残差连接的两种主要变体Pre-Norm和Post-Norm各自都有其局限性,具体体现如下:

Pre-Norm:在每个残差块之前进行归一化操作,可有效减少梯度消失问题。然而,Pre-Norm 在较深网络中容易导致表示崩溃,即深层隐藏表示过于相似,从而削弱了模型学习能力。 Post-Norm:在残差块之后进行归一化操作,有助于减少表示崩溃问题,但也重新引入梯度消失问题。在 LLM 中,通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接(Depth-connections)和宽度连接(Width-connections)。

从理论上,这使得模型不仅能够动态调整不同层之间的连接强度,甚至能重新排列网络层次结构,弥补了残差连接在梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。

深度连接与宽度连接

起初,该方法会将网络输入扩展为 n 个隐向量(n 称作 Expansion rate)。之后每一层的输入都会是 n 个隐向量,超连接会对这些隐向量建立以下两类连接:

深度连接(Depth-Connections):这些连接类似于残差连接,只为输入与输出之间的连接分配权重,允许网络学习不同层之间的连接强度。 宽度连接(Width-Connections):这些连接使得每一层多个隐藏向量之间可进行信息交换,从而提高模型表示能力。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

静态与动态超连接

超连接可以是静态的,也可以是动态的。

其中,静态超连接(Static Hyper-Connections, SHC)意味着连接权重在训练结束后固定不变。而动态超连接(Dynamic Hyper-Connections, DHC)则对应连接权重可根据输入动态调整。实验表明,动态超连接效果更好。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

3. 为什么使用超连接(Hyper-Connections)

研究团队认为,残差连接的两种变体,即前归一化(Pre-Norm)和后归一化(Post-Norm),可以被视为不可训练的超连接。

随后,团队引入了顺序 - 并行二象性概念,展示了超连接如何动态优化层的排列以提升网络性能。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

顺序 - 并行二象性

给定一系列神经网络模块,我们可以将它们顺序排列或并行排列。作者认为,超连接可以学习如何将这些层重新排列,形成顺序和并行配置的混合。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

在不失一般性的情况下,可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习,神经网络将被顺序排列:

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

在这种情况下,深度连接退化为残差连接,如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时,神经网络每两层将被并行排列,类似于 Transformer 中的 parallel transformer block 的排列方式,如图 (b) 所示。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

因此,通过学习不同形式的超连接矩阵,网络层的排列可以超越传统的顺序和并行配置,形成软混合甚至动态排列。对于静态超连接,网络中的层排列在训练后保持固定;而对于动态超连接,排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上,涵盖了 Dense 模型和 MoE 模型。

实验结果表明,使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

只要扩展率 > 1,效果就十分显著,且训练更稳定,消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型,效果也十分亮眼,同时可以看到有超连接的网络训练更稳定。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

7B 候选激活 1.3B 的 MoE 模型实验

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

可以看到,下游指标全涨,在 ARC-Challenge 上甚至涨了 6 个百分点。

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

综上,研究团队介绍了超连接(Hyper-Connections),它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明,超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是,超连接的引入几乎不增加额外的计算开销或参数量,团队认为,该成果具有广泛的应用潜力,可以推广到文音视图模态的不同任务上,包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题,尤其在 LLMs 和多模态方面,期望实现更多突破。

更多团队技术研究进展,可以通过「豆包大模型团队」技术解读栏目了解。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-08 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

字节跳动向大模型大乱斗扔出一个豆包
...首个大模型独立 App 今天上线,是一个 AI 对话产品,叫 " 豆包 "。不知道豆包是不是 "dou bot" 的谐音
2023-08-18 23:01:00
字节探索 AI 耳机、眼镜等产品,与豆包大模型联动
...团队负责人为 Kayden(花名),他正带领团队开发一款与豆包大模型和豆包 App 联动的智能耳机。Kayden 同时在推动豆包大模型与其它手机厂商的智能助手合作
2024-09-11 09:54:00
字节豆包团队推出稀疏模型架构UltraMem:推理成本可降83%
快科技2月13日消息,据报道,字节跳动豆包大模型Foundation团队近日宣布了一项重要创新成果——UltraMem稀疏模型架构。这一架构通过将计算和参数解耦,在保证模型效果的
2025-02-13 19:51:00
8位数年薪!“最懂阿里大模型的人”带整个团队跳槽加入!字节跳动放大招?
...度搜索、文库、地图等各种应用中全部植入了AI能力时,豆包App刚上线不久,这也是当时字节唯一一款AI原生应用。 字节提速,从抢人开始从2023年年中开始,这座工厂AI方向的
2024-12-07 09:52:00
字节跳动清华AIR成立联合研究中心 推动大模型产学研合作
...首席科学家马维英教授,AIR执行院长刘洋教授,字节跳动豆包大模型大语言模型团队负责人乔木,SIA Lab主任、清华AIR 周浩副教授
2024-10-12 14:01:00
联合实验室的科研将基于字节跳动豆包大模型展开
12月13日消息,北京大学联合字节跳动于12月12日成立豆包大模型系统软件联合实验室。联合实验室的科研将基于字节跳动豆包大模型展开。来自高校和企业的科研人员将在实验室内,重点围绕
2024-12-14 01:07:00
字节开源全栈AI编程基准,不小心曝光豆包代码大模型
豆包代码大模型,不小心给曝光了!在字节开源的代码大模型评估基准FullStack Bench里面,出现了此前字节未披露过的Doubao-Coder
2024-12-06 09:50:00
华商网讯(记者 祁鹏玉)1月23日,据媒体报道,字节豆包大模型团队已在内部组建AGI长期研究团队,代号“Seed Edge”
2025-01-23 09:51:00
实时对话的耳机要来了?“摸着PICO过河”,字节借“豆包”重拾硬件梦
...者从一位接近字节的人士处了解到,字节正在开发一款与豆包大模型结合的智能耳机,正在为这款耳机添加AI对话、“AI+本地生活”等功能。有市场消息称,字节还在探索AI眼镜的开发,为
2024-09-13 13:35:00
更多关于科技的资讯:
Airbnb店铺该如何推广
Airbnb是一个全球性的在线短租平台,世界各地的房东都可以在这将空闲房产出租给来自全球的旅行者。今天带大家了解一些策略和方法
2025-04-03 11:18:00
‌家家悦和瑞广场店焕新升级盛大开业 与您共赴美好生活
4月3日,家家悦和瑞广场店改造全新面貌盛大开业。家家悦和瑞广场店是继环宇城升级改造的第二家门店。作为一家社区综超门店,和瑞广场店经营面积1000余平
2025-04-03 11:20:00
当减肥遇上黑科技 年轻人找到了“快乐减肥”的秘诀
在快节奏的现代生活中,体重管理已不再是个人选择,而是关乎全民健康素养的公共议题。而传统减肥方式始终无法突破人性的桎梏。健身房里的跑步机沦为晾衣架
2025-04-03 11:21:00
“与中国同行就是与机遇同行,相信中国就是相信明天,投资中国就是投资未来”。3月28日,国家主席习近平在北京人民大会堂会见国际工商界代表时
2025-04-03 11:21:00
近年来,随着经济复苏进程加快,市场需求也愈加多元,金融机构紧跟政策引导,不断通过创新活动与产品,扩内需,助惠民,推动消费提质扩容
2025-04-03 11:23:00
君乐宝:深耕益生菌研发,领航乳品创新之路
在竞争激烈的乳品市场中,君乐宝乳业集团凭借其深厚的益生菌研发实力,不仅赢得消费者的广泛认可,更在行业内树立起科研创新的标杆
2025-04-03 11:26:00
这种看似自由的生活态度:正在杀死你的“活人感”
周末醒来的早晨,手机弹出了健身教练的课程邀请。犹豫一下,想起要找装备换衣服就觉得好麻烦,于是顺手划掉通知,想着“算了算了
2025-04-03 11:41:00
腾讯稳居全球移动发行商收入榜第一!字节跳动排第二
快科技4月3日消息,近日,Sensor Tower发布了《2024年全球移动发行商收入TOP50》榜单。据了解,在2024年
2025-04-03 11:41:00
吞吐量30倍提升!NVIDIA秀Blackwell性能:打破MLPerf记录居第一
快科技4月3日消息,NVIDIA在官网表示,在最新的MLPerf V5.0基准测试中,NVIDIA的Blackwell平台取得了令人瞩目的成绩
2025-04-03 11:41:00
20多万的长城灵魂摩托供不应求 二手平台有人加价5千元转订
快科技4月3日消息,因为长城灵魂摩托采用限量发售的形式,基本上每次新一批车源都很快被抢购一空,这也导致不少车主无法成功抢到车
2025-04-03 11:41:00
山西怀仁3.6级地震:震源深度15千米
快科技4月3日消息,中国地震台网正式测定:04月03日09时53分在山西朔州市怀仁市(北纬39.81度,东经113.16度)发生3
2025-04-03 11:41:00
全球唯一!劳斯莱斯幻影定制版亮相:25万针绣出\
快科技4月3日消息,劳斯莱斯发布了幻影“春日花见”定制版车型官图。这款车型由一位日本客户委托定制,灵感源自日本传统“花见”习俗
2025-04-03 11:41:00
6999元起 华为智慧屏S6 Pro开售:支持灵犀指向遥控
快科技4月3日消息,华为智慧屏S6 Pro正式开售,号称为全家人的“巨幕手机”,售价6999元起。据悉,华为智慧屏S6 Pro配备了灵犀指向遥控器
2025-04-03 11:41:00
正益信息:用专业赋能,领航行业数字化变革
在数字化建设的浪潮中,众多行业对网络基础设施的需求愈发迫切。广州市正益信息技术有限公司凭借过硬的技术实力与丰富的行业经验
2025-04-03 11:46:00
廊坊:以旧换新加力扩围 “催旺”家电数码消费市场
河北新闻网讯(记者刘杰)“家电以旧换新,政府补贴20%,单件最高补贴2000元……”3月30日,在廊坊市区明珠集团电器卖场举办的2025春季品质家电焕新家装节现场
2025-04-03 11:54:00