• 我的订阅
  • 科技

专家模型不要专家并行!微软开源MoE新路径

类别:科技 发布时间:2024-11-12 09:57:00 来源:新智元

专家模型不要专家并行!微软开源MoE新路径

【新智元导读】近日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。

继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。

与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。

这个「不走寻常路」如果写个太长不看版,那就是两句话:

1. 使用新一代SparseMixer来精确估计专家路由的梯度,解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了,训练中改用数据、pipeline和张量并行,避免了传统方法丢弃token的问题。

专家模型不要专家并行!微软开源MoE新路径

论文地址:https://arxiv.org/abs/2409.12136

当然了,上面两句话是小编说的,多少有点糙,文中细节,还请诸君继续阅读~

这年头,新来一个LLM,当然要先刷分了——

参数要少,效果要好,所以要在左上角:

专家模型不要专家并行!微软开源MoE新路径

GRIN作为MoE架构,总参数量约42B,推理时激活的参数为6.6B,打同级别(7B)的非MoE模型是手拿把攥,甚至比14B的Phi-3还要略胜一筹。

专家模型不要专家并行!微软开源MoE新路径

在上面的这份成绩单中,GRIN MoE表现优异,尤其是在编码和数学测试中。

比如,在衡量数学问题解决能力的GSM-8K中,GRIN MoE得分为90.4,而在编码任务基准HumanEval上拿到了74.4分。

在MMLU(大规模多任务语言理解)基准测试中GRIN得分为79.4,超过了同为MoE架构的Mixtral(70.5分),以及自家的Phi-3.5(78.9分)。

如果对比流行的商用模型,GPT-3.5表示感受到时代的力量,默默退出群聊。

专家模型不要专家并行!微软开源MoE新路径

开放权重:https://huggingface.co/microsoft/GRIN-MoE

demo:https://github.com/microsoft/GRIN-MoE

MoE全新训练路径

GRIN MoE由常规的Transformer块构成,采用分组查询注意力(GQA)和滑动窗口注意力来提高计算效率。

采用RoPE进行位置编码,以便在预训练后实现长上下文能力。

专家模型不要专家并行!微软开源MoE新路径

在MoE架构中,模型通过路由网络为每个输入token挑选适合的专家模块。对于有n个专家的网络,一个用于推理的MoE模块的输出为:

专家模型不要专家并行!微软开源MoE新路径

其中z = Router(x,r),本文中Router采用线性网络,Gating是门控函数(通常为softmax),Expert是FNN层。

MoE通过TopK函数进行专家分配,这个专家路由的过程是不可微的,所以反向传播的时候没法求导。

对此,传统的MoE训练将TopK视为常数,仅通过Gating来反向传播计算路由权重梯度,相当于用门控的梯度代替了路由的梯度。

这多少有点糙。

不可导怎么办

恰好,本文一作之前有一篇工作(SparseMixer):

专家模型不要专家并行!微软开源MoE新路径

论文地址:https://arxiv.org/pdf/2310.00811

受到直通梯度估计器的启发,作者扩展了前作,提出了SparseMixer-v2。

作者首先将TopK函数替换为模型训练中离散变量的随机采样,然后应用heun’s third order method来近似专家路由梯度,并构建一个改进的反向传播,为专家路由给出数学上合理的梯度估计。

专家模型不要专家并行!微软开源MoE新路径

前作中,SparseMixer的有效性在神经机器翻译任务和ELECTRA语言模型训练中得到了证明。

而在GRIN MoE的开发过程中,SparseMixer-v2终于有机会大规模应用于自回归语言模型训练。

作者用2.5T token训练了两个16×0.9B MoE。其中一个遵循GRIN MoE中使用的相同方案,另一个用传统的GShard方法替换 SparseMixer-v2。

专家模型不要专家并行!微软开源MoE新路径

如上图所示,将SparseMixer-v2的性能提升推广到16×0.9B尺度的自回归语言模型训练。

在前0.5T token上GShard表现更好,但SparseMixer-v2在训练后期取得了更强的性能。

专家模型不要专家并行

传统的MoE训练采用专家并行,简单理解就是把不同的专家分配到不同的显卡上。

一个明显的问题是负载不均衡,有的专家会分到更多的token,有的专家却很闲。

专家模型不要专家并行!微软开源MoE新路径

之前的做法是设定一个阈值,比如1000个token分给4个专家,每人应该是250,这时候每张卡就最多只算250个token,超过后直接丢弃(送到下一层)。

而在本文中,作者利用数据并行、pipeline并行和张量并行来训练GRIN MoE。

此外,对于没有专家并行性的MoE计算,作者发现Megablocks包非常有用,它的grouped_GEMM内核和包装器的性能更好。

应用这些新的工程化方法避免了专家并行,也就不用丢弃token了。

最终,与具有相同激活参数的密集模型相比,本文的方法实现了超过80%的训练效率提升。

专家模型不要专家并行!微软开源MoE新路径

上表中,作者将两种不同大小的MoE模型与具有相同激活参数量的密集模型进行了比较,使用相同的硬件测量了它们的训练吞吐量。

尽管MoE总的参数量是密集模型的六倍多,但在实验中达到了超过80%的相对吞吐量,证实了使用GRIN MoE方法的模型具有显著的计算扩展潜力。

(PS:密集模型的吞吐量是在与MoE模型相同的并行度设置下测量的,这里的比较是为了研究密集激活网络(非MoE)和稀疏激活网络(MoE)的GPU内核效率)

此外,在扩大模型大小时,密集模型和MoE模型显示出相似的减速模式,比如6.6B密集模型的训练吞吐量大约比1.6B密集模型的训练吞吐量慢4.19倍(后者的参数少4倍)。同样,42B MoE模型的训练吞吐量比10B MoE 模型的训练吞吐量慢约3.96倍(对应参数少4.2倍)。

并行实验

在只使用pipeline并行的情况下,通过在GPU之间进一步划分不同层,可以将最大专家数量从16个扩展到32个。但是,如果再增加专家数量,则会导致单个层的参数过多,一个GPU就放不下了。

所以下一个维度采用张量并行。

专家并行在前向和后向计算中有两个all-to-all通信开销,而张量并行在前向和后向计算中有两个all-reduce通信开销。

相比之下all-reduce操作的延迟更高一点,但可以通过精心排布前向和反向的计算来overlap掉一部分开销。

专家模型不要专家并行!微软开源MoE新路径

如上图所示,通过结合pipeline并行和张量并行,系统支持的最大专家数量扩展到52个(总共132B参数)。

这个数量是因为实验只用了64个GPU,最多能将模型划分为64个阶段,如果有更多的GPU,那么还能继续向上扩展。

不过作者也表示,使用更复杂的并行通常会导致计算吞吐量降低。

负载均衡

如前所述,本文没有采用专家并行,但是负载不均衡的事实依然存在。

作者在这里通过调整负载均衡损失来调节全局的负载均衡。常见的负载均衡损失定义为:

专家模型不要专家并行!微软开源MoE新路径

其中α是超参数,n是专家数量,fi是调度给专家的token比例。

传统方法在本地不同的GPU上计算fi,因此负载均衡损失将调节本地专家负载均衡并缓解token丢弃。

在本文中,作者通过计算全局的fi(比如数据并行过程中组内的all-reduce)来修改负载均衡损失,调节专家负载以达到全局平衡。

尽管这种调整会产生额外的通信开销,但类似于张量并行,这些通信也可以与计算overlap,从而在很大程度上减少额外的延迟。

最后,放一个测试结果来show一下GRIN MoE的数学推理能力:

专家模型不要专家并行!微软开源MoE新路径

作者注:我们对新发布的GAOKAO(即全国普通大学和学院入学统一考试)的数学问题进行案例研究,这是中国一年一度的全国本科入学考试。 该考试以其严格的安全协议而闻名,是评估AI模型回答数学问题的能力的理想测试平台。请注意,GRIN MoE的训练于太平洋标准时间6月3日结束,2024年GAOKAO于中国标准时间6月7日开始。

参考资料:

https://venturebeat.com/ai/microsofts-grin-moe-ai-model-takes-on-coding-and-math-beating-competitors-in-key-benchmarks/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-12 11:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

系统级玩家微软、苹果先后出牌,端侧大模型路径清晰了?
...建议,这相当于在电脑中内置了一个永远不厌其烦的游戏专家,而且所能提供的建议是开放式的,远远超出了只有固定剧本的NPC(非玩家控制角色)概念。与微软形成鲜明对比,苹果则显然没有
2024-06-21 09:16:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...示例的MMLU测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。这一模型系列中最小的Phi-3
2024-08-22 09:49:00
谷歌和微软两位“印度老乡”CEO,正面硬刚
...,Pichai还讲道:“在57项测试中,Gemini的表现有89%与人类专家相当。这是第一个达到这一标准的模型。”言外之意
2023-12-08 16:29:00
微软的AI赌局,谷歌为何没敢接
...,也可以叫做‘真正的语义搜索’。”一位百度搜索技术专家告诉虎嗅,隐式搜索不再是单纯的字面搜索,而是利用AI分析用户关键词语的深层意思。例如,搜索“现实版钢铁侠”,得到的搜索结
2023-01-07 03:00:00
大模型新趋势之MoE:现状、挑战及研究方向
...涵、优势、发展历程及主要玩家MoE(MixtureofExperts,混合专家模型)是一种用于提升深度学习模型性能和效率的技术架构。其主要由一组专家模型和一个门控模型组成,核
2024-11-04 16:00:00
...力,业内一直有不同看法。相比马斯克的乐观预测,不少专家认为这一时间还要再晚一些。谷歌旗下人工智能公司“深层思维”的联合创始人德米斯·哈萨比斯判断,通用人工智能或在2030年实
2024-04-11 18:06:00
押注核能!微软决心喂大模型新“弹药”!
...将负责研究和开发其他商业化前的能源技术。 知名业内专家吴军,曾对ChatGPT训练有一个比喻:每训练一次ChatGPT
2023-09-28 11:06:00
国内首个类ChatGPT模型发布,服务器被挤崩
...上,公众与ChatGPT互动时也有类似的感受。这是为何?有专家解释,相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界
2023-03-02 13:52:00
AI研究甲骨文:五年的工作一天就做完了
...输入Diviner之后,模型发现了大量甲骨重片,不仅复现了专家过去所发现的数万组重片,而且经过初步整理,已发现了三百多组未被前人发现的校重新成果
2023-04-21 14:55:00
更多关于科技的资讯:
脱口秀演员「炸现场」,喜剧综艺「炸市场」
伴随《喜剧之王单口季》第二季(下称《喜单2》)圆满收官,一众“小人物”也终于走出心底的浪浪山:翟佳宁一语点醒内耗人:唯心主义的最高境界是唯我独尊
2025-09-14 06:43:00
日前,山西转型综改示范区入区企业潞安化工机械(集团)有限公司成功通过国家市场监督管理总局的严格审核,获颁压力容器分析设计(SAD)许可资质
2025-09-14 07:28:00
机器隆隆,一排排制作好的夹芯板整齐排列,格外亮眼。连日来,山西钢构科工有限公司围护结构智能制造车间内机器轰鸣、智能设备有序运转
2025-09-14 07:28:00
百度发债,释放何种信号?
9月8日,百度宣布计划于美国境外以离岸交易方式,发行以人民币计值的优先无担保票据;票据发行所得款项净额将用作一般公司用途
2025-09-13 09:38:00
不挤牙膏、全面堆料,iPhone 17能赢回中国用户吗?
“透视图”是36氪新推出的轻量化数据图文栏目——以数据透视趋势,以图片呈现要点。"Talk is Cheap. Show me the data
2025-09-13 14:55:00
全网高呼“小米太子你糊涂啊”,他被辞退揭开大厂的头号隐患
数日前人们讨论得有多热闹,如今的沉默就多震耳欲聋。小米辞退被外界称为“雷军接班人”的王腾一事,似乎再无下文。就连王腾以前几乎天天发的微博
2025-09-13 23:24:00
鲁网9月12日讯近日,北京国际大数据交易所专家朱大培携蘑菇车联信息科技有限公司、北京优锘科技有限公司、泰安协同软件有限公司一行来高新区调研数据要素相关工作
2025-09-13 08:51:00
德百家电澳德乐店开业盛典暨卡萨帝美食争霸赛报名火热开启
鲁网9月12日讯(记者 逯广宇 实习记者 李安琦)当智能科技邂逅舌尖美味,一场兼具创意与惊喜的盛宴即将登场!9月10日
2025-09-13 09:26:00
江苏南京:机器人“交警” “上岗”倒计时
机器人“交警” “上岗”倒计时能指挥交通,会查酒驾和巡逻,正由宁企携手国内人形机器人“领头羊”联手开发众擎机器人未来将走上大街
2025-09-13 09:57:00
济南能投集团斩获CMMI5级国际认证,软件研发实力跻身国际领先水平!
近日,济南能投集团山东和同信息科技股份有限公司(以下简称“和同信息”)成功通过全球软件能力成熟度模型集成最高等级——CMMI5级认证
2025-09-13 12:04:00
济南能源投资控股集团2025年高校毕业生业务轮训圆满收官
9月12日,济南能源投资控股集团2025年高校毕业生业务轮训工作正式落下帷幕。本次轮训为期两周,聚焦新入职大学生成长需求与能投集团人才储备目标
2025-09-13 12:11:00
数智化会员经济峰会暨数韵商城产业集群品牌盛典圆满落幕!
数智化会员经济峰会暨数韵商城产业集群品牌盛典2025年9月9日,湖南长沙星光熠熠、热潮涌动!绿之韵·数韵国际重磅打造的数智化会员经济峰会暨数韵商城产业集群品牌盛典盛大启幕
2025-09-13 15:20:00
叫叫亮相2025年服贸会 儿童数字内容领域创新成果集中亮相
2025 年 9 月 10 日至 14 日,以 “数智领航,服贸焕新” 为年度主题的中国国际服务贸易交易会(简称 “服贸会”)在北京盛大举办
2025-09-13 15:20:00
贵州酒业封坛策划公司亿加管理助力酱酒产业峰会、封坛文化节落地
项目总策划总负责人:龙亿加(龙娟)项目总督导执行人:甘霖项目服务体系督导:甘霖项目营销体系建设:胡建强项目销讲营销成交:胡建强项目营销辅导:刘进路项目品牌视觉管理:张怀宇项目仪式指导司仪:一洋从 “基础筑基” 到 “细节落地”
2025-09-13 15:21:00
当前,人工智能以颠覆性力量重塑教育生态,为人们带来高效、个性化的学习体验。聚焦国内,教育数字化已成为我国开辟教育发展新赛道
2025-09-13 15:22:00