我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

专家模型不要专家并行！微软开源MoE新路径

类别：科技发布时间：2024-11-12 09:57:00 来源：新智元

【新智元导读】近日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。

继Phi家族之后，微软又开源了新的混合专家大模型——GRIN MoE。

与Phi-3.5同样的个头（16 * 3.8B），却采用了截然不同的训练方法。

这个「不走寻常路」如果写个太长不看版，那就是两句话：

1. 使用新一代SparseMixer来精确估计专家路由的梯度，解决传统方案中利用门控梯度代替路由梯度的问题。 2. 专家并行不要了，训练中改用数据、pipeline和张量并行，避免了传统方法丢弃token的问题。

论文地址：https://arxiv.org/abs/2409.12136

当然了，上面两句话是小编说的，多少有点糙，文中细节，还请诸君继续阅读~

这年头，新来一个LLM，当然要先刷分了——

参数要少，效果要好，所以要在左上角：

GRIN作为MoE架构，总参数量约42B，推理时激活的参数为6.6B，打同级别（7B）的非MoE模型是手拿把攥，甚至比14B的Phi-3还要略胜一筹。

在上面的这份成绩单中，GRIN MoE表现优异，尤其是在编码和数学测试中。

比如，在衡量数学问题解决能力的GSM-8K中，GRIN MoE得分为90.4，而在编码任务基准HumanEval上拿到了74.4分。

在MMLU（大规模多任务语言理解）基准测试中GRIN得分为79.4，超过了同为MoE架构的Mixtral（70.5分），以及自家的Phi-3.5（78.9分）。

如果对比流行的商用模型，GPT-3.5表示感受到时代的力量，默默退出群聊。

开放权重：https://huggingface.co/microsoft/GRIN-MoE

demo：https://github.com/microsoft/GRIN-MoE

MoE全新训练路径

GRIN MoE由常规的Transformer块构成，采用分组查询注意力（GQA）和滑动窗口注意力来提高计算效率。

采用RoPE进行位置编码，以便在预训练后实现长上下文能力。

在MoE架构中，模型通过路由网络为每个输入token挑选适合的专家模块。对于有n个专家的网络，一个用于推理的MoE模块的输出为：

其中z = Router（x，r），本文中Router采用线性网络，Gating是门控函数（通常为softmax），Expert是FNN层。

MoE通过TopK函数进行专家分配，这个专家路由的过程是不可微的，所以反向传播的时候没法求导。

对此，传统的MoE训练将TopK视为常数，仅通过Gating来反向传播计算路由权重梯度，相当于用门控的梯度代替了路由的梯度。

这多少有点糙。

不可导怎么办

恰好，本文一作之前有一篇工作（SparseMixer）：

论文地址：https://arxiv.org/pdf/2310.00811

受到直通梯度估计器的启发，作者扩展了前作，提出了SparseMixer-v2。

作者首先将TopK函数替换为模型训练中离散变量的随机采样，然后应用heun’s third order method来近似专家路由梯度，并构建一个改进的反向传播，为专家路由给出数学上合理的梯度估计。

前作中，SparseMixer的有效性在神经机器翻译任务和ELECTRA语言模型训练中得到了证明。

而在GRIN MoE的开发过程中，SparseMixer-v2终于有机会大规模应用于自回归语言模型训练。

作者用2.5T token训练了两个16×0.9B MoE。其中一个遵循GRIN MoE中使用的相同方案，另一个用传统的GShard方法替换 SparseMixer-v2。

如上图所示，将SparseMixer-v2的性能提升推广到16×0.9B尺度的自回归语言模型训练。

在前0.5T token上GShard表现更好，但SparseMixer-v2在训练后期取得了更强的性能。

专家模型不要专家并行

传统的MoE训练采用专家并行，简单理解就是把不同的专家分配到不同的显卡上。

一个明显的问题是负载不均衡，有的专家会分到更多的token，有的专家却很闲。

之前的做法是设定一个阈值，比如1000个token分给4个专家，每人应该是250，这时候每张卡就最多只算250个token，超过后直接丢弃（送到下一层）。

而在本文中，作者利用数据并行、pipeline并行和张量并行来训练GRIN MoE。

此外，对于没有专家并行性的MoE计算，作者发现Megablocks包非常有用，它的grouped_GEMM内核和包装器的性能更好。

应用这些新的工程化方法避免了专家并行，也就不用丢弃token了。

最终，与具有相同激活参数的密集模型相比，本文的方法实现了超过80%的训练效率提升。

上表中，作者将两种不同大小的MoE模型与具有相同激活参数量的密集模型进行了比较，使用相同的硬件测量了它们的训练吞吐量。

尽管MoE总的参数量是密集模型的六倍多，但在实验中达到了超过80%的相对吞吐量，证实了使用GRIN MoE方法的模型具有显著的计算扩展潜力。

（PS：密集模型的吞吐量是在与MoE模型相同的并行度设置下测量的，这里的比较是为了研究密集激活网络（非MoE）和稀疏激活网络（MoE）的GPU内核效率）

此外，在扩大模型大小时，密集模型和MoE模型显示出相似的减速模式，比如6.6B密集模型的训练吞吐量大约比1.6B密集模型的训练吞吐量慢4.19倍（后者的参数少4倍）。同样，42B MoE模型的训练吞吐量比10B MoE 模型的训练吞吐量慢约3.96倍（对应参数少4.2倍）。

并行实验

在只使用pipeline并行的情况下，通过在GPU之间进一步划分不同层，可以将最大专家数量从16个扩展到32个。但是，如果再增加专家数量，则会导致单个层的参数过多，一个GPU就放不下了。

所以下一个维度采用张量并行。

专家并行在前向和后向计算中有两个all-to-all通信开销，而张量并行在前向和后向计算中有两个all-reduce通信开销。

相比之下all-reduce操作的延迟更高一点，但可以通过精心排布前向和反向的计算来overlap掉一部分开销。

如上图所示，通过结合pipeline并行和张量并行，系统支持的最大专家数量扩展到52个（总共132B参数）。

这个数量是因为实验只用了64个GPU，最多能将模型划分为64个阶段，如果有更多的GPU，那么还能继续向上扩展。

不过作者也表示，使用更复杂的并行通常会导致计算吞吐量降低。

负载均衡

如前所述，本文没有采用专家并行，但是负载不均衡的事实依然存在。

作者在这里通过调整负载均衡损失来调节全局的负载均衡。常见的负载均衡损失定义为：

其中α是超参数，n是专家数量，fi是调度给专家的token比例。

传统方法在本地不同的GPU上计算fi，因此负载均衡损失将调节本地专家负载均衡并缓解token丢弃。

在本文中，作者通过计算全局的fi（比如数据并行过程中组内的all-reduce）来修改负载均衡损失，调节专家负载以达到全局平衡。

尽管这种调整会产生额外的通信开销，但类似于张量并行，这些通信也可以与计算overlap，从而在很大程度上减少额外的延迟。

最后，放一个测试结果来show一下GRIN MoE的数学推理能力：

作者注：我们对新发布的GAOKAO（即全国普通大学和学院入学统一考试）的数学问题进行案例研究，这是中国一年一度的全国本科入学考试。该考试以其严格的安全协议而闻名，是评估AI模型回答数学问题的能力的理想测试平台。请注意，GRIN MoE的训练于太平洋标准时间6月3日结束，2024年GAOKAO于中国标准时间6月7日开始。

参考资料：

https://venturebeat.com/ai/microsofts-grin-moe-ai-model-takes-on-coding-and-math-beating-competitors-in-key-benchmarks/

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-12 11:45:10

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于专家,微软,路径,模型,模型,专家的资讯：

系统级玩家微软、苹果先后出牌，端侧大模型路径清晰了？

...建议，这相当于在电脑中内置了一个永远不厌其烦的游戏专家，而且所能提供的建议是开放式的，远远超出了只有固定剧本的NPC（非玩家控制角色）概念。与微软形成鲜明对比，苹果则显然没有

2024-06-21 09:16:00

微软连发3款Phi-3.5模型：128K上下文，首用MoE架

...示例的MMLU测试中击败了GPT-4o mini。这是微软首次使用混合专家模型架构。这一模型系列中最小的Phi-3

2024-08-22 09:49:00

谷歌和微软两位“印度老乡”CEO，正面硬刚

...，Pichai还讲道：“在57项测试中，Gemini的表现有89%与人类专家相当。这是第一个达到这一标准的模型。”言外之意

2023-12-08 16:29:00

微软的AI赌局，谷歌为何没敢接

...，也可以叫做‘真正的语义搜索’。”一位百度搜索技术专家告诉虎嗅，隐式搜索不再是单纯的字面搜索，而是利用AI分析用户关键词语的深层意思。例如，搜索“现实版钢铁侠”，得到的搜索结

2023-01-07 03:00:00

大模型新趋势之MoE：现状、挑战及研究方向

...涵、优势、发展历程及主要玩家MoE（MixtureofExperts，混合专家模型）是一种用于提升深度学习模型性能和效率的技术架构。其主要由一组专家模型和一个门控模型组成，核

2024-11-04 16:00:00

AI未来或超越“最聪明的人”？专家谈发展如何兼顾公平

...力，业内一直有不同看法。相比马斯克的乐观预测，不少专家认为这一时间还要再晚一些。谷歌旗下人工智能公司“深层思维”的联合创始人德米斯·哈萨比斯判断，通用人工智能或在2030年实

2024-04-11 18:06:00

押注核能！微软决心喂大模型新“弹药”！

...将负责研究和开发其他商业化前的能源技术。知名业内专家吴军，曾对ChatGPT训练有一个比喻：每训练一次ChatGPT

2023-09-28 11:06:00

国内首个类ChatGPT模型发布，服务器被挤崩

...上，公众与ChatGPT互动时也有类似的感受。这是为何？有专家解释，相较于英文数据，中文数据的开源程度较低，导致中文数据集的规模相对较小。此外，英文作为科研主流语言，在学术界

2023-03-02 13:52:00

AI研究甲骨文：五年的工作一天就做完了

...输入Diviner之后，模型发现了大量甲骨重片，不仅复现了专家过去所发现的数万组重片，而且经过初步整理，已发现了三百多组未被前人发现的校重新成果

2023-04-21 14:55:00

更多关于科技的资讯：

2025年玛咖（玛卡）品牌综合评测：如何找到适合自己体质的调

在个性化健康日益成为主流的今天，男性对保健品的需求已从“大众配方”转向“个体化方案”。玛咖作为广受关注的植物补充剂，其功效虽获认可

2025-11-04 15:47:00

可梦AI开放测试获首批企业盛赞！“短剧男频标杆”的蜜糖网络实

短剧行业全流程智能平台可梦AI正式开启企业测试通道，凭借“真AI驱动全链路、需求响应极速、企业服务定制化”的核心优势，迅速赢得首批入驻企业的高度认可

2025-11-04 13:50:00

CFCA安心诉存证服务，融资租赁行业的电子证据守护者

目前，融资租赁行业正在快速向数字化转型迈进，行业内线上业务的繁荣发展，使得电子数据在交易出现司法纠纷时所起到的作用愈发重要

2025-11-04 13:51:00

当年轻人开始在夏天“进补”，巨量星图如何用一场计划“养”出多

当养生成为这届年轻人的日常，一边熬夜一边搜索“祛湿攻略”，左手冰美式右手胶原蛋白，已成为他们的生活常态。对于大健康品牌来说

2025-11-04 13:52:00

平台化协同·场景为先--中叉网对话安庆联动属具公司的高质量跃

2025年8月上旬，“合力改变物流搬运方式--合力•中叉网 | 2025中国叉车和移动机器人高质量发展万里行”再次走进安徽叉车集团旗下的安庆联动属具股份有限公司

2025-11-04 13:52:00

智造能力的跃升，正在成为中国品牌突破创新的底气

智造能力的跃升，正在从结构上打破「高端化」市场格局。以厨电市场为例，以往在单价8万元/㎡以上住宅项目中，进口厨电占比高达78%

2025-11-04 08:12:00

畅通京津冀算力“高速路”！河北大力推进京津冀三地网络协同、服

河北大力推进京津冀三地网络协同、服务协同、算力资源协同畅通京津冀算力“高速路”10月17日，在2025中国国际数字经济博览会上

2025-11-04 08:12:00

厦门8个产品入选省级人工智能硬件优质产品名单

厦门网讯（厦门日报记者李晓平）近日，省工信厅公布省级人工智能硬件优质产品名单，全省18个入选产品中，厦门独占8席，包括瑞为

2025-11-04 08:38:00

中国GEO服务商三大梯队深度解析：从技术王者到垂直专家的战略

在生成式AI重构流量分配格局的2025年，中国GEO服务商市场已形成清晰的三大梯队。据《2025中国生成式AI搜索生态白皮书》数据显示

2025-11-04 08:49:00

深度解析TOP5 GEO服务商护城河：技术壁垒如何转化为可量

在生成式AI重构流量分配规则的2025年，企业面临着一个核心问题：为什么同样是GEO服务，不同服务商带来的商业回报差距能高达300%以上

2025-11-04 08:50:00

厦门再添人工智能新型孵化载体思明未来科技园启用

厦门网讯（厦门日报记者吴燕如李晓平）我市再添人工智能新型孵化载体——10月31日，位于数字立方大厦的思明未来科技园正式揭牌运营

2025-11-04 09:10:00

星巴克宣布与博裕成立合资企业共同运营中国业务

大皖新闻讯 11月4日，星巴克咖啡公司宣布与博裕投资达成战略合作，双方将成立合资企业，共同运营星巴克在中国市场的零售业务

2025-11-04 09:31:00

建设5G工厂，炼焦更加智慧

在远程操控下，焦炉“四大车”（装煤车、推焦车、拦焦车、熄焦车）有条不紊地进行作业；通过设备预测性维护系统，设备的早期故障得到智能诊断……在河北新兴能源科技股份有限公司（以下简称“新兴能源科技公司”）

2025-11-04 09:01:00

“产业炬光灯”聚焦厦企笃正新能源紧跟市场谋创新

“产业炬光灯”聚焦笃正新能源。厦门网讯（厦门日报记者林露虹）把阳光“存”起来，变成随时可用的电能。厦门企业笃正新能源在离网光伏储能领域持续深耕

2025-11-04 08:07:00

需求释放结构升级，消费市场涌动“焕新”潮

“还有咖啡节”在玄武湖公园打造了时尚潮流集市，吸引许多市民前来消费打卡，在明媚秋光中度过惬意周末。通讯员常成南京日报/紫金山新闻记者孙中元摄今日关注数字4

2025-11-04 07:41:00

头条订阅服务

专家模型不要专家并行！微软开源MoE新路径