• 我的订阅
  • 科技

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

类别:科技 发布时间:2024-06-03 20:59:00 来源:每日看点快看

本文转自:中国新闻网

6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台4090服务器推理的开源千亿MoE大模型。

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

开源地址

Skywork-MoE的模型权重、技术报告完全开源,免费商用,无需申请。

模型架构

本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。

模型能力

昆仑万维基于目前各大主流模型评测榜单评测了Skywork-MoE,在相同的激活参数量20B(推理计算量)下,Skywork-MoE能力在行业前列,接近70B的Dense模型,使得模型的推理成本有近3倍的下降。同时Skywork-MoE的总参数大小比DeepSeekV2的总参数大小要小1/3,用更小的参数规模做到了相近的能力。

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

技术创新

为了解决MoE模型训练困难,泛化性能差的问题,相较于Mixtral-MoE, Skywork-MoE设计了两种训练优化算法:

1.Gating Logits归一化操作

昆仑万维在Gating Layer的token分发逻辑处新增了一个normalization操作,使得Gating Layer的参数学习更加趋向于被选中的top-2 experts,增加MoE模型对于top-2的置信度:

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

2.自适应的 Aux Loss

有别于传统的固定系数(固定超参)的aux loss,昆仑万维在MoE训练的不同阶段让模型自适应的选择合适的aux loss超参系数,从而让Drop Token Rate保持在合适的区间内,既能做到expert分发的平衡,又能让expert学习具备差异化,从而提升模型整体的性能和泛化水平。在MoE训练的前期,由于参数学习不到位,导致Drop Token Rate太高(token分布差异太大),此时需要较大的aux loss帮助token load balance;在MoE训练的后期,昆仑万维希望Expert之间仍保证一定的区分度,避免 Gating倾向为随机分发Token,因此需要较低的aux loss降低纠偏。

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

训练Infra

如何对MoE模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最佳实践。Skywork-MoE提出了两个重要的并行优化设计,从而在千卡集群上实现了MFU 38%的训练吞吐,其中MFU以22B的激活参数计算理论计算量。

1.Expert Data Parallel

区别于Megatron-LM社区已有的EP(Expert Parallel)和ETP(Expert Tensor Parallel)设计,昆仑万维提出了一种称之为Expert Data Parallel的并行设计方案,这种并行方案可以在Expert数量较小时仍能高效的切分模型,对Expert引入的 all2all通信也可以最大程度的优化和掩盖。相较于EP对GPU数量的限制和ETP在千卡集群上的低效, EDP可以较好的解决大规模分布式训练MoE的并行痛点,同时EDP的设计简单、鲁棒、易扩展,可以较快的实现和验证。

2.非均匀切分流水并行

由于first stage的Embedding计算和last stage的Loss计算,以及Pipeline Buffer的存在,流水并行下均匀切分Layer时的各stage计算负载和显存负载均有较明显的不均衡情况。昆仑万维提出了非均匀的流水并行切分和重计算Layer分配方式,使得总体的计算/显存负载更均衡,约有10%左右的端到端训练吞吐提升。

MoE Know-how

此外,Skywork-MoE还通过一系列基于Scaling Laws的实验,探究哪些约束会影响Upcycling和From Scratch训练MoE模型的好坏。

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

一个可以遵循的经验规则是:如果训练MoE模型的FLOPs是训练Dense模型的2倍以上,那么选择from Scratch训练MoE会更好,否则的话,选择Upcycling训练MoE 可以明显减少训练成本。

4090推理

Skywork-MoE是目前能在8x4090服务器上推理的最大的开源MoE模型。8x4090服务器一共有192GB的GPU显存,在FP8量化下(weight占用146GB),使用昆仑万维首创的非均匀Tensor Parallel并行推理方式,Skywork-MoE可以在合适的batch size 内达到2200 tokens/s的吞吐。

昆仑万维希望本次开源的Skywork-MoE模型、技术报告和相关的实验结果可以给开源社区贡献更多的MoE训练经验和Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面,探索用更低的训练推理成本训更大更强的模型,在通往AGI的道路上贡献一点力量。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-03 23:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集
2023-10-30 15:35:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
北京时间4月17日,昆仑万维正式发布千亿级大语言模型“天工”,同时宣布即日起启动邀请测试。“天工”由昆仑万维与国内领先的AI团队奇点智源联合研发,是国内首个对标ChatGPT的双
2023-04-17 15:42:00
王兴张一鸣的老对手 又做起了“大模型梦”
...梦幻的创业梦以美团接盘告终;另一件则是一家名为昆仑万维(300418.SZ)的“AI概念股”因大股东减持,创始人周亚辉多次“左手倒右手”的资本游戏,引发市场关注。作为与王兴、
2023-07-06 16:01:00
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
本文转自:中国新闻网2023年4月17日,昆仑万维发布自研双千亿级大语言模型“天工1.0”。即将到来的2024年4月17日
2024-04-01 19:56:00
昆仑万维天工大模型成功入选中国信通院《2023 大模型和AIGC产业图谱》
...新浪潮”论坛上,大模型生态合作共同体正式发起,昆仑万维CEO方汉受邀上台参加共同发起仪式,此外还包括阿里云、百度、科大讯飞等企业代表。《2023大模型和AIGC产业图谱》也在
2023-07-10 16:00:00
昆仑万维天工大模型向全社会开放 【昆仑万维天工大模型向全社会开放】财联社11月4日电,财联社记者今日从昆仑万维方面获悉,昆仑万维“天工”大模型通过《生成式人工智能服务管理暂行办法
2023-11-04 12:46:00
昆仑万维将与华为云打造企业专属模型 【昆仑万维将与华为云打造企业专属模型】财联社9月21日电,财联社记者今日从昆仑万维方面获悉,昆仑万维与华为云在“华为全联接大会2023”期间签
2023-09-21 19:23:00
AIGC按下昆仑万维的全球化加速度
...海外互联平台找到了一个更好的切合点。12月15日,昆仑万维在北京举行AIGC技术发布会,会上昆仑万维CEO方汉正式发布了昆仑天工AIGC全系列算法与模型
2022-12-19 09:02:00
两个月市值冲上600亿,张一鸣的老对手要翻身了?
...者,周亚辉一直想要与两位大佬一较高下。他创办的昆仑万维,蛰伏多年之后,因为蹭上了ChatGPT的热点,近两个月市值涨了400多亿人民币,周亚辉百亿美金公司的小目标也近在咫尺。
2023-04-19 14:07:00
更多关于科技的资讯:
■赵磊摘要:随着人工智能技术在营销领域的广泛应用,品牌内容生成方式正发生深刻变革。基于人工智能的内容生成工具,能够在短时间内大规模生产多样化的品牌传播内容
2026-02-28 04:57:00
随着新一轮科技革命与产业变革的深入推进,人工智能、大数据、元宇宙等数字技术的快速发展,正在深刻重塑人们的生产模式与日常生活方式
2026-02-28 04:57:00
■王晓静摘要:随着数字平台在服务业中的广泛渗透,医疗美容行业逐渐由以单体机构为中心的线下运营模式,转向以平台为枢纽的网络化运营结构
2026-02-28 04:57:00
具身智能“百亿俱乐部”崛起 河南凭啥成为下一个重仓地?
大河网讯 当中国具身智能领域迎来爆发式增长,以银河通用、智元机器人、宇树科技、千寻智能、星海图、智平方等企业组成的“百亿俱乐部”强势崛起
2026-02-27 20:11:00
大皖新闻讯 2026年春节档,电影《飞驰人生3》以超30亿元的票房成绩,再次展现了赛车题材电影的市场号召力。影片中,张弛与对手在虚构的“巴音布鲁克”赛道上展开对决
2026-02-27 20:31:00
宇太能源与大型储能企业开展项目合作
近日,广东宇太能源与某大型新能源企业签订协议,双方共同推进空微子发电技术在储能领域的深度应用。据悉,该新能源公司为储能电站领域的民营龙头企业
2026-02-27 21:20:00
当手机里的AI助手开始帮长辈点外卖、订年货,当家族群里的拜年视频由AI一键生成,当独居的父母对着智能设备练朗诵、聊家常
2026-02-27 21:51:00
消费有惊喜,发票变“红包”。继“即时开奖”的最高奖98元、“每周定期开奖”的最高奖800元之后,我市“有奖发票”活动中的最大奖项来了
2026-02-27 21:59:00
在我国平台经济持续壮大的背景下,新就业形态劳动者规模不断扩张,新兴职业加速涌现,已成为推动实现高质量充分就业战略目标的重要力量
2026-02-27 22:00:00
谨以杭州之名呼唤德国
2月26日,德国总理默茨专机抵达杭州。在杭州萧山机场,迎接他的是一辆黑色红旗轿车。随行的约30家企业高管,覆盖了拜耳、大众
2026-02-27 18:02:00
中国消费者报北京讯(记者孙蔚)2月26日,爱奇艺发布的最新财报显示,2025年总收入272.9亿元,Non-GAAP(非美国通用会计准则)运营利润6
2026-02-27 17:06:00
中国消费者报报道(记者张文章)在福建一些企业的研发实验室与生产车间里,常能看到一些特殊的身影,他们是福建省知识产权保护中心(以下简称福建保护中心)派出的首席质量服务官和科技特派员服务团队
2026-02-27 17:06:00
中国消费者报福州讯(记者张文章)2月26日,记者从福建省漳州市市场监管局获悉,国家药监局药品评价中心、国家药品不良反应监测中心近日印发《关于表扬2025年全国药械妆不良反应监测评价工作表现突出单位的通报》
2026-02-27 17:06:00
中国消费者报南昌讯(严有生 记者朱海)2月27日,记者从江西省市场监管局获悉,市场监管总局近日正式批准在江西省上饶市筹建国家高精密光学元件产品质量检验检测中心
2026-02-27 17:06:00
中国消费者报福州讯(记者张文章)2月26日,福建省商务厅、省市场监管局等5部门联合印发《福建省2026年家电以旧换新、数码和智能产品购新补贴实施细则》(以下简称《细则》)
2026-02-27 17:06:00