• 我的订阅
  • 科技

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

类别:科技 发布时间:2024-06-03 20:59:00 来源:每日看点快看

本文转自:中国新闻网

6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台4090服务器推理的开源千亿MoE大模型。

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

开源地址

Skywork-MoE的模型权重、技术报告完全开源,免费商用,无需申请。

模型架构

本次开源的Skywork-MoE模型隶属于天工3.0的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为146B,激活参数量22B,共有16个Expert,每个Expert大小为13B,每次激活其中的2个Expert。

模型能力

昆仑万维基于目前各大主流模型评测榜单评测了Skywork-MoE,在相同的激活参数量20B(推理计算量)下,Skywork-MoE能力在行业前列,接近70B的Dense模型,使得模型的推理成本有近3倍的下降。同时Skywork-MoE的总参数大小比DeepSeekV2的总参数大小要小1/3,用更小的参数规模做到了相近的能力。

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

技术创新

为了解决MoE模型训练困难,泛化性能差的问题,相较于Mixtral-MoE, Skywork-MoE设计了两种训练优化算法:

1.Gating Logits归一化操作

昆仑万维在Gating Layer的token分发逻辑处新增了一个normalization操作,使得Gating Layer的参数学习更加趋向于被选中的top-2 experts,增加MoE模型对于top-2的置信度:

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

2.自适应的 Aux Loss

有别于传统的固定系数(固定超参)的aux loss,昆仑万维在MoE训练的不同阶段让模型自适应的选择合适的aux loss超参系数,从而让Drop Token Rate保持在合适的区间内,既能做到expert分发的平衡,又能让expert学习具备差异化,从而提升模型整体的性能和泛化水平。在MoE训练的前期,由于参数学习不到位,导致Drop Token Rate太高(token分布差异太大),此时需要较大的aux loss帮助token load balance;在MoE训练的后期,昆仑万维希望Expert之间仍保证一定的区分度,避免 Gating倾向为随机分发Token,因此需要较低的aux loss降低纠偏。

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

训练Infra

如何对MoE模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最佳实践。Skywork-MoE提出了两个重要的并行优化设计,从而在千卡集群上实现了MFU 38%的训练吞吐,其中MFU以22B的激活参数计算理论计算量。

1.Expert Data Parallel

区别于Megatron-LM社区已有的EP(Expert Parallel)和ETP(Expert Tensor Parallel)设计,昆仑万维提出了一种称之为Expert Data Parallel的并行设计方案,这种并行方案可以在Expert数量较小时仍能高效的切分模型,对Expert引入的 all2all通信也可以最大程度的优化和掩盖。相较于EP对GPU数量的限制和ETP在千卡集群上的低效, EDP可以较好的解决大规模分布式训练MoE的并行痛点,同时EDP的设计简单、鲁棒、易扩展,可以较快的实现和验证。

2.非均匀切分流水并行

由于first stage的Embedding计算和last stage的Loss计算,以及Pipeline Buffer的存在,流水并行下均匀切分Layer时的各stage计算负载和显存负载均有较明显的不均衡情况。昆仑万维提出了非均匀的流水并行切分和重计算Layer分配方式,使得总体的计算/显存负载更均衡,约有10%左右的端到端训练吞吐提升。

MoE Know-how

此外,Skywork-MoE还通过一系列基于Scaling Laws的实验,探究哪些约束会影响Upcycling和From Scratch训练MoE模型的好坏。

昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE

一个可以遵循的经验规则是:如果训练MoE模型的FLOPs是训练Dense模型的2倍以上,那么选择from Scratch训练MoE会更好,否则的话,选择Upcycling训练MoE 可以明显减少训练成本。

4090推理

Skywork-MoE是目前能在8x4090服务器上推理的最大的开源MoE模型。8x4090服务器一共有192GB的GPU显存,在FP8量化下(weight占用146GB),使用昆仑万维首创的非均匀Tensor Parallel并行推理方式,Skywork-MoE可以在合适的batch size 内达到2200 tokens/s的吞吐。

昆仑万维希望本次开源的Skywork-MoE模型、技术报告和相关的实验结果可以给开源社区贡献更多的MoE训练经验和Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面,探索用更低的训练推理成本训更大更强的模型,在通往AGI的道路上贡献一点力量。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-03 23:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
10月30日,昆仑万维宣布开源百亿级大语言模型「天工」Skywork-13B系列,并配套开源了600GB、150B Tokens的超大高质量开源中文数据集
2023-10-30 15:35:00
昆仑万维发布国产版ChatGPT“天工” 今日启动邀请测试
北京时间4月17日,昆仑万维正式发布千亿级大语言模型“天工”,同时宣布即日起启动邀请测试。“天工”由昆仑万维与国内领先的AI团队奇点智源联合研发,是国内首个对标ChatGPT的双
2023-04-17 15:42:00
王兴张一鸣的老对手 又做起了“大模型梦”
...梦幻的创业梦以美团接盘告终;另一件则是一家名为昆仑万维(300418.SZ)的“AI概念股”因大股东减持,创始人周亚辉多次“左手倒右手”的资本游戏,引发市场关注。作为与王兴、
2023-07-06 16:01:00
昆仑万维:“天工大模型3.0”将于4月17日正式发布 同步开源4000亿参数MoE超级模型
本文转自:中国新闻网2023年4月17日,昆仑万维发布自研双千亿级大语言模型“天工1.0”。即将到来的2024年4月17日
2024-04-01 19:56:00
昆仑万维天工大模型成功入选中国信通院《2023 大模型和AIGC产业图谱》
...新浪潮”论坛上,大模型生态合作共同体正式发起,昆仑万维CEO方汉受邀上台参加共同发起仪式,此外还包括阿里云、百度、科大讯飞等企业代表。《2023大模型和AIGC产业图谱》也在
2023-07-10 16:00:00
昆仑万维天工大模型向全社会开放 【昆仑万维天工大模型向全社会开放】财联社11月4日电,财联社记者今日从昆仑万维方面获悉,昆仑万维“天工”大模型通过《生成式人工智能服务管理暂行办法
2023-11-04 12:46:00
昆仑万维将与华为云打造企业专属模型 【昆仑万维将与华为云打造企业专属模型】财联社9月21日电,财联社记者今日从昆仑万维方面获悉,昆仑万维与华为云在“华为全联接大会2023”期间签
2023-09-21 19:23:00
AIGC按下昆仑万维的全球化加速度
...海外互联平台找到了一个更好的切合点。12月15日,昆仑万维在北京举行AIGC技术发布会,会上昆仑万维CEO方汉正式发布了昆仑天工AIGC全系列算法与模型
2022-12-19 09:02:00
两个月市值冲上600亿,张一鸣的老对手要翻身了?
...者,周亚辉一直想要与两位大佬一较高下。他创办的昆仑万维,蛰伏多年之后,因为蹭上了ChatGPT的热点,近两个月市值涨了400多亿人民币,周亚辉百亿美金公司的小目标也近在咫尺。
2023-04-19 14:07:00
更多关于科技的资讯:
东南网龙岩1月4日讯(通讯员 詹春艳 林培民)近日,龙岩市新罗区10千伏中新线上空,一场静默而精准的“人机协同”带电作业悄然完成
2026-01-04 23:27:00
蔡高民:颠覆认知!打破西方理论垄断!中国老年学自主知识体系诞生
《全生命周期养能力发展与医养结合:理论和实践》的核心突破,在于建构“养”的元概念、定义与内涵外延,并以此为基础构建了逻辑自洽的三大理论体系
2026-01-04 20:15:00
编者按:周期更迭,变量叠加。站在“十五五”开局之年的关键节点上,各行业如何调整节奏、校准路径、寻找增量?中新经纬广邀多领域学者
2026-01-04 20:21:00
春节临近,年味渐浓。在贵阳,一场不同于传统年货市集的新春活动正在酝酿——它以“创意游乐场”为定位,融合在地风物、潮流文化与青年创造力
2026-01-04 21:50:00
不经意晃动手机,软件立即跳转购物页面。最近,记者实测发现,备受诟病的“摇一摇跳转”广告乱象依然时有发生,困扰着不少用户
2026-01-04 17:59:00
2025年度帆书APP经典热搜榜,精准解锁经典中的成长指南
当“信息过载”成为常态,“选择困难”深入骨髓,我们比任何时候都更需要一个清晰的信号:什么才是值得投入时间的真知?近日,帆书APP根据全年用户收听数据发布的“经典热搜榜”
2026-01-04 14:25:00
黄鹤权据光明网报道,英国《剑桥词典》将2025年年度词汇定为“准社交”,形容个体单方面与名人、虚拟角色或聊天机器人产生的密切连接感
2026-01-04 14:25:00
飞晟科技入选海南省儋州市中小企业数字化转型城市试点服务商
近日,海南省儋州市科学技术和工业信息化局对外公示《儋州市中小企业数字化转型城市试点服务商拟纳入名单(第一批)》。公示名单显示
2026-01-04 15:28:00
抖音生活服务联合南京德基广场落地“心动街区”,电视台直播+明星见面会+打卡活动助力商圈消费
12月30日,抖音生活服务“心动街区”活动联合江苏电视台城市频道零距离栏目发起“心动德基24h·南京跨年在德基”美食专场直播
2026-01-04 15:30:00
浪潮卓数大数据旗下公司入围多项2025年山东省大数据产业“三优两重”项目
近日,山东省工业和信息化厅正式公布2025年山东省大数据产业“三优两重”项目名单。浪潮卓数大数据旗下天元征信公司、浪潮(山东)大数据科技有限公司
2026-01-04 15:31:00
华麟数科推出联盟生态链“麒麟链”,加速数字经济深度融合与转型
【中国,2026年1月】 —— 在数字经济浪潮席卷全球、深入渗透各行各业的关键阶段,华麟数科(广东)有限公司(以下简称“华麟数科”)正式宣布
2026-01-04 15:31:00
以具身智能赋能教育未来----开普勒机器人助力高校产学研融合创新
在新一轮科技革命与产业变革加速演进的背景下,人工智能正从"算法与算力"的竞争,走向"智能体与真实世界深度融合"的新阶段
2026-01-04 15:33:00
中国首个!新奈发布“智能呼吸工程体系”,破解家用呼吸设备长期安全难题
在睡眠与呼吸健康领域,真正的改变往往不是某一功能的增加,而是背后那套长期支撑它持续进化的技术体系。2025年12月,新奈 Synaire 对外发布年度科研成果
2026-01-04 15:33:00
中国科技定义未来运动 HURA超现实远程赛车亮相世界未来运动会
2025年12月18日至23日,全球体育科技前沿的目光齐聚阿联酋首都阿布扎比国家展览中心。在这里举办的2025世界未来运动会(Games of the Future 2025)上
2026-01-04 15:33:00
京东健康深化政企协同 助力吉林人参产业发展提质增效
元旦假期期间,人参等滋补品在节庆送礼与家庭健康消费中的需求集中释放。京东健康的消费数据显示,近一个月以来,人参等滋补品类销售同比增长55%
2026-01-04 15:59:00