• 我的订阅
  • 科技

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

类别:科技 发布时间:2024-09-18 13:36:00 来源:量子位

元象XVERSE发布中国最大MoE开源模型:

XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,达到100B模型性能的「跨级」跃升。

同时训练时间减少30%,推理性能提升100%,使每token成本大幅下降。

在多个权威评测中,元象MoE效果大幅超越多个同类模型。

包括国内千亿MoE模型 Skywork-MoE、传统MoE霸主Mixtral-8x22B 以及3140亿参数的MoE开源模型Grok-1-A86B等。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

MoE(Mixture of Experts)是业界最前沿的混合专家模型架构 ,将多个细分领域的专家模型组合成一个超级模型,打破了传统扩展定律(Scaling Law)的局限,可在扩大模型规模时,不显著增加训练和推理的计算成本,保持模型性能最大化。

出于这个原因,行业前沿模型包括谷歌Gemini-1.5、OpenAI的GPT-4 、马斯克旗下xAI公司的Grok等大模型都使用了 MoE。

值得一提的是,元象「高性能全家桶」系列全部开源,无条件免费商用,让海量中小企业、研究者和开发者能按需选择。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

中国最大MoE开源模型

今年4月,元象推出XVERSE-MoE-A4.2B,与传统MoE(如Mixtral 8x7B)将每个专家大小等同于标准FFN不同,元象采用更细粒度的专家设计,每个专家大小仅为标准FFN的四分之一,提高了模型灵活性与性能;还将专家分为共享专家(Shared Expert)和非共享专家(Non-shared Expert)两类。

共享专家在计算过程中始终保持激活状态,而非共享专家则根据需要选择性激活。这种设计有利于将通用知识压缩至共享专家参数中,减少非共享专家参数间的知识冗余。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

此次推出XVERSE-MoE-A36B,继续在MoE效率和效果方面进行技术创新。

(1)效率方面

MoE架构与4D拓扑设计:MoE架构的关键特性是由多个专家组成。由于专家之间需要大量的信息交换,通信负担极重。为了解决这个问题,我们采用了4D拓扑架构,平衡了通信、显存和计算资源的分配。这种设计优化了计算节点之间的通信路径,提高了整体计算效率。

专家路由与预丢弃策略:MoE的另一个特点是“专家路由机制”,即需要对不同的输入进行分配,并丢弃一些超出专家计算容量的冗余数据。为此团队设计一套预丢弃策略,减少不必要的计算和传输。同时在计算流程中实现了高效的算子融合,进一步提升模型的训练性能。

通信与计算重叠:由于MoE架构的专家之间需要大量通信,会影响整体计算效率。为此团队设计了“多维度的通信与计算重叠”机制,即在进行参数通信的同时,最大比例并行地执行计算任务,从而减少通信等待时间。

(2)效果方面

专家权重:MoE 中的专家总数为 N ,每个 token 会选择 topK 个专家参与后续的计算,由于专家容量的限制,每个 token 实际选择到的专家数为 M,M<=K

根据对比实验的效果,我们选择实验2的设置进行正式实验。

实验1:权重在 topM 范围内归一化 实验2:权重在 topK 范围内归一化 实验3:权重在 topN 范围内归一化 实验4:权重都为 1

实验结果如下:

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

假设N=8,K=4,M=3(2号专家上token被丢弃),不同专家权重的计算方式所得的权重如下图:

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

数据动态切换:元象以往开源的模型,往往在训练前就锁定了训练数据集,并在整个训练过程中保持不变。这种做法虽然简单,但会受制于初始数据的质量和覆盖面。此次MoE模型的训练借鉴了”课程学习”理念,在训练过程中实现了动态数据切换,在不同阶段多次引入新处理的高质量数据,并动态调整数据采样比例。

这让模型不再被初始语料集所限制,而是能够持续学习新引入的高质量数据,提升了语料覆盖面和泛化能力。同时通过调整采样比例,也有助于平衡不同数据源对模型性能的影响。

△不同数据版本的效果曲线图

学习率调度策略(LR Scheduler):在训练过程中动态切换数据集,虽有助于持续引入新知识,但也给模型带来了新的适应挑战。为了确保模型能快速且充分地学习新进数据,团队对学习率调度器进行了优化调整,在每次数据切换时会根据模型收敛状态,相应调整学习率。实验表明,这一策略有效提升了模型在数据切换后的学习速度和整体训练效果。

下图是整个训练过程中 MMLU、HumanEval 两个评测数据集的效果曲线图。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

训练过程中MMLU、HumanEval的性能曲线持续拔高

通过设计与优化,元象MoE模型与其Dense模型XVERSE-65B-2相比,训练时间减少30%、推理性能提升100%,模型效果更佳,达到业界领先水平。

不过此次也不是元象第一次开源。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

2023年11月,此前国内大部分开源参数多在7B到13B,而行业共识是模型达到50到60B参数门槛,大模型才能“智能涌现”,生态亟需“大”模型时,元象率先开源了XVERSE-65B,是当时中国最大参数开源。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

2024年1月,元象又开源全球最长上下文窗口大模型,支持输入25万汉字,还附手把手训练教程,让大模型应用一举进入“长文本时代”。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

此次国内最大参数MoE开源,又是给生态贡献了一个助推低成本AI应用利器。

已落地应用

元象基于MoE模型自主研发的AI角色扮演与互动网文APP Saylo,通过逼真的AI角色扮演和有趣的开放剧情,火遍港台,下载量在中国台湾和香港娱乐榜分别位列第一和第三。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

MoE训练范式具有「更高性能、更低成本」优势,元象在通用预训练基础上,使用海量剧本数据「继续预训练」(Continue Pre-training),并与传统SFT(监督微调)或RLHF(基于人类反馈的强化学习)不同,采用了大规模语料知识注入,让模型既保持了强大的通用语言理解能力,又大幅提升「剧本」这一特定应用领域的表现。

在此之前,借助在AI和3D领域的客户积累,元象迅速将大模型推向商用。

2023年11月,元象成为全国最早一批、广东省前五获得《生成式人工智能服务管理暂行办法》国家备案的大模型,具备向全社会开放的产品能力。

而在更早的10月,元象与腾讯音乐联合推出lyraXVERSE加速大模型,并借助该技术全面升级音乐助手“AI小琴”的问答、聊天与创作能力,让她情商与智商双高,为用户提供个性化、更深入、陪伴感十足的音乐互动体验。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

元象大模型陆续与QQ音乐、虎牙直播、全民K歌、腾讯云等深度合作与应用探索,为文化、娱乐、旅游、金融领域打造创新领先的用户体验。

中国最大开源MoE模型,255B参数无条件免费商用,元象发布

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-18 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

腾讯发布最大开源MoE模型,3890亿参数免费可商用
...文阅读等功能里。现在这样的一个模型彻底开源,免费可商用,算是很有诚意了。这次腾讯Hunyuan-Large总共开源了三个版本
2024-11-07 09:54:00
全球首个!中国电信完成千卡、千亿参数模型500公里联合训练试商用
快科技1月23日消息,据中国电信,在集团公司统一组织下,中国电信研究院、天翼云、北京电信成功了 完成业内首个1024卡、千亿参数商用大模型的分布式联合训练真实用户试商用。通过天津
2025-01-23 13:32:00
昆仑万维发布开源13B高质量商用大模型 领先Llama2和Baichuan2
...l in AGI与AIGC是昆仑万维的战略。4月17日,昆仑万维发布了中国第一个真正实现智能涌现的国产大语言模型——「天工3
2023-10-30 15:35:00
...最新的大模型Baichuan-13B,这是一款拥有130亿参数的开源可商用大规模语言模型。据官方介绍,Baichuan-13B在中英文基准测试中取得了同尺寸模型中最好的效果
2023-07-12 16:58:00
阿里云开源通义千问 70 亿参数模型,免费、可商用
...Qwen-7B-Chat,两款模型均已上线魔搭社区,开源、免费、可商用。此举让阿里云成为国内首个加入大模型开源行列的大型科技企业。今年4月,阿里云发布了最新大语言模型“通义千
2023-08-03 17:18:00
盘古矿山大模型,首次!山东能源云鼎科技!
...能源集团携手华为公司正式发布盘古大模型矿山领域首次商用,云鼎科技成为盘古矿山大模型首次商用的承接单位。盘古矿山大模型通过强大的数据分析、预测、自动化控制和智能决策能力,推动煤
2023-07-26 11:57:00
专家模型不要专家并行!微软开源MoE新路径
...学和学院入学统一考试)的数学问题进行案例研究,这是中国一年一度的全国本科入学考试。 该考试以其严格的安全协议而闻名,是评估AI模型回答数学问题的能力的理想测试平台。请注意,G
2024-11-12 09:57:00
百川智能、阿里云等进入开源大模型领域,开启商业化前奏
...期第一财经记者参加的一场行业论坛上,高通AI产品技术中国区负责人万卫星谈到,AI处理的重心正向边缘端转移,大模型可根据终端侧数据提供个性化服务,且不需依赖任何网络连接,数据留
2023-10-14 00:21:00
...水平,赵海笑道:“很多人没考过GRE,其实GRE的数学题难度和中国小学数学题差不多。GPT-4的数学水平不会很高,很多小学奥数题可能就解不出来
2023-03-16 09:23:00
更多关于科技的资讯:
中新经纬11月1日电 题:零首付租赁,机器人“普惠时代”来了作者 王喜文 北京华夏工联网智能技术研究院院长近期,智元机器人联合飞阔科技
2025-11-02 10:54:00
中新经纬11月1日电 (袁媛)近期,《中共中央关于制定国民经济和社会发展第十五个五年规划的建议》(以下简称《建议》)发布
2025-11-02 10:58:00
鸿蒙电脑版微信强势升级:40+项功能释放办公社交新势能
作为超10亿人使用的国民级社交应用,微信深度适配鸿蒙电脑并不断进行版本更新。本次更新,鸿蒙电脑版微信一次性推出40+项实用功能
2025-11-02 14:26:00
正雅齿科与士卓曼集团宣布建立战略合作伙伴关系。此次合作将整合两家集团的核心优势,以更高的效率和速度推动全球口腔健康市场的增长
2025-11-02 14:26:00
京东服饰联合天纺标发布《新舒适内衣》团体标准 共建行业品质新生态
10月31日,由京东服饰与天纺标检测认证股份有限公司联合主办的“中国内衣行业高品质供应链峰会暨京东服饰&天纺标联合发布会”在天津成功举办
2025-11-02 14:26:00
华为擎云 W515y登顶自主创新性能榜 引领自主创新终端从可用迈向好用
在全球科技格局深刻演变、国际形势日趋复杂的背景下,自主创新产业正加速从可用向好用的真替真用阶段迈进。这不仅是技术发展的必然要求
2025-11-02 14:28:00
赛力斯2025前三季净利润超53亿元 盈利能力持续增强
10月30日,赛力斯披露了2025年三季报,以亮眼的经营表现和持续攀升的交付数据,再次印证其在中国新能源豪华车市场的领跑地位
2025-11-02 14:29:00
雄安人工智能算力调度平台正式上线运行
中国雄安官网11月1日电近日,雄安人工智能算力调度平台在雄安城市计算中心正式部署完成并投入运行,标志着雄安新区在构建集约高效
2025-11-02 18:03:00
中国轻奢美护品牌黎科世亮相巴黎设计周,以生物科技融合感官美学
近日,中国轻奢美护品牌SENSLUX(黎科世)凭借其融合生物科技与感官美学的独特理念,在2025年9月举办的巴黎设计周中国创新馆中精彩亮相
2025-11-02 21:50:00
AI盛宴启幕!“科大讯飞1024科博展”燃动合肥
大皖新闻讯 11月2日,第八届世界声博会暨2025科大讯飞1024全球开发者节科博展在合肥体育中心盛大启幕。从萌趣幼教机器人到智能健康助手
2025-11-02 22:42:00
走进院士专家工作站系列报道丨专家工作站“破局” 双兴智能实现豆类收获“芯”突破
编者按:科技是第一生产力,人才是第一资源。从田间地头到生产车间,从技术瓶颈到产业升级,十堰市科协主动作为,当好“科技红娘”
2025-11-02 20:13:00
英语培训机构教务系统高适配推荐:外教管理 + 分级排课 + 学员约课!
现代英语培训机构的高效运转,离不开专业教务系统的有力支撑。一套设计科学的英语培训机构教务管理系统,如同机构的智能中枢,将教学管理
2025-11-02 18:46:00
日前,位于山西转型综改示范区学府总部经济园区的医学影像数据人工智能大模型产业发展项目进入试运行阶段。目前已完成平台建设和医院对接
2025-11-02 18:06:00
□南京日报/紫金山新闻记者张甜甜 通讯员夏俊林娜10月31日,南京市统计局、国家统计局南京调查队发布南京经济“三季报”
2025-11-01 09:44:00
上海虹桥医院癫痫专病诊疗新高度:个性化方案,全程化守护
癫痫发作的不可预测性及其对记忆、情绪、社交、学业与工作等方面的深远影响,构成了广大患者面临的核心挑战。诊断的复杂、治疗方案的普适性困境以及持续管理的缺失
2025-11-01 10:05:00