• 我的订阅
  • 科技

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

类别:科技 发布时间:2024-08-19 20:22:00 来源:浅语科技

快科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。

夸娥1.2主要升级点:

▼MFU提升10% 最高可达55%

在新版本中,使用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。

稠密模型集群训练中,MFU最高达到55%。

▼Flash Attention2优化

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,显著提升了大模型训练的效率与资源利用率,大幅缩短训练周期,并降低了整体成本。

▼64K长文本支持

增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE

MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。

这不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高训练效率。

▼优化DeepSpeed

支持DeepSpeed、Ulysses的适配和性能优化,强化了长文本训练支持。

适配国内外多款大模型,在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。

新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

▼可视化/可观测

引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据,有助于快速发现并恢复训练期间的故障,满足大模型上的性能调优需求。

▼内置模型库中新增大模型

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

【本文结束】如需转载请务必注明出处:快科技

责任编辑:上方文Q

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 23:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高
2024-06-14 11:37:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
...万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也
2024-07-09 09:47:00
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...产化集群更是迫在眉睫。值此关键节点,国内GPU头部创企摩尔线程推出的夸娥(KUAE)智算中心解决方案以全功能GPU为底座
2024-04-28 11:52:00
摩尔线程kuae千卡集群正式落地
12月19日消息,摩尔线程今日宣布,首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办,宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 06:02:00
国产GPU为底座,摩尔线程首个千卡智算中心落地
12月19日,观察者网了解到,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京举办,这宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 09:46:00
芯片战场丨瞄准大模型 摩尔线程首个千卡智算中心落地
...需求,国内GPU企业正加码算力基础设施建设。12月19日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心落地。据其介绍,这是国内首个以国产全功能GPU为底
2023-12-20 10:52:00
国内首个以国产全功能GPU为底座的大规模算力集群正式落地
12月19日消息,今天,摩尔线程官方发布通告称,摩尔线程首个全国产千卡千亿模型训练平台,摩尔线程KUAE智算中心揭幕仪式成功举办。此举也代表着,国内首个以国产全功能GPU为底座的
2023-12-19 18:46:00
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
IT之家 8 月 2 日消息,据摩尔线程公众号今天的推文,在第十二届互联网安全大会期间,摩尔线程与 360 集团宣布达成战略合作伙伴关系,并现场签署了战略合作协议。双方此次合作旨
2024-08-02 13:46:00
替代NVIDIA,摩尔线程&无问芯穹联手首次实现国产GPU端到端AI大模型实训
...需求疲软,市场上有大量的英伟达芯片供应。而在今天,摩尔线程、无问芯穹更是放出大招,联合宣布正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训
2024-05-27 15:11:00
更多关于科技的资讯:
南报网讯(记者卫凌云通讯员建萱)11月11日,京东集团成功竞得NO.宁2025Y05地块,京东集团南京研发中心正式落户建邺
2025-11-12 08:05:00
南报网讯(记者张安琪)11月11日下午,2025年“江苏省成果(专利)拍卖季”软件与信息服务产业专场活动在江宁开发区大数据中心举办
2025-11-12 08:06:00
红山路商业综合体打造“年轻力”潮流集中地
11月10日,红山路红山Sparkle耀市开启试运行,首批餐饮店、发廊、健身房等已开业。该项目为铁北红山国际社区商业部分
2025-11-12 08:06:00
2025年11月,“我在IT分销领域深耕三十多年,从诺基亚时代、摩托罗拉、苹果手机到笔记本、算力服务器,见过无数款软硬件产品
2025-11-11 14:38:00
同舟致远•共赢新程 泰凯英上市启航仪式在青岛隆重举行
11月7日,青岛泰凯英专用轮胎股份有限公司在青岛市崂山区成功举行"同舟致远•共赢新程"上市启航仪式。崂山区政府、青岛市上市公司协会
2025-11-11 14:49:00
旅美博士青年钢琴家周海天:在理性与证据中寻找音乐之美
近年来,越来越多青年钢琴赛事在亚洲和北美活跃展开,一批具有国际视野与学术背景的青年评委逐渐走入公众视野。一位拥有中、英
2025-11-11 14:49:00
在中国,为中国 Brother第八届进博会迎收官,多元打印服务受关注
11月10日,第八届中国国际进口博览会(以下简称"进博会")即将盛大落幕。全球知名制造厂商Brother以"In China
2025-11-11 15:20:00
Hape坚守对全球消费者承诺,积极布局供应链保障产品质量与供应
在接受《福布斯》(Forbes)杂志采访时,Hape集团创始人兼总裁Peter Handstein先生表示,目前整个玩具行业正经历一场"过山车"般的考验
2025-11-11 15:20:00
临沂,何以再造一个新商城?
鲁网11月11日讯 (记者 杨成喜 通讯员 胡一帆 于萍)从上世纪八十年代初的小地摊开始算起,临沂的商贸生意已经走过了四十余年
2025-11-11 15:48:00
喜良观经济|第17个年头的“双11”,看看吉林人最爱买啥?
当“双11”进入第17个年头,“销售额”早已不再是外界关注的重点。与其相比,这一节点现已成为窥见未来中国电商行业发展方向的一扇窗
2025-11-11 15:57:00
2025网聚美好安徽|池州:“芯”产业闯出新天地
大皖新闻讯 在高质量发展的时代画卷中,产业集群化已成为区域经济竞争的重要赛道。11月11日,2025网聚美好安徽网络主题活动采访团来到池州市
2025-11-11 16:17:00
Shopee 11.11大促开场告捷,首2小时跨境销售额大涨11倍
2025年11月11日,中国 —— 东南亚及巴西领航电商平台Shopee年度超级购物狂欢11.11大促正式开启。开场2小时
2025-11-11 16:25:00
寒潮突至不用慌!波司登「一小时温暖圈」让保暖无需等待
“前一晚还穿卫衣,今早出门直接冻得打哆嗦,幸好下单后一小时就收到了羽绒服!” 上海白领李女士的经历,道出了不少人面对突发降温时的窘迫与庆幸
2025-11-11 16:27:00
结构升级倒逼迭代,电视行业开启价值升级新赛道
电视行业正以消费者需求为核心进行深度重构,其结构升级已不再局限于单纯的价格攀升,而是实现了从购买逻辑到产品价值的全方位迭代
2025-11-11 16:29:00
中新经纬11月11日电 题:“双11”战事下半场,决胜关键在于“离消费者多近”作者 朱克力 国研新经济研究院创始院长今年“双11”期间
2025-11-11 16:35:00