• 我的订阅
  • 科技

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

类别:科技 发布时间:2024-08-19 20:22:00 来源:浅语科技

快科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。

夸娥1.2主要升级点:

▼MFU提升10% 最高可达55%

在新版本中,使用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。

稠密模型集群训练中,MFU最高达到55%。

▼Flash Attention2优化

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,显著提升了大模型训练的效率与资源利用率,大幅缩短训练周期,并降低了整体成本。

▼64K长文本支持

增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE

MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。

这不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高训练效率。

▼优化DeepSpeed

支持DeepSpeed、Ulysses的适配和性能优化,强化了长文本训练支持。

适配国内外多款大模型,在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。

新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

▼可视化/可观测

引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据,有助于快速发现并恢复训练期间的故障,满足大模型上的性能调优需求。

▼内置模型库中新增大模型

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

【本文结束】如需转载请务必注明出处:快科技

责任编辑:上方文Q

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 23:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高
2024-06-14 11:37:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
...万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也
2024-07-09 09:47:00
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...产化集群更是迫在眉睫。值此关键节点,国内GPU头部创企摩尔线程推出的夸娥(KUAE)智算中心解决方案以全功能GPU为底座
2024-04-28 11:52:00
摩尔线程kuae千卡集群正式落地
12月19日消息,摩尔线程今日宣布,首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办,宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 06:02:00
国产GPU为底座,摩尔线程首个千卡智算中心落地
12月19日,观察者网了解到,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京举办,这宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 09:46:00
芯片战场丨瞄准大模型 摩尔线程首个千卡智算中心落地
...需求,国内GPU企业正加码算力基础设施建设。12月19日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心落地。据其介绍,这是国内首个以国产全功能GPU为底
2023-12-20 10:52:00
国内首个以国产全功能GPU为底座的大规模算力集群正式落地
12月19日消息,今天,摩尔线程官方发布通告称,摩尔线程首个全国产千卡千亿模型训练平台,摩尔线程KUAE智算中心揭幕仪式成功举办。此举也代表着,国内首个以国产全功能GPU为底座的
2023-12-19 18:46:00
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
IT之家 8 月 2 日消息,据摩尔线程公众号今天的推文,在第十二届互联网安全大会期间,摩尔线程与 360 集团宣布达成战略合作伙伴关系,并现场签署了战略合作协议。双方此次合作旨
2024-08-02 13:46:00
替代NVIDIA,摩尔线程&无问芯穹联手首次实现国产GPU端到端AI大模型实训
...需求疲软,市场上有大量的英伟达芯片供应。而在今天,摩尔线程、无问芯穹更是放出大招,联合宣布正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训
2024-05-27 15:11:00
更多关于科技的资讯: