• 我的订阅
  • 科技

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

类别:科技 发布时间:2024-08-19 20:22:00 来源:浅语科技

快科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。

夸娥1.2主要升级点:

▼MFU提升10% 最高可达55%

在新版本中,使用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。

稠密模型集群训练中,MFU最高达到55%。

▼Flash Attention2优化

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,显著提升了大模型训练的效率与资源利用率,大幅缩短训练周期,并降低了整体成本。

▼64K长文本支持

增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE

MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。

这不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高训练效率。

▼优化DeepSpeed

支持DeepSpeed、Ulysses的适配和性能优化,强化了长文本训练支持。

适配国内外多款大模型,在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。

新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

▼可视化/可观测

引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据,有助于快速发现并恢复训练期间的故障,满足大模型上的性能调优需求。

▼内置模型库中新增大模型

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

【本文结束】如需转载请务必注明出处:快科技

责任编辑:上方文Q

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 23:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高
2024-06-14 11:37:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
...万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也
2024-07-09 09:47:00
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...产化集群更是迫在眉睫。值此关键节点,国内GPU头部创企摩尔线程推出的夸娥(KUAE)智算中心解决方案以全功能GPU为底座
2024-04-28 11:52:00
摩尔线程kuae千卡集群正式落地
12月19日消息,摩尔线程今日宣布,首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办,宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 06:02:00
国产GPU为底座,摩尔线程首个千卡智算中心落地
12月19日,观察者网了解到,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京举办,这宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 09:46:00
芯片战场丨瞄准大模型 摩尔线程首个千卡智算中心落地
...需求,国内GPU企业正加码算力基础设施建设。12月19日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心落地。据其介绍,这是国内首个以国产全功能GPU为底
2023-12-20 10:52:00
国内首个以国产全功能GPU为底座的大规模算力集群正式落地
12月19日消息,今天,摩尔线程官方发布通告称,摩尔线程首个全国产千卡千亿模型训练平台,摩尔线程KUAE智算中心揭幕仪式成功举办。此举也代表着,国内首个以国产全功能GPU为底座的
2023-12-19 18:46:00
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
IT之家 8 月 2 日消息,据摩尔线程公众号今天的推文,在第十二届互联网安全大会期间,摩尔线程与 360 集团宣布达成战略合作伙伴关系,并现场签署了战略合作协议。双方此次合作旨
2024-08-02 13:46:00
替代NVIDIA,摩尔线程&无问芯穹联手首次实现国产GPU端到端AI大模型实训
...需求疲软,市场上有大量的英伟达芯片供应。而在今天,摩尔线程、无问芯穹更是放出大招,联合宣布正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训
2024-05-27 15:11:00
更多关于科技的资讯:
乌山时评|“晓风”再起 拂动人心
近日,一则令不少书友激动的消息传遍福州人的朋友圈——晓风书屋即将在鼓屏路旧址重启。为何“晓风”再起,依旧能拂动人心?要知道
2026-01-10 08:14:00
厦门网讯(厦门日报记者 何无痕)当前,招聘市场的“AI味”越来越浓。近日,记者调查发现,如今企业不再依赖传统的选才,开始尝试更智能
2026-01-10 08:30:00
@杭州人,你的信用能换钱了!
最近,杭州人的“信用幸福指数”又上涨了!信用消费专区在杭州市民卡App上线,用户凭钱江分就能享受信用消费折扣、体验低空文旅的乐趣
2026-01-10 09:19:00
新春雅集 财安相伴——邮储银行VIP客户插花暨金融反诈便民活动温馨启幕
近日,邮储银行高新区支行以花为媒、以情相连,精心举办“花漾时光·金融护航”VIP客户专属插花沙龙活动,活动将花艺美学体验
2026-01-10 09:51:00
中亦科技以 IT 运维筑牢半导体产业增长之基
最近,半导体行业的目光都聚焦在一条“疯狂”的曲线上:内存价格。这绝非一次简单的周期性波动。深层驱动力是以人工智能应用落地引发的“以存代算”技术范式革命
2026-01-10 09:51:00
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战
2026-01-09 14:23:00