我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
快科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。
夸娥1.2主要升级点:
▼MFU提升10% 最高可达55%
在新版本中,使用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。
稠密模型集群训练中,MFU最高达到55%。
▼Flash Attention2优化
通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,显著提升了大模型训练的效率与资源利用率,大幅缩短训练周期,并降低了整体成本。
▼64K长文本支持
增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。
▼支持混合专家模型MoE
MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。
这不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。
▼断点续训
进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高训练效率。
▼优化DeepSpeed
支持DeepSpeed、Ulysses的适配和性能优化,强化了长文本训练支持。
适配国内外多款大模型,在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。
▼稳定性提升
千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。
新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。
▼可视化/可观测
引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据,有助于快速发现并恢复训练期间的故障,满足大模型上的性能调优需求。
▼内置模型库中新增大模型
KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
【本文结束】如需转载请务必注明出处:快科技
责任编辑:上方文Q
文章内容举报
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-08-19 23:45:05
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: