• 我的订阅
  • 科技

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

类别:科技 发布时间:2024-08-19 20:22:00 来源:浅语科技

快科技8月19日消息,摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。

夸娥1.2主要升级点:

▼MFU提升10% 最高可达55%

在新版本中,使用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。

稠密模型集群训练中,MFU最高达到55%。

▼Flash Attention2优化

通过集成最新的MUSA SDK平台与优化后的Flash Attention2技术,结合新版Torch MUSA和算子融合,显著提升了大模型训练的效率与资源利用率,大幅缩短训练周期,并降低了整体成本。

▼64K长文本支持

增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

▼支持混合专家模型MoE

MCCL通信库完成了All2All优化,并针对muDNN算子在不同形状下的矩阵运算进行了优化,以更好地支持MoE(Mixture of Experts)大模型的训练。

这不仅提升了智算效率,还为更大规模参数的大模型训练提供了高度可扩展的基础。

▼断点续训

进一步提升了大模型训练的Checkpoint(检查点)读写性能,写入时间小于2秒,显著提高训练效率。

▼优化DeepSpeed

支持DeepSpeed、Ulysses的适配和性能优化,强化了长文本训练支持。

适配国内外多款大模型,在Hugging Face上支持训练和微调主要的开源大模型,创新型企业可以灵活选择不同的大模型开发智能应用。

▼稳定性提升

千卡集群软硬件进一步成熟,实现了连续无故障训练长达15天。

新版本引入了KUAE Aegis可靠性功能,加强了对GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

▼可视化/可观测

引入了PerfSight性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据,有助于快速发现并恢复训练期间的故障,满足大模型上的性能调优需求。

▼内置模型库中新增大模型

KUAE内置模型库Model Zoo新增LLaMA2全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

【本文结束】如需转载请务必注明出处:快科技

责任编辑:上方文Q

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-19 23:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

摩尔线程GPU千卡集群完成师者AI 70亿参数教育大模型训练测试
快科技6月14日消息,摩尔线程与全学科教育AI大模型“师者AI”联合宣布,双方已完成大模型训练测试。师者AI基于摩尔线程夸娥(KUAE)千卡智算集群,完成了其70亿参数大模型的高
2024-06-14 11:37:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
...万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很快,客户希望两周内结束战斗,最迟也
2024-07-09 09:47:00
从0到1:国产化千卡集群的一小步,AI算力主动权的一大步
...产化集群更是迫在眉睫。值此关键节点,国内GPU头部创企摩尔线程推出的夸娥(KUAE)智算中心解决方案以全功能GPU为底座
2024-04-28 11:52:00
摩尔线程kuae千卡集群正式落地
12月19日消息,摩尔线程今日宣布,首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办,宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 06:02:00
国产GPU为底座,摩尔线程首个千卡智算中心落地
12月19日,观察者网了解到,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京举办,这宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地
2023-12-20 09:46:00
芯片战场丨瞄准大模型 摩尔线程首个千卡智算中心落地
...需求,国内GPU企业正加码算力基础设施建设。12月19日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心落地。据其介绍,这是国内首个以国产全功能GPU为底
2023-12-20 10:52:00
国内首个以国产全功能GPU为底座的大规模算力集群正式落地
12月19日消息,今天,摩尔线程官方发布通告称,摩尔线程首个全国产千卡千亿模型训练平台,摩尔线程KUAE智算中心揭幕仪式成功举办。此举也代表着,国内首个以国产全功能GPU为底座的
2023-12-19 18:46:00
摩尔线程与360达成战略合作,将共同打造“360智脑大模型一体机”
IT之家 8 月 2 日消息,据摩尔线程公众号今天的推文,在第十二届互联网安全大会期间,摩尔线程与 360 集团宣布达成战略合作伙伴关系,并现场签署了战略合作协议。双方此次合作旨
2024-08-02 13:46:00
替代NVIDIA,摩尔线程&无问芯穹联手首次实现国产GPU端到端AI大模型实训
...需求疲软,市场上有大量的英伟达芯片供应。而在今天,摩尔线程、无问芯穹更是放出大招,联合宣布正式完成MT-infini-3B 3B(30亿参数)规模大模型的实训
2024-05-27 15:11:00
更多关于科技的资讯:
春节新茶饮观察:书亦烧仙草乡镇店日均杯量1000杯,家庭聚会“喝”出新高
春节假期历来是观察新消费趋势的重要窗口。近日,书亦烧仙草对外公布新春假期战报:平均每天售出招牌烧仙草26万杯、水果奶绿25万杯
2026-02-25 11:06:00
从“渠道战”到“心智战”:白酒春节营销背后的竞争新格局
春节作为国人最重要的传统节日,历来是白酒行业消费与品牌竞争的关键节点。从早期依靠渠道铺货和价格竞争,到如今注重文化内涵与情感联结
2026-02-25 11:06:00
随着春节假期的结束,年货消费市场的全景图逐渐清晰。京东健康最新消费数据显示,新春健康消费已形成“送健康”、“管健康”、“养健康”三大鲜明趋势
2026-02-25 11:06:00
开局即冲刺!千灯镇全力以“复”奋战“开门红”
新春伊始,万象更新。昨天是春节假期后的首个工作日,千灯镇各企业纷纷擂响“奋进鼓”,以饱满的热情和昂扬的斗志投入到新一年的生产中
2026-02-25 10:56:00
年轻人涌进DIY拼豆店
店内有不同色号的豆子供客人挑选使用店内客人在专心拼豆 雨晨被打翻的拼豆店员在帮助熨烫拼豆作品风起的拼豆作品 工作日下午拼豆店座无虚席在追求效率与意义的当下
2026-02-25 10:58:00
春启新章,实干为先。近日,山西省工程机械有限公司2026年首笔“晋塔”智能建筑机器人订单落地,成功向中铁华铁工程设计集团有限公司完成设备交付
2026-02-25 08:36:00
“开门红”!春节消费177.49亿元今年春节期间杭州消费市场很旺。“杭州消费在线”监测统计,2月15日至22日,杭州市批发
2026-02-25 08:51:00
长白时评评论员 久泰平春节假期,不少年轻人选择返乡后入住酒店,也有越来越多家庭选择异地出游过年,酒店住宿消费随之迎来一波热潮
2026-02-25 10:13:00
厦门网讯(厦门日报记者 李晓平)近日,我市游戏行业头部企业——吉比特发布业绩预告显示,预计2025年实现归母净利润16
2026-02-25 08:44:00
今明两天,德国总理默茨将正式开启他就任后的首次中国之行。根据德国总理府网站公布的行程,除了在北京与中国领导人会晤,他还将到访杭州
2026-02-25 09:52:00
厦门软件园多家企业节后首个工作日活动丰富多彩
在奥谱天成,员工们参与成语接龙获得礼物。(厦门日报记者 卢剑豪 摄)厦门网讯(厦门日报记者 林露虹)昨日是春节后的首个工作日
2026-02-25 08:43:00
具身智能企业融资近 20 亿元每日商报讯 马年春节假期前后,杭州企业上市与融资进程持续提速,资本市场“新春忙” 态势凸显
2026-02-25 07:20:00
河北新闻网讯(王闯、徐贵旺)近日,在开滦集团唐山矿业公司(简称“开滦山矿公司”)大井绞车提升作业现场,一项不起眼的小改造引发了员工们的热议
2026-02-24 20:46:00
河北新闻网讯(任蕊)近日,在开滦股份吕家坨矿综采一队的会议室里,采掘电钳工李彭超正通过手机反复观看一段微视频。视频中,“技术大拿”叶春海正在讲解如何查验智能化设备的数据包丢失率
2026-02-24 20:51:00
春节假期高速充电需求迎高峰 安徽交控“小程序+移动电站”护航绿色出行
大皖新闻讯 马年春节假期落幕,在春运返乡返程的车流高峰中,新能源汽车的“补能”问题成为社会关注焦点。记者从安徽交控资源公司所属交控能源公司获悉
2026-02-24 21:28:00