我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

从0到1：国产化千卡集群的一小步，AI算力主动权的一大步

类别：科技发布时间：2024-04-28 11:52:00 来源：IT创事记

从2023年初ChatGPT横空出世，到后来的百模大战如火如荼，再到如今AI落地换挡提速，围绕算力的“全民焦虑”始终贯穿其间。

供求关系紧张是产生算力焦虑的根源所在。一方面，大模型训练与推理需求呈几何级数爆发——自2022年以来，人工智能算力需求每3~4个月就翻一番，每年训练AI模型所需算力增幅高达10倍，而生成式AI使上升曲线进一步陡峭，未来大模型算力需求每两年会以750倍的速度飙涨；另一方面，硬件算力供给预计每两年仅增长3倍，再加上GPU供应存在“看不见的手”在干扰，算力芯片的供求缺口相当巨大。

焦虑泛滥处，怪象频生时。“N卡难求”引发抢购、囤货风潮，而市场中也很难找到直接对标国际巨头单卡性能的产品。其实，对于单卡性能的执念，很可能是个认知陷阱。相关统计显示，Transformer模型从2017年诞生至今，制程改进促成的芯片性能提升约8倍，而通过系统创新带来的算力综合性能改善则高达1000倍。这意味着单一芯片作用的递减效应渐趋明显，整个系统的价值挖掘愈发重要。透过OpenAI的演进轨迹，就会发现AI算力的重心已从单机向集群蜕变：伴随大模型的参数规模从百亿、千亿到万亿，所需的数据量也从几百B跃升到P级，千卡、万卡集群正日益成为大模型训练的标配。

显而易见，要想走出多重因素叠加造成的国内算力紧缺困境，通过集群互联弥补单卡性能不足，也许是当下最值得探索的路径。考虑到外部环境的制约，以及与国产大模型共同打造AI产业商业闭环的需求，构建自主创新的国产化集群更是迫在眉睫。

值此关键节点，国内GPU头部创企摩尔线程推出的夸娥（KUAE）智算中心解决方案以全功能GPU为底座，包含以夸娥（KUAE）智算集群为核心的基础设施、KUAE Platform集群管理平台以及KUAE ModelStudio模型服务，旨在以一体化交付方式解决大规模GPU算力的建设和运营管理难题。

这是打造国产化智算集群的一小步，更是掌握AI算力主动权的一大步。

“如果买不到A100，我们到底该怎么办？”这是国内诸多用户在相当一段时间里感到无解的问题。当时，很难找到直接对标且能满足需求的替代产品，搭建集群的崭新路径是一条可行之路。

用户的痛点就是变革的动力。作为国内GPU领域的开路先锋，摩尔线程始终认为应该做“难而正确的事”，构建集群亦是如此。早在2022年，公司成立两周年之际，摩尔线程就组建了云计算团队，确立了建设集群的大方向与具体的实施策略。

随着AI大模型参数越来越大，对算力集群的高度依赖和渴求，让摩尔线程更加坚定了构建大规模集群的决心。如果说百卡或更小规模的集群主要是实验性的尝试，那么千卡集群则是满足大模型训练的基本单元，可以此为突破口不断扩展算力。因此，攻下千卡集群这个桥头堡，支持千亿参数大模型训练，成为摩尔线程的首要任务。

事实上，从0到1的质变过程，对摩尔线程来说并不陌生。摩尔线程短时间内已在全功能GPU产品上取得重大突破，涉足的领域从游戏显卡到物理仿真再到AI训练与推理，能在功能上对标英伟达。从其广泛的布局可以看出，摩尔线程的野心是要打造独特的系统级/平台企业，而不是成为一家单一的芯片厂。

如今，摩尔线程已经具备了云的全栈能力，通过打造国产千卡智算集群，摩尔线程又成为国内第一批“吃螃蟹的人”。

关于集群构建的路径探索，业界存在不少误区。有人认为“集群就是一堆服务器叠在一起”，也有人觉得“集群的算力越大越好”，这些观点都低估了复杂系统的运行难度，以及多要素协同突围的重要性。

早在超级计算机流行时期，就曾出现过几千张处理器并行处理的盛况，而要连续运转10～12个小时且保持高度的稳定性殊为不易；对大模型训练而言，通常需要3000～4000P的算力支撑，并预期达成7×24小时不间断的正常运行，这对千卡乃至万卡集群构成了异常严峻的挑战。

以整体来看，集群建设无疑是一个系统性复杂工程，从GPU到服务器再到组成集群，涵盖计算、存储、网络、软件以及大模型调度等多个环节，对算力利用率、稳定性、可靠性、可扩展性、兼容性等指标都有颇高的要求。市场期待出现能满足智算中心全栈式需求的交钥匙解决方案，摩尔线程夸娥（KUAE）正是在这样的背景下脱颖而出。

摩尔线程夸娥智算中心全栈解决方案架构

就解决方案的整个结构而言，夸娥主要有三大支柱：一是以KUAE计算集群、RDMA网络与分布式存储为主体的基础设施，支持从单卡到千卡集群的无缝扩展；二是KUAE Platform 集群管理平台，用户可灵活管理多数据中心、多集群算力资源，并实现运维自动化；三是KUAE ModelStudio模型服务，覆盖大模型预训练、微调和推理全流程，大幅降低大模型的使用门槛。基于三大支柱形成的合力，摩尔线程夸娥（KUAE）解决方案构筑起强大的“护城河”。

首先，显著提升算力利用率（MFU）是集群安身立命的根基。有数据显示，OpenAI在GPT4训练过程中的算力利用率约为35%，还有相当多大模型训练的实际算力利用率不足20%。摩尔线程采用软硬协同设计及端到端并行策略，基于集群通讯库算法、网络拓扑、硬件规格合理配置等方式，综合利用MTLink和PCIe，使通讯性能提升一倍，综合调优下MFU提升幅度超过50%。

其次，稳定性和可靠性是集群行稳致远的保障。在分布式训练中，一张卡坏了就会影响整个训练的进展，而对于千卡乃至更大规模的集群来说，卡坏的概率及破坏性会更高，因此对整个集群的稳定性与可靠性提出前所未有的要求。

摩尔线程夸娥千卡集群支持长时间连续稳定运行，可达到7天连续无故障训练和分钟级的故障恢复，并支持大规模AI分布式训练下全栈稳定性诊断与性能分析，结合断点续训以及高性能网络和存储，异步检查点（Checkpoint）读写少于2分钟，大幅提升集群算力利用率和有效训练时长。

摩尔线程还从多维度确保夸娥能达到客户预期：一是保证卡的质量，从出厂起即做好严格测试；二是开发集群系统监控和诊断工具，辅助筛选和快速定位有问题的卡和服务器，可自动恢复和硬件替换；三是通过checkpoint加速使写的时间从10分钟降到秒级，读的速度从40分钟降到2分钟；四是若判断训练异常，系统自动重新拉起。

摩尔线程夸娥智算集群八大核心能力

再次，改善可扩展性是集群实现全局突破的必由之路。只有以软硬一体的方式进行系统级优化，才能达成可扩展性的全面突围。据了解，夸娥支持DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale等业界主流分布式框架，融合数据并行、张量并行、流水线并行和ZeRO等多种并行算法策略，且针对高效通信计算并行和Flash Attention做了额外优化。基于摩尔线程夸娥千卡集群，70B到130B参数的大模型训练，线性加速比均可达到91%，算力利用率基本保持不变。以200B训练数据量为例，智源研究院70B参数Aquila2可在33天完成训练；1300亿参数规模的模型可在56天完成训练。

最后，强大的兼容性是集群持续进化的动力。基于摩尔线程自研的代码移植Musify工具，客户可快速将现有的主流迁移至MUSA，零成本完成在CUDA上的代码自动移植，明显缩短迁移优化的周期。目前，摩尔线程支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等几十个主流大模型的训练和微调。此外，摩尔线程开源的MT Pytorch支持多种模型的推理，覆盖CV、NLP、语音等多个领域，能运行典型的大模型分布式多卡推理，也支持单机多卡与多机多卡的分布式训练。MT PyTorch还可完成简单基础模型以及典型Transformer结构的NLP语言模型的训练。

根据GIV的统计，到2030年，通用算力将增长10倍，达到3.3 ZFLOPS，而智能算力将增长500倍，达到105 ZFLOPS。作为人工智能产业的算力底座，智算中心未来3～5年有望保持30%+的高速成长，千卡、万卡集群将是其完成跃迁的重要跳板。

在特定的外部环境因素制约下，国内智算中心未来搭建集群主要有两个选择：一是采用国内外芯片“混搭”的集群模式，这对系统优化的要求很高，“最短的木板”可能影响算力整体效率的充分释放，预计需要较长时间的磨合方能找出最优路径；二是采用国产化的集群模式，在“能用”的基础上向“好用”不断迈进，以扎实的实践成果开辟自主创新的广阔天地。

从这个意义上讲，摩尔线程夸娥（KUAE）智算中心解决方案颇具示范效应，为国产化智算集群树立起新的标杆：一个月内即可帮助用户搭建用作大模型训练平台的千卡集群，交钥匙工程、一体化交付、开箱即用成为其赢得客户信赖的最佳标签。目前，摩尔线程已完成南京、北京亦庄和北京密云3个千卡智算中心的落地，这一模式的渗透进程有望全面提速。

令人欣喜的是，国产化智算集群的探路者并不孤单，摩尔线程等厂商领衔的国产AI算力生态正在形成。当行业应用场景更丰富的国产大模型，得到国产化千卡、万卡集群的加持，才能有望催生富有活力的国产AI应用——这个世界不应该只有一种选择，我们也不应该把主动权让渡给别人。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-04-28 14:45:13

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于小步,主动权,集群,大步,主动,国产的资讯：

打破尺度天花板，《检察风云》的一小步，却是国产犯罪电影一大步

为了借钱被拍下L照，最终因为无力偿还而遭侵犯，这就是长沙一个女生的真实经历。这个女孩实际才借了4.1万，签下的借条却是14.5万元。看到这里，相信很多网友隔屏幕都忿忿不平吧？校园

2023-05-01 16:26:00

淄博张店：主动服务靠前“一小步” 审批效能提升“一大步”

为进一步落实“一次办好”改革要求，提升政务服务水平，近年来，张店区行政审批服务局多措并举，从服务态度、业务培训等方面持续提升窗口工作人员审批技能水平和服务群众意识，努力打造服务型

2023-12-31 14:07:00

江西德安：走好四小步推进代表联络工作站跨大步

本文转自：人民日报客户端陈光猛刘昕玮近年来，德安县人大常委会持续推进人大代表联络站规范化建设，在规范管理、强化保障、丰富载体、实效运行四个方面用情用力，推进工作站提质增效，架起

2023-08-11 22:24:00

上汽通用的首个新能源“10万+”：销量的一小步，转型的一大步

...新能源汽车市场的雄心壮志而言，“10万+”只能算得上一小步。但是，对上汽通用的新能源汽车布局，以及整个合资车企阵营的电动化转型来说，这“10万+”又是意义深远的“一大步”。“

2024-01-24 00:27:00

改造一小步享老一大步

三明市三元区大力推动居家适老化改造——改造一小步享老一大步东南网11月9日讯（福建日报见习记者庄紫怡通讯员陈渴刘子豪）楼栋青瓦红砖，道路宽敞整洁，彩绘栩栩如生……近日，

2025-11-09 18:20:00

警务改革“一小步” 服务民生“一大步”

...浦口公安多措并举破解社会治理“老大难”警务改革“一小步” 服务民生“一大步”□南京日报/紫金山新闻记者朱静杜莹见习记者邓菁菁7月10日一早，马鞍山市和县乌江派出所的辅警李欣星

2024-07-12 07:05:00

科技创新打开“新质生产力”大门

...能抓住生产力转型升级的契机，谁就能掌握竞争和发展的主动权。为加快形成新质生产力，我们看到北京、上海等地开始纷纷整合科技创新资源，积极发展战略性新兴产业和未来产业，构建人才链、

2023-12-08 06:31:00

“一分钱寻卡行动”让一小步变一大步-中国吉林网

...实践，“一分钱寻卡行动”的推广，让个体创新实践的一小步变成校园管理的一大步，凸显对个体善意的看见与放大，流淌着对智慧的珍视与对善意的力挺。我们有理由相信，“一分钱寻卡行动”会

2025-10-15 15:53:00

东湖评论：育儿补贴“一小步”，生育友好“一大步”

...年3600元的补贴对于缓解整个育儿压力而言，诚然是“一小步”，而要从根本上提振生育意愿，激活人口发展新动能，单一的经济激励远不足够，必须打出体系化的政策“组合拳”，破解深层的

2025-08-08 19:21:00

更多关于科技的资讯：

代表委员请留步｜侯景滨代表：人工智能+，加出河北新质生产力

视频摄制：冯阳霍艳恩赵新宇王思宁

2026-03-07 10:02:00

中国青年医师IP孵化计划在杭州启动

2026年3月5日，以“AI链全球生态共生”为主题的中国青年医师IP孵化计划在杭州启动。本次活动来自全国多所医院的专家

2026-03-07 10:40:00

租金两块钱一分钟 “共享机器人”即将入驻杭州商场、电影院

星枢智能的“机器人家族” 记者杨亦淇摄一台售价20多万元的春晚同款人形机器人，现在花5000元就能租一天；如果是基础款

2026-03-07 08:05:00

人工智能技术对金融机构运营效率的影响

摘要：随着信息技术的快速发展，人工智能技术逐渐渗透金融机构的各类业务与管理环节，对传统金融运作模式产生了深刻影响。金融机构在激烈竞争和成本约束的背景下

2026-03-07 05:46:00

上线智能应用防控消防隐患

近日，省应急管理厅举行“AI+工业企业火情预警（火眼哨兵）”“AI+烟花爆竹监管（烟花卫士）”应用上线发布仪式。浙江拥有30余万家工业企业

2026-03-07 07:34:00

微视频丨13年后复产的老胶卷成年轻人新宠——传统产业升级也有

视频摄制：张晶、赵新宇、朱泊宇

2026-03-07 07:47:00

成为OPC很简单，但成功OPC很困难代表委员热议“一人公司

今年的全国两会上，“一人公司”（One Person Company，简称OPC）成为代表委员们热议的话题。全国人大代表

2026-03-07 07:04:00

京东曹鹏两会建言：激活AI产业效能，夯实新质生产力发展基石

2026年全国两会正式开幕，全国政协委员、京东集团技术委员会主席、京东云总裁曹鹏围绕人工智能产业发展建言献策。他建议，推动我国AI产业实现从规模扩张到效能提升

2026-03-06 22:56:00

【南京机器人产业观察】天创机器人：何以领跑特种智能运维机器人

编者按：从生力军天创机器人开始，《大众证券报》明镜财经工作室记者将陆续探访在各种应用场景解决着实际问题的南京机器人企业

2026-03-06 22:56:00

从平台赋能到标杆涌现：青岛崂山区打造OPC创业首选地

鲁网3月6日讯2026年，是“一人公司”（OPC）从概念走向规模化实践的关键之年。当这一新型创业范式成为科创发展新风口

2026-03-06 20:12:00

春节线下实体消费增速首超线上，王微：更注重体验与情绪消费｜宅

【宅男财经｜专家面对面】据央视新闻报道，十四届全国人大四次会议今天(6日)举行经济主题记者会。商务部部长王文涛在会上表示

2026-03-06 21:54:00

从手工“制茶”到数据“智茶”：竹叶青展现AI时代品质新解法

在中国古老的传统产业版图中，茶产业无疑是最具代表性，却又最难被现代化改造的堡垒之一。长期以来，非标化、依赖人工经验、产业链条冗长等痛点

2026-03-06 17:21:00

全球AI迈向“办事时代”，千问持续推进AI生活服务落地

3月6日，千问宣布持续投入“AI办事”，用户可以让AI一句话下单各类生活服务，享受AI办事带来的便捷和立减实惠。进入2026年

2026-03-06 18:54:00

三联家电洪楼店店庆盛典3.07火热开启！

鲁网3月6日讯春暖花开，焕新正当时！一年一度，三联家电洪楼店将于3月7日至3月15日隆重举办店庆盛典，为广大消费者带来一场诚意十足

2026-03-06 17:08:00

2025ITEC颁奖典礼在京举行半导体AI创新成果引关注

2月4日，第十三届朝阳国际人才创业大会（ITEC2025）创新峰会在北京举办，大会全球创业赛获奖名单同期正式揭晓——“人工智能在半导体制造的应用与研究”项目凭借核心技术突破与产业化落地实效

2026-03-06 14:10:00

头条订阅服务

从0到1：国产化千卡集群的一小步，AI算力主动权的一大步