• 我的订阅
  • 科技

华为AI存储助力中国移动构建超大规模智算集群

类别:科技 发布时间:2024-12-19 18:16:00 来源:人民资讯

本文转自:人民日报

《人民日报》(

2024年12月19日

第 18 版)

华为AI存储助力中国移动构建超大规模智算集群

大模型领域普遍存在规模化定律,即大模型的性能深受模型参数量、数据集大小以及训练算力规模三要素的影响。生成式AI的运行主要基于深度学习原理,其发展离不开海量数据信息的投入。面对智算集群目前存在的可用度、推理体验等问题,华为推出业界首款AI存储——OceanStor A800,致力于成为支撑智算集群发展的关键基座。

智算集群为千行万业发展新质生产力夯基筑石

近年来,智能计算已经成为推动社会发展进步的重要力量。从计算机视觉到自然语言处理、多模态等基础大模型研究,再到面向自动驾驶、生命科学等重点行业的专用大模型研发,各行各业都展示出对智能算力的巨大需求。

中国移动抢抓数字经济发展新机遇,立足自身资源禀赋和能力优势,以算为中心、以网为根基、以存为引擎,打造多种信息技术深度融合、可提供一体化服务的算力网络,对内满足“九天”人工智能大模型训练,对外面向千行万业提供一站式智能计算服务,加快发展新质生产力。

借助智算集群提供的服务,运营商行业加速数智化转型,可汇聚数百万个基站、数亿用户以及数百PB级历史数据,实现L4级网络自动驾驶;金融行业可对信贷申请进行快速处理,时间从原来的数天缩短到一分钟,甚至最快一秒钟即可完成审批。

华为AI数据湖方案助力中国移动智算中心构建坚实底座

中国移动智算中心(哈尔滨)节点充分利用中国移动(哈尔滨)数据中心软硬件优势、自然冷源地域优势,提前4个月攻坚完成3千多平方米机房的供电、制冷、建筑结构等重大调整改造,涉及5000多台设备、7万多根线缆、20多万个端口、千万级精密器件的大规模集群复杂施工。在30多个单位、千余人的协同支持下,历经7个月时间,超万卡规模智算集群建成,存力规模达150PB。

在智能融合分级存储集群的设计初期,中国移动面临几大挑战:在吞吐性能方面,万亿级参数大模型需要至少10TB/秒的吞吐量,而传统存储系统难以满足这一要求;在多协议处理方面,数据从归集到处理再到训练,涉及对象存储和文件存储的频繁转换,这对传统存储架构是一个巨大挑战;在数据管理效率方面,随着数据的动态变化,热数据与冷数据需要按需流动,传统系统主要依赖人工干预,效率较低。

为应对上述挑战,华为为中国移动提供AI数据湖解决方案,构建智算中心数据底座,实现聚合带宽8TB/秒,IOPS(每秒读写次数)达2.3亿。受益于AI数据湖高可靠、高性能等特点,大幅降低集群故障概率,缩短了断点续训时间,使得90天单训练周期内GPU的等待时间从7天减少到2天。

在训练方面使智算集群实现从“堆算力”到“提效率”的转化

华为推出AI数据湖解决方案,基于OceanStor AI存储和OceanStor Pacific分布式存储的诸多技术创新,可支撑千亿/万亿级参数大模型高效训练与推理。

大模型训练系统对算力需求很大,计算密度空前,对数据吞吐量的要求也与时俱增,要求达到传统应用的数十倍甚至百倍。对于存储来说,首先就是要快速将数据源源不断地投入大模型。

为最大程度发挥每块算力卡的“潜力”,华为OceanStor A800首创数控分离架构,让数据从接口卡直接传输到存储介质,避免CPU和内存等潜在的瓶颈,大幅提升存储带宽和IOPS能力。在2024年MLPerf TM存储基准性能测试比拼中,OceanStor A800荣登榜首,其2节点性能高达679 GB/秒。

面对训练过程中的海量数据汇聚与高效存储问题,华为AI数据湖解决方案构建了全局文件系统、无损多协议互通、EB级扩展以及热温冷数据智能分级存储等能力,用一套存储实现AI各阶段数据的免拷贝和格式免转换,加速数据价值释放,并实现整体拥有成本(TCO)最优。

在推理方面使大模型实现从“快思考”到“慢思考”的转化

大模型产品具有即时问答的“快思考”能力,让AI变得更“聪明”,就要使其具备逻辑梳理、应对变化的“慢思考”能力。

使AI具备“慢思考”的能力,关键在于记录下AI推理过程中的每一次“思考”结果,使其再遇到相同的复杂问题时不需要重新计算。专门记录大模型思考结果的存储被称为“长记忆内存型存储”,作为内存的扩展,以分级的方式实现月级/年级的记忆能力,甚至是“终生”记忆能力。

华为OceanStor A800是业界首款提供“长记忆”能力的存储,通过“多级键—值缓存(KV—Cache)机制”将所有的思考结果持久化保存并高效使用,让大模型推理具备“慢思考”能力,以减少大模型在预填充阶段的重复计算。如此,客户进行AI推理的时延可降低近八成,单个计算卡的吞吐量提升约2/3,可在实现推理体验提升的同时降低成本。

如今,智算中心正从千卡集群向万卡甚至超万卡集群演进。华为将与中国移动等企业持续深入合作,一起应对超万卡集群建设和运营带来的前所未有的挑战,抓住人工智能发展的历史机遇,打造自主创新的智算中心可靠数据底座。

数据来源:中国移动通信集团黑龙江有限公司华为技术有限公司

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-19 21:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

华为、百度、阿里云等发起“大模型基础设施高质量发展行动计划”
...工信部人工智能关键技术和应用评测实验室、工商银行、中国移动、中国联通、百度、阿里云、腾讯云、蚂蚁集团等正式发起“大模型基础设施高质量发展行动计划”。IT之家从大会获悉,该计划
2024-11-13 14:10:00
...应用实践案例中,包括邮储银行、民生银行、兴业银行、中国移动、中国联通、京东、国网江苏电力、京东方等行业头部企业的核心业务创新实践,为推动产业技术创新、促进形成规模化应用起到了
2024-01-04 08:05:00
推进新型工业化的广东实践:大产业立柱架梁,新老赛道并进
...工信部“新型工业化媒体调研行”走进位于广州和东莞的华为终端、记忆存储、华星光电、文远知行等数十家企业。这些企业也勾勒出广东省在推进新型工业化方面的工作成效。8个万亿级产业集群
2024-12-03 10:52:00
华为大动作曝光,3万亿赛道沸腾!
数据是个宝数据宝炒股少烦恼华为传来一则大消息。12月25日,据国家广播电视总局官网消息,国家广播电视总局批复同意在华为技术有限公司设立“超高清技术创新与应用国家广播电视总局重点实
2023-12-26 14:35:00
要以计算集群的视角,来重新审视芯片!
...或许适用于某些产业,但在芯片领域,挑战格外巨大。 华为在手机CPU领域取得的成功,为国内技术界注入了巨大信心。他们的麒麟系列芯片不仅在国内市场取得了显著的份额,甚至在国际市
2023-10-24 18:08:00
不用买大内存手机了!小米NAS官宣,云端扩容手机
继华为之后,又一家手机厂商盯上了NAS行业。日前,小米生态链总经理陈波发视频称,小米针对NAS核心技术已经展开了几个月的预研,目标是打造最适合米家用户的家庭存储产品。尽管陈波并未
2024-11-04 22:03:00
为什么要将程序部署到云服务器上?华为云开年采购季Web及移动App上云体验
...复能力,从而保证了数据库服务的稳定性。可能会用到的华为云服务华为云提供上面多个服务,可以让用户轻松快捷的实现我们上面说的这个架构,帮助大家快速的在云上构建一个稳定性较强的业务
2023-03-15 12:00:00
华为张迪煊:共筑智能根基,引领AI新未来
7月6日,昇腾人工智能产业高峰论坛在上海举办。会上,华为昇腾计算业务总裁张迪煊发表《共筑智能根基,引领AI新未来》主题演讲,他表示:只有“基础打得牢、技术扎得深、生态更紧密”人工
2023-07-13 19:00:00
国内最大智算中心8月30日投用:共1.8万张AI加速卡 算力6.6EFLOPS
快科技8月22日消息,据“哈尔滨发布”介绍,中国移动智算中心(哈尔滨)节点超万卡智算集群将于8月30日正式投用。中国移动黑龙江公司在哈尔滨智算中心共计部署1.8万张AI加速卡,2
2024-08-22 15:55:00
更多关于科技的资讯: