• 我的订阅
  • 科技

大模型"吞金"时代,CTO们"存力焦虑"怎么解?

类别:科技 发布时间:2025-04-08 17:41:00 来源:新眸

大模型吞金时代,CTO们存力焦虑怎么解?

新眸原创·作者|桑明强

当全球科技巨头为AI大模型疯狂加码GPU算力时,一家头部券商公司却公开诉苦:费力搭建的GPU集群,利用率却始终卡在30%,算力空转导致每月仅电费就是一笔不小的开销,核心瓶颈竟然是一块“看不见的短板”:存储带宽。

这并非孤例——某车企自动驾驶团队在迭代模型时发现,因数据读写延迟过高,单次训练周期被迫延长40%,直接拖慢产品落地进度。这些故事背后,揭示了大模型时代最隐秘的真相,存储正成为大模型落地的最大暗礁。

大模型训练场景下,数据集一般以文档、图片、音视频等非结构化数据为主,这些文件通常很小,在几十字节到几百kb级别,但数量庞大,大约几亿到几十亿量级,这就要求存储系统具有强大的元数据管理能力,用来支撑海量小文件的高吞吐。

据爱分析测算,在同等GPU算力规模下,存储性能差异可导致3倍模型训练周期波动。以GPT-4为例,它训练需处理超100PB数据,存储带宽要求600GB/s,相当于每分钟填满45块10TB硬盘,而传统4节点存储集群仅能提供24GB/s带宽,差距达25倍。

在这种背景下,产业界陷入两难困局:既要支持千亿级参数AI大模型、TB级带宽的“暴力吞吐”,又要扛住30年数据留存、11个9可靠性的“马拉松考验”,还要满足国产化和市场的真实需求。

“这中间的挑战其实非常大。”京东云相关负责人告诉《新眸》,一方面,存储厂商需要跟主流芯片厂商以及国产操作系统相互兼容认证;另一方面,还要在全国产化环境里做到高性能、高稳定性和低成本,这背后意味着大量的对接、优化和自主研发工作。

这些问题也是眼下很多CTO、CIO焦虑的地方。尽管DeepSeek等模型能力让人振奋,也让外界看到了大模型落地千行百业的可能性,但摆在他们面前的,除了买GPU、堆算力外,还要思考如何从存储端切入,为企业算清楚大模型落地和数字化的“经济账”。

01

GPU空转背后:一场被忽视的存储革命

存储成本就像是房间里的大象,所有人都看见,但没人敢动。据业内人士透露,有的企业光内部存储系统就采购了5套,每一套都需要单独维护,由于这些数据分散在不同系统,管理难度陡增的同时,也为后续数据价值挖掘平添了障碍。

一项调查显示,大模型训练中存储成本占比高达10%-20%,但多数企业仍将其视为“必要损耗”。拿一台L3级别的自动驾驶测试车来讲,平均每天产生60TB的数据,完整测试产生的数百PB数据需要存储30年以上。

存储成本居高不下,是大模型时代的一大痛点,症结在于缺少对数据的有效分层。传统存储方案下,为了保证企业生产活跃度和数据安全,通常需要做到3个副本,这也是导致存储空间利用率低的直接原因,类似问题在互联网、金融、医疗等行业普遍存在——冷数据占用大量资源,却鲜少被访问。

更别谈一些特定领域,它们对于存量数据的存储要求更为苛刻。比如政府电子档案要求保存周期为5年甚至更长,公检法司数据要求保存周期至少30年以上。

问题的复杂性在于技术门槛。要知道,大模型训练的本质是海量数据的处理与流动,过程中需要实时处理数百PB级数据,存储系统需同时满足千万级IOPS、TB级带宽、微秒级延迟。相比之下,传统解决方案往往顾此失彼:高端存储阵列性能达标但成本高昂;开源方案虽成本低,却面临稳定性问题。

“一定程度上,云海AI存储的出现填补了市场空白。”据京东云相关负责人透露,这款历经京东618、双11等复杂场景打磨的产品,以全自研统一分布式存储引擎为核心,实现4K随机写性能突破千万级IOPS,平均延迟在100微秒级,并通过1.1x副本技术节省整体基础设施成本超30%。

“近几年市场对国产存储的关注度明显提高。”尤其在大模型浪潮下,存储性能已从后台支持系统,跃升为AI生产力核心要素。一种主流观点认为,当参数规模突破千亿量级时,对存储的要求会更高,届时唯有具备弹性扩展能力的分布式存储架构,才能支撑未来3-5年的AI进化需求。

在与多个客户深入交流后,京东云方面发现,除了国产化层面的要求,对海外存储厂商的祛魅逐渐成为行业共识,国外的月亮不一定更圆,这也是云海AI存储为什么能在银行、证券、汽车、零售等领域广泛落地——它既能做到不输海外存储厂商的高性能、高可用性,还在于它是京东100%自研产品,核心技术完全自主可控。

02

自主可控:国产存储的“性能逆袭”密码

“每一个架构好在哪里、坏在哪里,我们有充足的底气来判断。”京东云相关负责人告诉《新眸》,从2012年开始计算,云海AI存储在京东场景已经实践了超过13年。

作为下一代关键技术,存储是AI基础设施重要一环,也是国产化的重点,尤其对于金融、政务领域来讲。在这个背景下,核心技术是否自主可控将成为关键门槛,相比之下,国外存储厂商的商业化产品虽然在性能上整体领先,但无法作为优先选择;至于国内厂商,则需要验证其技术自主可控能力,以及产品与周边国产化生态软硬件系统的兼容性。

和传统分布式不同,云海分布式存储主要聚焦于AI训练和推理场景,而非仅限于数据处理。由于它采用完全自研的架构,而非基于开源平台,“每一行代码都是自己写的”使得云海在面对大规模数据存储和高性能需求时更具竞争力。事后来看,这是一条艰难但正确的选择。

事实上,除了京东云云海外,这些年国内发力AI存储并不在少数,但最终结果却反响平平,据业内人士透露,有的厂商费了大力气挖人、投入了大量资源,却至今未能推出成熟的产品。

这同时也是互联网厂商自研存储的难点所在,不仅要解决监控组件、数据库组件、工程化要求等第三方依赖问题,针对不同客户需求进行模块化单独输出,还要考虑到业界主流存储架构突变带来的风险性。

背后的考量与权衡不言而喻。回忆起打磨云海AI存储的那段经历,京东云相关负责人坦言中间也经历过很多内部的争论,比如数据保护的技术路线选择上,当时内部就选择覆盖写还是追加写时,讨论过很多次。

覆盖写作为业界主流的技术路径,相对来说开发难度、风险都比较小,但坏处是,在存储故障处理能力、包括故障后响应时延方面非常弱,而且性能也没法做到极致。综合考量下,云海AI存储最终选择了更有难度的追加写技术路径,为了让它有更高的稳定性,团队前后就存储架构优化方面又花了将近一年时间。

03

存力即战力

京东云云海如何改写存储经济账

当全球AI竞赛进入耐力赛阶段,存储价值正在从“后勤保障”升级为“核心战力”。

拿汽车场景举例,在自动驾驶等模型训练、研发过程中,存储和GPU的关系往往是紧密耦合的,一旦GPU集群出现闲置状态,就会导致极大的资源浪费。关于这点,业界有一个经典测算,如果GPU集群出现5%左右的闲置时间,其成本就相当于重建一套分布式存储集群。

云海的实践也验证了这一点——某自动驾驶公司通过存力优化,满足了该企业上百个GPU计算节点在模型训练过程中访问存储数据,并应对计算节点的高并发访问的需求,大大缩短了训练周期;某国有大行基于云海构建存力底座,采用统一分布式存储的方式,既满足大模型训练的海量数据存储需求,还有效降低了成本。

类似的故事也发生在某知名券商。为了支撑业务发展,该券商需要进行系统架构的全面云原生化升级,但问题在于,传统存储架构不够灵活,很难适应“小微化、高频化”的业务新模式,更别谈支撑业务系统快速上线、快速变更。

“这恰恰是云海的独特优势所在。”据京东云方面透露,基于云海分布式存储搭建的统一存储平台,该券商构建了超大规模数据湖,统一管理结构化与非结构化数据,在实现数据高效存储与流动的同时,存储平台还兼容多存储接口类型,真正做到与用户业务系统无缝链接。

荔枝FM内部曾经算过一笔账:4.5亿用户音频数据若沿用传统3副本机制,年存储成本将是一笔巨额开销,而基于京东云自研云海存储系统,综合存储成本直降30%,背后秘密在于京东云独创的冷热数据自动分层机制——热数据保留3副本保障毫秒级响应,冷数据则采用EC低冗余技术(1.1x副本率),磁盘利用率直接提升至90%。

值得一提的是,云海这套组合拳还能同步构建跨机架多节点容灾体系,实现每次读写自动多副本备份,支撑荔枝FM4.5亿用户的高品质音频服务零中断。在业内人士看来,大模型竞赛下半场,存力正从幕后走向台前,京东云云海通过性能、成本、自主可控的三重突破,不仅解决了企业的现实痛点,更重新定义了AI基础设施的价值链——存储系统的ROI=性能增益+成本节省+故障止损。

“国产存储崛起的关键不单单是性能、可靠性的比拼,更需要你站在未来思考。”按照京东云相关负责人的判断,未来通用大模型解决用户所有需求的可能性较低,取而代之的是,将呈现多种应用化大模型根据用户场景并行使用的情况,随着DeepSeek等LLM的应用发展,后续推理的需求将持续走高,预计将远高于训练需求。

事实也的确如此,根据IDC发布的一份报告显示,全球数据将从2018年的33ZB增至2025年的175ZB。而中国的数据总量也在全球首屈一指,调查数据显示,中国数据占全球数据比重正在从2018年的23.4%,发展到2025年的27.8%。

从这个角度来看,有关"存储经济学"的价值重构,已经成为企业AI战略的胜负手。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-04-08 20:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

汽车产业驶入“智能时代”,京东云要成为汽车供应链的“水电煤”
...汽车的研发、生产、营销、运营和自动驾驶等应用中。大模型更成为车企竞逐的明珠。京东云今年推出的“数智算力矩阵”,为大模型等AI技术搭建了基础设施:言犀AI开发计算平台,提供10
2023-11-23 13:16:00
气象服务的“存储密码”:京东云云海如何破解行业难题?
在大模型训练中,算力一直是核心驱动力。但大模型竞速中还有一个很重要的隐形变量,那就是存储。有数据表明,同一批GPU集群,存储配置的差异,模型训练速度可能相差3倍。对于企业的CTO
2025-04-08 16:06:00
京东云发布八大领先智算产品,助力企业火速用上大模型
...,京东云发布八大极致性价比的智算产品,五种全场景大模型部署模式,同时推出“开发训练+场景应用”双引擎一站式平台,助力企业实现DeepSeek等大模型开箱即用、智能体深度开发与
2025-02-27 14:14:00
众多存储好物年终钜惠!西数京东双十二,好价惊喜来袭!
...乎每个人在面对海量信息数据时都或多或少会有一些容量焦虑,尽管手机、笔记本等设备容量越来越大,却依旧难以很好的满足日益增长的数据存储需求,而选择一款固态硬盘无疑就是缓解容量焦虑
2023-12-06 15:21:00
京东方A获得发明专利授权:“摘要生成模型训练方法、装置、电子设备和非瞬态计算机可读存储介质”
...(000725)新获得一项发明专利授权,专利名为“摘要生成模型训练方法、装置、电子设备和非瞬态计算机可读存储介质”
2025-03-12 03:40:00
2025手机消费观察:七成用户关注折叠屏手机 多形态多场景融合是核心吸引力
...乐手机,18.7%的人表示双机轮流使用,可以减少单机电量焦虑。69.3%的用户视手机为生存/生活入口,69.8%的人将手机电量和信号列为安全感第一来源。“一步到位”成手机换新
2025-08-16 20:23:00
三星990 EVO AI应用体验
...并不难理解。无论是需要处理十几GB甚至几十GB的大语言模型,还是运行需要调用多个模型的AI绘画任务,都会产生巨大的数据传输需求。在启动、运行和调试这些AI应用时,对硬盘的顺序
2024-10-27 22:03:00
京东云:智能体大规模“上岗”,企业深度应用正当时
...认为,全面走向深度应用,企业当下需要做好三件事 大模型加速奔跑,深度应用全面开启。5月20日,京东云城市大会在上海顺利举行
2025-05-20 14:47:00
一代更比一代强,AI 时代的至强如何为云服务保驾护航?
...和应用的爆发给云计算产业带来了全新的机遇和挑战:大模型需要庞大的算力支持,用户普遍需要向云计算厂商购买算力服务;且由于大量用户涌入云服务市场,云厂商需要尽快升级数据中心算力以
2023-12-26 10:08:00
更多关于科技的资讯:
9月4日15时,记者走进石家庄市高新区想象国际小区兔喜生活快递驿站,只见崭新的智能快递柜排列整齐,白色的柜体搭配清晰的触控显示屏
2025-09-15 08:03:00
“以前打包,一天弯腰上百次,考验手又考验腰,现在机器全搞定,咱只要盯着设备运转就行!”近日,在国内办公家具行业头部企业圣奥科技股份有限公司深州生产基地(以下简称“圣奥深州生产基地”)
2025-09-15 07:59:00
体验首家潮流店的独特,感受首个主题展览的魅力,领略首场大秀的震撼……越来越多的消费者逐渐被首店经济吸引。通过首店经济,创新消费场景涌现
2025-09-15 07:13:00
明势、BAI和蚂蚁,AI投资的乐观派、悲观派和中间派聚在一场圆桌上
文|周鑫雨编辑|苏建勋如今的AI投资人,也分“乐观派”和“悲观派”。2025年9月12日,Inclusion外滩大会。在由36氪CEO冯大刚主持的圆桌论坛“AI应用落地首战
2025-09-14 17:16:00
王兴兴、朱啸虎们说了些AI创业真心话
文|周鑫雨 富充编辑|苏建勋2025年9月11日开幕的Inclusion外滩大会,为当下的AI创业者、学者和投资人,攒了一个“真心话”局
2025-09-14 19:30:00
厦门网讯(厦门日报记者 林钦圣 通讯员 江安娜)近日,我市申报的“车路协同·公交智行可视化”项目入选自然资源部、国家数据局联合发布的2025年实景三维数据赋能高质量发展创新应用典型案例
2025-09-14 08:20:00
AnPro®酵母蛋白获美国GRAS认证,定义未来可持续蛋白新标准
近日,安琪公司自主研发的AnPro®酵母蛋白(海外市场命名:AngeoPro®)正式获得美国食品药品监督管理局(FDA)的GRAS认证
2025-09-14 09:00:00
中新经纬9月13日电 (周奕航 李自曼)“编程教育的核心,不是为了培养未来的程序员,而是通过学习代码来锻炼孩子的认知能力
2025-09-14 09:11:00
合肥博主128万购买纯电动飞机 用于科技测评
大皖新闻讯 9月13日下午,在六安市金安通用机场,合肥知名科技自媒体博主张梦龙(@科技九洲君)领到了证书和钥匙,成为皖企零重力飞机工业旗下纯电动飞机“锐翔RX1E-A”的一名新机主
2025-09-14 11:12:00
沂河之滨续华章,点亮发展新路径——第九届临沂核医学与分子影像会议圆满落幕
鲁网9月14日讯9月13日,第九届临沂核医学与分子影像会议进入第二天议程,众多国内外权威专家继续围绕放射性药物研发、影像技术创新
2025-09-14 13:07:00
海尔金秋家装节 全鲁南抢海尔
当金秋的风吹过海尔智家鲁南区域的大街小巷,你只需要做一件事—打开海尔金秋家装节,全鲁南抢海尔,让"省"成为这个秋天最爽的事
2025-09-14 16:28:00
近日,一部以“2050·慈爱守护智行椅”为主题的公益视频引发关注。该作品聚焦盲人与老年人出行难题,通过科技叙事展现智能辅具如何重塑特殊群体的出行体验
2025-09-14 16:29:00
广东辰奕智能科技股份有限公司因出口商品商标侵权被行政处罚
近日,中华人民共和国大鹏海关发布对广东辰奕智能科技股份有限公司出口侵犯“SONY”、“LG”商标专用权商品案行政处罚结果公示(深鹏关知罚字〔2025〕0154号)
2025-09-14 20:20:00
文具大礼包到数码全家桶,黔西南兴义“开学经济”多元消费场景火爆
随着贵州省2025年秋季学期正式开学,黔西南州各中小学和幼儿园敲响了上课铃,沉寂了一个暑假的校园,恢复了琅琅书声。新学期
2025-09-14 19:28:00
强数字动能,拓发展新局!贵州推动数字经济高质量发展
在国家大数据(贵州)综合试验区交流体验中心,正门口一个由圆形LED屏构成的“数据之眼”十分醒目。这个独特的设计,寓意世界将从这里看见不一样的贵州
2025-09-14 12:11:00