• 我的订阅
  • 科技

人工智能的第三支柱:数据存储

类别:科技 发布时间:2024-09-05 14:25:00 来源:AI云资讯

借助人工智能数据周期(AI Data Cycle)存储框架,释放数据的AI力量

西部数据公司副总裁兼中国区总经理 蔡耀祥

人工智能的第三支柱:数据存储

西部数据公司副总裁兼中国区总经理蔡耀祥

如今,AI无处不在。各个行业正通过对基础设施进行大量投资,来支持创新的应用和用例。我们大都对于时下GPU、CPU和内存这类以计算为主的基础设施有所耳闻,而数据存储作为AI的“第三支柱”,也正对AI起到更为关键的作用。

对于文本的AI训练相对简单,但当转向音频、图像以及视频时,所生成的数据量将会呈现指数级增长,对存储的需求自然而然会有很快的攀升。而且随着时间的推移,数据的总量也在持续增长。IDC预计截至2028年,每年产生的数据总量将接近400 ZB(泽字节,Zettabyte)。

在数据生成量不断增长的趋势下,数据存储技术对于人工智能数据周期(AI Data Cycle)中不同阶段基础设施和工作负载的容量、性能、能耗效益以及成本效益都至关重要。AI系统在处理和分析现有数据的同时也会产生新数据,其中很多数据会因其功能性或娱乐性被保存。新型AI用例和更先进的模型令现有数据资源库和额外数据源对模型上下文和训练的价值更甚。数据的不断生成促成了更多的数据存储,而更多的数据存储又进一步推动数据生成,一个良性循环的人工智能数据周期就此诞生。

西部数据在今年6月正式发布了人工智能数据周期存储框架,该框架阐明了在大型AI工作负载的六个阶段中每一阶段的存储重点,帮助企业级数据中心规划者厘清AI和数据存储之间的动态关系。西部数据也正积极调整产品路线图,以满足在AI驱动下不断升级的需求,更大限度地提升性能和容量并降低能耗和TCO(总体拥有成本,Total Cost of Ownership)。

人工智能数据周期的六大阶段

西部数据通过人工智能数据周期,详细解读了AI管道六个阶段中数据从收集、训练到推理的存储细节。

人工智能的第三支柱:数据存储

让我们简单了解一下人工智能数据周期的各个阶段。

原始数据存档,内容存储:从各种来源安全高效地收集并存储原始数据,以用于训练模型。所收集数据的质量和多样性至关重要,为后续的所有阶段奠定了基础。

在此阶段,查找并收集数据集需要大容量存储,通常来说会用到大容量企业级HDD(eHDD)。由于企业级HDD可以经济高效地存储巨量规模化数据,且拥有更低的TCO,被视作是建立深度内容资源库的理想选择。全球线上和可访问的冷数据及温数据都主要通过它来保存。具体来说,选用单盘容量点更高的HDD能够帮助云和企业级用户提升存储密度,实现数据中心的规模化扩展,满足不断增长的容量需求。

数据准备和转换:在该阶段,数据会被处理、清洗和转换,以供模型训练使用。在AI场景下,这一阶段需要执行的操作很复杂,并且对性能的要求也更高。数据需要首先被转化为AI模型可以使用的信息,包括对文本、图片、视频以及所有输入AI模型的内容进行矢量化处理。这也是AI管道中对各方面需求都更高的阶段,对计算和存储基础设施的要求也更加苛刻。

这是一个对性能要求很高且存储密集的阶段,该阶段的存储选择从HDD转向了SSD,从而建立高速数据湖以支持数据准备和转换。在该阶段,用户会部署采用大容量企业级SSD(eSSD)的全闪存存储系统,以增强现有的基于HDD的资源库,或用于新的全闪存存储层。

AI模型训练:AI模型会在该阶段进行反复训练,从而基于训练数据做出准确的预测。具体来说,模型是在高性能超级计算机上进行训练的,而训练效率在很大程度上取决于最大化GPU利用率和专门的高性能存储。

从数据中心的角度来看,这一阶段的工作负载对计算性能的要求极高,所以需要我们再次转变存储策略。这一阶段理想的SSD是高性能、低容量、以计算为目的企业级SSD,确保向GPU集成系统输入数据的环节不会因存储性能不足而受到影响。此外,在该过程中还有很多复杂的操作,如检验点、归档等,可能会根据计算状态,将整个数据集写回数据湖或进行检索。因此,计算密集型存储和基于闪存的数据湖在该阶段有时会混合应用。

界面交互:这一阶段涉及为AI模型建立用户友好型界面,包括各类应用程序接口(API)、仪表板和工具等,使得上下文的特定数据和终端用户的提示可以结合起来。AI模型会被整合到现有的互联网和客户端应用程序中,在不取代现有系统的情况下增强其功能,进一步推动了存储需求。

这一阶段的存储重点在终端,比如在客户端设备、移动设备以及物联网设备。这些都是真正执行推理的地方。这里不仅有较高的性能需求来应对推理过程,也有更大的容量需求来应对新数据的产生。

兼顾性能和容量的客户端存储设备填补了这些需求。最终这些内容会回到基于HDD的长期内容存储系统中,无论是归档或云端的。换言之,PC和笔记本电脑需要容量更大、性能更强的客户端SSD(cSSD),手机、物联网系统和汽车会需要容量更大的嵌入式闪存设备,以在边缘已有的应用中增强AI。

AI推理引擎:第五阶段是奇迹实时发生的地方。在这个阶段,训练好的模型被部署到数据生产环境中,对新的数据进行分析并提供实时的预测或者生成新的内容。推理引擎的效率将直接影响AI响应的及时性和准确性。

这一阶段需要用于缓存的高性能eSSD、用于高速数据湖的大容量eSSD、大容量cSSD以及用于AI驱动边缘设备的嵌入式闪存。

新内容生成:最后一个阶段是新内容诞生的地方。AI模型所带来的洞察分析经常会产生新的数据,这些数据因其价值或趣味性而被存储。尽管这一阶段标志着循环的结束,但与此同时生成的新数据又会被反馈到数据周期中,通过不断提升数据价值以用于未来模型的训练和分析,实现持续的改进和创新。

生成的内容将被存储到大容量eHDD中,在数据中心实现大容量存储、备份和归档。同时,大容量cSSD和嵌入式闪存设备也将用于存储边缘设备中额外由AI驱动的数据。

合理的存储产品组合,进一步优化AI领域投资效益

上述每个阶段都有着不同的基础设施需求、计算需求、存储需求以及不同的工作负载特性,但每个阶段都是整个人工智能数据周期中不可分割的一部分。针对不同阶段差异化的存储需求,企业可以通过优化存储组合来应对大规模AI运算负载,搭建更为先进的存储基础架构,进而提高AI工作流的效率并降低TCO,进一步优化在AI领域的投资效益。

西部数据已战略性地调整闪存和HDD产品和技术路线图,帮助应对人工智能数据周期中每个关键环节的数据存储需求。

西部数据现已正式向指定客户出样具备行业领先容量的32TB 企业级ePMR HDD。全新的大容量Ultrastar DC HC690 UltraSMR HDD专为超大规模云和企业级数据中心的巨量数据存储需求设计。在人工智能工作流这类对大规模数据存储和低TCO有严格要求的应用场景下,该产品可发挥重要作用。此外,凭借先进的ePMR技术和OptiNAND技术、长远的产品规划和可预见的容量提升,西部数据可以帮助用户充分应对当前乃至未来AI应用对存储日益增长的需求。

人工智能的第三支柱:数据存储

为满足市场对大容量SSD的需求,西部数据全新的企业级SSD将容量提升到了32TB和64TB,并针对人工智能数据周期中第二阶段的高性能存储需求和其他大容量性能存储需求着重优化。全新Ultrastar DC SN655+企业级SSD采用PCIe Gen 4接口,并集成了多项用于服务AI用例的软件特性和功能。

人工智能的第三支柱:数据存储

针对人工智能数据周期第三、四、五阶段的高性能存储需求,西部数据推出了旗下首款企业级PCIe Gen 5.0解决方案——Ultrastar DC SN861 SSD,拥有市场领先的随机读写表现,容量高达16TB,随机读取性能相比上一代产品提升约3倍,超低的延迟和非凡的响应速度尤其适用于大语言模型(Large Language Model, LLM)的训练、推理和AI服务部署。此外,更低的能耗能够提供更高的每瓦特IOPS(IOPS/Watt),有助于企业进一步降低TCO。PCIe Gen 5带来的带宽提升满足了AI行业计算密集型工作环境对高速计算和低时延的需求。

< 西部数据Ultrastar DC SN861企业级SSD – U.2 >

人工智能的第三支柱:数据存储

< 西部数据Ultrastar DC SN861企业级SSD – E1.S >

AI提速内容增长,数据存储未来可期

在数据中心,预计未来五年内,HDD 和企业级SSD 都有显著的 EB 级增长机会。

为满足市场对大容量SSD的需求,西部数据全新的企业级SSD将容量提升到了32TB和64TB,并针对人工智能数据周期中第二阶段的高性能存储需求和其他大容量性能存储需求着重优化。全新Ultrastar DC SN655+企业级SSD采用PCIe Gen 4接口,并集成了多项用于服务AI用例的软件特性和功能

在客户端,无论是移动设备还是PC市场上,越来越多的支持AI以及AI驱动的PC和移动设备正在涌现。这些设备对性能的要求更高,同时由于需要处理和存储的数据量正不断增加,对大容量的存储需求也在上升。这些趋势共同推动了存储需求的大幅度增长,西部数据预计在未来五年内,PC和笔记本电脑市场的cSSD需求会出现25%到35%的增长,智能手机的闪存需求会出现40%到50%的增长。

人工智能数据周期展示了这一持续生成数据和使用数据的循环,并阐述了这一循环是如何加速对高性能且可扩展的存储技术的需求。存储对管理大型AI数据集、高效重构复杂数据并推动进一步创新来说至关重要。西部数据深刻理解AI和数据存储之间的动态关系,在不断提供更大容量产品的基础上,为下一代AI工作负载所需要的极致性能和耐用性提供量身打造的存储解决方案。凭借持续丰富扩展的产品组合、长远的技术路线和不懈突破创新,西部数据将帮助用户释放AI的革新力量,创造更多价值。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-05 17:45:10

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

Baklib 与人工智能融合,打造未来知识管理平台
...据驱动决策的改进91%无需升级即可解决问题未来的劳动力人工智能与知识管理的融合不仅是一种趋势,也是打造未来员工队伍的战略需要。《知识管理终极指南》中的研究提供了成功的蓝图,并
2024-09-28 11:31:00
三星全年利润暴跌85%
...端市场份额。需求有所改善 去年10月,三星曾预测,在人工智能开发热潮的推动下,长期低迷的存储芯片市场将在2024年逐步反弹。三星高管们当时表示,存储芯片价格应该会在2023
2024-01-10 00:50:00
双向赋能:AI与数据库的修行之道
在这个数据为王的时代,数据是人工智能的三大支柱之一,其重要性不言而喻。最近,OpenAI收购了数据库初创公司Rockset
2024-06-28 23:46:00
数据驱动AI的新纪元,联想凌拓的新使命
...线》创始主编凯文·凯利曾预测:“在未来的 100 年里,人工智能将超越任何一种人工力量,将人类引领到一个前所未有的时代。”确实如此,犹如历史上蒸汽机、电力、计算机和互联网等通
2024-02-06 16:42:00
数字驱动,产业风起势来
...2年省级大数据三优两重项目,各项指标均居全市首位。 人工智能产业发展成效凸显。人工智能特色产业集群获批省“十强”产业“雁阵形”集群、省级特色产业集群,聚集人工智能企业280
2023-11-10 11:46:00
...信局副局长、新闻发言人刘维亮在发布会上作上述表示。人工智能企业超2400家刘维亮提到,北京数字产业化释放新动能。北京将人工智能作为数字经济的核心驱动力,打造具有国际竞争力的数
2025-01-15 23:33:00
华为悬红200万全球求解难题,分布式存储为AI提供数据底座
...来数据存储领域的深度布局。AI时代数据爆炸式增长随着人工智能的飞速发展,其数据量以惊人的速度增长。据报道,IDC近日发布的报告对全球数据圈进行了未来五年预测。报告预测,全球2
2024-05-28 18:07:00
SK海力士宣布2026年量产HBM4
HBM产品被认为是人工智能(AI)计算的支柱之一,近两年行业发展迅速。在人工智能和高性能计算的影响下,HBM市场带给了存储器厂商新的希望,以推动收入的巨大增长。作为英伟达高带宽存
2024-02-05 09:49:00
IBM:以强大存力与算力夯实AI基础架构
...产业界都在积极探讨如何能够把握大模型带来的机会,把人工智能技术应用于产业,真正做到“数实相融”,实现创新突破。而生成式AI的浪潮对企业用户的算力资源、算法优化和数据安全都提出
2023-09-11 19:59:00
更多关于科技的资讯:
浙江日报讯 (记者 赵静 张源 共享联盟·温岭 郑灵芝 通讯员 陈远笛) 日前,浙江鱼童新材料股份有限公司传出喜讯:这家深耕船舶涂料的企业
2026-02-03 08:10:00
2026“中国味·好年货”专场活动圆满举办 “内容+消费”共创年货直播新场景
2月1日,央视财经、央视频联合润星集团创始人杨润心(网名蛋蛋)推出“中国味·好年货”专场直播,并在央视财经、央视频快手账号同步转播
2026-02-03 09:11:00
长白时评评论员 崔越然近期,关于AI在商品推荐中存在“幻觉”的讨论在舆论场中引发广泛热议。有关专家建议厂商须标注信息来源
2026-02-03 10:26:00
市科技馆举办“好奇π·科创筑梦慧聚新春” 寒假科普体验日活动
胶东在线2月3日讯2月1日,市科技馆“好奇π·科创筑梦慧聚新春”寒假科普体验日活动在青少年科学工作室举办,活动吸引了40组家庭参与
2026-02-03 10:46:00
巴特罗之家光影大秀《隐藏的秩序》点亮高迪年 ——从巴塞罗那城市公共艺术到中国社交网络刷屏的全球回响
作为巴塞罗那“高迪年(Año Gaudí 2026)”的第一场重要文化活动,Casa Batlló 于2026年1月31日至2月1日推出年度外立面光影大秀《隐藏的秩序(Hidden Order)》
2026-02-03 08:40:00
王凯莉 对外经济贸易大学国际商学院摘要:随着企业规模的扩大及人工智能的飞速发展,财务共享模式已成为企业提高运营效率、提升风险管控能力
2026-02-03 07:03:00
新春走基层|白沟黑马玩具成“黑马”
1月29日,伊呀呀毛绒玩具制造有限公司负责人李辉正在给直播间的顾客介绍产品。 河北日报见习记者 李靖恬摄农历马年将至,保定市白沟新城的一款黑马毛绒玩具意外走红
2026-02-03 07:45:00
走市场 看消费①|新一轮消费品以旧换新政策落地 河北消费市场加速焕新
新一轮消费品以旧换新政策落地河北消费市场加速焕新1月14日,消费者在京东MALL石家庄新华店选购商品。 河北日报记者 冯阳摄■编者按 消费是经济增长的“主引擎”
2026-02-03 07:52:00
“工欲善其事,必先利其器。”这句千年古训,在太重油膜轴承分公司的生产车间里,正被一群扎根一线的劳动者以创新实践赋予新的时代内涵
2026-02-03 07:12:00
中新经纬2月2日电 据“中国银联”网站消息,1月30日,中国银联发布声明称,公司从未联合或授权任何机构发行所谓“农业专属卡”
2026-02-02 20:22:00
贵州刺梨以高附加值产品开拓全国大市场
春节前夕,正值年货采买热潮,贵州刺梨产业也迎来新的发展节点——由贵州农发集团下属贵州刺梨集团研发的SOD(超氧化物歧化酶)肠溶片系列产品
2026-02-02 17:01:00
如何评价一家事业编培训机构?从鸿图政通教育的扎实筹备说起
在快速更迭的培训市场,不乏一时风头无两的机构,但能持续赢得信任的品牌,往往离不开长时间的潜心积淀与专业化打磨。北京鸿图政通教育虽于2024年1月22日正式注册成立
2026-02-02 19:30:00
海信发布璀璨大冻梨冰箱 以“真大冷冻”新标准破解行业用户痛点
鲁网2月2日讯1月31日,海信正式推出全新产品——海信璀璨大冻梨冰箱。这款被定义为“行业大冷冻冰箱开创者”的产品,旨在系统性解决中国家庭在食材冷冻存储中长期面临的容积不足
2026-02-02 14:17:00
深挖用户痛点:海信璀璨大冻梨冰箱背后的“冻力”革命与创新哲学
鲁网2月2日讯中国家庭的冷冻室正面临一场普遍的“存储危机”:食材堆积导致存取不便;大量囤货时中心温度难以下降;化冻后的肉类口感干柴
2026-02-02 14:18:00