• 我的订阅
  • 科技

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

类别:科技 发布时间:2024-09-07 09:44:00 来源:机器之心Pro

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

硬件发展速度跟不上 AI 需求,就需要精妙的架构和算法。

根据摩尔定律,计算机的速度平均每两年就会翻一倍,但深度学习的发展速度还要更快,如图 1 和 2 所示。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

可以看到,AI 对算力的需求每年都以 10 倍幅度增长,而硬件速度每两年增长 3 倍、DRAM 带宽增长 1.6 倍、互连带宽则仅有 1.4 倍。

而大模型是大数据 + 大计算的产物,其参数量可达千亿乃至万亿规模,需要成千上万台 GPU 才能有效完成训练。

这些实际情况提升了人们对高性能计算(HPC)的需求。

为了获得更多计算资源,人们不得不扩展更多计算节点。这就导致构建 AI 基础设施的成本不断激增。降低这些成本具有很大的好处,构建成本和能耗高效型计算机集群也就自然成了一个热门的研究方向。

近日,DeepSeek(深度求索)发布了一份基于硬件发展的实际情况及其多年实践经验的研究成果,其中提出了一些用于构建用于深度学习和 LLM 的 AI-HPC 系统的成本高效型策略。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

论文标题:Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning 论文地址:https://arxiv.org/pdf/2408.14158

具体来说,该团队基于 Fire-Flyer AI-HPC 架构部署了一个包含 1 万台 PCIe A100 GPU 的计算集群。下表比较了该集群与英伟达的 DGX-A100 的硬件参数。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

Fire-Flyer 2:支持深度学习和早期 LLM 训练

如图 3 所示,LLM 的内存需求量通常比较大。相较之下,其它模型的需求就小多了。ResNet、Mask-RCNN、BERT、MAE 等常用模型的参数量均少于 1B,这说明其内存需求较低。因此,在设计用于深度学习模型训练的集群时,使用 PCIe A100 GPU 可能就已经足够了。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

Fire-Flyer 2:PCIe A100 GPU 架构

基于该团队的训练工作负载,使用单个 200Gbps 的 NVIDIA Mellanox ConnectX-6 (CX6) InfiniBand (IB) 网卡就能满足 8 台英伟达 PCIe A100 GPU 的存储 IO 和计算通信的带宽需求。他们使用了如图 4 所示的计算节点架构:

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

之后,随着 LLM 时代的到来,该团队也在 PCIe 卡之间添加了 NVLink Bridge。

网络拓扑:整合了存储和计算的两层 Fat-Tree

他们选择的拓扑结构是 Fat-Tree,原因是它具有极高的对分带宽。网络连接解决方案则是 InfiniBand。具体来说,他们使用了 Mellanox QM8700 InfiniBand 交换机,其提供了 40 个速度 200 Gbps 的端口。整体而言,该集群由 1 万台 A100 GPU 构成,包括约 1250 个 GPU 计算节点和近 200 个存储服务器,尽管双层 Fat-Tree 最多可以容纳 800 个节点(配置 20 个脊交换机和 40 个叶交换机)。

为了降低成本,他们选择了两区网络配置而不是三层 Fat-Tree 解决方案,如图 5 所示。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

每个计算区都包含一个 800 端口的 Fat-Tree,并连接到了大约 600 个 GPU 计算节点。每台存储服务器配备两个 IB 网卡,分别连接到不同的区,因此所有 GPU 计算节点可以共享一组存储服务。

此外,这两个区会通过有限数量的链路互连。他们的 HAI Platform 调度策略确保跨区计算任务最多限制为一个。无论是使用 NCCL 还是 DeepSeek 内部开发的通信库 HFReduce,都可以通过使用双二叉树算法跨区运行。其调度器可确保在此拓扑中,只有一对节点跨区通信因此,即使有任务需要用到所有节点,也能在 Fire-Flyer 2 AI-HPC 上高效运行。

该架构的成本性能

在 TF32 和 FP16 GEMM 基准上,相比于英伟达 DGX-A100 架构,DeepSeek 设计的这套架构的计算性能为前者的 83%。但是,其成本和能耗的下降幅度要大得多,仅为前者的 60%,如表 2 所示。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

DGX-A100 集群使用了三层 Fat-Tree,其中包含 320 台核心交换机、500 台脊交换机和 500 台叶交换机,总共 1320 台交换机(如表 3 所示),而 DeepSeek 的这个架构只需要 122 台交换机。这样的设计具有更高的成本效益。

此外,通过使用 800 个端口的 Frame 交换机,还能进一步降低光模块和线缆的成本。虽然由于 PCIe 卡规格和 SXM 之间的固有差异而存在性能差距,但 DeepSeek 的这一架构通常能以仅 60% 的成本实现 80% 的 DGX-A100 性能!此外,他们还将能耗降低了 40%,也由此降低了二氧化碳排放。从这些指标看,这一架构设计无疑是成功的。

HFReduce:软硬件协同设计

有了高效的硬件,也自然需要适配的软件。该团队开发了一个用于高效 allreduce 运算的软件库:HFReduce。HFReduce 的核心策略见图 6,其包括节点内(算法 1)和节点间(算法 2)的 reduce。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

HFReduce 相较于 NCCL 的优势有两项:

1. 降低 PCIe 的带宽消耗

2. 没有 GPU 核开销

如图 7a 所示,在 Fire-Flyer 2 AI-HPC 上执行数据大小为 186 MiB 的 allreduce 时,HFReduce 可以达到 6.3-8.1GB/s 的节点间带宽,而 NCCL 的节点间带宽仅为 1.6-4.8GB/s。

另外,还能使用 NVLink 提升 HFReduce 的性能。

通过安装 NVLink Bridge,可通过速度 600 GB/s 的 NVLink 实现成对 GPU 间的高效通信。为了缓解原 HFReduce 的内存限制问题,他们还实现了另一种 allreduce 模式,称为 HFReduce with NVLink。其核心概念是先在通过 NVLink 互连的 GPU 之间执行 reduce 操作,再将梯度传递给 CPU。随后,当 CPU 返回结果时,它会拆分结果数据并将它们分别返回给通过 NVLink 连接的配对的 GPU,然后通过 NVLink 执行 allgather。如图 7b 所示,HFReduce with NVLink 实 现了超过 10 GB/s 的节点间带宽。

有关 HFReduce 的策略和瓶颈的更多深度分析请参阅原论文。

HaiScale:针对深度学习模型训练进行特别的优化

HaiScale 分布式数据并行(DDP)是一种以 HFReduce 为通信后端的训练工具。这类似于 Python 的以 NCCL 为后端的 DDP。在反向传播阶段,HaiScale DDP 会对计算出的梯度执行异步 allreduce 操作,允许此通信与反向传播中涉及的计算重叠。

如图 8a 所示,相较于使用 Torch DDP 的 NCCL 后端,使用 HFReduce 训练 VGG16 模型所需的时间仅为前者的一半,当 GPU 数量从 32 增至 512 时可实现近 88% 的并行可扩展性。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

为了训练大型语言模型(LLM),HaiScale 框架采用了多种并行策略,类似于 Megagron 和 DeepSpeed。他们针对 PCIe 架构在数据并行(DP)、管道并行(PP)、张量并行(TP)、专家并行(EP)等方面进行了特定的工程优化。

1. 使用 NVLink Bridge 实现 PCIe GPU 之间的张量并行

2. 在 PCIe 架构中优化管道并行

3. 完全分片式数据并行(FSDP)

图 8 和 9 展示了这些优化策略的一些实验结果。可以看到,随着 GPU 数量增长,这些策略能带来非常好的可扩展性。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

此外,该团队还在论文中分享了更高级的成本效率和联合设计优化方法,其中包括一些降低计算 - 存储整合网络中信息拥堵的方法、高吞吐量分布式文件系统 3FS 以及一个时间共享式调度平台 HAI Platform。

最后,他们验证了这整套设计的稳定性和稳健性。下图总结了他们在 2023-2024 年遇到的内存和网络故障趋势。

用60%成本干80%的事,DeepSeek分享沉淀多年的高性能深度学习架构

总体而言,Fire-Flyer 2 AI-HPC 在成本性能上表现优秀 —— 能以 60% 的能源消耗达到英伟达 DGX-A100 计算性能的 80%。当进行大规模训练时,其能带来的整体成本效益将非常可观。如果你也打算构建自己的大规模训练集群,不妨考虑一下这套架构。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-07 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

中昊芯英与深圳联通携手共建广东首个国产TPU 智算中心
...筒称“深圳联通”)联合举办了“智算基建,加速未来”高性能AI智算中心项目启动仪式,标志着双方将携手合作共同建设广东地区首个采用国产TPU 技术的智算中心。据深圳联通副总经理赵
2024-09-13 11:54:00
亚马逊杀入AI芯片大战,Alexa的野心是当家庭大脑
...级别,对功耗没有严苛要求;支持阵列式结构以进一步提高性能。移动端AI芯片对设计的要求截然不同。一个根本的要求是控制功耗,这就需要使用一些办法(如网络压缩)来提升计算能效,同时
2023-01-14 03:00:00
技术规模化、复杂化?看作业帮如何利用OpenCloudOS解决技术难题!
...的核心需求:经过海量业务验证的企业级的安全、稳定、高性能的操作系统。国产操作系统开源社区 OpenCloudOS 为作业帮提供了有效的解决方案
2023-06-30 11:01:00
微云全息(NASDAQ: HOLO)引领图像压缩传感技术革新: HML-Net网络开创高效图像重建新纪元
...率和存储需求上具有显著优势。HML-Net的核心特点包括:高性能与可比性:HML-Net在重建质量、运行速度和存储成本方面
2025-07-15 15:43:00
阿里云发布“金融级云原生” 持续推动金融机构IT架构升级
...态+容灾态,同时在每个范畴中都结合金融级的高可用、高性能、业务连续性等特征。基于此,金融级云原生架构既有高性能、低成本、安全可靠的优势,还能满足金融对IT环境严苛地挑战和要求
2023-05-10 03:00:00
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
...I公司的Grok等大模型都使用了 MoE。值得一提的是,元象「高性能全家桶」系列全部开源,无条件免费商用,让海量中小企业
2024-09-18 13:36:00
浪潮发布分布式多模数据库KaiwuDB,助力企业构建数据管理坚实基座
...新挑战。物联网时代下的数据库,需要具备以安全稳定、高性能、低成本的方式对海量复杂数据进行管理分析的能力,赋能企业实现管理精细化、决策科学化和成本更优化,充分实现企业数据基座的
2023-08-07 20:58:00
自研芯片三国杀,头部智驾新战场,蔚小理谁强?
...3D堆叠架构和硅通孔技术的动态随机存储技术,主要用于高性能计算和AI领域,目前已发展到HBM3。采用这个技术的 英伟达H100 NVL显卡
2024-10-11 09:53:00
拥有三块A6000的性能猛兽 惠普Z6 G5工作站评测
...可以同时接入多种常用外设。 总结:惠普Z6 G5通过集成高性能独立显卡与大容量内存,可以轻松处理8K及以上超高分辨率的视频内容创作。用户可以同时打开多个渲染窗口,实现实时预
2023-11-07 13:51:00
更多关于科技的资讯:
中国网3月10日讯 据“国家互联网应急中心CNCERT”微信公众号消息,近期,OpenClaw(“小龙虾”,曾用名Clawdbot
2026-03-10 20:05:00
春风送千岗,AI助求职:2026年综合专场招聘会暨春风行动就业援助活动圆满结束
3月7日上午,“AI聘·才汇来”相城区2026年综合类专场招聘会暨春风行动就业援助活动在相城区人力资源市场成功举办。作为“春风行动”系列活动之一
2026-03-10 17:45:00
国科光锐研发生产基地项目落户黄桥
江南时报讯 3月4日,国科光锐研发生产基地项目签约仪式顺利举行,抢抓高端装备制造产业发展机遇,完善先进制造业发展支撑体系
2026-03-10 17:48:00
“养龙虾”,多地砸钱支持
中新经纬3月10日电 “养龙虾”,这是近日的AI热词,即部署和使用名为OpenClaw‌的开源AI智能体框架,因其图标为一只红色龙虾
2026-03-10 19:10:00
鲁网3月10日讯(记者 张佳伟)3月9日,由中国生物发酵产业协会主办、安琪酵母股份有限公司承办的“2026第十一届发酵培养基应用与发展技术论坛”在济南黄河国际会展中心举行
2026-03-10 17:24:00
两会,就这Young!丨万亿存量市场怎么激活?全国人大代表郭兴田用“两天”作答
编者按:今年全国两会,大河网两位00后记者首次踏上两会征程,以“萌新”视角记录两会,为网友带来全新体验:不背稿、不装样
2026-03-10 14:21:00
让家陪伴成长——金隅天坛家居Mall 3月7日启幕,定义“家生活”新方式
在快速更迭的时代,人们对家的期待已超越功能满足,转而追求情感承载与成长陪伴。正是基于这一洞察,金隅天坛家居Mall提出“我家的长期主义”核心主张——让家能够伴随家庭成长
2026-03-10 14:26:00
在教育选择中,高途网课是否靠谱、教育机构是否可靠、办学是否正规,是学习者和家长最为关注的核心问题。高途 2025 财年第四季度及全年财报
2026-03-10 14:27:00
文化认同融入创新表达,“欢笑中国年”如何抓住大众情绪的小切口?
2026 年春节,红包大战再度迎来内卷与爆发,随着AI平台扎堆涌入,用户在春节期间的注意力被分散、现金激励的边际效应减弱
2026-03-10 16:50:00
灵寿县:灵活就业AI分析让求职成功率提升25%
“把这次春风行动搜集到的信息尽快录入系统,用AI分析一下,精准做好匹配。”3月8日,灵寿县零工市场有关负责人张杉认真梳理了上一场“春风行动”收集到的用工求职信息
2026-03-10 11:30:00
杭州的人形机器人太超前 德国留学生专程为它来学习
近日,浙江科技大学机器人现代产业学院实验室里,来自德国德累斯顿技术经济大学的硕士研究生马克西米利安·穆勒正在开展关于宇树人形机器人的毕业论文研究
2026-03-10 11:36:00
大皖新闻讯 连日来,“养龙虾”成为一大热词。这里的龙虾不是水产,而是一款名为OpenClaw的开源AI智能体,因其图标是亮眼的红色龙虾
2026-03-10 13:41:00
新发路观察·两会特别报道|瞪羚样板背后的吉林创新力
今年全国两会上,瞪羚企业创新力再成热门话题。从数字经济到先进制造,从新材料到生物医药,一批又一批瞪羚企业脱颖而出……以创新破局
2026-03-10 13:46:00
当“移动蓝”邂逅“咖啡香”:中国移动江苏公司携手宜兴高职校,打造创业实践新样本
近日,位于宜兴人民南路139号的中国移动服务厅内,飘出了浓郁的咖啡香。备受关注的“电大咖啡”在这里正式开门迎客。这家由宜兴高等职业技术学校学生自主运营
2026-03-10 11:40:00
拥抱OpenClaw生态,途牛MCP开放平台正式上线
江南时报讯 3月9日,途牛对外发布正式上线MCP(Model Context Protocol)开放平台,面向AI Agent与个人助理(如OpenClaw)提供一站式旅游服务能力接口
2026-03-10 11:08:00