• 我的订阅
  • 科技

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

类别:科技 发布时间:2024-11-01 09:29:00 来源:新智元

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

【新智元导读】一文揭秘全球最大AI超算,解析液冷机架和网络系统的创新设计。这台全球最大AI超算Colossus由xAI和英伟达联手建造,耗资数十亿,10万块H100仅半个多月搭建完成,未来规模还将扩大一倍!

两个月前,马斯克才刚刚自曝了xAI的Colossus超算,称其是世界上最强大的AI训练系统。

最近,马斯克又宣布了一条振奋人心的消息——集群即将扩展到20万张H100/H200显卡!

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

同时,ServeTheHome也发布了一条15分钟的视频,公布了这台超算的详情!

来自ServeTheHome的Patrick Kennedy带着摄影机探访了这台超级计算机

这台全球最大的AI超级计算机Colossus位于美国田纳西州孟菲斯,配备了10万个英伟达Hopper GPU,并由英伟达Spectrum-X以太网提供网络传输支持。

目前,Colossus的第一阶段建设已完成,集群全面上线,但这并不是终点。它将很快迎来升级,GPU容量将翻倍,新增5万块H100 GPU和5万块下一代H200 GPU。

Colossus正在用于训练xAI的Grok,并为X Premium订阅用户提供聊天机器人功能。

在训练超大规模的Grok时,Colossus展现了前所未有的网络性能。在网络结构的所有层级中,系统在流量冲突的情况下没有经历任何应用延迟降级或数据包丢失。

通过Spectrum-X拥塞控制,它保持了95%的数据吞吐量。这种性能水平无法通过标准以太网实现,标准以太网在传输中会产生数千次流量冲突,数据吞吐量仅能达到60%。

由于保密协议的限制,这台超级计算机的一些细节并没有透露。不过,像Supermicro GPU服务器等关键部件的介绍在视频中都有所涉及。

液冷机架

Colossus集群的基本构建单元是Supermicro液冷机架。

每个机架包含八台4U服务器,每台服务器配备八个英伟达H100,共计64个GPU。

八台此类GPU服务器再加上一个Supermicro冷却分配单元(CDU)及相关硬件,构成了一个GPU计算机架。

这些机架以八台为一组排列,共512个GPU,并通过网络连接,形成更大系统中的小型集群。

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

xAI使用的是Supermicro 4U通用GPU系统。

这是目前市面上最先进的AI服务器,有2个原因:其一是它的液冷程度;其二是设备的可维护性。

该系统被放置在托盘上,无需将系统从机架中移出即可维护。1U机架分流器可为每个系统引入冷却液并排出温热液体。快速断开装置让液冷系统可以迅速移除,甚至可以人工单手拆装;移除后,托盘即可拉出以便维护。

下图是一张该服务器原型的照片,展示了这些系统的内部构造。

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

SC23展示的Supermicro 4U通用GPU系统:支持液冷英伟达HGX H100和HGX 200

上图SC23原型中的两个x86 CPU液冷模块相对常见。

特别之处在于右侧:Supermicro的主板集成了几乎所有HGX AI服务器中使用的四个Broadcom PCIe交换机,而非将其单独安装在另一块板上。Supermicro为这四个PCIe交换机设计了定制液冷模块。

其他AI服务器通常是在风冷设计的基础上加装液冷,而Supermicro的设计则完全从零开始,为液冷而打造,且所有组件均来自同一供应商。

打个通俗的比方,这类似于汽车——有些车型先设计为燃油车,之后再安装电动动力系统,而有些车型从一开始就是为电动车设计的。这款Supermicro系统就属于后者,而其他HGX H100系统则属于前者。

Patrick怒赞道:测评了各种各样的液冷系统设计,这款Supermicro系统遥遥领先于其他系统!

网络系统

这里的每条光纤连接速率为400GbE,是常见1GbE网络速率的400倍。此外,每个系统拥有9条这样的连接,意味着每台GPU计算服务器的带宽达到约3.6Tbps。

打个比方,如果1GbE的普通家庭网络好比是一条单车道公路,那这个400GbE就像是一条拥有400车道的高速公路。而每个系统有9条这样的「高速公路」,相当于每台GPU计算服务器拥有9条这样的超宽带公路,总带宽达到3.6Tbps。

这个带宽甚至超过了2021年初顶级Intel Xeon服务器处理器在所有PCIe通道上所能处理的连接总量。

GPU的RDMA网络构成了该带宽的大部分。每个GPU都有自己的NIC。

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

在这里,xAI使用英伟达BlueField-3 SuperNIC和Spectrum-X网络。英伟达的网络堆栈中加入了一些独特技术,可以帮助数据绕过集群中的瓶颈,确保数据准确地传输到指定位置。

这是一个重大突破!许多超级计算机网络使用的是InfiniBand或其他技术,而这里采用的是以太网。

以太网是互联网的骨干,因此它具有极强的扩展性。这些庞大的AI集群已扩展到一些更小众技术未能触及的规模。对于xAI团队而言,这确实是一个大胆的举措。

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍

除了GPU的RDMA网络外,CPU也配备了400GbE连接,但使用完全不同的交换结构。xAI为其GPU和集群的其余部分分别配置了独立的网络,这在高性能计算集群中是非常常见的设计。

除了高速集群网络外,还有低速网络用于管理接口和环境设备,这些都是此类集群的重要组成部分。

参考资料:

https://www.servethehome.com/inside-100000-nvidia-gpu-xai-colossus-cluster-supermicro-helped-build-for-elon-musk/3/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-01 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级
当地时间7月22日,马斯克在社交平台X上发文宣布,XAI团队、X团队、英伟达及支持公司于当地时间凌晨4时20分开始在孟菲斯超级集群上进行训练
2024-07-24 14:02:00
AI春晚:黄仁勋称需要更强大的GPU,马斯克吹捧英伟达最适合AI
...段时间的研发,机器人的“ChatGPT时刻”或许近在咫尺。 马斯克吹捧:英伟达最适合AI这场座无虚席的演讲让黄仁勋被网友笑称为“AI界的泰勒·斯威夫特”,也再次打响英伟达作
2024-03-19 21:04:00
美国芯片巨头市值一夜暴涨1.34万亿!一颗芯片炒到近30万元 马斯克此前狂买1万个
...模型,将需要更强大的芯片。 03.AI落地离不开算力支撑马斯克:获得GPU比获得毒品还难据澎湃新闻此前援引Business Insider4月11日报道
2023-05-25 17:13:00
十万块英伟达H100打造,马斯克宣布“全球最大 AI 训练集群”投用
IT之家 7 月 23 日消息,马斯克现宣布,孟菲斯超级计算机集群(Memphis Supercluster)于当地时间凌晨 4:20 开始进行训练
2024-07-23 13:51:00
马斯克梦想AI超算霸权,旗下公司却\
3月22日消息,尽管埃隆·马斯克(Elon Musk)致力于打造能与英伟达抗衡的超级计算机,但他旗下公司与英伟达的关系却日益紧密
2024-03-22 16:44:00
马斯克:只要满足电力需求,比人类更聪明的AGI将在两年内实现
特斯拉CEO埃隆·马斯克。视觉中国 资料图马斯克预测,只要电力和硬件供应能够满足日益上涨的需求,人工智能(AI)可能会在两年内超越人类智能。当地时间4月8日,特斯拉CEO埃隆·马
2024-04-09 15:34:00
「谍战」开启!基建狂魔马斯克122天交付10万卡超算,对手大恐慌派间谍飞机侦查
【新智元导读】卷到没边了,122天交付10卡超算,马斯克造Colossus的神奇速度,直接把对手们干懵逼了!OpenAI和微软甚至因此谈崩了。现在,超算大战干脆升级为谍战模式,对
2024-11-19 14:01:00
马斯克xAI超算将扩张十倍!100万个GPU值得英伟达开个分公司
马斯克的人工智能初创公司xAI正在以惊人的速度发展,其承诺将其在孟菲斯建设的超级计算机Colossus扩大十倍,以容纳超过100万个GPU。大孟菲斯商会周三发表声明称,xAI的扩
2024-12-05 17:39:00
买不到GPU,马斯克自曝AI巨兽Dojo!自研超算挑战英伟达,约等于8千块H100
【新智元导读】多年来,马斯克一直在公开谈论Dojo——这台超算将成为特斯拉人工智能雄心的基石。他最近表示,随着特斯拉准备在10月推出Robotaxi
2024-08-05 09:33:00
更多关于科技的资讯:
2月27日下午,2026年江苏省城市足球联赛(苏超)小微企业商务遴选合作抽签结果正式公布。在众多中签企业中,苏州市谷系列产业园开发有限公司脱颖而出
2026-03-05 03:13:00
“我这几件春装要上新,帮我做个视频,模特风格清新一点,背景偏户外。”2月27日,在江苏省沭阳县沭智工坊OPC社区,溪泊信息科技(江苏)有限公司总经理周倜对着电脑说出需求
2026-03-05 03:13:00
2026年GEO优化力量崛起,犀牛GEO优化如何成为众多服务商中的黑马?
进入2026年,互联网流量逻辑发生了根本性逆转。传统SEO(搜索引擎优化)的时代已经落幕,取而代之的是GEO(生成式引擎优化)
2026-03-04 22:55:00
能写提纲 能生成稿件 大皖新闻两会报道组有了智能体助手
大皖新闻讯 3月3日,大皖新闻2026年全国两会报道组抵达北京,正式开启全国两会报道工作。继2026年安徽省两会期间
2026-03-04 21:35:00
纽约街头灯火阑珊,义乌市芮行进出口有限公司总经理李慧丹结束了一整天密集的客户拜访与市场调研后,依旧埋头在电脑前,复盘需求反馈
2026-03-04 21:47:00
鱼跃旗下普美康半自动体外除颤器(AED)系列新品在京东健康全网首发
3月4日,鱼跃医疗旗下普美康全新一代Heartsave H8半自动体外除颤器(AED)多款型号在京东健康平台全网首发。该系列AED设备以“小巧便携
2026-03-04 14:36:00
当数字金融成为金融业转型的必答题,金融租赁公司的数智化升级,早已不是选择题,而是生存题。在国产化浪潮席卷而来的当下,浦银金租与电科金仓的携手
2026-03-04 14:37:00
鲁网3月4日讯深入剖析国内先行地区的成功案例可见,人才发展集团成长轨迹呈现清晰的演进逻辑:早期依托政府“哺育”奠定发展基础
2026-03-04 14:39:00
那拉集团二十周年庆典 一场关于特色乳业未来的深度对话即将拉开帷幕
当三月的春风拂过古都西安,一场关于特色乳业未来的深度对话即将拉开帷幕。2026年3月20日,那拉集团二十周年庆典不仅是一场企业的生日宴会
2026-03-04 14:41:00
成人纸尿裤推荐品牌:专业护理视角下的市场优选指南
随着人口老龄化程度加深,成人失禁护理已成为家庭护理的重要议题。选择一款合适的成人纸尿裤,不仅关乎使用者的生理舒适,更直接影响其生活质量与尊严维护
2026-03-04 15:12:00
家庭影院电视推荐,有娃家庭的安心之选:海信激光电视星光S1纯享版
作为一名孩子妈,同时也是家里的“家电决策人”,我曾为客厅该买哪种百寸大屏电视纠结了整整三个月。因为我既想要画质好、声音震撼
2026-03-04 15:16:00
鲁网3月4日讯为积极响应总省行科技赋能创新服务、提升公共事业缴费服务能力的号召,近期,工行枣庄分行成功投产基于全新GTCG引擎的枣庄鸿阳热力缴费项目
2026-03-04 16:24:00
南方电网册亨供电局:无人机巡检 保障复工复产用电安全
随着各行各业复工复产,用电需求持续攀升。近日,南方电网册亨供电局运用无人机对辖区内配电线路、杆塔设备及通道环境开展排查
2026-03-04 16:47:00
潍坊如何下好“人工智能”这盘棋?
鲁网3月4日讯(记者 王玉龙)日前举行的全市工作动员大会上,“六个坚定不移”勾勒出潍坊2026全年乃至以后数年的发展路线图
2026-03-04 16:58:00