• 我的订阅
  • 科技

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

类别:科技 发布时间:2024-10-30 14:02:00 来源:浅语科技

10月29日消息,YouTube视频博主 ServeTheHome 首次曝光了埃隆·马斯克 (Elon Musk)旗下人工智能企业xAI的Colossus AI 超级计算机集群,其集成了100000个英伟达(NVIDIA)H100 GPU,号称是目前全球最强大的AI超级计算机集群。

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

早在今年7月下旬,马斯克就在“X”平台上宣布,自己已经启动了“世界上最强大的 AI 集群”。这座AI集群从开始建设到完成组装仅花了122天就完成了,目前已经上线运行了约3个月。

根据ServeTheHome曝光的信息来看,庞大的Colossus AI超级计算机集群采用的是超威电脑(Supermicro)的服务器,其基于NVIDIA HGX H100方案,每个服务器中拥有8个H100 GPU,封装在 Supermicro 的 4U 通用 GPU 液冷系统内,为每个 GPU 提供简单的热插拔液冷。

这些服务器装载在机架内,每个机架可容纳 8 台服务器,也就是说每个机架内有 64 个 GPU。1U 歧管夹在每个 HGX H100 之间,提供服务器所需的液体冷却。每个机架的底部是另一个 Supermicro 4U 单元,这次配备了冗余泵系统和机架监控系统。

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

△四组 xAI 的 HGX H100 服务器机架,每组可容纳八台服务器。(图片来源:ServeTheHome)

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

△xAI Colossus GPU 服务器的后部访问。每台服务器有 9 根以太网电缆,每台服务器有 4 个电源。电源和液体冷却软管也可见。(图片来源:ServeTheHome)

这些机架以 8 个为一组配对,每个阵列有 512 个 GPU。每台服务器都有四个冗余电源,GPU 机架的后部露出三相电源、以太网交换机和一个提供所有液体冷却的机架大小的歧管。

Colossus 集群中有超过 1500 个 GPU 机架,或近 200 个机架阵列。据英伟达首席执行官黄仁勋称,这 200 个阵列的 GPU 仅用了三周时间就完成了安装。

由于 AI 超级集群不断训练模型的高带宽要求,xAI 在其网络互连性方面提供了超大的带宽。

目前每个显卡都有一个 400GbE 的专用 NIC(网络接口控制器),每台服务器还有一个额外的 400Gb NIC。这意味着每台 HGX H100 服务器都有每秒 3.6 TB 的以太网速率。整个集群都在以太网上运行,而不是 InfiniBand 或其他在超级计算领域标配的连接。

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

△仰望一大片的黄色以太网电缆,将 xAI Colossus 集群连接在一起。多层过宽的电缆线路嵌入天花板中。(图片来源:ServeTheHome)

马斯克Colossus AI超算集群内部首曝:足足10万英伟达H100 GPU

△xAI 的 Colossus CPU 计算服务器,看起来与该站点中也广泛使用的 Supermicro 存储服务器完全相同。(图片来源:ServeTheHome)

当然,像 xAI 旗下Grok 3 聊天机器人这样基于训练 AI 模型的超级计算机需要的不仅仅是 GPU 才能运行。

Colossus集群当中的存储和 CPU 计算机服务器的详细信息仍未曝光,不过这些服务器也大多采用 Supermicro 机箱。一波又一波的 NVMe 转发 1U 服务器内部带有某种 x86 平台 CPU,可容纳存储和 CPU 计算,还具有后入式液体冷却功能。

另外,在该超级计算机集群的外面,还可以看到一些大量捆绑的特斯拉 Megapack 电池(每个最多可容纳 3.9 MWh)。

该电池阵列的是为了应对突发停电的临时备用电源,其可以在毫秒之间快速提供供电,相比柴油发电机反应要快得多,可以使得有足够时间去启动其他备用电源。

责任编辑:落木

文章内容举报

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-30 17:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

全球最大AI超算内部首次曝光!马斯克19天神速组装10万块H100,未来规模还将扩大一倍
...半个多月搭建完成,未来规模还将扩大一倍!两个月前,马斯克才刚刚自曝了xAI的Colossus超算,称其是世界上最强大的AI训练系统
2024-11-01 09:29:00
戴尔、超微为xAI超级计算机提供服务器机架
马斯克周三在社交媒体平台X上表示,戴尔科技和超微电脑(SMCI)将为他的人工智能初创公司xAI所建造的超级计算机提供所需的服务器机架
2024-06-20 09:10:00
「谍战」开启!基建狂魔马斯克122天交付10万卡超算,对手大恐慌派间谍飞机侦查
【新智元导读】卷到没边了,122天交付10卡超算,马斯克造Colossus的神奇速度,直接把对手们干懵逼了!OpenAI和微软甚至因此谈崩了。现在,超算大战干脆升级为谍战模式,对
2024-11-19 14:01:00
马斯克旗下xAI将建立大型数据设施 戴尔科技获得大量订单
戴尔科技(DELL.US)已在马斯克位于孟菲斯的超级计算机项目中部署了数万个GPU来支持人工智能工作。首席运营官Jeff Clarke周四在接受采访时表示
2024-12-06 14:17:00
AI争霸战开启!OpenAI急建10万块GB200超算,马斯克10万块H100月末开训
新智元报道编辑:桃子【新智元导读】马斯克官宣xAI建造的世界最大超算集群,由10万块H100搭建,预计本月末开始投入训练
2024-07-16 16:00:00
马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级
当地时间7月22日,马斯克在社交平台X上发文宣布,XAI团队、X团队、英伟达及支持公司于当地时间凌晨4时20分开始在孟菲斯超级集群上进行训练
2024-07-24 14:02:00
价值290亿!马斯克狂揽10万块H100:自建世界最强AI超算集群
世界最强AI集群,马斯克建成了!这一爆炸消息,由老马在推特上亲自官宣。当地时间凌晨4:20,由xAI、X和英伟达等合力打造的孟菲斯超级集群已开始投入训练。它由10万块H100组成
2024-07-23 18:25:00
深夜,纳指暴涨,AI巨头崩了
...跌超微电脑因为提供人工智能服务器,客户包括英伟达和马斯克旗下Xai,公司股价成为本轮科技牛市的最大受益者。2023年公司全年涨幅246%,2024年上半年股价一度上涨3倍。但
2024-08-08 06:48:00
美股开盘涨跌不一,道指跌0.08%,戴尔科技涨近5%
美股开盘涨跌不一,道指跌0.08%,纳指涨0.29%,标普500指数涨0.22%。戴尔科技涨逾5%、超微电脑涨近5%,将为马斯克的AI初创公司xAI提供服务器机架。英伟达涨逾3%
2024-06-20 23:25:00
更多关于科技的资讯: