• 我的订阅
  • 财经

马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级

类别:财经 发布时间:2024-07-24 14:02:00 来源:金融投资报

当地时间7月22日,马斯克在社交平台X上发文宣布,XAI团队、X团队、英伟达及支持公司于当地时间凌晨4时20分开始在孟菲斯超级集群上进行训练。据他介绍,该集群在单个RDMA fabric上使用10万张液冷H100,号称“世界上最强大的AI训练集群”。马斯克在评论区透露,其目标是“今年12月前训练出世界上最强大的人工智能”。

马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级

制图:卿子秀

1

马斯克的目标具有挑战性

据马斯克介绍,这个集群由10万张液冷H100 GPU组成,而这些芯片是英伟达去年开始提供的。马斯克还表示,该集群在单个RDMA结构(即远程直接数据存取结构)上运行。这种结构可以在计算节点之间提供更高效、更低延迟的数据传输,而不会给中央处理器(CPU)带来负担。

实际上,马斯克今年5月曾透露这一计划,将英伟达H100串联到一台巨型的超级计算机中,并称其为“算力超级工厂”。马斯克旗下特斯拉的汽车工厂也被称之为超级工厂。

值得注意的是,微软正在与OpenAI首席执行官萨姆·阿尔特曼合作开发价值1000亿美元的AI训练超级计算机,代号为Stargate。如果这一项目取得成功,孟菲斯超级集群可能不会长期保持全球最强大的AI训练集群地位。

“马斯克的目标具有一定的挑战性,但并非完全不现实。”科方得智库负责人张新原在接受金融投资报记者采访时表示,如果能够充分利用孟菲斯超级集群的强大计算能力,并采用先进的技术和方法,有可能实现这个目标。这将推动AI研究和应用领域的发展,可能会带来更智能化的应用,如自动驾驶、医疗诊断、机器人等。如果成功,孟菲斯超级集群将成为全球AI行业的一个重要里程碑,可能会引领AI训练和推理的新趋势。

2

国内万卡集群已蔚然成风

金融投资报记者注意到,在国内,字节跳动、阿里巴巴、百度、科大讯飞等也都在积极推动万卡集群的建设。

比如,字节跳动搭建了一个12288张卡的训练集群,研发MegaScale生产系统,用于训练大语言模型;科大讯飞2023年建成了首个支持大模型训练的超万卡集群算力平台“飞星一号”。

7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,大模型训练效率提升20%。

近期,摩尔线程宣布,AI旗舰产品夸娥(KUAE)智算集群解决方案重大升级,从当前的千卡级别扩展至万卡规模,从而具备万P级或者说10E级浮点运算能力,也就是每秒可执行千亿亿次级别的计算。

目光聚焦四川,金融投资报记者注意到,天府智算西南算力中心在训练AI方面卓有成效。

据了解,天府智算西南算力中心为提升算力效率(MFU),与浪潮信息AI团队紧密配合,对算力系统进行专业设计,对集群架构、高速互联、算力调度等全面优化,并结合浪潮信息源大模型的训练优化经验,对分布式训练策略进行针对性优化,通过合理设计张量并行、流水并行和数据并行,精准调整模型结构和训练过程的超参数,最终实现千亿参数规模AI大模型的训练算力效率(MFU)提升至80%,刷新业界AI大模型训练算力效率(MFU)新高。

除了在算力效率(MFU)方面出类拔萃之外,天府智算西南算力中心还在数据中心能效层面进行了大胆创新和突破,以42kW智算风冷算力仓为创新切入点,完美解决数据中心高密部署、高效散热和机房维护改造等一系列挑战。

IDC亚太区半导体研究总监郭俊丽曾公开表示,万卡集群需要考虑三个方面,首先是硬件的高性能、稳定性和扩展性;其次,万卡集群也需要配备高速网络互联设备,确保各计算节点之间的高效通信;第三,需要设计高效的电力供应系统和散热系统,以保证长期稳定运行。

3

券商建议关注国产算力

实际上,马斯克的最新言论对英伟达及特斯拉的股价也有一定拉动作用,截至当地时间7月22日美股收盘,英伟达上涨4.76%,特斯拉上涨5.15%。

近年来,全球算力需求持续快速增长。根据TrendForce集邦咨询数据,2023年人工智能服务器(包含搭载的GPU、FPGA、ASIC等)出货量近120万台,同比增长38.4%,占整体服务器出货量的近9%,预计到2026年将占15%。2022年至2026年人工智能服务器出货量年复合增长率约为22%。

中信证券研报指出,AI产业快速发展,国内云厂商、运营商等持续加大投入,三大运营商合计推出310亿AI服务器集采,而在国内厂商技术进步的背景下,国产算力与网络设备产业链迎来加速发展期。建议重点关注国产交换机及芯片、高速连接器、光模块、AIDC、液冷等产业链机会。

另据华西证券研报,随着国产算力加速推进,智算基础设施建设持续加码,国产算力迎来新的发展机遇。同时运营商资本开支向算力倾斜。华西证券认为,算力网络将是长线投资热点,在全球算力发展过程中,竞争加速和芯片禁运等外部催化下,叠加国内AI大模型与应用的加速普及,国产算力发展成为当前市场的明确方向。在万卡集群加速建设的过程中,政府与运营商持续推动国产化比例提升,包括华为昇腾系列以及以太网适配的国产算力厂商都在持续发力。重点关注国产AI芯片、交换机及交换机芯片、机柜内的高速互联、液冷应用等领域。

编辑|贺梦璐

校检|袁钢

审核|姚彦如

本文为金融投资报jrtzb028(微信号)原创文章,未经授权,禁止转载。如需转载,请联系金妹儿。转载须在正文开头显著位置注明稿件来源及作者名,违者必究。

:028-86968491

互联网新闻信息服务许可证号:51120180008

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-24 15:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

「谍战」开启!基建狂魔马斯克122天交付10万卡超算,对手大恐慌派间谍飞机侦查
【新智元导读】卷到没边了,122天交付10卡超算,马斯克造Colossus的神奇速度,直接把对手们干懵逼了!OpenAI和微软甚至因此谈崩了。现在,超算大战干脆升级为谍战模式,对
2024-11-19 14:01:00
中国智算建设潮背后,谁在推动十万卡集群
...的需求在增多”。今年诺贝尔物理学奖、化学奖都颁给了人工智能相关专家,引发了广泛关注。“大家最兴奋的是,原来AI for Science要由各种不同的模型去做,但现在搞蛋白质的
2024-11-15 10:01:00
国产GPU万卡集群终于来了!摩尔线程CEO张建中:做难而正确的事
...eR0编辑 | 漠影“AI主战场,万卡是最低标配!”在2024世界人工智能大会开幕前夕,摩尔线程创始人兼CEO张建中抛出一句掷地有声的断言。为什么必须是万卡?大模型行业变化很
2024-07-09 09:47:00
促进家居消费政策即将推出,刺激大宗类建材需求提升
...末到来,高阶自动驾驶渗透率有望提升马斯克在2023世界人工智能大会开幕式上表示,特斯拉愿意与汽车制造商分享自动驾驶技术,随着人工智能技术的快速发展,大约在今年年末,就会实现全
2023-07-07 00:06:00
未发先售!华为又上架两款新机;马斯克嘲讽iPhone没新意|科技早报
...复、曾毅在列《时代》杂志评选出2022年度最具影响力的人工智能领域人物,包括领导者、创新者、产业塑造者和思想家等。其中包括OpenAI首席执行官萨姆·奥特曼、xAI创始人埃隆
2023-09-09 11:12:00
OpenAI阻挠投资未果,马斯克氪金10亿美元拿下英伟达芯片,获优先交付权
...再施“钞能力”!12月5日,业内消息人士称,马斯克旗下人工智能初创公司xAI已向英伟达下定了价值10.8亿美元(约合78
2024-12-07 09:52:00
当大模型Scaling Law继续,万卡集群算力释放在百舸找到一条通途
...句经典的台词,「二十一世纪什么最贵?人才!」而随着人工智能行业进入到大模型时代,这一问题的答案已然变成了「算力」。随着模型规模急剧扩张,参数已经飙升到了千亿甚至万亿级,业界开
2024-09-26 13:37:00
Neuralink二号患者已植入,数亿人将实现心灵感应?马斯克惊人计划曝光
...克就在思考这样一个问题:「什么会阻碍人类集体意志与人工智能的结合?」他为这个问题找到了一个答案——人类的低数据速率。如果人工智能以1Mb/s的速率说话,而人类只能以1bit/
2024-08-06 09:28:00
价值290亿!马斯克狂揽10万块H100:自建世界最强AI超算集群
世界最强AI集群,马斯克建成了!这一爆炸消息,由老马在推特上亲自官宣。当地时间凌晨4:20,由xAI、X和英伟达等合力打造的孟菲斯超级集群已开始投入训练。它由10万块H100组成
2024-07-23 18:25:00
更多关于财经的资讯: