• 我的订阅
  • 科技

AMD将构建全球最大AI训练集群,集成120万片GPU

类别:科技 发布时间:2024-06-27 14:09:00 来源:芯智讯
AMD将构建全球最大AI训练集群,集成120万片GPU

6月26日消息,据The Next Platform报道,近日AMD执行副总裁兼数据中心解决方案集团总经理Forrest Norrod在接受采访时表示,AMD将助力构建全球最大的单体人工智能(AI)训练集群,将集成高达120万片的GPU。

120万片GPU 是一个非常惊人的数字,要知道目前全球最强的超级计算机Frontier 所配备的 GPU 数量才只有37888片,这也意味着AMD所支持的AI训练集群的GPU规模将达到Frontier的30多倍。不过,Forrest Norrod没有透露哪个组织正在考虑构建这种规模的AI系统,但确实提到“非常清醒的人”正在考虑在AI训练集群上花费数百亿到数千亿美元。

目前的AI训练集群通常由几千个 GPU 构建而成,这些 GPU 通过跨多个服务器机架或更少的高速互连连接。如果要创建一个拥有高达 120 万个 GPU 的单体 AI 集群,意味着将会面临极为复杂的高速互连网络,并且还会有延迟、功耗、硬件故障等诸多的问题,这似乎是难以实现的。

比如,AI工作负载对延迟非常敏感,尤其是尾部延迟和异常值,其中某些数据传输比其他数据传输花费的时间要长得多,并且会中断工作负载。此外,当今的超级计算机也会面临每隔几个小时就会发生的 GPU 或其他硬件故障。当扩展到当今最大的超级计算机集群的 30 倍时。更为关键的是,如此庞大的AI训练集群,将会产生极为庞大的能耗,不仅稳定的供电将会是一个大难题,而且配套的散热解决方案也面临巨大挑战。

编辑:芯智讯-浪客剑

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-06-27 18:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

amd助力构建全球最大单体人工智能训练集群
...表示,AMD将助力构建全球最大的单体人工智能(AI)训练集群,将集成高达120万片的GPU。120万片GPU是一个非常惊人的数字
2024-06-28 02:31:00
AI集群,对抗英伟达的新“杀手锏”?
...思考如何将数量庞大的GPU构建成一个更大规模的超大规模集群。近日,AMD执行副总裁兼数据中心解决方案集团总经理Forrest Norrod在接受采访时表示
2024-06-28 11:38:00
近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。据悉,百度智能云将进一步点亮3万卡集群。这一重大突破标志着百度在人工智能算力领域迈出了坚实的一步
2025-02-05 11:06:00
马斯克宣布训练“世界上最强大的人工智能” !万卡集群背后的算力竞赛迅猛升级
...伟达及支持公司于当地时间凌晨4时20分开始在孟菲斯超级集群上进行训练。据他介绍,该集群在单个RDMA fabric上使用10万张液冷H100
2024-07-24 14:02:00
Nvidia斥资7亿美金收购GPU集群优化初创公司Run:ai
Nvidia今天透露,已经收购了Run:ai,一家开发优化显卡集群性能软件的初创公司。此次收购交易的条款并未披露。TechCrunch援引两位知情人士的话报道称
2024-04-26 13:43:00
亚马逊连甩6款大模型!推出3nm AI训练芯片,最强AI服务器算力爆表
...pic,宣布与AWS共同构建面向机器学习训练的世界最大计算集群,其下一代Claude大模型将在拥有数十万颗Trainium2芯片的集群上进行训练
2024-12-05 09:47:00
优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练
...不移的发展自主可控的国产技术方案,持续壮大国产智算集群规模,才能一路突破围追堵截,进一步促进国产大模型产业生态繁荣。作为中立、安全的云计算服务厂商,优刻得持续发力人工智能智算
2024-06-27 19:01:00
微软推出ZeRO++技术,可显著减少AI大模型训练时间和成本
...吐量和效率。当在每个GPU上使用小批量大小时,在高带宽集群中,ZeRO++相比ZeRO-3的吞吐量提高了28%至36%
2023-06-27 22:15:00
十万块英伟达H100打造,马斯克宣布“全球最大 AI 训练集群”投用
...IT之家 7 月 23 日消息,马斯克现宣布,孟菲斯超级计算机集群(Memphis Supercluster)于当地时间凌晨 4:20 开始进行训练
2024-07-23 13:51:00
更多关于科技的资讯: