我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
6月26日消息,据TheNextPlatform报道,近日AMD执行副总裁兼数据中心解决方案集团总经理ForrestNorrod在接受采访时表示,AMD将助力构建全球最大的单体人工智能(AI)训练集群,将集成高达120万片的GPU。
120万片GPU是一个非常惊人的数字,要知道目前全球最强的超级计算机Frontier所配备的GPU数量才只有37888片,这也意味着AMD所支持的AI训练集群的GPU规模将达到Frontier的30多倍。不过,ForrestNorrod没有透露哪个组织正在考虑构建这种规模的AI系统,但确实提到“非常清醒的人”正在考虑在AI训练集群上花费数百亿到数千亿美元。
目前的AI训练集群通常由几千个GPU构建而成,这些GPU通过跨多个服务器机架或更少的高速互连连接。如果要创建一个拥有高达120万个GPU的单体AI集群,意味着将会面临极为复杂的高速互连网络,并且还会有延迟、功耗、硬件故障等诸多的问题,这似乎是难以实现的。
比如,AI工作负载对延迟非常敏感,尤其是尾部延迟和异常值,其中某些数据传输比其他数据传输花费的时间要长得多,并且会中断工作负载。此外,当今的超级计算机也会面临每隔几个小时就会发生的GPU或其他硬件故障。当扩展到当今最大的超级计算机集群的30倍时。更为关键的是,如此庞大的AI训练集群,将会产生极为庞大的能耗,不仅稳定的供电将会是一个大难题,而且配套的散热解决方案也面临巨大挑战。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2024-06-28 08:45:06
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: