我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
12月7日消息,AMD今天凌晨2点举办“AdvancingAI”活动中,正式宣布了旗舰AIGPU加速器MI300X,其性能比英伟达的H100高出60%。
性能:
AMD公司在演讲过程中,对比英伟达的H100加速卡,分享了MI300X的性能参数情况,IT之家附上数值如下:
内存容量是H100的2.4倍
内存带宽是H100的1.6倍
FP8TFLOPS精度是H100的1.3倍
FP16TFLOPS精度是H100的1.3倍
在1v1比较中,训练Llama270B模型速度比H100快20%
在1v1比较中,训练FlashAttention2模型速度比H100快20%
在8v8Server比较中,训练Llama270B模型速度比H100快40%
在8v8Server比较中,训练Bloom176B模型速度比H100快60%
AMD提到,在训练性能方面,MI300X与竞争对手(H100)不相上下,并提供具有竞争力的价格/性能,同时在推理工作负载方面表现更为出色。
MI300XAI加速卡软件堆栈升至ROCm6.0,改善支持生成式AI和大型语言模型。
新的软件堆栈支持最新的计算格式,如FP16、Bf16和FP8(包括Sparsity)。
架构:
AMDInstinctMI300X是最受关注的芯片,因为它针对的是AI领域的NVIDIA的Hopper和英特尔的Gaudi加速器。
该芯片完全基于CDNA3架构设计,混合使用5nm和6nmIP,AMD组合这些IP,让其晶体管数量达到 1530亿个。
设计方面,主中介层采用无源芯片布局,该芯片使用第4代InfinityFabric解决方案容纳互连层。中介层总共包括28个芯片,其中包括8个HBM3封装、16个HBM封装之间的虚拟芯片和4个有源芯片,每个有源芯片都有2个计算芯片。
每个基于CDNA3GPU架构的GCD总共有40个计算单元,相当于2560个内核。总共有八个计算芯片(GCD),因此总共有320个计算和20,480个核心单元。在良率方面,AMD将缩减这些内核的一小部分,我们将看到总共304个计算单元(每个GPU小芯片38个CU),总共有19,456个流处理器。
内存方面,MI300X采用HBM3内存,容量最高192GB,比前代MI250X(128GB)高50%。该内存将提供高达5.3TB/s的带宽和896GB/s的InfinityFabric带宽。
AMD为MI300X配备了8个HBM3堆栈,每个堆栈为12-Hi,同时集成了16GbIC,每个IC为2GB容量或每个堆栈24GB。
相比之下,NVIDIA即将推出的H200AI加速器提供141GB容量,而英特尔的Gaudi3将提供144GB容量。
在功耗方面,AMDInstinctMI300X的额定功率为750W,比InstinctMI250X的500W增加了50%,比NVIDIAH200增加了50W。
其中一种配置是技嘉的G593-ZX1/ZX2系列服务器,提供多达8个MI300XGPU加速器和两个AMDEPYC9004CPU。这些系统将配备多达8个3000W电源,总功率为18000W。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2023-12-08 10:45:23
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: