• 我的订阅
  • 科技

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

类别:科技 发布时间:2024-08-30 09:52:00 来源:芯智讯

8月28日消息,由传奇芯片架构师Jim Keller领导的AI芯片新创公司Tenstorrent在近日的Hot Chips 2024活动上详细介绍了其新一代基于RISC-V架构的BlackHole系列AI处理器,性能高达745 TOPS,尽管芯片集成的内存容量和带宽低于英伟达A100,但是整体的AI性能和可扩展性更优。

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

据介绍,这款Blackhole AI芯片共拥有768个RISC-V内核,包括16个Big RISC-V内核、752个Baby RISC-V内核,其中大量的Baby RISC-V内核被分别集成在140 个 Tensix 人工智能计算核心当中,241MB的片上SRAM内存和一系列高速连接,可以提供745TFLOPS 的 FP8 性能(FP16 时为 372 TFLOPS)。Blackhole还支持32GB 的 GDDR6 内存和基于以太网的互连,能够在其 10 个 400Gbps 链路上实现 1TBps 的总带宽。

Big RISC-V和Baby RISC-V

具体来说,与之前推出的基于PCIe的Greyskull 和 Wormhole加速芯片不同,Blackhole是一款独立的AI计算机系统。

根据Tenstorrent ML 框架和编程模型高级研究员 Jasmina Vasiljevic 的说法,这主要归功于其内部集成的16 个具有64 位、双发射、顺序执行的Big RISC-V CPU内核,这些内核排列在四个集群中。至关重要的是,这些Big RISC-V CPU内核足够强大,可以用作运行 Linux 的设备端主机。并且,还有与之配对的752 个“Baby RISC-V”内核,这些内核负责内存管理、片外通信和数据处理。

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

△Blackhole 加速器包含 16 个 Big RISC-V 和 752 个 Baby RISC-V 内核。

然而,Blackhole实际的AI计算则主要由 Tenstorrent自研的140 个 Tensix AI内核处理,每个内核由五个“Baby RISC-V”内核、一对路由器、一个计算综合体和一些 L1 缓存组成。

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

这个计算综合体则是由一个旨在加速矩阵工作负载的平铺数学引擎和一个矢量数学引擎组成。前者将支持 Int8、TF32、BF/FP16、FP8 以及 2bit 到 8bit 的浮点数据类型,而矢量引擎则主要面向 FP32、INT16 和 INT32数据类型。

根据Tenstorrent 的 AI 软件和架构高级研究员 Davor Capalija 的说法,这种配置意味着该芯片可以支持 AI 和 HPC 应用中的各种常见数据模式,包括矩阵乘法、卷积和分片数据布局。

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

△Blackhole 的 Baby RISC-V核心可以进行编程以支持各种数据移动模式

总的来说,Blackhole 的 Tensix 内核占了总共752 个Baby RISC-V 内核中的 700 个。如上图,其余的Baby RISC-V 内核则负责内存管理(“D”代表 DRAM)、片外通信(“E”代表以太网)、系统管理(“A”)和 PCIe(“P”)。

Blackhole Galaxy系统

然而,就像英伟达的AI加速芯片通常被组成集群来使用一样,Tenstorrent 的 Blackhole 也被设计为作为支持横向扩展系统的一部分进行部署。Tenstorrent计划将 32 个 Blackhole 加速器塞进一个 4x8 网格网络中,并将其称为 Blackhole Galaxy系统。

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

△Tenstorrent 的 Blackhole Galaxy 系统将 32 个 Blackhole 加速器组成了一个集群,可以实现近 24 petaFLOPS 的 FP8 性能。

总的来说,单个 Blackhole Galaxy 承诺可以带来FP8 的 23.8 petaFLOPS 或 FP16 的 11.9 petaFLOPS算力,以及 1TB 的内存,能够实现 16 TBps 的原始带宽。

更重要的是,Tenstorrent 表示,该芯片的内核密集架构意味着这些系统中的每一个都可以用作计算或内存节点或11.2TBps 高带宽的AI 交换机。

“你可以把它当作乐高积木来制作一个完整的训练集群,”Davor Capalija 说。

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

Tenstorrent 认为,整个训练集群可以只使用 Blackhole Galaxy 系统作为“乐高积木”来构建。

相比之下,英伟达最密集的 HGX/DGX A100 服务器系统基本都是8个GPU组成一个系统,其FP16性能不到 2.5 petaFLOPS,相比之下Blackhole Galaxy 的速度提高了近 4.8 倍。事实上,在系统级别,Blackhole Galaxy 应该可以与英伟达的HGX/DGX H100 和 H200系统竞争,后者在FP8数据类型下,可以提供大约 15.8 petaFLOPS的算力。

Tenstorrent 使用板载以太网来进行连接,意味着它避免了与处理芯片到芯片和节点到节点网络的多种互连技术相关的挑战,就像英伟达使用 NVLink 和 InfiniBand/以太网一样。在这方面,Tenstorrent 的横向扩展策略与 英特尔的Gaudi系列AI加速器平台非常相似,后者也使用以太网作为其主要互连。

构建软件生态系统

除了芯片之外,Tenstorrent 还披露了其加速器的 TT-Metalium 低级编程模型。

熟悉英伟达CUDA 平台的人都知道,即使竞品的硬件性能表现比英伟达更高,配套的软件也仍可以决定其成败。Capalija 解释说,事实上,TT-Metalium 有点让人想起 CUDA 或 OpenCL 等 GPU 编程模型,因为它是异构的,但不同之处在于它是从“为 AI 和横向扩展”计算而构建的。

这些差异之一是内核本身是带有 API 的普通 C++。“我们认为不需要特殊的内核语言,”他解释说。

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

Tenstorrent 旨在支持许多标准模型运行时,如 TensorFlow、PyTorch、ONNX、Jax 和 vLLM 。结合包括 TT-NN、TT-MLIR 和 TT-Forge 在内的其他软件库,Tenstorrent 旨在支持使用 PyTorch、ONNX、JAX、TensorFlow 和 vLLM 等常用运行时在其加速器上运行任何 AI 模型。

对这些高级编程模型的支持应该有助于抽象出跨这些加速器部署工作负载的复杂性,类似于我们在 AMD 和 Intel 加速器中看到的情况。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-30 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英特尔披露5nm“中国特供版”AI 芯片,性能或暴降92%,最快6月推出|硅基世界
...工艺,带来4倍(400%)的BF16 AI计算能力提升。同时,相比英伟达H100 GPU,英特尔Gaudi 3 AI芯片的模型训练速度提升40%
2024-04-15 17:00:00
国内首颗量产全功能DPU面市 随智算中心铺开有望迎需求放量
...受到不少争议,比如DPU与智能网卡功能与定位是否重合,英伟达等厂商对DPU的公开讨论越来越少是否意味着被战略性放弃等。中科驭数CEO鄢贵海表示:“网中有算这件事情,只有DPU
2024-06-24 09:18:00
英伟达gracecpu现身geekbench跑分测试
6月27日消息,英伟达72核的GraceCPU现身GeekBench基准跑分测试,性能接近96核AMDThreadripper7995WX
2024-06-27 09:47:00
起底英伟达最强对手Cerebras:芯片内核达H100 的52 倍,最快今年下半年IPO
...杨锦Cerebras Systems是一家初创公司,它在人工智能领域向英伟达公司发起了挑战。根据最近的报道显示,Cerebras Systems在纳斯达克证券交易所首次公开募股之前已向美国证券监管机构提交了机密文件
2024-07-01 11:40:00
英伟达发布DGX GH200超级计算机
英伟达宣布,推出新款DGXGH200超级计算机、MGX系统的核心组件、以及新的Spectrum-X以太网网络平台。这些新产品专为人工智能和超级计算集群而优化
2023-05-31 00:26:00
AI芯片下半场:英伟达不再一家独大
ChatGPT爆火迄今,英伟达被公认为本次全球AI淘金浪潮的最大“卖铲人”,也是各大媒体和社交平台上讨论度最高的一家AI芯片公司。不过,随着AI热潮持续升温,越来越多厂商也开始在
2023-11-16 23:46:00
英伟达推出新芯片 宣称在人工智能PC竞赛中处于领先地位 【英伟达推出新芯片 宣称在人工智能PC竞赛中处于领先地位】财联社1月9日电,英伟达在国际消费电子展(CES)的演讲中宣布推
2024-01-09 01:36:00
AI算力大战开启:英特尔AI芯片性能超越H100,谷歌云推出最强ARM芯片|钛媒体AGI
...及 2 倍的网络带宽提升。同时,在AI模型算力中,相比于英伟达H100 GPU,Gaudi3 AI芯片的模型训练速度
2024-04-10 11:22:00
英特尔推出新款AI芯片:推理性能比英伟达H100快50%
...750亿参数GPT-3模型的训练时间。英特尔表示,Gaudi 3能够比英伟达上一代H100处理器训练特定大型语言模型的速度快40%
2024-04-10 10:52:00
更多关于科技的资讯: