• 我的订阅
  • 科技

英伟达blackwell计算引擎制造商推出的ai模型

类别:科技 发布时间:2024-03-20 02:59:00 来源:浅语科技

英伟达blackwell计算引擎制造商推出的ai模型

如果还有人想在AI处理领域跟英伟达正面抗衡,那最好再多做几手准备。除了最强大的技术储备之外,大家可能还需要雄厚的资金支持和上天的意外眷顾。换句话说,如今压制英伟达的唯一可能性恐怕只有天降神迹。

日前在圣何塞举行的2024年GPU技术大会上公布的英伟达“Blackwell”GPU,是这家计算引擎制造商推出的第七代、也是最令人印象深刻的数据中心级GPU。GPU计算浪潮始于2000年代中期,并随着2012年5月“Kepler”K10与K20加速器的推出而变得愈发清晰具体。

从那时起,英伟达就一直不懈推动摩尔定律在晶体管、先进封装、增强向量与矩阵数学引擎设计、持续降低浮点运算精度以及增加内存容量/带宽等多个方面的进步,最终让自家的计算引擎实现了4367倍的恐怖提速。就原始浮点性能而言,与十几年前带有双GK104GPU的初版K10相比,Blackwell确实带来了4367倍的性能增长(其中有8倍源自FP32单精度降至FP4八精度浮点运算,在恒定精度条件下的芯片性能增益为546倍)。

随着NVLink网络的进步,超大规模基础设施运营商、云服务商、高性能计算(HPC)中心以及其他机构可以将数百个GPU的内存与计算资源紧密结合在一起。而随着InfiniBand和以太网网络的发展,数以万计的GPU则能够松散地捆绑在一起以建立功能极其强大的AI超级计算机,从而更快地运行HPC与数据分析工作负载。

“Blackwell”B100与B200GPU加速器分别较2022年和2023年推出的前代“Hopper”H100与H200GPU快多少,目前仍有待观察。本文撰写于英伟达联合创始人兼CEO黄仁勋发表的主题演讲之前,因此许多架构及性能细节尚未明确披露。我们将针对搭载BlackwellGPU的系统带来后续报道,并对这款全新GPU的架构和经济性开展深入研究,将其与英伟达自家的前代产品,以及AMD、英特尔及其他厂商的计算引擎进行比较。

AI正在架构层面牢牢占据主导地位

如果说HPC领域对于更高浮点性能与更低能耗的需求,推动了英伟达的初始计算设计。那么自2016年“Pascal”一代添加半精度FP16单元以及随后的张量核心矩阵数学单元以来,机器学习开始为GPU巨头定下新的发展基调。短短一年之后的2017年,以深度学习神经网络为代表的机器学习工作负载成为英伟达的架构选择依据,并在“Volta”这代GPU上将这种思路奉为圭臬。

英伟达blackwell计算引擎制造商推出的ai模型

随着Hopper乃至最新这代Blackwell计算引擎的出炉,面向生成式AI的大语言模型则进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。

英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像到文本、音频到3D模型等——而且不止于人类可读模态,气候、DNA、分子、蛋白质与药物发现等科学领域也有AI的身影。在此过程中,一种新型AI正在出现。这类模型更加智能,它不再是以孤立的模型形式存在,而开始成为AI模型集合,即混合专家模型——其中的代表包括谷歌Gemini、MetaNLLB、MistarlAI,当然还有如雷贯耳的OpenAIGPT-4。这些新模型实际上包含多个协同运行的AI模型。在transformers的每一层,它们都会共享信息以决定谁能为下一层提供最佳答案,由此构建的模型也在智能度方面更上一层楼。这使得AI得以进一步扩展至万亿参数级别,带来我们前所未见的规模与性能表现。当然,这也给计算带来了新的挑战。随着模型体量变得越来越大,训练过程需要消耗更多算力。此外,推理也开始成为挑战中越来越重要的组成部分。”

而Blackwell正以各种形式站上历史的舞台,希望以全面超越Hopper的方式从容应对这所有挑战。

(第七代GPU计算引擎以DavidBlackwell命名,他是美国国家科学院院士、加州大学伯克利分校前教授,研究领域包括博弈论、信息论以及概率与统计。)

BlackwellGPU拥有2080亿个晶体管,采用台积电4纳米工艺的改良版本4NP进行制造——即英伟达用于制造HopperGPU的定制化4N工艺的改进形式。BlackwellGPU实际上由双reticleGPU芯片组成,其各自包含1040亿个晶体管,并使用NVLink5.0互连沿芯片中央像拉链般将二者连接起来。

英伟达blackwell计算引擎制造商推出的ai模型

由于台积电的3N3纳米工艺仍存在明显问题,因此英伟达暂时无法使用这种最新制程,所以Blackwell芯片的尺寸和发热量可能仍停留在较高水平。此外,BlackwellGPU的时钟速率也许亦未达到理论最佳值。但每块Blackwell芯片的浮点性能仍将比Hopper芯片高出25%左右,再加上每个封装中包含两块GPU,因此总性能将提升至2.5倍。降至FP4八精度浮点运算还可将性能再次翻倍,使其原始性能提升至Hopper的5倍。实际处理工作负载时的性能可能会更高,具体取决于各个Blackwell版本上的内存容量与带宽配置。

Buck解释称,BlackwellGPU计划于今年晚些时候投放市场,而且这款最新产品的实现依托于六大核心技术:

英伟达blackwell计算引擎制造商推出的ai模型

两块Blackwell芯片通过10TB/秒NVLink5.0芯片到芯片链路实现互连,简称为NV-HBI(全称可能是高带宽互连)。更重要的是,Buck确认这两块芯片在软件中将以单一GPU的形式存在,而绝非像英伟达及竞争对手AMD此前发布的GPU那样彼此独立。

这一点非常重要,因为如果一块GPU能够以单一单元形式存在,那么在编程时就可将其视为整体。而如果网络能够将其作为整体直接访问,也就意味着其在集群内可以灵活扩展。相比之下,彼此独立的两块GPU在集群扩展方面则比较麻烦(具体性能损失取决于网络与各芯片间的通信方式,而且在最极端的情况下,可能导致集群算力减少一半)。

我们对B100和B200设备的具体馈送及速度参数了解不多,但目前可以确定的是高端Blackwell芯片的所有功能均已开启(但不确定是否所有B200版本均提供全功能),配备192GBHBM3E内存,在封装内对应每个Blackwell芯片上四个8-Hi堆栈。如果我们认真观察,就会发现它实际上分八个计算复合体被封装在两块芯片中,每个芯片对应一组HBM3E内存。而根据此前媒体的报道,这192GB内存将由SK海力士与美光科技提供,其综合内存带宽可达8TB/秒。

英伟达blackwell计算引擎制造商推出的ai模型

2022年推出的H100在5个堆栈间提供80GB内存容量与3.35TB/秒带宽;升级版H100则与同样由英伟达制造的“Grace”CG100Arm服务器处理器搭配,共包含6个内存堆栈,容量和传输带宽分别为96GB及3.9TB/秒。从比较乐观的角度比较,高端Blackwell与普版H100相比实现了内存与传输带宽的双重2.4倍提升。而如果与开启全内存容量模式的中端H100比较,那么英伟达计划于今年推出的高端Blackwell内存容量提升至2倍,传输带宽则略高于2倍。至于跟拥有141GBHBM3E内存与4.8TB/秒带宽的H200进行比较,那么高端Blackwell的内存容量只高出36.2%,但传输带宽倒是高出66.7%。

我们猜测,英伟达有可能采用4GBHBM3E内存并采用8-Hi堆栈,也就是说8个内存堆栈中只实际启用6个即可达到192GB容量。由此推测,Blackwell封装实际可以提升至256GBHBM3E内存容量与13.3TB/秒传输带宽。这种理论上限可能同时适用于B100和B200,也可能单纯适用于B200。英伟达目前尚未给出说明,我们将继续拭目以待。

Blackwell复合体还配备有NVLink5.0端口,能够提供1.8TB/秒的传输带宽,相当于HopperGPU上NVLink4.0端口的两倍。

与英伟达近期推出的所有GPU计算引擎一样,其性能提升不仅仅靠在芯片中完稿更多的触发器和内存空间来实现。英伟达还对芯片架构进行了优化,旨在适应特定的工作负载。以Hopper为例,我们看到了TransformerEngine的第一次迭代,能够为张量提供自适应精度范围以加快计算速度。Blackwell则带来改进后的第二代TransformerEngine,能够在张量之内进行更细粒度的精度缩放。Buck解释道,正是这项功能实现了FP4性能,其主要用于提高生成式AI推理工作负载的吞吐量,从而降低这类当红负载类型的处理成本。

英伟达blackwell计算引擎制造商推出的ai模型

Buck指出,“Transformer引擎最初是由Hopper所发明,作用是在计算过程中跟踪整个神经网络中各张量的每个层上的准确性与动态范围。随着模型训练进度的不断推进,我们会持续监控每个层的范围,并随时调整以保持其数值精度处于合理范围之内,借此获取最佳性能。在Hopper当中,这种跟踪调整最高可扩展至1000路记录,计算更新及缩放因子来保证整个计算令以8位精度执行。而在Blackwell架构中,我们又更进一步在硬件层面调整每个张量的缩放比例。不同于以往的整个张量,Blackwell现可支持微张量缩放,我们不仅可以监控整个张量,更能够查看张量内的各个元素。不止于此,Blackwell的第二代TransformerEngine还允许我们将AI计算带入FP4精度,即仅使用四位浮点表示来执行AI计算。每个神经元、每条连接都只用4个0和1表示——因此可以表示数字1到16。达到这种细粒度水平本身就堪称奇迹。第二代TransformerEngine与Blackwell微张量缩放相结合,意味着我们可以提供两倍于以往的算力,而且8位到4位的成功减半也让我们的有效带宽得以加倍。如此一来,单个GPU也能容纳双倍于以往规模的模型。”

英伟达方面并没有公布Blackwell芯片上32位与64位CUDA核心的具体性能,也没有讨论更高精度数学如何在该芯片的张量核心上享受性能优势。期待这些问题的答案能够在本届大会上一一揭晓。

目前可以明确的是,B100的峰值FP4性能为14千万亿次,且采用与前代H100相同的700瓦热功率设计。B200的FP4性能则为18千万亿次,功率为100瓦。Buck还私下告诉我们,即将推出的GB200NVL72系统将为GPU提供液冷支持,其运行功率为1200瓦。据推测,液冷应该能够在同等功率下提供更高的性能输出。

英伟达也未公布B100、B200或者其HGXB100系统板的定价。这些系统板能够直接插入现有HGXH100服务器,这是因为二者的发热量和功率相同,因此配备的散热装置也没有区别。我们预计与HGXH100相比,HGXB100的价格至少会高出25%。粗略计算,在同等运算精度之下,HGXB100的价格约在25万美元,性能约为H100的2.5倍。当然,考虑到当初HopperGPU的情况,市面上的实际售价恐怕会远远高于英伟达的官方指导价。

在后续报道中,我们将具体探讨Blackwell系统以及NVLinkSwitch4与NVLink5端口,敬请期待!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-20 09:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达黄仁勋:人工智能是硅谷的硬通货
...眼睛作为公司的标志。阿雅表示:“他们是当时数十家GPU制造商中的一员。他们是仅有的几家真正幸存下来的,基本上只有英伟达和AMD留了下来,因为英伟达与软件社区、开发者合作得非常
2023-03-08 23:11:00
英伟达RTX 40 Super显卡亮相CES!
...历了疫情期间的销售高峰后,个人电脑出货量急剧下降,制造商和零部件供应商的库存负担沉重,增长乏力。但“AIPC时代”的到来,将会推动个人电脑用户和企业买家升级他们的设备,料将会
2024-01-09 20:01:00
英伟达副总裁:中国拥有众多汽车制造商 积极推动创新
...裁丹尼·夏皮罗在电话会议中表示:“中国拥有众多汽车制造商,他们积极推动创新,并受益于有利于自动驾驶技术发展的监管环境。”此外,丹尼·夏皮罗表示,比亚迪还将利用英伟达技术优化工
2024-03-20 00:09:00
老黄祭出史上最强 AI 芯片B200!30倍性能提升,AI 迎来新摩尔定律时代|钛媒体AGI
...地方支持生成式人工智能的运行。”扩大与中国电动汽车制造商的合作英伟达在GTC大会上宣布,正在扩大与比亚迪等中国电动汽车制造商的合作。比亚迪将使用英伟达的下一代车载芯片Driv
2024-03-19 13:00:00
黄仁勋最新AI宏图:芯片年更、百万GPU集群将至,加速机器人和物理AI时代
...便备受瞩目,获得了来自各行各业的支持,包括OEM、电脑制造商、CSP(云服务提供商)、GPU云、主权云以及电信公司等
2024-06-03 10:43:00
...集型应用。从第二季度开始,可从各种平台的领先服务器制造商那里购买,包括NVIDIA OVX™和配备NVIDIA Bluefield®DPU的NVIDIA AI-ready服务器
2023-08-24 17:20:00
英伟达计划2024年第二季度量产中国特供ai芯片
...士透露,H20原定于去年11月推出,但该计划由于“服务器制造商在集成该芯片时遇到了问题”而被推迟。其中一位知情人士表示
2024-01-10 03:41:00
英伟达将在日本建AI工厂网络,优先考虑GPU需求
...专门用于芯片投资的资金。部分资金预计将用于支持芯片制造商台积电和芯片代工企业Rapidus,后者希望在北海道制造尖端芯片。黄仁勋说:“日本现在开始发展和培育的半导体产业将能够
2023-12-05 15:55:00
11分钟训完gpt-3,英伟达横扫mlperf8项基准测试
...看,出口法规其实是有利于英伟达的,因为这意味着芯片制造商客户必须购买更多原版GPU的变体,才能获得同等的性能。这也就能理解,为什么英伟达会优先考虑生成计算GPU,而非游戏GP
2023-06-30 22:24:00
更多关于科技的资讯:
RUA RUA PANDA大熊猫主题全球巡展伦敦站期间,来自德国、法国、荷兰的粉丝专程“打飞的”到Bamboo Zoo快闪店抢购侦探熊猫
2025-12-29 07:40:00
中新经纬12月27日电 据“网信中国”微信号,27日,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》
2025-12-28 09:18:00
杭州发放10000张无门槛停车券!今天开抢
好消息:2025年12月28日至2026年1月3日,连续7天,“杭州停车”微信小程序将每天放出停车优惠券,总计10000张
2025-12-28 11:45:00
以安全智造引领行业高质量发展
坐落于青岛胶州市上合示范区的海尔上合冰箱互联一工厂,是海尔自创立以来在全球投资最大、智能化程度最高、产业链配套最完整、生态体系最健全的安全生产标杆项目
2025-12-28 15:05:00
永辉南京首家胖东来模式新店落户江宁宝龙,万达茂店焕新压轴开业
岁末钟声渐近,金陵城中,两处商业地标正悄然点亮品质生活的新图景。12月29日,永辉超市南京江宁宝龙广场店将盛大开业,这是永辉在南京全新开设的首家胖东来模式门店
2025-12-28 21:29:00
AIGC视听产业人才新生态大会在京举办
中国青年报客户端讯(中青报·中青网记者余冰玥)12月27日,2025首创郎园AIGC视听产业人才新生态大会在北京举办。面对AI创作人才日益年轻化
2025-12-28 21:31:00
国际热核聚变实验堆ITER计划校正场线圈采购包任务在合肥竣工交付
大皖新闻讯 12月28日,由中国科学院合肥物质科学研究院等离子体物理研究所(以下简称合肥物质院等离子体所)承担的国际热核聚变实验堆ITER计划校正场线圈采购包圆满完成全部的制造任务
2025-12-28 15:14:00
江南时报讯 12月27日,以“智赋江苏,聚势腾飞”为主题的2025江苏省人工智能产业发展大会在南京举行。大会设置江苏“人工智能+”创新成果展区
2025-12-28 21:23:00
冀北绿电交易市场规模跃居全国首位
2025-12-28 19:37:00
电商物流共享给南和宠物食品带来什么——河北特色产业集群共享智造故事(九)漫步邢台市南和区,宠物元素扮靓了街头巷尾。一家家宠物食品公司车间厂区里
2025-12-28 07:44:00
12月26日,位于杭州云栖小镇的国家机器人检测与评定中心(总部)浙江检测中心(以下简称“浙江检测中心”)正式启用。机器人从样机走向量产
2025-12-27 08:10:00
喜报|米糠云顺利通过双ISO体系认证,安全与品质再上新台阶
近日,深圳市米糠云科技有限公司顺利通过ISO27001信息安全管理体系认证与ISO9001质量管理体系认证。这标志着公司在信息安全管理和质量管理方面达到了国际标准
2025-12-27 14:34:00
退货仓分拣 “堵点” 怎么破?快宝共配给出答案
近年来,电商与直播电商的迅猛发展,不仅催生出庞大的正向物流需求,更让逆向物流成为快递行业名副其实的“蓝海”。消费者退换货需求呈爆炸式增长
2025-12-27 14:36:00
京东跨年盛典开启 送好礼官方直降五折起 还能抽祝福“大排面”
岁末迎新,跨年不只是一种仪式,更是一场表达与传递的情感盛宴。京东今年再度打造“年度宠粉”跨年盛典,不仅有众多官方直降5折起的尖货好物
2025-12-27 14:36:00
专为X3D处理器打造,技嘉X870E X3D系列主板全面上线
2025年最热门的CPU毫无疑问当属AMD锐龙X3D系列,而技嘉作为AMD核心合作伙伴之一,专为AMD X3D系列处理器量身定制了X870E X3D系列主板
2025-12-27 14:37:00