• 我的订阅
  • 科技

英伟达blackwell计算引擎制造商推出的ai模型

类别:科技 发布时间:2024-03-20 02:59:00 来源:浅语科技

英伟达blackwell计算引擎制造商推出的ai模型

如果还有人想在AI处理领域跟英伟达正面抗衡,那最好再多做几手准备。除了最强大的技术储备之外,大家可能还需要雄厚的资金支持和上天的意外眷顾。换句话说,如今压制英伟达的唯一可能性恐怕只有天降神迹。

日前在圣何塞举行的2024年GPU技术大会上公布的英伟达“Blackwell”GPU,是这家计算引擎制造商推出的第七代、也是最令人印象深刻的数据中心级GPU。GPU计算浪潮始于2000年代中期,并随着2012年5月“Kepler”K10与K20加速器的推出而变得愈发清晰具体。

从那时起,英伟达就一直不懈推动摩尔定律在晶体管、先进封装、增强向量与矩阵数学引擎设计、持续降低浮点运算精度以及增加内存容量/带宽等多个方面的进步,最终让自家的计算引擎实现了4367倍的恐怖提速。就原始浮点性能而言,与十几年前带有双GK104GPU的初版K10相比,Blackwell确实带来了4367倍的性能增长(其中有8倍源自FP32单精度降至FP4八精度浮点运算,在恒定精度条件下的芯片性能增益为546倍)。

随着NVLink网络的进步,超大规模基础设施运营商、云服务商、高性能计算(HPC)中心以及其他机构可以将数百个GPU的内存与计算资源紧密结合在一起。而随着InfiniBand和以太网网络的发展,数以万计的GPU则能够松散地捆绑在一起以建立功能极其强大的AI超级计算机,从而更快地运行HPC与数据分析工作负载。

“Blackwell”B100与B200GPU加速器分别较2022年和2023年推出的前代“Hopper”H100与H200GPU快多少,目前仍有待观察。本文撰写于英伟达联合创始人兼CEO黄仁勋发表的主题演讲之前,因此许多架构及性能细节尚未明确披露。我们将针对搭载BlackwellGPU的系统带来后续报道,并对这款全新GPU的架构和经济性开展深入研究,将其与英伟达自家的前代产品,以及AMD、英特尔及其他厂商的计算引擎进行比较。

AI正在架构层面牢牢占据主导地位

如果说HPC领域对于更高浮点性能与更低能耗的需求,推动了英伟达的初始计算设计。那么自2016年“Pascal”一代添加半精度FP16单元以及随后的张量核心矩阵数学单元以来,机器学习开始为GPU巨头定下新的发展基调。短短一年之后的2017年,以深度学习神经网络为代表的机器学习工作负载成为英伟达的架构选择依据,并在“Volta”这代GPU上将这种思路奉为圭臬。

英伟达blackwell计算引擎制造商推出的ai模型

随着Hopper乃至最新这代Blackwell计算引擎的出炉,面向生成式AI的大语言模型则进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。

英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像到文本、音频到3D模型等——而且不止于人类可读模态,气候、DNA、分子、蛋白质与药物发现等科学领域也有AI的身影。在此过程中,一种新型AI正在出现。这类模型更加智能,它不再是以孤立的模型形式存在,而开始成为AI模型集合,即混合专家模型——其中的代表包括谷歌Gemini、MetaNLLB、MistarlAI,当然还有如雷贯耳的OpenAIGPT-4。这些新模型实际上包含多个协同运行的AI模型。在transformers的每一层,它们都会共享信息以决定谁能为下一层提供最佳答案,由此构建的模型也在智能度方面更上一层楼。这使得AI得以进一步扩展至万亿参数级别,带来我们前所未见的规模与性能表现。当然,这也给计算带来了新的挑战。随着模型体量变得越来越大,训练过程需要消耗更多算力。此外,推理也开始成为挑战中越来越重要的组成部分。”

而Blackwell正以各种形式站上历史的舞台,希望以全面超越Hopper的方式从容应对这所有挑战。

(第七代GPU计算引擎以DavidBlackwell命名,他是美国国家科学院院士、加州大学伯克利分校前教授,研究领域包括博弈论、信息论以及概率与统计。)

BlackwellGPU拥有2080亿个晶体管,采用台积电4纳米工艺的改良版本4NP进行制造——即英伟达用于制造HopperGPU的定制化4N工艺的改进形式。BlackwellGPU实际上由双reticleGPU芯片组成,其各自包含1040亿个晶体管,并使用NVLink5.0互连沿芯片中央像拉链般将二者连接起来。

英伟达blackwell计算引擎制造商推出的ai模型

由于台积电的3N3纳米工艺仍存在明显问题,因此英伟达暂时无法使用这种最新制程,所以Blackwell芯片的尺寸和发热量可能仍停留在较高水平。此外,BlackwellGPU的时钟速率也许亦未达到理论最佳值。但每块Blackwell芯片的浮点性能仍将比Hopper芯片高出25%左右,再加上每个封装中包含两块GPU,因此总性能将提升至2.5倍。降至FP4八精度浮点运算还可将性能再次翻倍,使其原始性能提升至Hopper的5倍。实际处理工作负载时的性能可能会更高,具体取决于各个Blackwell版本上的内存容量与带宽配置。

Buck解释称,BlackwellGPU计划于今年晚些时候投放市场,而且这款最新产品的实现依托于六大核心技术:

英伟达blackwell计算引擎制造商推出的ai模型

两块Blackwell芯片通过10TB/秒NVLink5.0芯片到芯片链路实现互连,简称为NV-HBI(全称可能是高带宽互连)。更重要的是,Buck确认这两块芯片在软件中将以单一GPU的形式存在,而绝非像英伟达及竞争对手AMD此前发布的GPU那样彼此独立。

这一点非常重要,因为如果一块GPU能够以单一单元形式存在,那么在编程时就可将其视为整体。而如果网络能够将其作为整体直接访问,也就意味着其在集群内可以灵活扩展。相比之下,彼此独立的两块GPU在集群扩展方面则比较麻烦(具体性能损失取决于网络与各芯片间的通信方式,而且在最极端的情况下,可能导致集群算力减少一半)。

我们对B100和B200设备的具体馈送及速度参数了解不多,但目前可以确定的是高端Blackwell芯片的所有功能均已开启(但不确定是否所有B200版本均提供全功能),配备192GBHBM3E内存,在封装内对应每个Blackwell芯片上四个8-Hi堆栈。如果我们认真观察,就会发现它实际上分八个计算复合体被封装在两块芯片中,每个芯片对应一组HBM3E内存。而根据此前媒体的报道,这192GB内存将由SK海力士与美光科技提供,其综合内存带宽可达8TB/秒。

英伟达blackwell计算引擎制造商推出的ai模型

2022年推出的H100在5个堆栈间提供80GB内存容量与3.35TB/秒带宽;升级版H100则与同样由英伟达制造的“Grace”CG100Arm服务器处理器搭配,共包含6个内存堆栈,容量和传输带宽分别为96GB及3.9TB/秒。从比较乐观的角度比较,高端Blackwell与普版H100相比实现了内存与传输带宽的双重2.4倍提升。而如果与开启全内存容量模式的中端H100比较,那么英伟达计划于今年推出的高端Blackwell内存容量提升至2倍,传输带宽则略高于2倍。至于跟拥有141GBHBM3E内存与4.8TB/秒带宽的H200进行比较,那么高端Blackwell的内存容量只高出36.2%,但传输带宽倒是高出66.7%。

我们猜测,英伟达有可能采用4GBHBM3E内存并采用8-Hi堆栈,也就是说8个内存堆栈中只实际启用6个即可达到192GB容量。由此推测,Blackwell封装实际可以提升至256GBHBM3E内存容量与13.3TB/秒传输带宽。这种理论上限可能同时适用于B100和B200,也可能单纯适用于B200。英伟达目前尚未给出说明,我们将继续拭目以待。

Blackwell复合体还配备有NVLink5.0端口,能够提供1.8TB/秒的传输带宽,相当于HopperGPU上NVLink4.0端口的两倍。

与英伟达近期推出的所有GPU计算引擎一样,其性能提升不仅仅靠在芯片中完稿更多的触发器和内存空间来实现。英伟达还对芯片架构进行了优化,旨在适应特定的工作负载。以Hopper为例,我们看到了TransformerEngine的第一次迭代,能够为张量提供自适应精度范围以加快计算速度。Blackwell则带来改进后的第二代TransformerEngine,能够在张量之内进行更细粒度的精度缩放。Buck解释道,正是这项功能实现了FP4性能,其主要用于提高生成式AI推理工作负载的吞吐量,从而降低这类当红负载类型的处理成本。

英伟达blackwell计算引擎制造商推出的ai模型

Buck指出,“Transformer引擎最初是由Hopper所发明,作用是在计算过程中跟踪整个神经网络中各张量的每个层上的准确性与动态范围。随着模型训练进度的不断推进,我们会持续监控每个层的范围,并随时调整以保持其数值精度处于合理范围之内,借此获取最佳性能。在Hopper当中,这种跟踪调整最高可扩展至1000路记录,计算更新及缩放因子来保证整个计算令以8位精度执行。而在Blackwell架构中,我们又更进一步在硬件层面调整每个张量的缩放比例。不同于以往的整个张量,Blackwell现可支持微张量缩放,我们不仅可以监控整个张量,更能够查看张量内的各个元素。不止于此,Blackwell的第二代TransformerEngine还允许我们将AI计算带入FP4精度,即仅使用四位浮点表示来执行AI计算。每个神经元、每条连接都只用4个0和1表示——因此可以表示数字1到16。达到这种细粒度水平本身就堪称奇迹。第二代TransformerEngine与Blackwell微张量缩放相结合,意味着我们可以提供两倍于以往的算力,而且8位到4位的成功减半也让我们的有效带宽得以加倍。如此一来,单个GPU也能容纳双倍于以往规模的模型。”

英伟达方面并没有公布Blackwell芯片上32位与64位CUDA核心的具体性能,也没有讨论更高精度数学如何在该芯片的张量核心上享受性能优势。期待这些问题的答案能够在本届大会上一一揭晓。

目前可以明确的是,B100的峰值FP4性能为14千万亿次,且采用与前代H100相同的700瓦热功率设计。B200的FP4性能则为18千万亿次,功率为100瓦。Buck还私下告诉我们,即将推出的GB200NVL72系统将为GPU提供液冷支持,其运行功率为1200瓦。据推测,液冷应该能够在同等功率下提供更高的性能输出。

英伟达也未公布B100、B200或者其HGXB100系统板的定价。这些系统板能够直接插入现有HGXH100服务器,这是因为二者的发热量和功率相同,因此配备的散热装置也没有区别。我们预计与HGXH100相比,HGXB100的价格至少会高出25%。粗略计算,在同等运算精度之下,HGXB100的价格约在25万美元,性能约为H100的2.5倍。当然,考虑到当初HopperGPU的情况,市面上的实际售价恐怕会远远高于英伟达的官方指导价。

在后续报道中,我们将具体探讨Blackwell系统以及NVLinkSwitch4与NVLink5端口,敬请期待!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-20 09:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达黄仁勋:人工智能是硅谷的硬通货
...眼睛作为公司的标志。阿雅表示:“他们是当时数十家GPU制造商中的一员。他们是仅有的几家真正幸存下来的,基本上只有英伟达和AMD留了下来,因为英伟达与软件社区、开发者合作得非常
2023-03-08 23:11:00
英伟达RTX 40 Super显卡亮相CES!
...历了疫情期间的销售高峰后,个人电脑出货量急剧下降,制造商和零部件供应商的库存负担沉重,增长乏力。但“AIPC时代”的到来,将会推动个人电脑用户和企业买家升级他们的设备,料将会
2024-01-09 20:01:00
英伟达副总裁:中国拥有众多汽车制造商 积极推动创新
...裁丹尼·夏皮罗在电话会议中表示:“中国拥有众多汽车制造商,他们积极推动创新,并受益于有利于自动驾驶技术发展的监管环境。”此外,丹尼·夏皮罗表示,比亚迪还将利用英伟达技术优化工
2024-03-20 00:09:00
老黄祭出史上最强 AI 芯片B200!30倍性能提升,AI 迎来新摩尔定律时代|钛媒体AGI
...地方支持生成式人工智能的运行。”扩大与中国电动汽车制造商的合作英伟达在GTC大会上宣布,正在扩大与比亚迪等中国电动汽车制造商的合作。比亚迪将使用英伟达的下一代车载芯片Driv
2024-03-19 13:00:00
黄仁勋最新AI宏图:芯片年更、百万GPU集群将至,加速机器人和物理AI时代
...便备受瞩目,获得了来自各行各业的支持,包括OEM、电脑制造商、CSP(云服务提供商)、GPU云、主权云以及电信公司等
2024-06-03 10:43:00
...集型应用。从第二季度开始,可从各种平台的领先服务器制造商那里购买,包括NVIDIA OVX™和配备NVIDIA Bluefield®DPU的NVIDIA AI-ready服务器
2023-08-24 17:20:00
英伟达计划2024年第二季度量产中国特供ai芯片
...士透露,H20原定于去年11月推出,但该计划由于“服务器制造商在集成该芯片时遇到了问题”而被推迟。其中一位知情人士表示
2024-01-10 03:41:00
英伟达将在日本建AI工厂网络,优先考虑GPU需求
...专门用于芯片投资的资金。部分资金预计将用于支持芯片制造商台积电和芯片代工企业Rapidus,后者希望在北海道制造尖端芯片。黄仁勋说:“日本现在开始发展和培育的半导体产业将能够
2023-12-05 15:55:00
11分钟训完gpt-3,英伟达横扫mlperf8项基准测试
...看,出口法规其实是有利于英伟达的,因为这意味着芯片制造商客户必须购买更多原版GPU的变体,才能获得同等的性能。这也就能理解,为什么英伟达会优先考虑生成计算GPU,而非游戏GP
2023-06-30 22:24:00
更多关于科技的资讯:
在杭州城西科创大走廊东首的西湖区紫金港科技城云谷中心,国内最大模型开源社区“魔搭社区”的首个线下实体空间——魔搭社区(杭州)开发者中心(以下简称“开发者中心”)
2025-12-05 08:13:00
眼下,养宠群体逐渐壮大,带来的刚需消费、悦己消费持续升温、充满潜力,宠物经济迅速崛起。最近,省农业农村厅联合省发改委、省商务厅等五部门印发《关于促进宠物经济发展的意见》
2025-12-05 08:13:00
海运到货 福州车厘子上新整体售价稳步回落4日,随着海运而来的智利车厘子到达福州,福州市场上车厘子全面上新,整体售价开始稳步回落
2025-12-05 08:13:00
苏州作为全国数字经济、数字金融的先行城市,始终以敢为人先的魄力,争当保险科技应用的“试验场”与“示范区”。苏州市数字金融高质量发展大会保险科技专题活动在苏州人保财险成功举办
2025-12-05 10:56:00
近日,2025系统医学与健康大会在苏州工业园区举行,四大慢病国家科技重大专项技术总师陈竺,创新药物研发国家科技重大专项技术总师曹雪涛
2025-12-05 11:45:00
《中国电影经济发展研究报告》在海南岛国际电影节首发
孙向辉解读《报告》。中青报·中青网记者 任明超/摄中国青年报客户端讯(李争艳 中青报·中青网记者 任明超)12月4日,《中国电影经济发展研究报告》(以下简称《报告》)在海南岛国际电影节主论坛首发
2025-12-05 11:50:00
近日,由市稳外贸专班主办,苏州市分公司、供应链数字治理研究中心、苏州世标检测有限公司共同承办的“新外贸‘涨’字诀:精通美国知产合规赋能企业竞强价增”活动
2025-12-05 11:54:00
南京企业奋战四季度
进入四季度,南京企业在新品发布与订单签订上成果显著,重点产业创新动能强劲 产业是城市经济发展的基石。进入四季度以来
2025-12-05 12:11:00
AI时代“一人公司”迎来发展良机AI应用爆发前夜,中国第二经济大省江苏的“双子星”——南京、苏州抢先布局“单人成军”的OPC新形态OPC的全称是One Person Company
2025-12-05 12:11:00
潮品、文创、黑科技一站式打卡!河南品牌“秀”出多元消费新体验
大河网讯 蜜雪冰城诠释着国民饮品的亲切感,河南博物院文创产品让厚重历史走入百姓日常生活,力量钻石折射出河南制造闪耀的科技光芒……12月5日
2025-12-05 12:12:00
“智”绘康养,AI上美味!看豫企如何玩“智”变
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 12:12:00
为提升团队惠民保展业能力,夯实业务根基,太湖人保财险成功开展新员工惠民保专项培训,各团队主管全程参与研讨推进,以多维度培训为全体坐席赋能
2025-12-05 12:40:00
解锁服务新玩法!河南品牌靠数智、跨界跑出加速度
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 13:13:00
文创爆品、网红奶茶齐出圈,河南新品牌如何撑起新供给?
大河网讯(记者 刘高雅 王靖/文 杨鑫阳/图)12月5日,“供给焕新程 服务跃新阶——2025河南省新服务新供给品牌建设交流活动”在商丘市举行
2025-12-05 13:13:00
在当前全球化格局深度调整与数字技术革命交汇的时代背景下,研究生国际联合培养模式的数字化转型,已成为国家教育战略的核心关切
2025-12-05 13:18:00