• 我的订阅
  • 科技

英伟达blackwell计算引擎制造商推出的ai模型

类别:科技 发布时间:2024-03-20 02:59:00 来源:浅语科技

英伟达blackwell计算引擎制造商推出的ai模型

如果还有人想在AI处理领域跟英伟达正面抗衡,那最好再多做几手准备。除了最强大的技术储备之外,大家可能还需要雄厚的资金支持和上天的意外眷顾。换句话说,如今压制英伟达的唯一可能性恐怕只有天降神迹。

日前在圣何塞举行的2024年GPU技术大会上公布的英伟达“Blackwell”GPU,是这家计算引擎制造商推出的第七代、也是最令人印象深刻的数据中心级GPU。GPU计算浪潮始于2000年代中期,并随着2012年5月“Kepler”K10与K20加速器的推出而变得愈发清晰具体。

从那时起,英伟达就一直不懈推动摩尔定律在晶体管、先进封装、增强向量与矩阵数学引擎设计、持续降低浮点运算精度以及增加内存容量/带宽等多个方面的进步,最终让自家的计算引擎实现了4367倍的恐怖提速。就原始浮点性能而言,与十几年前带有双GK104GPU的初版K10相比,Blackwell确实带来了4367倍的性能增长(其中有8倍源自FP32单精度降至FP4八精度浮点运算,在恒定精度条件下的芯片性能增益为546倍)。

随着NVLink网络的进步,超大规模基础设施运营商、云服务商、高性能计算(HPC)中心以及其他机构可以将数百个GPU的内存与计算资源紧密结合在一起。而随着InfiniBand和以太网网络的发展,数以万计的GPU则能够松散地捆绑在一起以建立功能极其强大的AI超级计算机,从而更快地运行HPC与数据分析工作负载。

“Blackwell”B100与B200GPU加速器分别较2022年和2023年推出的前代“Hopper”H100与H200GPU快多少,目前仍有待观察。本文撰写于英伟达联合创始人兼CEO黄仁勋发表的主题演讲之前,因此许多架构及性能细节尚未明确披露。我们将针对搭载BlackwellGPU的系统带来后续报道,并对这款全新GPU的架构和经济性开展深入研究,将其与英伟达自家的前代产品,以及AMD、英特尔及其他厂商的计算引擎进行比较。

AI正在架构层面牢牢占据主导地位

如果说HPC领域对于更高浮点性能与更低能耗的需求,推动了英伟达的初始计算设计。那么自2016年“Pascal”一代添加半精度FP16单元以及随后的张量核心矩阵数学单元以来,机器学习开始为GPU巨头定下新的发展基调。短短一年之后的2017年,以深度学习神经网络为代表的机器学习工作负载成为英伟达的架构选择依据,并在“Volta”这代GPU上将这种思路奉为圭臬。

英伟达blackwell计算引擎制造商推出的ai模型

随着Hopper乃至最新这代Blackwell计算引擎的出炉,面向生成式AI的大语言模型则进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。

英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像到文本、音频到3D模型等——而且不止于人类可读模态,气候、DNA、分子、蛋白质与药物发现等科学领域也有AI的身影。在此过程中,一种新型AI正在出现。这类模型更加智能,它不再是以孤立的模型形式存在,而开始成为AI模型集合,即混合专家模型——其中的代表包括谷歌Gemini、MetaNLLB、MistarlAI,当然还有如雷贯耳的OpenAIGPT-4。这些新模型实际上包含多个协同运行的AI模型。在transformers的每一层,它们都会共享信息以决定谁能为下一层提供最佳答案,由此构建的模型也在智能度方面更上一层楼。这使得AI得以进一步扩展至万亿参数级别,带来我们前所未见的规模与性能表现。当然,这也给计算带来了新的挑战。随着模型体量变得越来越大,训练过程需要消耗更多算力。此外,推理也开始成为挑战中越来越重要的组成部分。”

而Blackwell正以各种形式站上历史的舞台,希望以全面超越Hopper的方式从容应对这所有挑战。

(第七代GPU计算引擎以DavidBlackwell命名,他是美国国家科学院院士、加州大学伯克利分校前教授,研究领域包括博弈论、信息论以及概率与统计。)

BlackwellGPU拥有2080亿个晶体管,采用台积电4纳米工艺的改良版本4NP进行制造——即英伟达用于制造HopperGPU的定制化4N工艺的改进形式。BlackwellGPU实际上由双reticleGPU芯片组成,其各自包含1040亿个晶体管,并使用NVLink5.0互连沿芯片中央像拉链般将二者连接起来。

英伟达blackwell计算引擎制造商推出的ai模型

由于台积电的3N3纳米工艺仍存在明显问题,因此英伟达暂时无法使用这种最新制程,所以Blackwell芯片的尺寸和发热量可能仍停留在较高水平。此外,BlackwellGPU的时钟速率也许亦未达到理论最佳值。但每块Blackwell芯片的浮点性能仍将比Hopper芯片高出25%左右,再加上每个封装中包含两块GPU,因此总性能将提升至2.5倍。降至FP4八精度浮点运算还可将性能再次翻倍,使其原始性能提升至Hopper的5倍。实际处理工作负载时的性能可能会更高,具体取决于各个Blackwell版本上的内存容量与带宽配置。

Buck解释称,BlackwellGPU计划于今年晚些时候投放市场,而且这款最新产品的实现依托于六大核心技术:

英伟达blackwell计算引擎制造商推出的ai模型

两块Blackwell芯片通过10TB/秒NVLink5.0芯片到芯片链路实现互连,简称为NV-HBI(全称可能是高带宽互连)。更重要的是,Buck确认这两块芯片在软件中将以单一GPU的形式存在,而绝非像英伟达及竞争对手AMD此前发布的GPU那样彼此独立。

这一点非常重要,因为如果一块GPU能够以单一单元形式存在,那么在编程时就可将其视为整体。而如果网络能够将其作为整体直接访问,也就意味着其在集群内可以灵活扩展。相比之下,彼此独立的两块GPU在集群扩展方面则比较麻烦(具体性能损失取决于网络与各芯片间的通信方式,而且在最极端的情况下,可能导致集群算力减少一半)。

我们对B100和B200设备的具体馈送及速度参数了解不多,但目前可以确定的是高端Blackwell芯片的所有功能均已开启(但不确定是否所有B200版本均提供全功能),配备192GBHBM3E内存,在封装内对应每个Blackwell芯片上四个8-Hi堆栈。如果我们认真观察,就会发现它实际上分八个计算复合体被封装在两块芯片中,每个芯片对应一组HBM3E内存。而根据此前媒体的报道,这192GB内存将由SK海力士与美光科技提供,其综合内存带宽可达8TB/秒。

英伟达blackwell计算引擎制造商推出的ai模型

2022年推出的H100在5个堆栈间提供80GB内存容量与3.35TB/秒带宽;升级版H100则与同样由英伟达制造的“Grace”CG100Arm服务器处理器搭配,共包含6个内存堆栈,容量和传输带宽分别为96GB及3.9TB/秒。从比较乐观的角度比较,高端Blackwell与普版H100相比实现了内存与传输带宽的双重2.4倍提升。而如果与开启全内存容量模式的中端H100比较,那么英伟达计划于今年推出的高端Blackwell内存容量提升至2倍,传输带宽则略高于2倍。至于跟拥有141GBHBM3E内存与4.8TB/秒带宽的H200进行比较,那么高端Blackwell的内存容量只高出36.2%,但传输带宽倒是高出66.7%。

我们猜测,英伟达有可能采用4GBHBM3E内存并采用8-Hi堆栈,也就是说8个内存堆栈中只实际启用6个即可达到192GB容量。由此推测,Blackwell封装实际可以提升至256GBHBM3E内存容量与13.3TB/秒传输带宽。这种理论上限可能同时适用于B100和B200,也可能单纯适用于B200。英伟达目前尚未给出说明,我们将继续拭目以待。

Blackwell复合体还配备有NVLink5.0端口,能够提供1.8TB/秒的传输带宽,相当于HopperGPU上NVLink4.0端口的两倍。

与英伟达近期推出的所有GPU计算引擎一样,其性能提升不仅仅靠在芯片中完稿更多的触发器和内存空间来实现。英伟达还对芯片架构进行了优化,旨在适应特定的工作负载。以Hopper为例,我们看到了TransformerEngine的第一次迭代,能够为张量提供自适应精度范围以加快计算速度。Blackwell则带来改进后的第二代TransformerEngine,能够在张量之内进行更细粒度的精度缩放。Buck解释道,正是这项功能实现了FP4性能,其主要用于提高生成式AI推理工作负载的吞吐量,从而降低这类当红负载类型的处理成本。

英伟达blackwell计算引擎制造商推出的ai模型

Buck指出,“Transformer引擎最初是由Hopper所发明,作用是在计算过程中跟踪整个神经网络中各张量的每个层上的准确性与动态范围。随着模型训练进度的不断推进,我们会持续监控每个层的范围,并随时调整以保持其数值精度处于合理范围之内,借此获取最佳性能。在Hopper当中,这种跟踪调整最高可扩展至1000路记录,计算更新及缩放因子来保证整个计算令以8位精度执行。而在Blackwell架构中,我们又更进一步在硬件层面调整每个张量的缩放比例。不同于以往的整个张量,Blackwell现可支持微张量缩放,我们不仅可以监控整个张量,更能够查看张量内的各个元素。不止于此,Blackwell的第二代TransformerEngine还允许我们将AI计算带入FP4精度,即仅使用四位浮点表示来执行AI计算。每个神经元、每条连接都只用4个0和1表示——因此可以表示数字1到16。达到这种细粒度水平本身就堪称奇迹。第二代TransformerEngine与Blackwell微张量缩放相结合,意味着我们可以提供两倍于以往的算力,而且8位到4位的成功减半也让我们的有效带宽得以加倍。如此一来,单个GPU也能容纳双倍于以往规模的模型。”

英伟达方面并没有公布Blackwell芯片上32位与64位CUDA核心的具体性能,也没有讨论更高精度数学如何在该芯片的张量核心上享受性能优势。期待这些问题的答案能够在本届大会上一一揭晓。

目前可以明确的是,B100的峰值FP4性能为14千万亿次,且采用与前代H100相同的700瓦热功率设计。B200的FP4性能则为18千万亿次,功率为100瓦。Buck还私下告诉我们,即将推出的GB200NVL72系统将为GPU提供液冷支持,其运行功率为1200瓦。据推测,液冷应该能够在同等功率下提供更高的性能输出。

英伟达也未公布B100、B200或者其HGXB100系统板的定价。这些系统板能够直接插入现有HGXH100服务器,这是因为二者的发热量和功率相同,因此配备的散热装置也没有区别。我们预计与HGXH100相比,HGXB100的价格至少会高出25%。粗略计算,在同等运算精度之下,HGXB100的价格约在25万美元,性能约为H100的2.5倍。当然,考虑到当初HopperGPU的情况,市面上的实际售价恐怕会远远高于英伟达的官方指导价。

在后续报道中,我们将具体探讨Blackwell系统以及NVLinkSwitch4与NVLink5端口,敬请期待!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-20 09:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达黄仁勋:人工智能是硅谷的硬通货
...眼睛作为公司的标志。阿雅表示:“他们是当时数十家GPU制造商中的一员。他们是仅有的几家真正幸存下来的,基本上只有英伟达和AMD留了下来,因为英伟达与软件社区、开发者合作得非常
2023-03-08 23:11:00
英伟达RTX 40 Super显卡亮相CES!
...历了疫情期间的销售高峰后,个人电脑出货量急剧下降,制造商和零部件供应商的库存负担沉重,增长乏力。但“AIPC时代”的到来,将会推动个人电脑用户和企业买家升级他们的设备,料将会
2024-01-09 20:01:00
英伟达副总裁:中国拥有众多汽车制造商 积极推动创新
...裁丹尼·夏皮罗在电话会议中表示:“中国拥有众多汽车制造商,他们积极推动创新,并受益于有利于自动驾驶技术发展的监管环境。”此外,丹尼·夏皮罗表示,比亚迪还将利用英伟达技术优化工
2024-03-20 00:09:00
老黄祭出史上最强 AI 芯片B200!30倍性能提升,AI 迎来新摩尔定律时代|钛媒体AGI
...地方支持生成式人工智能的运行。”扩大与中国电动汽车制造商的合作英伟达在GTC大会上宣布,正在扩大与比亚迪等中国电动汽车制造商的合作。比亚迪将使用英伟达的下一代车载芯片Driv
2024-03-19 13:00:00
黄仁勋最新AI宏图:芯片年更、百万GPU集群将至,加速机器人和物理AI时代
...便备受瞩目,获得了来自各行各业的支持,包括OEM、电脑制造商、CSP(云服务提供商)、GPU云、主权云以及电信公司等
2024-06-03 10:43:00
...集型应用。从第二季度开始,可从各种平台的领先服务器制造商那里购买,包括NVIDIA OVX™和配备NVIDIA Bluefield®DPU的NVIDIA AI-ready服务器
2023-08-24 17:20:00
英伟达计划2024年第二季度量产中国特供ai芯片
...士透露,H20原定于去年11月推出,但该计划由于“服务器制造商在集成该芯片时遇到了问题”而被推迟。其中一位知情人士表示
2024-01-10 03:41:00
英伟达将在日本建AI工厂网络,优先考虑GPU需求
...专门用于芯片投资的资金。部分资金预计将用于支持芯片制造商台积电和芯片代工企业Rapidus,后者希望在北海道制造尖端芯片。黄仁勋说:“日本现在开始发展和培育的半导体产业将能够
2023-12-05 15:55:00
11分钟训完gpt-3,英伟达横扫mlperf8项基准测试
...看,出口法规其实是有利于英伟达的,因为这意味着芯片制造商客户必须购买更多原版GPU的变体,才能获得同等的性能。这也就能理解,为什么英伟达会优先考虑生成计算GPU,而非游戏GP
2023-06-30 22:24:00
更多关于科技的资讯:
2025青岛虚拟现实创新大会将启,星鲨研究院探索“具身智能”前沿
鲁网11月14日讯“在这里,唯一限制你的是你自己的想象力。”科幻电影《头号玩家》中对于“绿洲”的这一描述,恰如其分地展现了虚拟现实产业的无限可能
2025-11-14 10:18:00
中新经纬11月14日电 据“网信中国”微信公众号14日消息,网信部门从严整治利用AI仿冒公众人物开展直播营销问题乱象。近期
2025-11-14 10:30:00
大麦娱乐推出全新品牌“大麦国际” 提供全球演出购票、观演服务
购买海外演出门票,现在有了新选择。11月14日,大麦娱乐宣布推出旗下全新业务品牌、全球演出服务平台“大麦国际(MAISEAT)”
2025-11-14 10:45:00
大河网讯 11月11日,全省数字影像检查“云胶片”联盟采购工作顺利开标,产生了拟中选结果,中原算力科技发展有限公司等6家企业拟中选
2025-11-14 10:53:00
鲁网11月13日讯11月13日,山东瑞程数据科技有限公司与济宁学院联合攻关的“多模态肉品AI快检系统”核心技术,在第十四届中国创新创业大赛颠覆性技术创新大赛中斩获优秀奖
2025-11-14 10:54:00
记者走基层|“黑科技”上线,让温暖精准入户
11月12日,河北邢襄热力集团邢台供热分公司二工区三班班长丁帅,在三义庙换热站查看设备运行情况。 河北日报记者 宋 平摄随着11月15日临近
2025-11-14 08:02:00
11月13日,太原公共交通控股(集团)有限公司(以下简称“太原公交”)与中车时代电动汽车股份有限公司(以下简称“中车电动”)举行框架合作协议签约仪式
2025-11-14 07:50:00
记者走基层|智能安全帽,让矿工有了AI“卫士”
11月5日,中煤张家口煤矿机械有限责任公司所属恒洋电器有限公司工作人员介绍智能安全帽产品。河北日报记者 魏 雨摄“嘀嘀
2025-11-13 08:03:00
“长与短”周期变革,“快与慢”时效重构,“热与冷”业态碰撞—— “双11”三重奏,解读消费新变局□南京日报/紫金山新闻记者黄琳燕11月12日中午
2025-11-13 08:05:00
南报网讯(记者周容璇)日前,在南京医药中央物流中心,一辆白色无人车平稳地穿梭于主仓库与宝湾库区之间,仅用15分钟便完成了一次驳货作业
2025-11-13 08:05:00
向“质”攀升,南京机器人解锁“智造”新图景
全链条持续发力,以硬核技术竞逐市场向“质”攀升,南京机器人解锁“智造”新图景□南京日报/紫金山新闻记者徐宁 实习生黄倩机器人是智能制造的核心组成部分
2025-11-13 08:05:00
江苏南京:“爆单堵件”难寻踪迹,科技赋能让“双11”物流运输“从从容容”
“爆单堵件”难寻踪迹,科技赋能让“双11”物流运输“从从容容” 直播间“秒光” 无人机“闪送”□南京日报/紫金山新闻记者周容璇“3
2025-11-13 08:06:00
逐浪氢能“新蓝海”,南京加速能级跃升
实现全产业链布局,链上企业持续“加码” 逐浪氢能“新蓝海”,南京加速能级跃升□南京日报/紫金山新闻记者徐宁通讯员陈伟伟郑瑞陶炎李雪莹蹲点主题
2025-11-13 08:06:00
2025 脉脉职场新人报告:超50%职场新人想跳槽,校招生最想去字节跳动
脉脉人才智库近日发布《以能为本——互联网职场新人流动趋势 2025》报告,将校招和工作经验在3年内的社招人才界定为“职场新人”
2025-11-13 08:57:00
江苏南京:多点突破屡刷纪录 科创助推产业升级
黄维院士引领南工大柔性电子全国重点实验室闯出新天地 多点突破屡刷纪录 科创助推产业升级□南京日报/紫金山新闻记者谈洁姜静实习生钱逸霖在柔性电子领域
2025-11-13 09:43:00