• 我的订阅
  • 科技

英伟达blackwell计算引擎制造商推出的ai模型

类别:科技 发布时间:2024-03-20 02:59:00 来源:浅语科技

英伟达blackwell计算引擎制造商推出的ai模型

如果还有人想在AI处理领域跟英伟达正面抗衡,那最好再多做几手准备。除了最强大的技术储备之外,大家可能还需要雄厚的资金支持和上天的意外眷顾。换句话说,如今压制英伟达的唯一可能性恐怕只有天降神迹。

日前在圣何塞举行的2024年GPU技术大会上公布的英伟达“Blackwell”GPU,是这家计算引擎制造商推出的第七代、也是最令人印象深刻的数据中心级GPU。GPU计算浪潮始于2000年代中期,并随着2012年5月“Kepler”K10与K20加速器的推出而变得愈发清晰具体。

从那时起,英伟达就一直不懈推动摩尔定律在晶体管、先进封装、增强向量与矩阵数学引擎设计、持续降低浮点运算精度以及增加内存容量/带宽等多个方面的进步,最终让自家的计算引擎实现了4367倍的恐怖提速。就原始浮点性能而言,与十几年前带有双GK104GPU的初版K10相比,Blackwell确实带来了4367倍的性能增长(其中有8倍源自FP32单精度降至FP4八精度浮点运算,在恒定精度条件下的芯片性能增益为546倍)。

随着NVLink网络的进步,超大规模基础设施运营商、云服务商、高性能计算(HPC)中心以及其他机构可以将数百个GPU的内存与计算资源紧密结合在一起。而随着InfiniBand和以太网网络的发展,数以万计的GPU则能够松散地捆绑在一起以建立功能极其强大的AI超级计算机,从而更快地运行HPC与数据分析工作负载。

“Blackwell”B100与B200GPU加速器分别较2022年和2023年推出的前代“Hopper”H100与H200GPU快多少,目前仍有待观察。本文撰写于英伟达联合创始人兼CEO黄仁勋发表的主题演讲之前,因此许多架构及性能细节尚未明确披露。我们将针对搭载BlackwellGPU的系统带来后续报道,并对这款全新GPU的架构和经济性开展深入研究,将其与英伟达自家的前代产品,以及AMD、英特尔及其他厂商的计算引擎进行比较。

AI正在架构层面牢牢占据主导地位

如果说HPC领域对于更高浮点性能与更低能耗的需求,推动了英伟达的初始计算设计。那么自2016年“Pascal”一代添加半精度FP16单元以及随后的张量核心矩阵数学单元以来,机器学习开始为GPU巨头定下新的发展基调。短短一年之后的2017年,以深度学习神经网络为代表的机器学习工作负载成为英伟达的架构选择依据,并在“Volta”这代GPU上将这种思路奉为圭臬。

英伟达blackwell计算引擎制造商推出的ai模型

随着Hopper乃至最新这代Blackwell计算引擎的出炉,面向生成式AI的大语言模型则进一步推动架构的发展,强调不断压缩更大规模AI训练与推理工作负载的处理成本。

英伟达公司超大规模与HPC副总裁IanBuck在大会前的简报中解释道,“在过去的2023年,我们经历了多模态生成式AI的诞生,文本到图像、图像到文本、音频到3D模型等——而且不止于人类可读模态,气候、DNA、分子、蛋白质与药物发现等科学领域也有AI的身影。在此过程中,一种新型AI正在出现。这类模型更加智能,它不再是以孤立的模型形式存在,而开始成为AI模型集合,即混合专家模型——其中的代表包括谷歌Gemini、MetaNLLB、MistarlAI,当然还有如雷贯耳的OpenAIGPT-4。这些新模型实际上包含多个协同运行的AI模型。在transformers的每一层,它们都会共享信息以决定谁能为下一层提供最佳答案,由此构建的模型也在智能度方面更上一层楼。这使得AI得以进一步扩展至万亿参数级别,带来我们前所未见的规模与性能表现。当然,这也给计算带来了新的挑战。随着模型体量变得越来越大,训练过程需要消耗更多算力。此外,推理也开始成为挑战中越来越重要的组成部分。”

而Blackwell正以各种形式站上历史的舞台,希望以全面超越Hopper的方式从容应对这所有挑战。

(第七代GPU计算引擎以DavidBlackwell命名,他是美国国家科学院院士、加州大学伯克利分校前教授,研究领域包括博弈论、信息论以及概率与统计。)

BlackwellGPU拥有2080亿个晶体管,采用台积电4纳米工艺的改良版本4NP进行制造——即英伟达用于制造HopperGPU的定制化4N工艺的改进形式。BlackwellGPU实际上由双reticleGPU芯片组成,其各自包含1040亿个晶体管,并使用NVLink5.0互连沿芯片中央像拉链般将二者连接起来。

英伟达blackwell计算引擎制造商推出的ai模型

由于台积电的3N3纳米工艺仍存在明显问题,因此英伟达暂时无法使用这种最新制程,所以Blackwell芯片的尺寸和发热量可能仍停留在较高水平。此外,BlackwellGPU的时钟速率也许亦未达到理论最佳值。但每块Blackwell芯片的浮点性能仍将比Hopper芯片高出25%左右,再加上每个封装中包含两块GPU,因此总性能将提升至2.5倍。降至FP4八精度浮点运算还可将性能再次翻倍,使其原始性能提升至Hopper的5倍。实际处理工作负载时的性能可能会更高,具体取决于各个Blackwell版本上的内存容量与带宽配置。

Buck解释称,BlackwellGPU计划于今年晚些时候投放市场,而且这款最新产品的实现依托于六大核心技术:

英伟达blackwell计算引擎制造商推出的ai模型

两块Blackwell芯片通过10TB/秒NVLink5.0芯片到芯片链路实现互连,简称为NV-HBI(全称可能是高带宽互连)。更重要的是,Buck确认这两块芯片在软件中将以单一GPU的形式存在,而绝非像英伟达及竞争对手AMD此前发布的GPU那样彼此独立。

这一点非常重要,因为如果一块GPU能够以单一单元形式存在,那么在编程时就可将其视为整体。而如果网络能够将其作为整体直接访问,也就意味着其在集群内可以灵活扩展。相比之下,彼此独立的两块GPU在集群扩展方面则比较麻烦(具体性能损失取决于网络与各芯片间的通信方式,而且在最极端的情况下,可能导致集群算力减少一半)。

我们对B100和B200设备的具体馈送及速度参数了解不多,但目前可以确定的是高端Blackwell芯片的所有功能均已开启(但不确定是否所有B200版本均提供全功能),配备192GBHBM3E内存,在封装内对应每个Blackwell芯片上四个8-Hi堆栈。如果我们认真观察,就会发现它实际上分八个计算复合体被封装在两块芯片中,每个芯片对应一组HBM3E内存。而根据此前媒体的报道,这192GB内存将由SK海力士与美光科技提供,其综合内存带宽可达8TB/秒。

英伟达blackwell计算引擎制造商推出的ai模型

2022年推出的H100在5个堆栈间提供80GB内存容量与3.35TB/秒带宽;升级版H100则与同样由英伟达制造的“Grace”CG100Arm服务器处理器搭配,共包含6个内存堆栈,容量和传输带宽分别为96GB及3.9TB/秒。从比较乐观的角度比较,高端Blackwell与普版H100相比实现了内存与传输带宽的双重2.4倍提升。而如果与开启全内存容量模式的中端H100比较,那么英伟达计划于今年推出的高端Blackwell内存容量提升至2倍,传输带宽则略高于2倍。至于跟拥有141GBHBM3E内存与4.8TB/秒带宽的H200进行比较,那么高端Blackwell的内存容量只高出36.2%,但传输带宽倒是高出66.7%。

我们猜测,英伟达有可能采用4GBHBM3E内存并采用8-Hi堆栈,也就是说8个内存堆栈中只实际启用6个即可达到192GB容量。由此推测,Blackwell封装实际可以提升至256GBHBM3E内存容量与13.3TB/秒传输带宽。这种理论上限可能同时适用于B100和B200,也可能单纯适用于B200。英伟达目前尚未给出说明,我们将继续拭目以待。

Blackwell复合体还配备有NVLink5.0端口,能够提供1.8TB/秒的传输带宽,相当于HopperGPU上NVLink4.0端口的两倍。

与英伟达近期推出的所有GPU计算引擎一样,其性能提升不仅仅靠在芯片中完稿更多的触发器和内存空间来实现。英伟达还对芯片架构进行了优化,旨在适应特定的工作负载。以Hopper为例,我们看到了TransformerEngine的第一次迭代,能够为张量提供自适应精度范围以加快计算速度。Blackwell则带来改进后的第二代TransformerEngine,能够在张量之内进行更细粒度的精度缩放。Buck解释道,正是这项功能实现了FP4性能,其主要用于提高生成式AI推理工作负载的吞吐量,从而降低这类当红负载类型的处理成本。

英伟达blackwell计算引擎制造商推出的ai模型

Buck指出,“Transformer引擎最初是由Hopper所发明,作用是在计算过程中跟踪整个神经网络中各张量的每个层上的准确性与动态范围。随着模型训练进度的不断推进,我们会持续监控每个层的范围,并随时调整以保持其数值精度处于合理范围之内,借此获取最佳性能。在Hopper当中,这种跟踪调整最高可扩展至1000路记录,计算更新及缩放因子来保证整个计算令以8位精度执行。而在Blackwell架构中,我们又更进一步在硬件层面调整每个张量的缩放比例。不同于以往的整个张量,Blackwell现可支持微张量缩放,我们不仅可以监控整个张量,更能够查看张量内的各个元素。不止于此,Blackwell的第二代TransformerEngine还允许我们将AI计算带入FP4精度,即仅使用四位浮点表示来执行AI计算。每个神经元、每条连接都只用4个0和1表示——因此可以表示数字1到16。达到这种细粒度水平本身就堪称奇迹。第二代TransformerEngine与Blackwell微张量缩放相结合,意味着我们可以提供两倍于以往的算力,而且8位到4位的成功减半也让我们的有效带宽得以加倍。如此一来,单个GPU也能容纳双倍于以往规模的模型。”

英伟达方面并没有公布Blackwell芯片上32位与64位CUDA核心的具体性能,也没有讨论更高精度数学如何在该芯片的张量核心上享受性能优势。期待这些问题的答案能够在本届大会上一一揭晓。

目前可以明确的是,B100的峰值FP4性能为14千万亿次,且采用与前代H100相同的700瓦热功率设计。B200的FP4性能则为18千万亿次,功率为100瓦。Buck还私下告诉我们,即将推出的GB200NVL72系统将为GPU提供液冷支持,其运行功率为1200瓦。据推测,液冷应该能够在同等功率下提供更高的性能输出。

英伟达也未公布B100、B200或者其HGXB100系统板的定价。这些系统板能够直接插入现有HGXH100服务器,这是因为二者的发热量和功率相同,因此配备的散热装置也没有区别。我们预计与HGXH100相比,HGXB100的价格至少会高出25%。粗略计算,在同等运算精度之下,HGXB100的价格约在25万美元,性能约为H100的2.5倍。当然,考虑到当初HopperGPU的情况,市面上的实际售价恐怕会远远高于英伟达的官方指导价。

在后续报道中,我们将具体探讨Blackwell系统以及NVLinkSwitch4与NVLink5端口,敬请期待!

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-20 09:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

英伟达黄仁勋:人工智能是硅谷的硬通货
...眼睛作为公司的标志。阿雅表示:“他们是当时数十家GPU制造商中的一员。他们是仅有的几家真正幸存下来的,基本上只有英伟达和AMD留了下来,因为英伟达与软件社区、开发者合作得非常
2023-03-08 23:11:00
英伟达RTX 40 Super显卡亮相CES!
...历了疫情期间的销售高峰后,个人电脑出货量急剧下降,制造商和零部件供应商的库存负担沉重,增长乏力。但“AIPC时代”的到来,将会推动个人电脑用户和企业买家升级他们的设备,料将会
2024-01-09 20:01:00
英伟达副总裁:中国拥有众多汽车制造商 积极推动创新
...裁丹尼·夏皮罗在电话会议中表示:“中国拥有众多汽车制造商,他们积极推动创新,并受益于有利于自动驾驶技术发展的监管环境。”此外,丹尼·夏皮罗表示,比亚迪还将利用英伟达技术优化工
2024-03-20 00:09:00
老黄祭出史上最强 AI 芯片B200!30倍性能提升,AI 迎来新摩尔定律时代|钛媒体AGI
...地方支持生成式人工智能的运行。”扩大与中国电动汽车制造商的合作英伟达在GTC大会上宣布,正在扩大与比亚迪等中国电动汽车制造商的合作。比亚迪将使用英伟达的下一代车载芯片Driv
2024-03-19 13:00:00
黄仁勋最新AI宏图:芯片年更、百万GPU集群将至,加速机器人和物理AI时代
...便备受瞩目,获得了来自各行各业的支持,包括OEM、电脑制造商、CSP(云服务提供商)、GPU云、主权云以及电信公司等
2024-06-03 10:43:00
...集型应用。从第二季度开始,可从各种平台的领先服务器制造商那里购买,包括NVIDIA OVX™和配备NVIDIA Bluefield®DPU的NVIDIA AI-ready服务器
2023-08-24 17:20:00
英伟达计划2024年第二季度量产中国特供ai芯片
...士透露,H20原定于去年11月推出,但该计划由于“服务器制造商在集成该芯片时遇到了问题”而被推迟。其中一位知情人士表示
2024-01-10 03:41:00
英伟达将在日本建AI工厂网络,优先考虑GPU需求
...专门用于芯片投资的资金。部分资金预计将用于支持芯片制造商台积电和芯片代工企业Rapidus,后者希望在北海道制造尖端芯片。黄仁勋说:“日本现在开始发展和培育的半导体产业将能够
2023-12-05 15:55:00
11分钟训完gpt-3,英伟达横扫mlperf8项基准测试
...看,出口法规其实是有利于英伟达的,因为这意味着芯片制造商客户必须购买更多原版GPU的变体,才能获得同等的性能。这也就能理解,为什么英伟达会优先考虑生成计算GPU,而非游戏GP
2023-06-30 22:24:00
更多关于科技的资讯:
2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动开幕
8月16日,作为商务部2025服务消费季系列活动之一,2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动在贵阳市观山湖区阿云朵仓开幕
2025-08-17 21:02:00
360集团20周年庆典:官宣“All in Agent”战略
8月15日,360集团迎来二十周年,在北京奥林匹克体育中心举办的“360集团20周年荣耀庆典”上,创始人周鸿祎向现场数千名员工发表演讲
2025-08-17 13:03:00
培育壮大十大千亿级产业集群丨天为铝业:弃“建”逐“工” 产业迈入新“铝”程
十堰广电讯(全媒体记者 喻波 叶旭升 通讯员 杜达巍)面对建筑型材市场的激烈竞争,今年,湖北天为铝业科技有限公司果断转型
2025-08-17 19:24:00
7月25日,位于邢台市沙河市的河北德金玻璃有限公司三线生产车间,两条生产线上不同规格的玻璃从自动传送带缓缓下线,一台台机械臂来回抓取新鲜出炉的玻璃原片
2025-08-17 07:29:00
90后寒门CEO,帮了雷军一个大忙
小米汽车YU7爆单后,车越欠越多,根本交付不完。即便雷军7月10日称小米汽车交付已超过30万台,但后面还有小米YU7迫在眉睫的24万个新订单
2025-08-16 15:53:00
用AI帮中小企业傻瓜式获客,这个营销Agent收入每月增长150%
文|邓咏仪编辑|苏建勋2024年中离开阿里,开始在Agent赛道创业时,郭振宇面临不少质疑:到底是做AutoAgent(自主代理
2025-08-17 02:24:00
“产业链上的山东好品牌”青岛市系列现场媒体见面会|现代轻工产业链专场——利和味道(青岛)食品产业股份有限公司
鲁网8月16日讯8月15日,在青岛鑫复盛集团有限公司,青岛市政府新闻办举行“产业链上的山东好品牌”青岛市系列现场媒体见面会第三场——现代轻工产业链专场
2025-08-16 09:40:00
通讯员 张汶宁8月14日,山东泰安举办“产业链上的山东好品牌”泰安企业家系列记者见面会首场活动。泰开集团、泰和电力、山东瑞福锂业
2025-08-16 09:56:00
聚焦长春农博会 |流量经济直播间首秀 “千万销量”引爆“线上农博”
8月15日,第二十四届长春农博会开幕首日,长春农博园3号馆内气氛热烈,吉林省流量经济赋能电商直播首场活动正式拉开帷幕。联合抖音
2025-08-16 10:29:00
首店经济引爆消费热潮,万达“提质提级”重构齐鲁商业生态
8月15日,盒马鲁中首店于淄博富力万达广场盛大开业。这不仅标志着盒马成功布局山东第七城,其开业即火爆的盛况,更凸显了“首店经济”在激发区域消费活力中的关键引擎作用
2025-08-16 10:30:00
新闻发布在一线|产业链上的“枣庄辣子鸡”串起富民增收路年销售额突破50亿元
鲁网8月16日讯近日,“产业链上的山东好品牌”枣庄市新型商贸物流产业链专场记者见面会在枣庄辣子鸡博物馆举行。见面会聚焦枣庄辣子鸡产业
2025-08-16 12:01:00
助力乡土好物跃上云端 汇丰海传媒助农电商平台正式成立
鲁网8月16日讯(记者 于胜涛)8月15日,位于即墨区龙润卓越中心的青岛汇丰海文化传媒有限公司正式开业,由其打造的助农电商平台同步启动
2025-08-16 13:12:00
潍坊昌乐培茁种业:数字赋能,“慧”就现代农业“新蓝图”
大众网记者 王帅 潍坊报道在潍坊昌乐这片被誉为“中国西瓜之乡”的热土上,一座占地4.5万平方米的现代农业科技创新高地正在改写传统农业的基因
2025-08-16 16:01:00
京东收购佳宝超市:全港三天八折,还有6万份长者月饼礼盒暖人心
8月16日,继昨日官宣完成对香港佳宝食品超级市场(以下简称“佳宝”)的收购后,京东在香港佳宝门店举行记者见面会,宣布将通过自身的供应链优势
2025-08-16 16:28:00
“窝囊蹦极”“窝囊爬山”“窝囊漂流”,这个夏天,“窝囊废旅游三件套”在社交平台刷屏。浙江安吉龙出没大峡谷的“躺平漂流”单日门票销售额逼近40万元
2025-08-16 16:55:00