• 我的订阅
  • 科技

在HPC中,CPU核心越多并不一定越好

类别:科技 发布时间:2023-01-26 14:00:00 来源:至顶头条
在HPC中,CPU核心越多并不一定越好

既然核心是好东西,那更多核心不就更好了?那可不一定,特别是在HPC场景之下。不要总盯着五百强超算那大堆大堆的64核Epyc处理器,科学的结论需要科学的分析过程。

在与Atos和联想HPC部门的高管交流之下,我们明显可以得出结论:虽然核心多了不是坏事,但真正卡客户脖子的其实是内存带宽、I/O传输和时钟速率。

然而,AMD和英特尔并没有因此而气馁,他们在每一代处理器中不断提高核心数量。AMD的“Genoa”Epyc 9004拥有多达96个核心,而即将推出的“Bergamo”芯片进一步增加至128个。与此同时,英特尔的“Sapphire Rapids”至强SP最多提供60个核心。

原因并不难理解。英特尔和AMD(外加同样占有一席之地的Ampere Computing)做的就是为超大规模厂商和云服务商提供多核芯片的买卖。对他们来说,核心数量越多、每个节点所能承载的客户就越多。在这片市场上,核心数量就是决定成败的关键。

但主流HPC工作负载的情况则完全不同。另外,过度追求更高核心数量反而会给HPC客户带来困扰,其中影响最大的就是有限的带宽。

失去平衡

联想HPC与AI副总裁Scott Tease在采访中表示,“很多HPC用户对于核心数量并不敏感——他们不太关心核心,而是需要更高的内存带宽。”

其实这里的道理并不难理解。更多的核心也将快速摊薄可用的内存带宽。虽然AMD和英特尔都受益于这一代速度更快的DDR5内存,其带宽较DDR4提高了约50%;但只要芯片制造商以同样的比例增加核心数量,那带宽其实就并没有增加。为了解决问题,英特尔和AMD明显采取了截然不同的方法。

让我们先从英特尔说起,他们采用的是条非常有趣的路线,将64 GB/秒的HBM2e堆叠内存跟Sapphire Rapids至强Max CPU芯片近挨在一起。这相当于提供超过1 TB/秒的内存带宽,相当于采用普通DDR5内存通道的至强SP的三倍以上。如此一来,即使是56核Max系列CPU,每核心所分配到的带宽也有18 GB/秒。相比之下,AMD的旗舰级处理器虽然多了40个核心,但每核心分配到的带宽只有4.8 GB/秒。

Atos HPC首席技术官Jean-Pierre Panziera在谈起至强Max时表示,“这代表着带宽的大幅增加。对于带宽敏感型应用程序,例如用于天气预报的大规模流体动力学计算类工作负载,这有望带来可观的性能改进。”

当然,这里还有另一个问题:64 GB的内存并不算大,每个核心只能分到1.14 GB到2 GB左右的容量,具体取决于采用哪款至强SP。我们当然可以用DDR5扩展内存容量,但带宽会立即下降至约三分之一,而且需要靠芯片上的固件或ISV集成来处理数据移动。

但这对某些工作负载来说已经足够了。Tease表示,“在我看来,人们选择采用GPU的原因是多种多样的。对于其中一部分用例,只要加上HBM,大家其实很愿意把工作负载转移回CPU。”

另一方面,AMD则坚持用实践出真知的方法做探索,以牺牲电路板空间加稍微拉高延迟为代价添加更多内存通道。Genoa芯片的整个产品堆栈中包含12条内存通道,结合DDR5内存的更高传输速率,可实现460 GB/秒的总带宽——相当于“Milan”Epyc 7003的两倍以上。

虽然纯粹就带宽参数而言,AMD的方案远无法与英特尔的Max系列相提并论,但其足以带来很大改进、特别是在核心数较少的产品当中。另外,因为AMD使用的是常规DDR5内存,所以不用像英特尔至强Max那样依靠软件进行内存分层。

根据Tease的介绍,在核心和内存带宽的平衡性方面,英特尔具有“明显优势”。他表示,“希望HBM能在行业当中得到更广泛的推广。”不止是Tease,不少行业知名人士也都把HBM看作HPC和AI类工作负载的提速关键。

AMD的X技术

如果不跟AMD的X系列旗舰芯片比较,我们很难讨论英特尔的Max系列CPU。前者的方案是在CPU晶片上添加HBM层SRAM,借此放大L3缓存。

在去年11月底的AMD加速数据中心线上会议期间,随着Milan-X的公布,这项新技术也首度亮相。AMD使用一种名为3D-V-Cache的高级封装技术在核心复合晶片(CCD)上叠加了额外的SRAM,这样就能为每晶片增加额外的64 MB L3缓存,总容量达96 MB。在其旗舰级芯片上,L3缓存更是高达768 MB。

通过将更多工作负载交给L3缓存,AMD宣称这能显著提高带宽密集型工作负载的吞吐量——在Synopsys VCS测试中,吞吐量提高了66.4%。

然而,目前Tease和Panziera都还没有选择3D-V-Cache产品,阻碍他们的似乎主要是性价比。

Panziera表示,“到目前为止,从所有应用程序和基准测试结果来看——这里我们只讨论HPC,性能的提升与价格的上涨幅度并不匹配。更大的缓存确实带来了提升,但对HPC来说意味没那么大。”

在Tease看来,HBM才是更有希望的灵活介质。“确实有一部分工作负载,比如用于CFD类工作负载的EDA,能够在大缓存中带来出色的性能表现。可一旦其体积超出缓存极限,就仍然得借助主内存,导致速度减缓。HBM则有更大的几率承载全部代码,充分发挥访问率带来的性能优势。”

AMD尚未公布关于Genoa-X的详细信息,但可以推测其将搭载比即将推出的Milan-X更大的缓存。

请继续拉升主频

Panziera表示,过去10到15年间,CPU的基本时钟速率始终停留在2 GHz到3 Ghz之间。

原因倒是可以理解:芯片中包含的核心越多,驱动时钟速率的功耗就越低。结果就是,长久以来时钟速率一直原地踏步。

英特尔的第四代至强SP在延迟数月后,已经在今年1月公布。不出所料,只有少部分芯片提供3 GHz的基频标定,而且即使是在Turbo模式下极限频率也不到4.1 GHz。

可以肯定的是,这代表着一种潜在的改进方向,但提升时钟频率本身对性能的贡献其实难以预测。因为其是由复杂的算法所决定,这些算法会权衡温度、功率配额、内核负载甚至是指令集,从而综合确定各个核心应提升多高。因此,我们只能按基本时钟频率来计算,这才是稳定可靠的可用计算资源——除非芯片因过热而损坏。

AMD在此之前的发展思路也是如此。但随着Zen 4架构的推出,AMD全面拥抱台积电效率更高的5纳米制造工艺,其拥有更高的整体热设计功耗(TDP),因此Genoa的表现全面升了一个档次。AMD目前已经有多款高性能(F)SKU的主频超过4 GHz,而由此带来的直接结果就是更高发热量。

所以已知的条件是,Zen 4架构能推动更高的时钟频率,而且消费级Ryzen处理器用的也是这套架构。AMD公司的16核7950X具有4.5 GHz基础时钟,如果将功率加大到230瓦则可推高至5.7 GHz。虽然不是每个核心都有这么大的弹性空间,但趋势仍令人欣喜。

Tease认为,“我们有点迷失在多核心当中了。”他更希望芯片制造商能在HPC类产品中提供更高的核心主频。“其实真正需要96核或128核心的客户非常非常少。如果保持8核到16核但把主频推到4 GHz以上,效果会更好。”

不远处的APU

时至今日,GPU已经替代CPU成为性能提升的主要驱动力,近年来这股工作负载加速趋势已愈发显著。

Tease表示,“CPU在服务器领域的主要性能贡献者身份已经有所变化。在大多数情况下,如今的CPU扮演的更像是流量督导者的角色。”

因此,芯片制造商不妨将二者结合起来,即全面实现CPU与GPU的大融合。这当然不是什么新观点,毕竟以轻薄为卖点的超级本向来配备的就是这类硬件。

AMD最近展示了即将推出的Instinct MI300加速处理单元(APU),该单元非常聪明地采用了小芯片加3D封装技术。MI300A包含9个5纳米加4个6纳米小芯片,如果按AMD的以往设计习惯,我们猜测其应该会包含两组HBM。

去年2月发布预览的英特尔“Falcon Shores”CPU-GPU混合处理器也遵循类似的设计思路。即将推出的“Ponte Vecchio”GPU和“Rialto Bridge”GPU核心,都是把X86 CPU核心和Xe图形核心加以结合。目前Falcon Shores的已知细节仍然不多,但我们知道跟AMD MI300系列一样,Falcon Shores也将包含CPU、GPU以及共享的“极限带宽” 内存池——也许是HBM3堆叠内存或者别的什么。英特尔坚持将这类设备称为XPU,并将采用最先进的Angstrom-era制造技术。

虽然不完全相同,但英伟达的Grace-Hopper超级芯片的设计思路其实也跟AMD MI300和英特尔Falcon Shores区别不大。更重要的是,该设计是把一块带有512 GB LPDDR5X内存的Grace CPU晶片跟一块带有80 GB HBM的Hopper GPU晶片封装在一起,并通过高速NVLink端口互连。其产品定位就是要在市场上全面击溃AMD和英特尔。

但这样的转变也给原始设备制造商带来了不小的挑战。头号难题就是发热量管理。如今,主流CPU的功耗已经超过400瓦,GPU的功耗更是直逼600瓦。Tease表示,“我预计某些APU的功率将会超过1000瓦。”

到了这个阶段,液冷系统就不再是锦上添花的选项、而是必不可少的基本配置。

另一个挑战在于软件支持。虽然英特尔和英伟达有着悠久的芯片支持软件开发历史,但AMD相比之下却有点经验不足。Tease评论道,“我们很喜欢MI300和MI400的设计思路和路线图,但对其软件生态系统仍抱有怀疑。对于想要批量使用的客户来说,AMD家的产品还做不到纯交钥匙的程度。”

Panziera对于Arm处理器开发软件的成熟度也表达了类似的担忧,这影响的明显是英伟达的Grace。“你可能会遇到这样的情况:有70%的应用程序可以在这个平台上启动并运行,但另有30%怎么也跑不起来,所以只能重新回到X86之类的成熟架构。”

毫无疑问,将CPU和GPU混合起来的方案能够解决某些现有HPC瓶颈,但仍不足以扫荡一切。而且我们还不确定这种新设计对于AI训练和数据分析类工作负载有何帮助。前景仍不明朗,我们将持续关注。返回搜狐,查看更多

责任编辑:

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-01-26 14:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

专访英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立
代号Sapphire Rapids的第四代英特尔至强可扩展(Intel Xeon Scalable)处理器终于在1月11日发布
2023-01-22 08:00:00
防止踩坑!英特尔CPU选购指南及推荐-泰盛国际
...户体验和娱乐效果产生深远影响。因此,选购一款合适的英特尔CPU是打造一台性能卓越电脑的关键步骤。以下是泰盛国际小编整理的一份详细的选购指南,希望能帮助您根据自己的需求和预算做
2024-10-29 17:05:00
英特尔亮相2023开放原子全球开源峰会
...内外开源骨干企业和社会组织负责人参加峰会。大会上,英特尔分享了其赋能全栈软件的开放生态战略,也向参会用户介绍了关于开源技术在云计算、AI和操作系统上应用的最新进展,展示了多项
2023-06-27 08:39:00
cpu选购时应该注意什么,英特尔及amd锐龙选购注意事项
...,也就是我们常说的性能。目前市面上主要的CPU厂商就是英特尔以及AMD,其中英特尔的酷睿系列目前也已经达到了第12代,性能方面得到了大幅的提升;而AMD的锐龙也在近些年开始发
2023-01-06 09:07:00
ChatGPT爆火后,如何跳脱算力困局?
英特尔7大算力神器助力极致算力。“请代替基金经理写一段年终总结”,“如何评价春节档电影大混战”,“请写出一段爬取网页内容的程序”……诸如此类问题,OpenAI开发的ChatGPT
2023-02-22 17:40:00
锐龙能效比到底好在哪?R7 7840H实测给你答案
...。这次使用的测试平台配置如下:处理器:AMD锐龙7-7840H/英特尔酷睿i7-13700H显卡:NVIDIAGeForceRTX4060笔记本电脑GPU(140W)内存
2023-09-25 20:32:00
尽管英特尔的核心显卡性能一直不尽如人意,但近两年的提升速度显著,特别是随着XeGPU的快速发展,核心显卡也得到了显著的提升。据悉,英特尔的下一代产品代号为MeteorLake,将
2023-08-03 21:21:00
英特尔正在开发royalcore和cobracore核心
...消息,韩国科技媒体Gamma0burst于9月13日发布博文,报道称英特尔正在开发RoyalCore和CobraCore核心
2024-09-19 07:14:00
英特尔battlemageg21核心代码曝光
5月13日消息,X平台人士@miktdt发现,英特尔近日向oneAPIDPC++编译器的LLVM文档添加了bmg_g21(BattlemageG21
2024-05-13 10:40:00
更多关于科技的资讯:
2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动开幕
8月16日,作为商务部2025服务消费季系列活动之一,2025“爽爽贵阳·世界风味嘉年华”暨“爽爽贵阳·咖啡飘香”系列活动在贵阳市观山湖区阿云朵仓开幕
2025-08-17 21:02:00
360集团20周年庆典:官宣“All in Agent”战略
8月15日,360集团迎来二十周年,在北京奥林匹克体育中心举办的“360集团20周年荣耀庆典”上,创始人周鸿祎向现场数千名员工发表演讲
2025-08-17 13:03:00
培育壮大十大千亿级产业集群丨天为铝业:弃“建”逐“工” 产业迈入新“铝”程
十堰广电讯(全媒体记者 喻波 叶旭升 通讯员 杜达巍)面对建筑型材市场的激烈竞争,今年,湖北天为铝业科技有限公司果断转型
2025-08-17 19:24:00
7月25日,位于邢台市沙河市的河北德金玻璃有限公司三线生产车间,两条生产线上不同规格的玻璃从自动传送带缓缓下线,一台台机械臂来回抓取新鲜出炉的玻璃原片
2025-08-17 07:29:00
90后寒门CEO,帮了雷军一个大忙
小米汽车YU7爆单后,车越欠越多,根本交付不完。即便雷军7月10日称小米汽车交付已超过30万台,但后面还有小米YU7迫在眉睫的24万个新订单
2025-08-16 15:53:00
用AI帮中小企业傻瓜式获客,这个营销Agent收入每月增长150%
文|邓咏仪编辑|苏建勋2024年中离开阿里,开始在Agent赛道创业时,郭振宇面临不少质疑:到底是做AutoAgent(自主代理
2025-08-17 02:24:00
“产业链上的山东好品牌”青岛市系列现场媒体见面会|现代轻工产业链专场——利和味道(青岛)食品产业股份有限公司
鲁网8月16日讯8月15日,在青岛鑫复盛集团有限公司,青岛市政府新闻办举行“产业链上的山东好品牌”青岛市系列现场媒体见面会第三场——现代轻工产业链专场
2025-08-16 09:40:00
通讯员 张汶宁8月14日,山东泰安举办“产业链上的山东好品牌”泰安企业家系列记者见面会首场活动。泰开集团、泰和电力、山东瑞福锂业
2025-08-16 09:56:00
聚焦长春农博会 |流量经济直播间首秀 “千万销量”引爆“线上农博”
8月15日,第二十四届长春农博会开幕首日,长春农博园3号馆内气氛热烈,吉林省流量经济赋能电商直播首场活动正式拉开帷幕。联合抖音
2025-08-16 10:29:00
首店经济引爆消费热潮,万达“提质提级”重构齐鲁商业生态
8月15日,盒马鲁中首店于淄博富力万达广场盛大开业。这不仅标志着盒马成功布局山东第七城,其开业即火爆的盛况,更凸显了“首店经济”在激发区域消费活力中的关键引擎作用
2025-08-16 10:30:00
新闻发布在一线|产业链上的“枣庄辣子鸡”串起富民增收路年销售额突破50亿元
鲁网8月16日讯近日,“产业链上的山东好品牌”枣庄市新型商贸物流产业链专场记者见面会在枣庄辣子鸡博物馆举行。见面会聚焦枣庄辣子鸡产业
2025-08-16 12:01:00
助力乡土好物跃上云端 汇丰海传媒助农电商平台正式成立
鲁网8月16日讯(记者 于胜涛)8月15日,位于即墨区龙润卓越中心的青岛汇丰海文化传媒有限公司正式开业,由其打造的助农电商平台同步启动
2025-08-16 13:12:00
潍坊昌乐培茁种业:数字赋能,“慧”就现代农业“新蓝图”
大众网记者 王帅 潍坊报道在潍坊昌乐这片被誉为“中国西瓜之乡”的热土上,一座占地4.5万平方米的现代农业科技创新高地正在改写传统农业的基因
2025-08-16 16:01:00
京东收购佳宝超市:全港三天八折,还有6万份长者月饼礼盒暖人心
8月16日,继昨日官宣完成对香港佳宝食品超级市场(以下简称“佳宝”)的收购后,京东在香港佳宝门店举行记者见面会,宣布将通过自身的供应链优势
2025-08-16 16:28:00
“窝囊蹦极”“窝囊爬山”“窝囊漂流”,这个夏天,“窝囊废旅游三件套”在社交平台刷屏。浙江安吉龙出没大峡谷的“躺平漂流”单日门票销售额逼近40万元
2025-08-16 16:55:00