• 我的订阅
  • 科技

从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了

类别:科技 发布时间:2024-09-21 09:37:00 来源:机器之心Pro
从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了

大语言模型(LLM)的发展同时往往伴随着硬件加速技术的进化,本文对使用 FPGA、ASIC 等芯片的模型性能、能效表现来了一次全面概览。

对人类语言进行大规模建模是一个复杂的过程,研究人员花了几十年的时间才开发出来。这项技术最早可追溯于 1950 年,当时克劳德・香农将信息理论应用于人类语言。从那时起,翻译和语音识别等任务取得了长足的进步。

在这个过程中,人工智能 (AI) 和机器学习 (ML) 是技术进步的关键。ML 作为 AI 的一个子集,其允许计算机从数据中进行学习。一般来说,ML 模型要么是有监督的,要么是无监督的。

在接下来要介绍的这篇论文中《 Hardware Acceleration of LLMs: A comprehensive survey and comparison 》,来自西阿提卡大学的研究者重点介绍了有监督模型。

从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了

论文地址:https://arxiv.org/pdf/2409.03384

根据论文介绍,深度学习模型分为生成式和判别式。生成式人工智能是深度学习的一个子集,它使用神经网络来处理标记和未标记的数据。大型语言模型 (LLM) 有助于理解字符、单词和文本。

2017 年,Transformer 彻底改变了语言建模。Transformer 是一种神经网络,它使用注意力机制处理长期文本依赖关系。谷歌于 2017 年创建了第一个用于文本翻译的 Transformer 模型。Transformer 此后不断发展,改进了注意力机制和架构。发展到今天,OpenAI 发布的 ChatGPT 是一个著名的 LLM,它可以预测文本并能回答问题、总结文本等。

本文对使用硬件加速器来加速 Transformer 网络所做的一些研究工作进行了全面的调查。该调查介绍了已提出的框架,然后对每个框架的技术、处理平台(FPGA、ASIC、内存、GPU)、加速、能源效率、性能(GOP)等进行了定性和定量比较。

FPGA 加速器

在这一部分中,作者以 A-T 编号的方式列举了有关 FPGA 的研究,可谓调查的非常详细。每项研究都用简短的几句话概括,阅读起来简单又清晰。举例来说:

FTRANS 。2020 年,Li 等人提出了一种硬件加速框架 FTRANS,旨在加速基于 Transformer 的大规模语言表示。FTRANS 显著提高了速度和能效,超越了 CPU 和 GPU 实现,在一系列比较后显示 FTRANS 比其他方案快 81 倍,能效高 9 倍,特别是与使用 VCU118 (16nm) 的 GPU 处理器 RTX5000 相比。该加速器的性能速率为 170 GOP,能效率为 6.8 GOP/W。

多头注意力。2020 年,Lu 等人提出了一种基于 FPGA 的架构,用于加速 Transformer 网络中计算最密集的部分。在他们的工作中,他们为两个关键组件提出了一种新型硬件加速器,即多头注意力 (MHA) ResBlock 和位置前馈网络 (FFN) ResBlock,它们是 Transformer 中最复杂的两个层。所提出的框架是在 Xilinx FPGA 上实现的。根据性能评估,与 V100 GPU 相比,所提出的设计实现了 14.6 倍的加速。

FPGA NPE。2021 年,Khan 等人提出了一种用于语言模型的 FPGA 加速器,称为 NPE。NPE 的能源效率比 CPU(i7-8700k)高约 4 倍,比 GPU(RTX 5000)高约 6 倍。

除此以外,文中还介绍了 ViA 、 FPGA DFX 、 FPGA OPU 等研究,这里就不再详细介绍了。

基于 CPU 和 GPU 的加速器

TurboTransformer。2021 年,Jiarui Fang 和 Yang Yu 推出了 TurboTransformers 加速器,这是一种在 GPU 上专为 Transformer 模型打造的技术。TurboTransformers 在可变长度输入的延迟和性能方面优于 PyTorch 和 ONNXRuntime,速度提高了 2.8 倍。

Jaewan Choi。2022 年,研究员 Jaewan Choi 发表了题为「Accelerating Transformer Networks through Rewiring of Softmax Layers」的研究,文中提出了一种加速 Transformer 网络中 Softmax 层的方法。该研究引入了一种重新布线技术来加速 Transformer 网络中的 Softmax 层,随着 Transformer 模型处理更长的序列以提高准确率,这项技术变得越来越重要。所提出的技术将 Softmax 层划分为多个子层,更改数据访问模式,然后将分解的 Softmax 子层与后续和前面的过程合并。该方法分别将 BERT、GPT-Neo、BigBird 和 Longformer 在当前 GPU 上的推理速度加快了 1.25 倍、1.12 倍、1.57 倍和 1.65 倍,显著减少了片外内存流量。

SoftMax。2022 年,Choi 等人提出了一种通过重组 Softmax 层加速 Transformer 网络的新框架。Softmax 层将注意力矩阵的元素归一化为 0 到 1 之间的值。此操作沿注意力矩阵的行向量进行。根据分析,缩放点积注意力 (SDA) 块中的 softmax 层分别使用了 BERT、GPT-Neo、BigBird 和 Longformer 总执行时间的 36%、18%、40% 和 42%。Softmax 重组通过显著减少片外内存流量,在 A100 GPU 上对 BERT、GPT-Neo、BigBird 和 Longformer 进行推理时实现了高达 1.25 倍、1.12 倍、1.57 倍和 1.65 倍的加速。

此外,论文还介绍了 LightSeq2 、 LLMA 、 vLLMs 等研究。

ASIC 加速器

A3。2020 年,Hma 等人提出了一项关于 Transformer 网络加速的早期研究,称为 A3 。不过,研究人员所提出的方案尚未在 FPGA 上实现。基于性能评估,与 Intel Gold 6128 CPU 实现相比,所提出的方案可实现高达 7 倍的加速,与 CPU 实现相比,能效可提高 11 倍。

ELSA。2021 年,Ham 等人提出了一种用于加速 Transformer 网络的硬件 - 软件协同设计方法,称为 Elsa 。ELSA 大大减少了自注意力操作中的计算浪费。

SpAtten。2021 年,Want 等人提出了一种用于大型语言模型加速的框架 Spatten。SpAtten 采用新颖的 NLP 加速方案,以减少计算和内存访问。SpAtten 分别比 GPU(TITAN Xp)和 Xeon CPU 实现了 162 倍和 347 倍的加速。在能源效率方面,与 GPU 和 CPU 相比,SpAtten 实现了 1193 倍和 4059 倍的节能。

在这部分,作者还列举了加速 transformer 网络的新方法 Sanger、用于提高自然语言处理中 transformer 模型效率的 AccelTran 等多项研究。

内存硬件加速器

ATT。2020 年,Guo 等人提出了一种基于注意力的加速器加速方法,称为 ATT,该方法基于电阻性 RAM。根据性能评估,ATT 与 NVIDIA GTX 1080 Ti GPU 相比,可以实现 202 倍的加速。

ReTransformer。2020 年,Yang 等人提出了一种用于加速 Transformer 的内存框架,称为 ReTransformer。ReTransformer 是一种基于 ReRAM 的内存架构,用于加速 Transformer,它不仅使用基于 ReRAM 的内存架构加速 Transformer 的缩放点积注意力,而且还通过使用提出的矩阵分解技术避免写入中间结果来消除一些数据依赖性。性能评估表明,与 GPU 相比,ReTransformer 可以实现高达 23.21 倍的加速,而相应的整体功率降低了 1086 倍。

iMCAT。2021 年,Laguna 等人提出了一种用于加速长句 Transformer 网络的新型内存架构,称为 iMCAT。该框架结合使用 XBar 和 CAM 来加速 Transformer 网络。性能评估表明,对于长度为 4098 的序列,这种方法实现了 200 倍的加速和 41 倍的性能改进。

除此以外,该章节还介绍了 iMCAT 、 TransPIM 、 iMTransformer 等研究。

定量比较

下表 I 列出了目前所有的硬件加速器以及各自的主要特性,包括加速器名称、加速器类型(FPGA/ASIC/In-memory)、性能和能效。

在某些情况下,当提出的架构与 CPU、GPU 进行比较时,以往的工作也会提及加速这一指标。不过,由于每种架构的基线比较不同,因而本文只展示了它们的绝对性能和能效,而没有涉及加速。

我们可以看到,采用 14nm 工艺的 AccelTran(服务器)实现最高性能,达到了 372000 GOPs,而 ReTransformer 模型的性能最低。此外,ViA、Me-ViT 和 Ftrans 等采用相同工艺技术的模型并没有实现相似的性能。

不过,对于没有采用相同工艺技术的加速器,则很难进行公平比较。毕竟,工艺技术会对硬件加速器性能产生显著的影响。

能效 vs 工艺技术

下图 3 展示了大多数硬件加速器的能效(GOPs/W)水平,图 4 展示了对数尺度层面的能效。由于很多架构没有测量能效,因而本文只列出了提供了能效的加速器。当然,很多加速器采用了不同的工艺技术,因此很难进行公平比较。

结果显示,以内存为主(In-Memory 加速器)的模型具有更好的能效表现。原因在于数据传输减少了,并且这种特定的架构允许数据在内存中直接处理,而不需要从内存传输到 CPU。

16nm 工艺下的加速比较

下表 II 展示了 16nm 工艺下,不同硬件加速器的外推性能。

下图 5 展示了当在相同的 16nm 工艺技术下外推性能时,不同硬件加速器的绝对性能,其中 AccelTran 的性能水平最高。

实验外推

本文针对 FPGA 架构进行了实验外推,并测试了 20nm、28nm、40nm、 55nm、65nm 和 180nm 工艺下技术不同的矩阵乘法代码,以验证 16nm 工艺的理论转换效果。研究者表示,FPGA 技术上的矩阵乘法结果有助于外推不同硬件加速器在相同工艺技术上的结果。

下表 III 展示了不同 FPGA 设备、工艺技术以及矩阵乘法 IP 核的结果。

下图 6 展示了每种 FPGA 设备和矩阵乘法工艺技术的最大时钟频率。由于 FPGA 的性能依赖于最大时钟频率,因此外推性能使得不同工艺技术下架构之间能够实现公平比较。

从架构、工艺到能效表现,全面了解LLM硬件加速,这篇综述就够了

更多实验细节请参阅原论文。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-21 11:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

AI时代 CPU依然是中流砥柱!AMD EPYC树立新标杆
...是AI推理,都对硬件算力提出了空前苛刻的极高需求,GPU加速器、FPGA/ASIC加速器等各种专用硬件变得异常火爆
2023-12-07 22:19:00
ai生命周期:ai训练和ai推理的完美结合
...规模的算力。在这一阶段,往往优先使用大规模并行的GPU加速器或专用的AI加速器,有时候根据情况也可以使用超高性能的CPU处理器。AI推理则是基于训练好的模型,实时处理输入的数
2024-03-15 02:13:00
AI大算力芯片行业报告:百舸争流,创新者先
...倍以上,能效提升超过300倍;三星表示,与仅配备HBM的GPU加速器相比,配备HBM-PIM的GPU加速器一年的能耗降低了约2100GWh
2023-06-20 20:00:00
intel造了一颗“算力存力核弹”
...单颗处理器的功耗直飚500W——当然,跟同期发布的GaudiAI加速器的新品或类似的加速器产品相比,能耗是应有的代价,有能力提升性能上限才是正经事。内存性能大跃进内存(DRA
2024-09-27 11:45:00
22年后英特尔放弃了超线程!Lunar Lake架构深度解析
...图形性能提高了1.5倍。全新的XMX矩阵扩展单元作为第2个AI加速器,可以提供高达67TOPS的性能,为AI内容创作提供出色的吞吐量
2024-06-06 21:09:00
英特尔发布至强6能效核处理器:全E核设计加速数据中心能效升级
...持CXL2.0的Type1、Type2以及Type3设备。该新标准将使计算机与加速器、内存扩展器和其他设备等组件更容易地进行连接与通信
2024-06-08 12:55:00
把AI带到桌面端!英特尔酷睿Ultra 200S系列台式机处理器解析
...AI算力的调用尽管仍集中在GPU,但是已经倾向于采用多个加速器的异构算力配置,CPU、GPU、NPU协同作业可以针对不同场景和需求,灵活平衡负载功耗,满足高能效需求,特别是针
2024-10-11 23:44:00
为什么第三代骁龙8的性能如此优秀
...速单元、微区块推理单元以及性能加强的张量/标量/向量加速器。同时,由于HexagonNPU的向量加速器与内存直连,在执行量化、压缩和编译等任务更高效,时延也更低。因此,搭载第
2024-06-08 09:37:00
英特尔介绍未来一代至强处理器:能效核与性能核架构并存
...先优势 ,而GraniteRapids将进一步提高AI性能,通过内置的加速器能够为目标工作负载提供显著的性能和效率提升
2023-08-29 21:09:00
更多关于科技的资讯:
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战
2026-01-09 14:23:00
中国故事海外热播、“泰国模式”全球复制,爱奇艺探索流媒体出海的“长期主义”
2025年,是爱奇艺海外业务进入稳定期之后,增速最高的一年。第三季度,爱奇艺国际版日均会员数创下历史新高,海外会员收入同比增长超过40%
2026-01-09 14:53:00
为进一步优化知识产权服务供给,打通创新成果转化通道,提升知识产权公共服务效能,上饶市“人工智能+”知识产权大数据服务平台(http://shr
2026-01-09 15:04:00
从五金功能件制造者到智能睡眠守护者,喜安思“守护狮”的觉醒之路!
在珠江之畔制造业奔腾的脉搏里,总有一群敢想敢干敢拼的人,让这片沃土跃动出一个又一个传奇,而喜安思智能床垫就是其中之一,喜安思创始人梁富城与陈傲鹏更是其中佼佼者
2026-01-09 15:35:00
近日,【同程商旅】联合【曹操出行】,聚焦国内企业差旅交通全景,重磅发布《2026中国企业差旅交通出行数据研究报告》。发现价值“新流向”国际出行逆势增长
2026-01-09 15:35:00
悍高集团股份有限公司接待44家机构调研,战略清晰彰显经营韧性
随着家居行业逐步从增量市场迈向存量市场,家居五金企业如何找到新的增长曲线,成为考验企业战略定力与运营能力的关键。近期,悍高集团股份有限公司(董事长为悍高欧锦锋)接受包括百嘉基金
2026-01-09 15:35:00
蚂蚁集团两项AI突破获2025年教育部科学研究优秀成果奖一等奖
近日,教育部公布了2025年科学研究优秀成果奖(自然科学和工程技术)授奖名单。蚂蚁集团旗下支付宝(杭州)信息技术有限公司作为主要完成单位参与的“复杂语义场景下知识图谱关键技术与应用”与“复杂服务系统跨界融合关键技术与应用”两项成果
2026-01-09 16:25:00