• 我的订阅
  • 科技

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

类别:科技 发布时间:2024-08-10 09:52:00 来源:量子位

有CPU就能跑大模型,性能甚至超过NPU/GPU!

没错,为了优化模型端侧部署,微软亚洲研究院提出了一种新技术——T-MAC。

这项技术主打性价比,不仅能让端侧模型跑得更快,而且资源消耗量更少。

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

咋做到的??

在CPU上高效部署低比特大语言模型

一般来说,要想在手机、PC、树莓派等端侧设备上使用大语言模型,我们需要解决存储和计算问题。

常见的方法是模型量化,即将模型的参数量化到较低的比特数,比如4比特、3比特甚至更低,这样模型所需的存储空间和计算资源就会减少。

不过这也意味着,在执行推理时,需要进行混合精度的矩阵乘法运算(mpGEMM),即用低精度的权重和高精度的激活向量进行计算。

然而,现有的系统和硬件并不原生支持这种混合精度的矩阵乘法,因此它们通常需要将低精度的权重转换回高精度,这个过程叫做反量化(dequantization)。

但这种方法不仅效率低,而且当比特数进一步降低时,并不能带来性能上的提升。

对此,新技术T-MAC采用基于查找表(LUT)的计算范式,无需反量化,直接支持混合精度矩阵乘。

这样,T-MAC不仅提高了推理性能,还使得模型更加统一和可扩展,尤其适合在资源受限的端侧设备部署。

此外,T-MAC不依赖于专用的硬件加速器NPU或GPU,能够仅利用CPU部署模型。甚至在某些情况下,它的推理速度可以超过专用加速器。

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

T-MAC的关键创新在于采用基于查找表(LUT)的计算范式,而非传统的乘累加(MAC)计算范式。

T-MAC利用查找表直接支持低比特计算,从而消除了其他系统中必须的反量化操作,并且显著减少了乘法和加法操作的数量。

经过实验,T-MAC展现出了卓越的性能:

在配备了最新高通Snapdragon X Elite芯片组的Surface AI PC 上,3B BitNet-b1.58模型的生成速率可达每秒48个token,2bit 7B llama模型的生成速率可达每秒30个token,4bit 7B llama模型的生成速率可达每秒20个token。

这甚至超越了NPU的性能!

当部署llama-2-7B-4bit模型时,尽管使用NPU可以生成每秒10.4个token,但CPU在T-MAC的助力下,仅使用两核便能达到每秒12.6个token,最高甚至可以飙升至每秒22个token。

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

这些都远超人类的平均阅读速度,相比于原始的llama.cpp框架提升了4~5倍。

△BitNet on T-MAC (基于LUT) vs llama.cpp (基于反量化)

即使在较低端的设备如Raspberry Pi 5上,T-MAC针对3B BitNet-b1.58也能达到每秒11个token的生成速率。

同时,T-MAC也具有显著的功耗优势:

达到相同的生成速率,T-MAC所需的核心数仅为原始llama.cpp的1/4至1/6,降低能耗的同时也为其它应用留下计算资源。

值得注意的是,T-MAC的计算性能会随着比特数的降低而线性提高,这一现象在基于反量化去实现的GPU和NPU中是难以观察到的。

这进一步使得T-MAC能够在2比特下实现单核每秒10个token,四核每秒28个token,大大超越了NPU的性能。

采用新的计算范式

好了,说完了效果,咱们接着展开T-MAC的技术细节。

矩阵乘不需乘,只需查表 (LUT)

对于低比特参数 (weights),T-MAC将每一个比特单独进行分组(例如,一组4个比特),这些比特与激活向量相乘,预先计算所有可能的部分和,然后使用LUT进行存储。

之后,T-MAC采用移位和累加操作来支持从1到4的可扩展位数。

通过这种方法,T-MAC抛弃了CPU上效率不高的FMA(乘加)指令,转而使用功耗更低、效率也更高的TBL/PSHUF(查表)指令。

△混合精度GEMV基于现有反量化的实现范式 vs T-MAC基于查找表的新范式

以比特为核心的计算,取代以数据类型为核心的计算

传统的基于反量化的计算,实际上是以数据类型为核心的计算,这种方式需要对每一种不同的数据类型单独定制。

每种激活和权重的位宽组合,如W4A16(权重int4激活float16) 和W2A8,都需要特定的权重布局和计算内核。

例如,W3的布局需要将2位和另外1位分开打包,并利用不同的交错或混洗方法进行内存对齐或快速解码。

然后,相应的计算内核需要将这种特定布局解包到硬件支持的数据类型进行执行。

而T-MAC通过从比特的视角观察低比特矩阵乘计算,只需为单独的一个比特设计最优的数据结构,然后通过堆叠的方式扩展到更高的2/3/4比特。

同时,对于不同精度的激活向量(float16/float32/int8),仅有构建表的过程需要发生变化,在查表的时候不再需要考虑不同的数据结构。

△以比特为核心的查表计算混合精度GEMV

同时,传统基于反量化的方法,从4-比特降低到3/2/1-比特时,尽管内存占用更少,但是计算量并未减小,而且由于反量化的开销不减反增,性能反而可能会更差。

但T-MAC的计算量随着比特数降低能够线性减少,从而在更低比特带来更好加速,为最新的工作BitNet, EfficientQAT等发布的2-比特模型提供了高效率的部署方案。

比如下图展示了:

(1)使用不同端侧设备CPU的单核,T-MAC在4到1比特的混合精度GEMV算子相较llama.cpp加速3-11倍。

(2)T-MAC的GEMM耗时能随着比特数减少线性减少,而基于反量化的llama.cpp无法做到(1比特llama.cpp的算子性能由其2比特实现推算得到)。

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

高度优化的算子实现

概括而言,基于比特为核心的计算具有许多优势,但将其实现在CPU上仍具有不小的挑战:

与激活和权重的连续数据访问相比,表的访问是随机的。

表在快速片上内存中的驻留对于最终的推理性能尤为重要,然而,片上内存是有限的,查找表(LUT)方法相比传统的mpGEMV增大了片上内存的使用。

这是因为查找表需要保存激活向量与所有可能的位模式相乘的结果,这比激活本身要多得多。

△T-MAC与llama.cpp在计算数据流上的不同

为此,微软亚洲研究院的研究员们深入探究了基于查表的计算数据流,为这种计算范式设计了高效的数据结构和计算流程,其中包括:

1、将LUT存入片上内存,以利用CPU上的查表向量指令 (TBL/PSHUF) 提升随机访存性能。

2、改变矩阵axis计算顺序,以尽可能提升放入片上内存的有限LUT的数据重用率。

3、为查表单独设计最优矩阵分块 (Tiling) 方式,结合autotvm搜索最优分块参数

4、参数weights的布局优化:

a、weights重排,以尽可能连续访问并提升缓存命中率

b、weights交错,以提升解码效率

5、对Intel/ARM CPU做针对性优化,包括

a、寄存器重排以快速建立查找表

b、通过取平均数指令做快速8-比特累加

研究员们在一个基础实现上,一步步应用各种优化,最终相对于SOTA低比特算子获得显著加速。

例如,在实现各种优化后,T-MAC 4-比特算子最终相对于llama.cpp获得显著加速:

手机跑大模型提速4-5倍!微软亚研院开源新技术,有CPU就行

最后,T-MAC现已开源,相关论文已在arXiv公开,感兴趣可以进一步了解。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-10 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...成视频产品,人工智能应用再次成为各界瞩目焦点。尽管新技术高速发展中存在一定的风险和问题,但投资、企业界显现出布局加速趋势,迎接新技术时代到来。人工智能视效处理惊艳各界Open
2024-02-20 07:35:00
微软CEO纳德拉:谁拥有计算,谁就能主导世界
...利用这一市场潜力。通过支持初创企业,英伟达可以促进新技术和新业务模式的发展,这对于推动整个行业的创新和进步具有重要作用。通过初创加速计划,英伟达可以为中国创业企业提供本土化的
2024-05-27 14:00:00
...措施,也提及要利用超高清视频、虚拟现实、柔性显示等新技术,推进供给端技术创新和电子产品升级换代,支持可穿戴设备、智能产品消费,打造电子产品消费应用新场景。对此,小米集团高级副
2023-08-21 11:07:00
ChatGPT背后:一个天才、百亿融资和1亿日活 | 全球独角兽
...过Azure向企业提供付费API和AI工具。与此同时,拥有OpenAI新技术商业化授权,微软开始将OpenAI工具与自有产品进行深度集成
2023-02-08 15:16:00
加速AI落地企业!微软解读Copilot技术栈,云端混合大小模型是关键
...天,微软在Microsoft AI Day上集中展示了其在生成式AI上的最新技术突破与进展,包括一系列Azure AI新服务与新功能
2024-06-15 09:29:00
微软推出ZeRO++技术,可显著减少AI大模型训练时间和成本
微软研究人员日前推出了名为ZeRO++的新技术,用于优化在训练大型AI模型时,容易遇到的数据传输成本和带宽限制的难题,可显著减少大模型训练时间和成本。据悉,ZeRO++建立在现有
2023-06-27 22:15:00
微软OpenAI联盟的“裂痕”,藏不住了
...从图灵中赚钱。但据知情人士透露,纳德拉对微软研究院新技术集成到产品中的速度感到不耐烦。 相比之下,跟OpenAI合作取得商用进展的速度就快多了
2023-08-22 17:41:00
欧盟加大对AI巨头审查,OpenAI、微软与谷歌在列
...的这些举措凸显了全球监管机构对大型科技公司利用其在新技术领域的主导地位感到不安。当天,微软和谷歌股价分别下跌近2%
2024-07-01 09:15:00
小冰CEO李笛:别神话ChatGPT,创业公司还玩不转
...用Database的产品,它就面临一个问题,就是它需要升级到新技术上,它才能得到新技术的一些优点。如果它规模比较大,它比较成功的,那么相对来讲,它切换的难度就会大一些。我们以
2023-02-16 17:00:00
更多关于科技的资讯:
京东11.11直播技术全面升级,立影3D技术、JoyAI大模型重构沉浸式购物体验
随着京东 11.11 大促的火热进行,京东直播再度升级技术布局,以 “立影 3D 技术”“JoyAI大模型”等创新技术
2025-10-27 15:39:00
电机能效提升领域再添标杆!25 项产品 / 技术入选全国节能降碳示范名单
为深入贯彻国家 “双碳” 战略,加快电机领域节能降碳技术创新与成果转化,中国电子节能技术协会此前启动 “全国节能降碳示范产品 / 技术推荐” 征集工作
2025-10-27 15:42:00
吉刻现场|硬核登场!吉林选手角逐第三届全国博士后创新创业大赛
10月26日,第三届全国博士后创新创业大赛在福建泉州(晋江)开幕。本届大赛,吉林省派出23个项目团队组成的参赛队伍角逐三个大赛道
2025-10-27 14:09:00
厦心医院实现手术\
厦门网讯(厦门日报记者 楚燕 通讯员 许良友 付磊 刘云芳)10月23日,一项载入医学史册的创新手术在厦门大学附属心血管病医院(以下简称“厦心医院”)圆满完成
2025-10-27 08:11:00
新闻纵深·解码钢铁大模型|邯钢构建六大领域全链条智能大模型:“聪明大脑”带来极致能效
邯钢构建六大领域全链条智能大模型“聪明大脑”带来极致能效编者按当钢铁遇上人工智能,一场“智变”正悄然发生。为生动展现人工智能为钢铁产业生产
2025-10-27 08:12:00
第十一届NJSD软件开发者会议在软件谷举行江苏规模最大,1400名软件工程师在宁“聚会”南报网讯(记者于洁尘通讯员林园园)70多位业界“大咖”登台演讲
2025-10-27 08:20:00
南报网讯(通讯员郑瑞于品华杨刚记者徐宁)近日,南化公司自主研发的橡胶防老剂中间产品RT培司(4-氨基二苯胺)除盐技术取得突破
2025-10-27 08:21:00
南报网讯(通讯员杨淏涵记者张希)日前,南京林业大学与乐惠国际南京基地签署《校企全面合作协议》《产业研究院共建协议》,全面开启校企战略合作
2025-10-27 08:22:00
高效,是都市青年的通行证:InstaShake以“一杯营养”重塑健康生活方式 —— 新锐品牌以“零添加、无预制、纯手工”的坚守,为上海都市人群注入鲜活能量
在生活节奏不断加速的上海,追求健康与追求效率似乎成为一道单选题。然而,新锐健康饮品品牌InstaShake正以其独特的“零添加
2025-10-27 08:39:00
济宁银行锚定金融“五篇大文章” 多维发力赋能区域经济高质量发展
鲁网10月27日讯近年来,济宁银行围绕做好金融“五篇大文章”,深入洞察科技企业、中小微企业以及重点产业链金融需求,以产品创新破解融资难题
2025-10-27 11:07:00
汪昌莲据《经济日报》报道,“两三元就能买品牌饼干薯片”“上百种散装零食任意挑选”……从县城到乡镇,在街角与量贩零食店不期而遇已成逛街“标配”
2025-10-27 11:10:00
受冷空气影响,气温先降后升,27日早晨气温较低。26日夜间到27日白天晴间多云,北风转南风2~3级,最低气温市区4℃左右
2025-10-27 11:28:00
2025青岛虚拟现实创新大会将启,雷神科技聚焦信创生态构建
鲁网10月27日讯虚实无界,智享未来。2025青岛虚拟现实创新大会即将在崂山区拉开帷幕。2017年以来,由崂山区成功承办的虚拟现实创新大会
2025-10-27 11:48:00
长白时评评论员 唐小兰近日,北京一市民反映有陌生男子在她家中无人时,通过指纹解锁智能门锁多次进入她家。当事人焦女士告诉新京报记者
2025-10-27 13:38:00
“生物制药工艺与设备发展新趋势研讨会”于10月16日下午举行,麦济生物、艾捷博雅科技、碧博生物等企业的代表,就生物制药工艺优化与设备选型提供了新思路与新方法。责编:卢思宇、姚凯红
2025-10-27 10:19:00