• 我的订阅
  • 科技

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

类别:科技 发布时间:2024-10-23 12:05:00 来源:量子位

微软开源1bit大模型推理框架!

现在1000亿参数大模型量化后单CPU可跑,速度可达每秒5-7个token。

就是今年爆火论文The Era of 1-bit LLMs的官方代码实现,开源不到一周GitHub已揽获7.9k Star。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

传统大模型参数以16位浮点数(如FP16或BF16)形式的存储,而BitNet b1.58将其统统变成了三进制,也就是 {-1, 0, 1}。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

这里的“1.58 bit”指每个参数可以用1.58位的信息来表示。

转换之后,矩阵中的计算就只会涉及到加法,因此会让大模型在保持一定精度的同时,显著减少所需的存储空间和计算资源,也显著提升了在本地设备上运行LLM的可能性。

这个项目开源后,在X上也受到了一波高度关注。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

千亿参数模型量化后单CPU可跑

bitnet.cpp是1bit LLM(例如 BitNet b1.58)的官方推理框架。

该框架配备了一系列优化内核,支持在CPU上进行快速且无损的1.58bit模型推理,未来将扩展支持NPU和GPU。

bitnet.cpp的首版主要支持CPU推理。

具体性能改进方面,在ARM CPU上,该框架可实现1.37至5.07倍的加速,而且更大的模型将有更显著的性能提升。

同时,它能将能耗降低55.4%至70.0%,进一步增强效率。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

在x86 CPU上,加速效果介于2.37至6.17倍之间,能耗减少71.9%至82.2%。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

网友们也发现了华点,在x86上的性能增益量比ARM更大。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

此外,bitnet.cpp能使千亿参数模型量化后单CPU可跑,速度可达每秒5-7个token,接近人类阅读速度。

微软还展示了使用bitnet.cpp推理框架支持的不同1 bit LLM。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

6页论文,引入1 bit LLM

1 bit LLM的实现方法,微软在一年前就有相关研究,称为BitNet(一种Transformer),用BitLinear替换了nn.Linear。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

今年二月,BitNet原班人马在上一篇论文的基础之上做了优化,提出BitNet b1.58,在原始BitNet的基础上增加了一个额外的0值。

然后这篇内容只有6页的论文引发热议:

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

BitNet b1.58模型的权重被量化为三元值{-1, 0, 1},相当于在二进制系统中使用了1.58 bit来表示每个权重。

采用了absmean量化函数来约束权重,将权重矩阵通过其平均绝对值进行缩放,然后四舍五入到最接近的整数值(-1、0或1)。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

激活量化中,激活值被缩放到[−Qb, Qb]的范围,以此来消除零点量化。

在架构设计上,BitNet b1.58借鉴了Llama,使用了RMSNorm、SwiGLU、旋转位置编码等组件,并移除了所有偏置项。这种设计使其能够轻松集成到主流的开源框架中。

实验中,与Llama相比,BitNet b1.58在矩阵乘法方面节省了71.4倍的计算能耗。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

这种方法发布后,也有不少人在这项研究的基础之上进行探索。

其中一个问题是,BitNet b1.58将每个参数仅用三元值表示,但是所有这些都需要从头开始训练模型,并不是谁都有预算来进行LLM预训练。

而Huggingface Transformers最近整合了BitNet b1.58,运用了一些技巧,使得现有模型可以直接微调到1.58bit。

感兴趣的童鞋可以自行查阅。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

不过也有网友指出了这种方法的局限:

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

总之,1 bit LLM具有巨大的潜力。

但也正如网友所言,1 bit LLM关键还得是能在实践中证明自己。

微软开源爆火1bit大模型推理框架!千亿参数模型量化后单CPU可跑

参考链接:[1]https://github.com/microsoft/BitNet[2]https://x.com/rohanpaul_ai/status/1847814379657462201[3]https://x.com/rohanpaul_ai/status/1848172443258728860?s=46&t=iTysI4vQLQqCNJjSmBODPw[4]https://huggingface.co/blog/zh/1_58_llm_extreme_quantization

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

系统级玩家微软、苹果先后出牌,端侧大模型路径清晰了?
落地端侧被认为是大模型走向普及的关键。个人PC和智能手机是当前受众最为广泛的两大终端品类。2023年下半年以来,全球范围内各大PC、手机厂商纷纷通过硬件扩容,尝试将大模型在物理意
2024-06-21 09:16:00
DeepSeek“朋友圈”不断扩围:10家国内外云厂商宣布接入,供用户按需部署
...儿。1月20日,中国AI初创公司深度求索(DeepSeek)推出大模型DeepSeek-R1。作为一款开源模型,R1在数学
2025-02-06 07:23:00
蚂蚁自研知识增强大模型服务框架KAG,可显著提升知识推理准确率
...增强的专业智能体” 相关工作,并带来了知识图谱与大模型结合最新研发成果 —— 知识增强大模型服务框架 KAG。梁磊介绍,专业领域增强大模型服务框架 KAG 通过图谱逻辑符号引
2024-09-13 13:33:00
Meta提出“可持续思维链”,让大模型在连续潜空间中推理
今日值得关注的大模型前沿论文北大团队提出「自定义漫画生成」框架UniReal:通过学习真实世界动态实现通用图像生成和编辑苹果团队提出「可扩展视频生成」方法利用扩散 Transformer 进行视频运动迁移ObjCtrl-2
2024-12-13 09:19:00
微软连发3款Phi-3.5模型:128K上下文,首用MoE架构,部分性能超GPT-4o mini
...东西8月21日消息,今天,微软一口气甩出3款超强轻量级模型!微软本次发布的轻量级模型系列名为Phi-3.5,适合在内存和算力受限的环境中运行
2024-08-22 09:49:00
大模型新趋势之MoE:现状、挑战及研究方向
2024年,全球主流企业加快推出MoE大模型,1-5月发布千亿以上大模型均采用MoE优化架构,且数量超过近三年总和。MoE大模型架构凭借平衡大模型训推成本和计算效率等优势,更适合
2024-11-04 16:00:00
微软推出14b参数“最先进”小型语言模型
...13日消息,微软今天宣布推出14B参数“最先进”小型语言模型(SLM)Phi-4,除了传统的语言处理外,它还擅长数学等领域的复杂推理
2024-12-14 00:08:00
微软发布旗下最小语言模型phi-2
...会已拉开帷幕,微软在本次活动中发布了旗下最小的语言模型Phi-2,共有27亿参数,相比较此前版本有明显提升。注:微软于今年6月发布Phi-1,只有13亿代码,适用于QA问答、
2023-11-17 14:00:00
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练中
2024-08-02 09:47:00
更多关于科技的资讯:
一年一度的天猫双11购物节再次引爆消费市场。但与往年不同,今年的关键词不再是简单的“低价”或“流量”,而是全面转向“效率”
2025-11-10 20:57:00
这个周末,朋友圈彻底被KPL总决赛刷屏了。这场赛事创下12秒售罄门票、6.2万人现场观赛的亮眼成绩,一举打破单场电竞赛事观众人数最多的吉尼斯世界纪录
2025-11-10 16:46:00
重获森林呼吸:“半亩森林”在杭发布新品,开启环境益生菌空气净化新纪元
2025年11月8日,杭州梦想小镇络绎科学社区迎来了一场充满科技想象与生活温度的创新体验活动——体验π|环境益生菌,开启“森林呼吸”新纪元
2025-11-10 15:40:00
武当山智慧旅游平台升级 多语种 AI 客服暖心上线
近日,武当山智慧旅游平台迎来重要升级,智能 AI 客服多语种功能正式上线,为全球游客打造无障碍智慧游览新体验,也标志着景区公共服务国际化水平迈上新台阶
2025-11-10 15:31:00
“双11”火到海外,全球网民纷纷加入抢购浪潮厦门空港迎来跨境电商出口高峰东南网11月10日讯(海峡导报记者孙春燕)一年一度的购物狂欢节——“双11”正在如火如荼的进行中
2025-11-10 11:19:00
中国银行与中国银联、华住集团举办提振消费主题签约活动
11月6日,中国银行携手中国银联、华住集团,在商务部、文旅部、人民银行上海总部、上海市政府的共同见证下,成功举办“聚力进博新引擎
2025-11-10 11:26:00
澳柯玛推出2026年风冷无霜、立式多系列冷柜新品
鲁网11月10日讯近日,“双擎智控,深冷领鲜”——澳柯玛2026年制冷营销峰会在青岛隆重召开。来自全国各地的合作伙伴、渠道商及主流媒体代表齐聚一堂
2025-11-10 11:31:00
赛德斯耳机产品线深度盘点:以精准科技满足全场景音频需求
在竞争激烈的音频市场,一个品牌能否立足,关键在于其产品线能否精准覆盖多元化的用户场景。游戏耳机品牌赛德斯(SADES)通过其精心布局的耳机产品矩阵
2025-11-10 12:08:00
神都镜像照见数字文明 作家维摩眼中的“河洛智慧”
大河网讯(记者 赵檬)在千年古都洛阳的深厚文明积淀与瞬息万变的互联网浪潮之间,一场跨越时空的对话正在展开。11月5日,作家维摩参加了2025河南省网络文明大会
2025-11-10 12:39:00
2025青岛虚拟现实创新大会|专访自然语义(青岛)科技有限公司CMO薛铮:以轻量化“语义桥梁”助推虚拟现实产业智能升级
鲁网11月10日讯 (记者 尤奕钧 刘晓伟)人工智能技术快速发展,离不开其背后的核心驱动力——自然语言处理(NLP),NLP依赖于算法和模型分析
2025-11-10 11:34:00
卖场变生活场能否“赢”客?解码五缘湾商圈零售新生态
京东MALL的DIY电竞区人气高。(京东MALL 供图)五缘湾天虹超市将闽南古早味引进精品区。(记者 庄筱婧 摄)五缘湾天虹超市将“烟火市集”升级为顾客的“星级家庭后厨”
2025-11-10 08:13:00
在2025年世界互联网大会乌镇峰会主论坛上,国家移民局、国家网信办联合发布外国人资讯服务App——SinoGuide。SinoGuide旨在帮助外国人更好融入并体验中国丰富便捷的数字化服务
2025-11-10 09:49:00
本报讯(全媒体记者黄祥晟、罗晋粤)11月8日,在2025年世界互联网大会乌镇峰会“互联网之光”博览会现场,从算力基建到智能产品
2025-11-10 07:03:00
11月7日从太原福莱瑞达科技有限公司获悉,2025年度“机械工业科学技术奖”获奖名单日前公示,福莱瑞达与太原科技大学联合研发的“多形态货物的智能抓取与装车技术及装备”项目
2025-11-10 07:19:00
江苏南京:以“智”赋“能”,南京AI军团点亮智能制造
建模降本、“鹰眼”护安全、机器人夜检地铁……以“智”赋“能”,南京AI军团点亮智能制造□南京日报/紫金山新闻记者 徐宁周容璇 实习生黄倩以“激光扫描+AI建模”
2025-11-10 08:00:00