• 我的订阅
  • 科技

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

类别:科技 发布时间:2024-12-30 09:11:00 来源:量子位

好家伙!1750亿参数的GPT-3只需20MB存储空间了?!

基于1.58-bit训练,在不损失精度的情况下,大幅节省算力(↓97%)和存储(↓90%)。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最近,从事机器学习的Will小哥发了一篇论文,直接引来几十万网友or同行围观。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

他提出了一项名为“noise_step”的新技术,允许模型直接在1.58-bit低精度下训练,且无需反向传播或动量(Momentum)加速,从而降低算力和存储消耗。

对此,网友们也纷纷发来祝贺,表示很高兴看到模型越来越具有性价比。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

话不多说,来看论文具体内容。

反向传播不需要了

简单说,noise_step的目标是通过降低模型训练的精度要求,来减少算力和存储消耗。

一开始,作者提到前人研究已经表明,大语言模型(LLM)的推理可以在1.58-bit精度下进行,且不会有任何性能损失。

比如下面这篇论文,有人引入了1-bit的LLM变体(即BitNet b1.58),其中LLM的每个参数或权重都是三元的{-1, 0, 1}。

它在困惑度(perplexity)和最终任务性能上与全精度(FP16或BF16)的Transformer LLM相匹配,同时在延迟、存储、吞吐量和算力消耗方面成本更低。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

然而,上述变体是在推理时使用低精度,而在训练时仍需高精度权重。

因此,noise_step的一个核心区别是:无需反向传播。

允许模型直接在1.58-bit(三元)精度下进行训练,而不需要传统的反向传播(从后向前检查每一层)或动量方法。

注:反向传播(Backpropagation)是训练神经网络的核心算法,它通过反向逐层计算损失函数对每个权重的梯度,来反向逐层更新网络的权重,从而最小化损失函数。

具体而言,will小哥参考了《Gradients without Backpropagation》这篇论文,其中介绍了雅可比向量积(Jacobian Vector Product,JVP)这种不依赖反向传播的梯度估计方法。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

简单说,通过在前向传播中引入随机性,可以生成一个随机向量。这个随机向量与目标函数的梯度之间的对齐可以通过计算JVP来评估。

通过在多个随机方向上重复JVP计算,可以收集足够的信息来估计整个梯度向量,从而实现不依赖于反向传播的梯度估计。

will小哥的具体方法如下:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

训练成本打下来了

上述方式意味着,noise_step允许使用更稀疏的随机向量和简单的对齐值。

要知道传统的梯度计算需要大量计算资源,而noise_step由于不需要存储或传输大量数据,从而减少了存储使用。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

此外,由于noise_step使用伪随机噪声,它只需要一个种子(初始值)就能复现整个训练过程,这意味着不需要存储大量的扰动向量,从而进一步减少了存储需求。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

而且使用noise_step训练的模型可以存储训练步骤而非权重,这可能会大幅缩小模型尺寸,从而更快地下载模型。

按照will小哥的说法,也许今后一秒钟内下载一个SOTA模型?

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

同时由于上面提到的伪随机噪声方法,这种特性允许恢复权重的完整历史,因为每个步骤都是确定性的,并且可以独立于其他步骤进行计算。

因此微调将变得更加高效,甚至可能允许对过去的训练步骤进行编辑,例如翻转(negation)或屏蔽(masking)。

举个例子,如果发现某个训练步骤对模型性能产生了负面影响,可以对其进行调整而不必重新训练整个模型。

也就是说,人们在训练过程中能进行更精细的控制和调整了。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最后,作者认为这种方式尤为适合分布式训练。

在分布式训练中,通常需要在不同的计算节点之间同步梯度和优化器状态,这会限制训练的速度。而noise_step通过减少每个扰动所需的位数,显著降低了通信量,从而提高了分布式训练的效率。

不过这也导致模型泄露变得更加容易,因为整个模型可以通过几个字节的训练步骤来传输。

对了,will小哥表示JVP可以和正常推理并行运行,几乎不增加成本。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

除了论文,他也提供了一个CPU实现过程:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

One More Thing

BTW,小哥在上分享完论文后,还顺带吐槽arXiv不给理由就拒绝了这篇论文。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

后来他才补充,原来是卡在了背书(endorse)这一项,也就是需要现有用户的推荐或通过其他方式获得背书。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

无奈之下,这篇论文目前被小哥放在了GitHub上。

感兴趣的童鞋可以进一步查看。

论文:https://github.com/wbrickner/noise_step?tab=readme-ov-fileCPU实现过程:https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

参考链接:https://x.com/_brickner/status/1871348156786704657

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-30 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

【多彩新论】竞驰数据标注产业新赛道
今年以来,贵州以数智产业园为重要抓手,将数据标注产业作为发展数字经济的突破口,通过“公共数据牵引+行业数据赋能”双轮驱动,加快构建起覆盖数据采集、标注、交易、应用的全产业链生态。
2025-08-30 01:51:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。Strawberry里究竟有几个r,如今已经成为测试模型能力的黄金标准之一了
2024-09-09 13:36:00
【多彩新论】算力时代 用数字描绘的现实越来越清晰
九天川流出行大模型、“新一代多芯多算力”政企云平台、天翼云一体化计算加速平台......2024数博会发布的十大领先科技成果中,算力平台和大模型成为主流,而这些赋能各行各业的黑科
2024-08-29 04:40:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像
2023-01-30 16:34:00
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文
2024-10-13 14:15:00
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...问题,作为OpenAI草莓项目的开源版本。10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力
2024-11-06 09:49:00
【多彩新论】致敬逆流而上的你
受持续强降雨影响,黔东南州榕江县遭遇严重洪涝灾害。面对猛如虎的洪水,总有人逆行出征。你,舍身忘我奔赴抗洪救灾一线,争分夺秒筑起安全屏障。你,是武警,是外卖小哥,是志愿者……心手相
2025-06-26 04:35:00
【多彩新论】构建“数据生态圈” 释放乘数效应
2025数博会期间,“数据要素×”大赛贵州分赛颁奖仪式顺利举行。这不仅是一场赛事完美收官,更是一次数据要素价值释放的“成果检阅”。从赛事展现的产业融合案例中,一条数据要素发展的逻
2025-08-30 01:19:00
chatgpt教你写ai包教包会,准确度最高达99.7%
...程,仅凭ChatGPT就可以创建模型。它不仅帮你找数据集、训练模型写代码,还能评估准确性、创建程序一步到位。就有这么一个25岁小哥
2023-02-08 23:47:00
更多关于科技的资讯:
□南京日报/紫金山新闻记者 张安琪9月23日,2025南京金秋经贸洽谈会开幕式上,一批全球首个、国内首批、性能全球最高的科技成果密集亮相
2025-10-06 09:49:00
国庆中秋长假期间,新能源汽车已成为众多家庭出游的重要选择。为进一步破解高速服务区“充电难、排队久”的现实困境,山西交控集团坚持“科技创新+服务升级”双轮驱动
2025-10-06 18:01:00
邮储信用卡气球雨惊喜派对即将空降青岛李沧万达,国庆中秋邀您共启幸运之旅!
鲁网9月30日讯2025年国庆、中秋双节同庆之际,为回馈广大市民与持卡人长期以来的支持,邮储银行青岛分行将于10月1日-8日
2025-10-06 14:11:00
□南京日报/紫金山新闻记者 于洁尘 通讯员陈天骄“干我们这行的,哪有节假日?越是假期越要忙。”10月5日一大早,28岁的陈潇离开南京
2025-10-06 09:48:00
节日我在岗丨十堰高周波:抓创新赶订单 全力冲刺年度目标
十堰广电讯(全媒体记者 陈林)在国庆中秋假期,位于十堰经济开发区的十堰高周波科工贸有限公司抓创新赶订单,全力冲刺年度目标
2025-10-05 20:21:00
节日我在岗丨艾斯卓智能科技:节日不休 赶制订单
十堰广电讯(全媒体记者 耿吉国)放假不放松,生产不停工。国庆中秋长假,我市各生产企业铆足干劲抓生产、赶订单,奋力冲刺年度目标任务
2025-10-05 20:21:00
普阳钢铁工程机械用高强高韧宽厚板全国市场占有率名列前茅一块宽厚板的靶向发力——“铁疙瘩”怎样变成“金娃娃”(十)从矿山到港口
2025-10-05 07:47:00
人气旺 厦门多个商场假日客流爆棚、销售额亮眼
集美大悦城商圈内,小朋友和机器人亲密互动。(本组图/厦门日报记者 黄晓珍 摄)国庆中秋假期, 厦门SM购物中心潮玩店内人气火爆
2025-10-04 09:20:00
省数据和政务服务局发布公告公开征集一批河北省高质量数据集河北日报讯(记者解楚楚)9月26日,河北省数据和政务服务局发布公告
2025-10-04 08:03:00
央媒看太原9月30日,央视财经频道《经济信息联播》栏目以《双节市场备货足美食特产受青睐》为题,报道了假期到来,太原市各大综合市场提前备货
2025-10-04 07:17:00
厦门网讯(厦门日报记者 朱道衡)近日,2025鼓浪屿世遗文创作品征集活动启动。此次活动面向全国(含港澳台地区)高校、企业
2025-10-03 08:37:00
厦门网讯(厦门日报记者 楚燕 通讯员 石青青)长假期间,许多人从忙碌的工作中解脱出来,趁机好好休息。可是,如果休息方式不得当
2025-10-03 08:37:00
渤海之潮涌动着澎湃的脉搏,海河之畔镌刻着科技的印记。10年前,一颗带有“清华”基因的种子在天津这片沃土扎根;10年后,它长成一棵枝繁叶茂的参天大树
2025-10-03 09:25:00
太燃了!无人机空中展旗!高新区国庆“氛围组”已上线!
2025-10-03 23:48:00
抖音生活服务联合北京卫视发起“老板驾到”直播活动,吸引用户下单超100万元团购券
9月29日,抖音生活服务联合北京卫视发起“老板驾到”直播活动,助力北京国庆中秋消费。抖音用户在@北京卫视 直播间下单超1万次
2025-10-03 18:36:00