• 我的订阅
  • 科技

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

类别:科技 发布时间:2024-12-30 09:11:00 来源:量子位

好家伙!1750亿参数的GPT-3只需20MB存储空间了?!

基于1.58-bit训练,在不损失精度的情况下,大幅节省算力(↓97%)和存储(↓90%)。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最近,从事机器学习的Will小哥发了一篇论文,直接引来几十万网友or同行围观。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

他提出了一项名为“noise_step”的新技术,允许模型直接在1.58-bit低精度下训练,且无需反向传播或动量(Momentum)加速,从而降低算力和存储消耗。

对此,网友们也纷纷发来祝贺,表示很高兴看到模型越来越具有性价比。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

话不多说,来看论文具体内容。

反向传播不需要了

简单说,noise_step的目标是通过降低模型训练的精度要求,来减少算力和存储消耗。

一开始,作者提到前人研究已经表明,大语言模型(LLM)的推理可以在1.58-bit精度下进行,且不会有任何性能损失。

比如下面这篇论文,有人引入了1-bit的LLM变体(即BitNet b1.58),其中LLM的每个参数或权重都是三元的{-1, 0, 1}。

它在困惑度(perplexity)和最终任务性能上与全精度(FP16或BF16)的Transformer LLM相匹配,同时在延迟、存储、吞吐量和算力消耗方面成本更低。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

然而,上述变体是在推理时使用低精度,而在训练时仍需高精度权重。

因此,noise_step的一个核心区别是:无需反向传播。

允许模型直接在1.58-bit(三元)精度下进行训练,而不需要传统的反向传播(从后向前检查每一层)或动量方法。

注:反向传播(Backpropagation)是训练神经网络的核心算法,它通过反向逐层计算损失函数对每个权重的梯度,来反向逐层更新网络的权重,从而最小化损失函数。

具体而言,will小哥参考了《Gradients without Backpropagation》这篇论文,其中介绍了雅可比向量积(Jacobian Vector Product,JVP)这种不依赖反向传播的梯度估计方法。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

简单说,通过在前向传播中引入随机性,可以生成一个随机向量。这个随机向量与目标函数的梯度之间的对齐可以通过计算JVP来评估。

通过在多个随机方向上重复JVP计算,可以收集足够的信息来估计整个梯度向量,从而实现不依赖于反向传播的梯度估计。

will小哥的具体方法如下:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

训练成本打下来了

上述方式意味着,noise_step允许使用更稀疏的随机向量和简单的对齐值。

要知道传统的梯度计算需要大量计算资源,而noise_step由于不需要存储或传输大量数据,从而减少了存储使用。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

此外,由于noise_step使用伪随机噪声,它只需要一个种子(初始值)就能复现整个训练过程,这意味着不需要存储大量的扰动向量,从而进一步减少了存储需求。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

而且使用noise_step训练的模型可以存储训练步骤而非权重,这可能会大幅缩小模型尺寸,从而更快地下载模型。

按照will小哥的说法,也许今后一秒钟内下载一个SOTA模型?

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

同时由于上面提到的伪随机噪声方法,这种特性允许恢复权重的完整历史,因为每个步骤都是确定性的,并且可以独立于其他步骤进行计算。

因此微调将变得更加高效,甚至可能允许对过去的训练步骤进行编辑,例如翻转(negation)或屏蔽(masking)。

举个例子,如果发现某个训练步骤对模型性能产生了负面影响,可以对其进行调整而不必重新训练整个模型。

也就是说,人们在训练过程中能进行更精细的控制和调整了。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最后,作者认为这种方式尤为适合分布式训练。

在分布式训练中,通常需要在不同的计算节点之间同步梯度和优化器状态,这会限制训练的速度。而noise_step通过减少每个扰动所需的位数,显著降低了通信量,从而提高了分布式训练的效率。

不过这也导致模型泄露变得更加容易,因为整个模型可以通过几个字节的训练步骤来传输。

对了,will小哥表示JVP可以和正常推理并行运行,几乎不增加成本。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

除了论文,他也提供了一个CPU实现过程:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

One More Thing

BTW,小哥在上分享完论文后,还顺带吐槽arXiv不给理由就拒绝了这篇论文。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

后来他才补充,原来是卡在了背书(endorse)这一项,也就是需要现有用户的推荐或通过其他方式获得背书。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

无奈之下,这篇论文目前被小哥放在了GitHub上。

感兴趣的童鞋可以进一步查看。

论文:https://github.com/wbrickner/noise_step?tab=readme-ov-fileCPU实现过程:https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

参考链接:https://x.com/_brickner/status/1871348156786704657

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-30 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

【多彩新论】竞驰数据标注产业新赛道
今年以来,贵州以数智产业园为重要抓手,将数据标注产业作为发展数字经济的突破口,通过“公共数据牵引+行业数据赋能”双轮驱动,加快构建起覆盖数据采集、标注、交易、应用的全产业链生态。
2025-08-30 01:51:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。Strawberry里究竟有几个r,如今已经成为测试模型能力的黄金标准之一了
2024-09-09 13:36:00
【多彩新论】算力时代 用数字描绘的现实越来越清晰
九天川流出行大模型、“新一代多芯多算力”政企云平台、天翼云一体化计算加速平台......2024数博会发布的十大领先科技成果中,算力平台和大模型成为主流,而这些赋能各行各业的黑科
2024-08-29 04:40:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像
2023-01-30 16:34:00
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文
2024-10-13 14:15:00
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...问题,作为OpenAI草莓项目的开源版本。10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力
2024-11-06 09:49:00
【多彩新论】致敬逆流而上的你
受持续强降雨影响,黔东南州榕江县遭遇严重洪涝灾害。面对猛如虎的洪水,总有人逆行出征。你,舍身忘我奔赴抗洪救灾一线,争分夺秒筑起安全屏障。你,是武警,是外卖小哥,是志愿者……心手相
2025-06-26 04:35:00
【多彩新论】构建“数据生态圈” 释放乘数效应
2025数博会期间,“数据要素×”大赛贵州分赛颁奖仪式顺利举行。这不仅是一场赛事完美收官,更是一次数据要素价值释放的“成果检阅”。从赛事展现的产业融合案例中,一条数据要素发展的逻
2025-08-30 01:19:00
chatgpt教你写ai包教包会,准确度最高达99.7%
...程,仅凭ChatGPT就可以创建模型。它不仅帮你找数据集、训练模型写代码,还能评估准确性、创建程序一步到位。就有这么一个25岁小哥
2023-02-08 23:47:00
更多关于科技的资讯:
王座赛事杭州站圆满落幕 台球产业生态链迎来升级热潮
9月6日,为期四天的王座赛事第一站在杭州希尔顿酒店圆满落幕,这项集竞技、产品、文化于一体的台球盛宴,不仅为观众呈现了精彩赛事
2025-09-08 13:37:00
强生眼力健与光正眼科举行合作集团揭牌仪式,共创“价值医疗”新范式
重塑白内障患者诊疗流程,推动精准屈光诊疗方案惠及患者【2025年9月5日,杭州】在中华医学会第二十九次眼科学术大会(CCOS2025)这一行业盛会上
2025-09-08 13:39:00
强生眼力健携手何氏眼科,共筑中国眼健康创新生态
以“医教研”一体化,加速全球前沿技术转化【2025年9月6日,杭州】为加速共筑中国眼健康创新生态,强生旗下的眼健康业务强生眼力健
2025-09-08 13:39:00
以“数字中台+智贸生态”赋能广州万亿级市场 数字化转型升级
2025年广州(秋季)白云里国际美妆节白云电商高峰论坛于9月5日在白云里国际美妆中心成功召开。本次论坛汇聚了广州市白云区电子商务行业协会会长朱东炫
2025-09-08 13:39:00
印象草原:一场关于“自我设计”的时尚革命蓄势登场
当服装跳出市场同质化“单品”的定义,成为承载个性的专属“战袍”,一场关于“自我设计”的时尚革命正蓄势登场。2025年9月9日
2025-09-08 13:39:00
强生眼力健与香港希玛眼科携手共建创新技术合作集团,引领屈光白内障及老视诊疗新篇章
【2025年9月6日,杭州】 近日,在中华医学会第二十九次眼科学术大会(CCOS2025)期间,强生眼力健与香港希玛医疗集团(以下简称“希玛医疗”
2025-09-08 13:40:00
强生眼力健携手爱尔眼科,共筑精准屈光诊疗全国标准化体系
以技术驱动,定义高品质眼科服务规模化落地新范本【2025年9月5日,杭州】在中华医学会第二十九次眼科学术大会(CCOS2025)期间
2025-09-08 13:41:00
首个电商蟹卡兑换系统上线:五年投入两千万元研发 无法履约最高赔10万元
蟹卡标注着长期有效,兑换时商家却玩起了失联。每逢中秋节前,不少消费者因蟹卡无法兑换而踩雷。今年大闸蟹消费季,京东超市宣布为消费者提供百分百可兑换服务
2025-09-08 13:48:00
小米回应车主提车发现是测试车:静电贴痕迹,湿毛巾就能擦掉
近日,有小米YU7车主反映,提车后发现前挡风或后挡风玻璃上存在“测试车”静电贴残留痕迹。9月7日,小米集团公关部总经理王化在微博回应称
2025-09-08 11:54:00
贵州大数据集团中标国内首个“云胶片”项目
在贵州,一朵惠及全民的“医疗云”正腾空而起。9月4日,国内首个数字化医用耗材“云胶片”省级带量采购项目中标结果正式出炉
2025-09-08 11:53:00
□南京日报/紫金山新闻记者王国俊通讯员宁穗独角兽企业的成长既需要企业自身的科技实力,也离不开良好的发展环境。近日,记者从南京市税务局获悉
2025-09-08 07:42:00
产业发展“最佳助攻”,如此赋能!
9月2日,位于苏美达伊顿纪德仓储分拨中心厂区,申通快递员工直接将打包好的校服扫码揽收、装箱、发出,迅速、高效地将包裹送至客户手中
2025-09-08 07:42:00
□南京日报/紫金山新闻记者徐宁在南京,软件产业创新活力奔涌。南京市千行万业鸿蒙原生应用正式开启,南京开鸿城市产业园在建邺区启动建设
2025-09-08 07:43:00
未来到底怎么飞?2025智博会揭秘蓝天新赛道
大河网讯 低空经济是当下热议的话题,也是智能制造新赛道。在此背景下,2025世界智能产业博览会设置了低空经济专区,展现了各色各样的无人机和低空飞行器
2025-09-07 23:22:00
“跨界玩家”涌现,追觅、MOVA、TCL正用AI重划家电版图|硬氪直击IFA2025
编者按:2025年IFA(柏林国际电子消费品展览会),中国厂商又一次攻占会场。坐拥全球最完善、复杂的供应链,储备下数量最多
2025-09-07 10:05:00