• 我的订阅
  • 科技

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

类别:科技 发布时间:2024-12-30 09:11:00 来源:量子位

好家伙!1750亿参数的GPT-3只需20MB存储空间了?!

基于1.58-bit训练,在不损失精度的情况下,大幅节省算力(↓97%)和存储(↓90%)。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最近,从事机器学习的Will小哥发了一篇论文,直接引来几十万网友or同行围观。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

他提出了一项名为“noise_step”的新技术,允许模型直接在1.58-bit低精度下训练,且无需反向传播或动量(Momentum)加速,从而降低算力和存储消耗。

对此,网友们也纷纷发来祝贺,表示很高兴看到模型越来越具有性价比。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

话不多说,来看论文具体内容。

反向传播不需要了

简单说,noise_step的目标是通过降低模型训练的精度要求,来减少算力和存储消耗。

一开始,作者提到前人研究已经表明,大语言模型(LLM)的推理可以在1.58-bit精度下进行,且不会有任何性能损失。

比如下面这篇论文,有人引入了1-bit的LLM变体(即BitNet b1.58),其中LLM的每个参数或权重都是三元的{-1, 0, 1}。

它在困惑度(perplexity)和最终任务性能上与全精度(FP16或BF16)的Transformer LLM相匹配,同时在延迟、存储、吞吐量和算力消耗方面成本更低。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

然而,上述变体是在推理时使用低精度,而在训练时仍需高精度权重。

因此,noise_step的一个核心区别是:无需反向传播。

允许模型直接在1.58-bit(三元)精度下进行训练,而不需要传统的反向传播(从后向前检查每一层)或动量方法。

注:反向传播(Backpropagation)是训练神经网络的核心算法,它通过反向逐层计算损失函数对每个权重的梯度,来反向逐层更新网络的权重,从而最小化损失函数。

具体而言,will小哥参考了《Gradients without Backpropagation》这篇论文,其中介绍了雅可比向量积(Jacobian Vector Product,JVP)这种不依赖反向传播的梯度估计方法。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

简单说,通过在前向传播中引入随机性,可以生成一个随机向量。这个随机向量与目标函数的梯度之间的对齐可以通过计算JVP来评估。

通过在多个随机方向上重复JVP计算,可以收集足够的信息来估计整个梯度向量,从而实现不依赖于反向传播的梯度估计。

will小哥的具体方法如下:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

训练成本打下来了

上述方式意味着,noise_step允许使用更稀疏的随机向量和简单的对齐值。

要知道传统的梯度计算需要大量计算资源,而noise_step由于不需要存储或传输大量数据,从而减少了存储使用。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

此外,由于noise_step使用伪随机噪声,它只需要一个种子(初始值)就能复现整个训练过程,这意味着不需要存储大量的扰动向量,从而进一步减少了存储需求。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

而且使用noise_step训练的模型可以存储训练步骤而非权重,这可能会大幅缩小模型尺寸,从而更快地下载模型。

按照will小哥的说法,也许今后一秒钟内下载一个SOTA模型?

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

同时由于上面提到的伪随机噪声方法,这种特性允许恢复权重的完整历史,因为每个步骤都是确定性的,并且可以独立于其他步骤进行计算。

因此微调将变得更加高效,甚至可能允许对过去的训练步骤进行编辑,例如翻转(negation)或屏蔽(masking)。

举个例子,如果发现某个训练步骤对模型性能产生了负面影响,可以对其进行调整而不必重新训练整个模型。

也就是说,人们在训练过程中能进行更精细的控制和调整了。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最后,作者认为这种方式尤为适合分布式训练。

在分布式训练中,通常需要在不同的计算节点之间同步梯度和优化器状态,这会限制训练的速度。而noise_step通过减少每个扰动所需的位数,显著降低了通信量,从而提高了分布式训练的效率。

不过这也导致模型泄露变得更加容易,因为整个模型可以通过几个字节的训练步骤来传输。

对了,will小哥表示JVP可以和正常推理并行运行,几乎不增加成本。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

除了论文,他也提供了一个CPU实现过程:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

One More Thing

BTW,小哥在上分享完论文后,还顺带吐槽arXiv不给理由就拒绝了这篇论文。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

后来他才补充,原来是卡在了背书(endorse)这一项,也就是需要现有用户的推荐或通过其他方式获得背书。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

无奈之下,这篇论文目前被小哥放在了GitHub上。

感兴趣的童鞋可以进一步查看。

论文:https://github.com/wbrickner/noise_step?tab=readme-ov-fileCPU实现过程:https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

参考链接:https://x.com/_brickner/status/1871348156786704657

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-30 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

【多彩新论】竞驰数据标注产业新赛道
今年以来,贵州以数智产业园为重要抓手,将数据标注产业作为发展数字经济的突破口,通过“公共数据牵引+行业数据赋能”双轮驱动,加快构建起覆盖数据采集、标注、交易、应用的全产业链生态。
2025-08-30 01:51:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。Strawberry里究竟有几个r,如今已经成为测试模型能力的黄金标准之一了
2024-09-09 13:36:00
【多彩新论】算力时代 用数字描绘的现实越来越清晰
九天川流出行大模型、“新一代多芯多算力”政企云平台、天翼云一体化计算加速平台......2024数博会发布的十大领先科技成果中,算力平台和大模型成为主流,而这些赋能各行各业的黑科
2024-08-29 04:40:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像
2023-01-30 16:34:00
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文
2024-10-13 14:15:00
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...问题,作为OpenAI草莓项目的开源版本。10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力
2024-11-06 09:49:00
【多彩新论】致敬逆流而上的你
受持续强降雨影响,黔东南州榕江县遭遇严重洪涝灾害。面对猛如虎的洪水,总有人逆行出征。你,舍身忘我奔赴抗洪救灾一线,争分夺秒筑起安全屏障。你,是武警,是外卖小哥,是志愿者……心手相
2025-06-26 04:35:00
【多彩新论】构建“数据生态圈” 释放乘数效应
2025数博会期间,“数据要素×”大赛贵州分赛颁奖仪式顺利举行。这不仅是一场赛事完美收官,更是一次数据要素价值释放的“成果检阅”。从赛事展现的产业融合案例中,一条数据要素发展的逻
2025-08-30 01:19:00
chatgpt教你写ai包教包会,准确度最高达99.7%
...程,仅凭ChatGPT就可以创建模型。它不仅帮你找数据集、训练模型写代码,还能评估准确性、创建程序一步到位。就有这么一个25岁小哥
2023-02-08 23:47:00
更多关于科技的资讯:
能源革命与数据革命深度融合,电鸿生态加速电力系统数智化转型
初冬的广州南沙温暖如春、花团锦簇,大涌新春居民贺泽庶开着他心爱的电动车,开进了绿树与鲜花簇拥的广州南沙环市西路超充站,当车头对准充电桩时
2025-11-30 12:06:00
促进民营经济高质量发展·超能量的“中小微”(十九)|乡村小厂造出“搬运神器”
11月12日,智捷智能科技香河有限公司工作人员在室外场地对智能搬运叉车进行调试。 河北日报记者 刘英摄11月12日,天津滨海新区一处海滩上
2025-11-29 07:31:00
厦门网讯(厦门日报记者 许舒昕)在注意力被算法切割的当下,一张纸质报纸竟在粉丝圈掀起抢购潮——从常规售价2元到二手平台单份22
2025-11-29 09:13:00
一、大数据视域下高校学生资助精准识别与分配的核心概念界定大数据技术是对数据进行加工、整理与计算的技术。其核心在于通过信息存储
2025-11-29 12:02:00
大数据技术在高校学生资助工作中发挥了重要保障作用。相对于传统资助模式存在的问题。大数据通过整合多源数据、构建评估模型,能够实现从被动申请到主动发现的转变
2025-11-29 12:20:00
从迷失到笃行:一位古贝春经销商的二十载商海沉浮与顿悟
鲁网11月27日讯(记者 赵洪斌)在鲁北商业版图上,王文俊的名字与古贝春酒业紧紧相连。然而,这段长达二十余年的合作关系
2025-11-28 08:45:00
近日,广东宇太能源与河北某工业玻璃龙头企业签约,合作利用空微子发电技术降低企业电耗。该项目由玻璃企业投资,宇太能源提供技术及设备支持
2025-11-28 08:57:00
罗振宇、张夕勇、杨慧林、罗军民四位大咖重磅推荐,杨钧博士《未来竞速》即将出版发行
百年汽车产业大变局的必读之作。近日,由国内汽车行业资深媒体人与研究观察者杨钧博士撰写的新书《竞速未来-全球新能源汽车的崛起与挑战》一书已由中国出版集团中译出版社正式出版发行
2025-11-28 09:27:00
近日,鹏华基金发布公告,旗下科创创业人工智能ETF鹏华 (认购代码:588413)于11月28日正式发行。作为首批双创人工智能ETF中的一员
2025-11-28 10:11:00
入选概率不及万分之二,阿里千问斩获顶级AI会议最佳论文
11月28日消息,人工智能领域顶级会议NeurIPS 2025公布了论文奖,阿里通义千问团队最新研究成果从全球2万多篇投稿论文中脱颖而出
2025-11-28 11:01:00
11月24日,位于启东市南阳镇的朗峰新材料启东有限公司生产车间内,自动化生产线高速运转,一条薄如蝉翼的银色金属带材从特制喷嘴中“飞”出
2025-11-28 11:05:00
济南轨道交通集团举办财务资本培训,实战专家孙春浩解析财务精英三级跃迁路径
近日,济南轨道交通集团全资子公司莱芜交通发展集团成功举办财务管理及融资业务培训。本次培训由集团财务管理部部长刘文芹主持
2025-11-28 11:09:00
锚定本土、驱动创新的金融实践!青岛银行荣膺CFV“最佳品牌竞争力城商行”奖项
11月21日,在上海举办的“2025第一财经金融价值年会”上,青岛银行凭借在科技金融、绿色金融、地方经济服务及创新能力方面的突出表现
2025-11-28 11:18:00
挂号缴费不用跑!微信医保移动支付在北京140家公立医院全面上线
近日,北京市参保市民就医迎来“智慧升级”——微信医保移动支付功能已在中国医学科学院、北京协和医院、北京大学人民医院等140家公立医院全面上线
2025-11-28 11:28:00
河北省煤田地质局物测队引入新装备提升探测能力
河北新闻网讯(吕若汐、齐彦红)11月18日,地球物理勘探设备供应商法国塞赛尔公司正式向河北省煤田地质局物测队交付了两套数字地震仪(激发系统)诺玛德65尼奥
2025-11-28 11:53:00