• 我的订阅
  • 科技

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

类别:科技 发布时间:2024-12-30 09:11:00 来源:量子位

好家伙!1750亿参数的GPT-3只需20MB存储空间了?!

基于1.58-bit训练,在不损失精度的情况下,大幅节省算力(↓97%)和存储(↓90%)。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最近,从事机器学习的Will小哥发了一篇论文,直接引来几十万网友or同行围观。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

他提出了一项名为“noise_step”的新技术,允许模型直接在1.58-bit低精度下训练,且无需反向传播或动量(Momentum)加速,从而降低算力和存储消耗。

对此,网友们也纷纷发来祝贺,表示很高兴看到模型越来越具有性价比。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

话不多说,来看论文具体内容。

反向传播不需要了

简单说,noise_step的目标是通过降低模型训练的精度要求,来减少算力和存储消耗。

一开始,作者提到前人研究已经表明,大语言模型(LLM)的推理可以在1.58-bit精度下进行,且不会有任何性能损失。

比如下面这篇论文,有人引入了1-bit的LLM变体(即BitNet b1.58),其中LLM的每个参数或权重都是三元的{-1, 0, 1}。

它在困惑度(perplexity)和最终任务性能上与全精度(FP16或BF16)的Transformer LLM相匹配,同时在延迟、存储、吞吐量和算力消耗方面成本更低。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

然而,上述变体是在推理时使用低精度,而在训练时仍需高精度权重。

因此,noise_step的一个核心区别是:无需反向传播。

允许模型直接在1.58-bit(三元)精度下进行训练,而不需要传统的反向传播(从后向前检查每一层)或动量方法。

注:反向传播(Backpropagation)是训练神经网络的核心算法,它通过反向逐层计算损失函数对每个权重的梯度,来反向逐层更新网络的权重,从而最小化损失函数。

具体而言,will小哥参考了《Gradients without Backpropagation》这篇论文,其中介绍了雅可比向量积(Jacobian Vector Product,JVP)这种不依赖反向传播的梯度估计方法。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

简单说,通过在前向传播中引入随机性,可以生成一个随机向量。这个随机向量与目标函数的梯度之间的对齐可以通过计算JVP来评估。

通过在多个随机方向上重复JVP计算,可以收集足够的信息来估计整个梯度向量,从而实现不依赖于反向传播的梯度估计。

will小哥的具体方法如下:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

训练成本打下来了

上述方式意味着,noise_step允许使用更稀疏的随机向量和简单的对齐值。

要知道传统的梯度计算需要大量计算资源,而noise_step由于不需要存储或传输大量数据,从而减少了存储使用。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

此外,由于noise_step使用伪随机噪声,它只需要一个种子(初始值)就能复现整个训练过程,这意味着不需要存储大量的扰动向量,从而进一步减少了存储需求。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

而且使用noise_step训练的模型可以存储训练步骤而非权重,这可能会大幅缩小模型尺寸,从而更快地下载模型。

按照will小哥的说法,也许今后一秒钟内下载一个SOTA模型?

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

同时由于上面提到的伪随机噪声方法,这种特性允许恢复权重的完整历史,因为每个步骤都是确定性的,并且可以独立于其他步骤进行计算。

因此微调将变得更加高效,甚至可能允许对过去的训练步骤进行编辑,例如翻转(negation)或屏蔽(masking)。

举个例子,如果发现某个训练步骤对模型性能产生了负面影响,可以对其进行调整而不必重新训练整个模型。

也就是说,人们在训练过程中能进行更精细的控制和调整了。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最后,作者认为这种方式尤为适合分布式训练。

在分布式训练中,通常需要在不同的计算节点之间同步梯度和优化器状态,这会限制训练的速度。而noise_step通过减少每个扰动所需的位数,显著降低了通信量,从而提高了分布式训练的效率。

不过这也导致模型泄露变得更加容易,因为整个模型可以通过几个字节的训练步骤来传输。

对了,will小哥表示JVP可以和正常推理并行运行,几乎不增加成本。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

除了论文,他也提供了一个CPU实现过程:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

One More Thing

BTW,小哥在上分享完论文后,还顺带吐槽arXiv不给理由就拒绝了这篇论文。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

后来他才补充,原来是卡在了背书(endorse)这一项,也就是需要现有用户的推荐或通过其他方式获得背书。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

无奈之下,这篇论文目前被小哥放在了GitHub上。

感兴趣的童鞋可以进一步查看。

论文:https://github.com/wbrickner/noise_step?tab=readme-ov-fileCPU实现过程:https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

参考链接:https://x.com/_brickner/status/1871348156786704657

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-30 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

【多彩新论】竞驰数据标注产业新赛道
今年以来,贵州以数智产业园为重要抓手,将数据标注产业作为发展数字经济的突破口,通过“公共数据牵引+行业数据赋能”双轮驱动,加快构建起覆盖数据采集、标注、交易、应用的全产业链生态。
2025-08-30 01:51:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。Strawberry里究竟有几个r,如今已经成为测试模型能力的黄金标准之一了
2024-09-09 13:36:00
【多彩新论】算力时代 用数字描绘的现实越来越清晰
九天川流出行大模型、“新一代多芯多算力”政企云平台、天翼云一体化计算加速平台......2024数博会发布的十大领先科技成果中,算力平台和大模型成为主流,而这些赋能各行各业的黑科
2024-08-29 04:40:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像
2023-01-30 16:34:00
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文
2024-10-13 14:15:00
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...问题,作为OpenAI草莓项目的开源版本。10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力
2024-11-06 09:49:00
【多彩新论】致敬逆流而上的你
受持续强降雨影响,黔东南州榕江县遭遇严重洪涝灾害。面对猛如虎的洪水,总有人逆行出征。你,舍身忘我奔赴抗洪救灾一线,争分夺秒筑起安全屏障。你,是武警,是外卖小哥,是志愿者……心手相
2025-06-26 04:35:00
【多彩新论】构建“数据生态圈” 释放乘数效应
2025数博会期间,“数据要素×”大赛贵州分赛颁奖仪式顺利举行。这不仅是一场赛事完美收官,更是一次数据要素价值释放的“成果检阅”。从赛事展现的产业融合案例中,一条数据要素发展的逻
2025-08-30 01:19:00
chatgpt教你写ai包教包会,准确度最高达99.7%
...程,仅凭ChatGPT就可以创建模型。它不仅帮你找数据集、训练模型写代码,还能评估准确性、创建程序一步到位。就有这么一个25岁小哥
2023-02-08 23:47:00
更多关于科技的资讯:
逸超医疗携超声智能体亮相 CMEF,引领定量超声智能化新征程
2026年4月9日至12日,第93届中国国际医疗器械博览会(CMEF)在国家会展中心(上海)举办。作为全球医疗器械领域重要展会
2026-04-12 17:17:00
霸州家具年营收超500亿元的“共享密码”
2026-04-12 19:08:00
江南时报讯 为感谢新老客户的信任与支持,近日,仪征农商银行组织辖内网点开展“感恩回馈”主题沙龙活动,针对存单到期客户较为集中的特点
2026-04-12 22:33:00
4月10日,全国首场聚焦小店生态的行业盛会——2026NCC小店生态大会在南京玄武湖畔金陵STYLE浪漫中心开幕。大会以“星火不熄·共创生态”为主题
2026-04-12 22:33:00
江南时报讯 近日,在苏州市银行业协会组织的2025年度苏州银行业金融科技优秀项目评选中,苏州农商银行申报的“基于多模型融合架构的智能代码辅助系统”从全市23家会员单位报送的44个参评项目中脱颖而出
2026-04-12 22:34:00
2026北京亦庄人形机器人半程马拉松全流程全要素测试活动开展
2026北京亦庄半程马拉松暨人形机器人半程马拉松即将于4月19日鸣枪开跑。为更好筹备赛事,4月11日晚至12日凌晨,北京经济技术开发区组织开展2026北京亦庄人形机器人半程马拉松全流程全要素测试活动
2026-04-12 17:20:00
专访李建民老师:破解组织管理难题,找准高成长宠物企业发展破局之路
鲁网4月12日讯近日,中国农业大学宠物友好经济培训班上,高成长企业三维管理系统创始人、构建专家;国富经济研究院研究员;国富创新管理咨询有限公司高级咨询师咨询副总
2026-04-12 17:15:00
超级实用!招聘会现场专业人士手把手教你改简历
2026-04-12 14:13:00
中国东航启动2026年度远航飞行人才选拔项目
近日,中国东航正式启动2026年度远航飞行人才项目,该项目是面向本科及以上学历、综合素质突出的优秀大学毕业生设立的专项人才选拔培养计划
2026-04-12 14:47:00
4月11日,海底捞发布关于“海底捞伙伴因顾客投诉被强制自费买礼物事件”的说明,一场源于基层执行风波,被放大为对企业制度
2026-04-12 14:21:00
烟台高新区 山东众悦数字技术有限公司举行乔迁三周年庆典
胶东在线4月9日讯(通讯员 郭健 实习编辑 黄洪娇)4月8日上午,山东众悦数字技术有限公司举办“乔迁三载砺初心·众聚同行悦新篇”主题庆典活动
2026-04-12 12:53:00
创业“拎包入住” 政策“领包入驻”杭州日报讯 近日,高新区(滨江)发布人工智能OPC(一人公司)社区建设指引(以下简称“指引”)
2026-04-12 08:29:00
走企 | 华易迅:专注金属3D打印服务 赋能新型工业化
“产业炬光灯”系列短视频聚焦华易迅。▲扫码观看视频。厦门网讯(厦门日报记者 林露虹)无需开模、切削、焊接,金属零部件也能像打印照片一样“现形”
2026-04-12 08:46:00
去年哪些行业平均月薪过万?权威报告来了
你猜,去年最吃香的工作是什么?哪些行业月薪过万?最近,中国社会科学院人口与劳动经济研究所和知名招聘平台联合发布了一份《2025年人力资源市场趋势分析报告》
2026-04-12 09:30:00
厦门网讯(厦门日报记者 沈彦彦) 中国餐饮与新茶饮市场活力持续迸发,越来越多企业加速出海步伐,以美食为载体讲好中国故事
2026-04-12 08:46:00