• 我的订阅
  • 科技

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

类别:科技 发布时间:2024-12-30 09:11:00 来源:量子位

好家伙!1750亿参数的GPT-3只需20MB存储空间了?!

基于1.58-bit训练,在不损失精度的情况下,大幅节省算力(↓97%)和存储(↓90%)。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最近,从事机器学习的Will小哥发了一篇论文,直接引来几十万网友or同行围观。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

他提出了一项名为“noise_step”的新技术,允许模型直接在1.58-bit低精度下训练,且无需反向传播或动量(Momentum)加速,从而降低算力和存储消耗。

对此,网友们也纷纷发来祝贺,表示很高兴看到模型越来越具有性价比。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

话不多说,来看论文具体内容。

反向传播不需要了

简单说,noise_step的目标是通过降低模型训练的精度要求,来减少算力和存储消耗。

一开始,作者提到前人研究已经表明,大语言模型(LLM)的推理可以在1.58-bit精度下进行,且不会有任何性能损失。

比如下面这篇论文,有人引入了1-bit的LLM变体(即BitNet b1.58),其中LLM的每个参数或权重都是三元的{-1, 0, 1}。

它在困惑度(perplexity)和最终任务性能上与全精度(FP16或BF16)的Transformer LLM相匹配,同时在延迟、存储、吞吐量和算力消耗方面成本更低。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

然而,上述变体是在推理时使用低精度,而在训练时仍需高精度权重。

因此,noise_step的一个核心区别是:无需反向传播。

允许模型直接在1.58-bit(三元)精度下进行训练,而不需要传统的反向传播(从后向前检查每一层)或动量方法。

注:反向传播(Backpropagation)是训练神经网络的核心算法,它通过反向逐层计算损失函数对每个权重的梯度,来反向逐层更新网络的权重,从而最小化损失函数。

具体而言,will小哥参考了《Gradients without Backpropagation》这篇论文,其中介绍了雅可比向量积(Jacobian Vector Product,JVP)这种不依赖反向传播的梯度估计方法。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

简单说,通过在前向传播中引入随机性,可以生成一个随机向量。这个随机向量与目标函数的梯度之间的对齐可以通过计算JVP来评估。

通过在多个随机方向上重复JVP计算,可以收集足够的信息来估计整个梯度向量,从而实现不依赖于反向传播的梯度估计。

will小哥的具体方法如下:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

训练成本打下来了

上述方式意味着,noise_step允许使用更稀疏的随机向量和简单的对齐值。

要知道传统的梯度计算需要大量计算资源,而noise_step由于不需要存储或传输大量数据,从而减少了存储使用。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

此外,由于noise_step使用伪随机噪声,它只需要一个种子(初始值)就能复现整个训练过程,这意味着不需要存储大量的扰动向量,从而进一步减少了存储需求。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

而且使用noise_step训练的模型可以存储训练步骤而非权重,这可能会大幅缩小模型尺寸,从而更快地下载模型。

按照will小哥的说法,也许今后一秒钟内下载一个SOTA模型?

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

同时由于上面提到的伪随机噪声方法,这种特性允许恢复权重的完整历史,因为每个步骤都是确定性的,并且可以独立于其他步骤进行计算。

因此微调将变得更加高效,甚至可能允许对过去的训练步骤进行编辑,例如翻转(negation)或屏蔽(masking)。

举个例子,如果发现某个训练步骤对模型性能产生了负面影响,可以对其进行调整而不必重新训练整个模型。

也就是说,人们在训练过程中能进行更精细的控制和调整了。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

最后,作者认为这种方式尤为适合分布式训练。

在分布式训练中,通常需要在不同的计算节点之间同步梯度和优化器状态,这会限制训练的速度。而noise_step通过减少每个扰动所需的位数,显著降低了通信量,从而提高了分布式训练的效率。

不过这也导致模型泄露变得更加容易,因为整个模型可以通过几个字节的训练步骤来传输。

对了,will小哥表示JVP可以和正常推理并行运行,几乎不增加成本。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

除了论文,他也提供了一个CPU实现过程:

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

One More Thing

BTW,小哥在上分享完论文后,还顺带吐槽arXiv不给理由就拒绝了这篇论文。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

后来他才补充,原来是卡在了背书(endorse)这一项,也就是需要现有用户的推荐或通过其他方式获得背书。

算力直降97%,GPT-3存储只用20MB?!这篇新论文火了

无奈之下,这篇论文目前被小哥放在了GitHub上。

感兴趣的童鞋可以进一步查看。

论文:https://github.com/wbrickner/noise_step?tab=readme-ov-fileCPU实现过程:https://colab.research.google.com/drive/1hXzf5xB4INzMUNTlAB8CI1V10-JV7zyg?usp=sharing

参考链接:https://x.com/_brickner/status/1871348156786704657

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-30 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

【多彩新论】竞驰数据标注产业新赛道
今年以来,贵州以数智产业园为重要抓手,将数据标注产业作为发展数字经济的突破口,通过“公共数据牵引+行业数据赋能”双轮驱动,加快构建起覆盖数据采集、标注、交易、应用的全产业链生态。
2025-08-30 01:51:00
GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」
...谷歌最近的论文也揭示了本质原因:LLM没有足够空间,来存储计数向量。Strawberry里究竟有几个r,如今已经成为测试模型能力的黄金标准之一了
2024-09-09 13:36:00
【多彩新论】算力时代 用数字描绘的现实越来越清晰
九天川流出行大模型、“新一代多芯多算力”政企云平台、天翼云一体化计算加速平台......2024数博会发布的十大领先科技成果中,算力平台和大模型成为主流,而这些赋能各行各业的黑科
2024-08-29 04:40:00
2022生成模型进展有多快,新论文盘点9类生成模型代表作
ChatGPT的出现,彻底将生成AI推向爆发。但别忘了,AI生成模型可不止ChatGPT一个,光是基于文本输入的就有7种——图像
2023-01-30 16:34:00
苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理
快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为“Understanding the Limitations of Large Language Models in Mathematical Reasoning”的论文
2024-10-13 14:15:00
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,
...问题,作为OpenAI草莓项目的开源版本。10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力
2024-11-06 09:49:00
【多彩新论】致敬逆流而上的你
受持续强降雨影响,黔东南州榕江县遭遇严重洪涝灾害。面对猛如虎的洪水,总有人逆行出征。你,舍身忘我奔赴抗洪救灾一线,争分夺秒筑起安全屏障。你,是武警,是外卖小哥,是志愿者……心手相
2025-06-26 04:35:00
【多彩新论】构建“数据生态圈” 释放乘数效应
2025数博会期间,“数据要素×”大赛贵州分赛颁奖仪式顺利举行。这不仅是一场赛事完美收官,更是一次数据要素价值释放的“成果检阅”。从赛事展现的产业融合案例中,一条数据要素发展的逻
2025-08-30 01:19:00
chatgpt教你写ai包教包会,准确度最高达99.7%
...程,仅凭ChatGPT就可以创建模型。它不仅帮你找数据集、训练模型写代码,还能评估准确性、创建程序一步到位。就有这么一个25岁小哥
2023-02-08 23:47:00
更多关于科技的资讯:
中国消费者报北京讯(记者桑雪骐)近日,追觅科技正式官宣成为中央广播电视总台2026年春节联欢晚会智能科技生态战略合作伙伴
2026-01-23 17:16:00
飞利浦旋护新9系Ultra高端款剃须刀新意限定版首发上市
新春将至,大家都希望以最好的状态和面容迎接新年,新春礼赠更要送到“面子上”。每份精心挑选的礼物都承载着对亲密关系的珍视
2026-01-23 17:09:00
鲁网1月23日讯“小时候爸妈送我上新东方,长大了我送爸妈去新东方。”这句调侃在社交媒体迅速走红。2026年1月21日,新东方创始人俞敏洪宣布开办“退休俱乐部”
2026-01-23 14:47:00
为了一杯更新鲜的咖啡,瑞幸开启了云南咖啡豆 “铁路专列”
近日,一列名为“瑞幸号”的铁路专列,满载22个集装箱、共682吨来自云南产区的当季咖啡豆,跨越2834公里,从云南普洱稳稳抵达福建厦门
2026-01-23 15:06:00
千灯企业技术中心获省级荣誉!
近日,江苏省工业和信息化厅公示了2025年省级企业技术中心拟认定名单,千灯镇企业昆山欣谷微电子材料有限公司、昆山鑫诚五金科技有限公司
2026-01-23 15:13:00
苏州高新区管委会与宁波银行签订战略合作协议 共同举办“产融聚力 共创未来”人工智能行业对接会
1月21日,苏州高新区管委会与宁波银行签订战略合作协议,并共同举办“产融聚力 共创未来”人工智能行业对接会。活动汇聚科创企业
2026-01-23 16:28:00
中国消费者报南宁讯(桂广雯 记者顾艳伟)1月23日,记者从广西壮族自治区市场监管局获悉,在该局的指导下,玉林市市场监管部门紧密围绕香料产业发展需求
2026-01-23 16:45:00
南方电网兴义普安供电局2026年配电电缆专业技能培训圆满收官
1月22日至23日,南方电网兴义普安供电局在云盘变实训场成功举办2026年配电电缆专业技能培训,来自配网综合班的配电专业人员参加了为期两天的集中培训
2026-01-23 16:50:00
锦江酒店(中国区)正式发布“锦鲲”协同办公平台,以 AI 驱动万店效率升级
“让AI去做它擅长的事,让人去做更有温度的事,提供更有温度的服务。”1月22日,锦江酒店(中国区)与飞书在深圳正式举行签约仪式
2026-01-23 15:40:00
“十五五”开局看河北|玉锋集团把玉米价值链越拉越长
从一粒粮到38种产品玉锋集团把玉米价值链越拉越长1月16日,宁晋县玉锋实业集团有限公司员工在生产车间巡检。 河北日报记者 赵永辉摄从2026年第一天起
2026-01-23 08:12:00
近日,海亮科服引爆关注——来自海亮致远书院的徐同学、寿同学双双重磅斩获牛津大学录取通知书!当大多数家庭还在高中才仓促启动升学规划
2026-01-23 10:02:00
《创投新势力》即将开播!一起见证中国科技创新的澎湃力量
鲁网1月23日讯从广州云宏信息在国产服务器虚拟化领域的技术攻坚,到主线科技实现自动驾驶物流系统的规模化落地;从智慧能源企业的清洁技术革新
2026-01-23 10:13:00
厦门游戏产业规模超百亿元 聚集近200家游戏企业
全市聚集近200家游戏企业厦门游戏产业规模超百亿元2025金海豚动漫游戏嘉年华在厦开幕。(记者 沈威/图)东南网1月22日讯(海峡导报记者黄奕琳)日前
2026-01-23 10:16:00
在黄金珠宝行业消费端承压、部分品牌闭店收缩的背景下,潮宏基实业股份有限公司交出了一份亮眼的年度成绩单。公司最新披露的2025年度业绩预告显示
2026-01-23 10:19:00