• 我的订阅
  • 科技

70倍极致压缩!大模型的检查点再多也不怕

类别:科技 发布时间:2024-08-06 09:27:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

该论文的作者均来自于华为诺亚实验室,第一作者为李文硕,通讯作者为王云鹤和陈醒濠。相关团队团队近年来在ICML、CVPR、NeurIPS、ICCV、ECCV等顶会上有多项代表性工作发表,在高效大语言模型、视觉模型等领域都有丰富的成果产出,和知名高校和科研机构合作广泛。

大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」,吸引了大批学者和企业投入资源去研究与训练。随着规模越做越大,系统和工程问题已经成了大模型训练中绕不开的难题。例如在 Llama3.1 54 天的训练里,系统会崩溃 466 次,平均 2.78 小时一次!

70倍极致压缩!大模型的检查点再多也不怕

那么,频繁存储检查点就显得十分必要。但存储检查点本身也是一个大工程。

70倍极致压缩!大模型的检查点再多也不怕

Meta 做了很多努力来加速存储检查点时间和增加存储频率,来对抗频繁出现的系统失效。但频繁存储也意味着大量的存储资源开销,其训练集群配备了 240PB 的 SSD 来应对这一挑战,光存储这一项的耗费就要亿元!

华为诺亚的 ExCP 方法也就应运而生,为了应对存储带来的巨大开销,他们提出了极致压缩检查点技术,能够无损压缩模型 70 倍,大幅降低训练中的存储开销。

70倍极致压缩!大模型的检查点再多也不怕

70倍极致压缩!大模型的检查点再多也不怕

代码目前已经开源,在 Apache 2.0 框架下发布,issue 中已经有小伙伴成功复现了结果。

70倍极致压缩!大模型的检查点再多也不怕

文章地址:https://arxiv.org/abs/2406.11257 仓库地址:https://github.com/Gaffey/ExCP

方法也很有创新性,文章中提到了两个重要的概念,一个是利用训练中检查点的残差信息,通过时间序列上信息的稀疏性实现更高的剪枝比例;另一个是将优化器和权重联合起来进行压缩,实现整体的高压缩率。

70倍极致压缩!大模型的检查点再多也不怕

具体方法

1. 检查点残差

在训练过程中,当前的参数可以看作上一个检查点存储的权重加上逐次迭代时梯度更新的总和,这部分是相对稀疏的,包含的信息量较少,因此对这一残差进行压缩,可以获得更好的压缩比例。而与此相反的,优化器中存储的动量是梯度一阶矩和二阶矩的滑动平均值,对于一阶矩来说,它的滑动平均默认的参数是 0.9,在数百到数千个迭代之后与上一次检查点存储的内容已经没有太大的关联,所以对于优化器直接压缩其本身的值而非残差。最终待压缩的检查点表示为

70倍极致压缩!大模型的检查点再多也不怕

2. 权重 - 优化器动量联合压缩

目前已有的模型压缩相关的工作一般只关注于模型的推理性能,或者是模型最终存储检查点的大小,而不关注模型在整个训练过程中对储存空间的开销。因而已有工作只对权重进行压缩,而忽略了 Adam 等常见优化器中实际上存储了两倍于权重数量的动量。这一工作一方面将两者一起进行了压缩,显著提升了整体的压缩比例;另一方面也利用了权重和优化器动量的关联性,进一步提升彼此的压缩比例。

权重剪枝:由于剪枝的权重是残差值,优化器动量的二阶矩可以大致表示在过去一段时间内权重残差值的变化幅度,所以可以使用优化器动量的二阶矩作为指标来确定不同层的剪枝比例。剪枝策略如下文公式所示

70倍极致压缩!大模型的检查点再多也不怕

式中,W 和分别表示权重和二阶矩。

70倍极致压缩!大模型的检查点再多也不怕

优化器动量剪枝:对于动量剪枝,可以使用一阶矩作为指示器来进行剪枝,论文中有关于可收敛性的一个简要证明。同时,如果一个位置的权重已经被剪枝,那么对应位置的优化器动量也应该同步被处理,所以剪枝策略如下文公式所示

70倍极致压缩!大模型的检查点再多也不怕

式中, 表示一阶矩。

3. 整体压缩流程

整体压缩流程如 Algorithm 1 所示,依次进行计算权重残差 / 联合压缩 / 非均匀量化 / 编码压缩等步骤,得到最终的压缩结果。

70倍极致压缩!大模型的检查点再多也不怕

而恢复出检查点完整文件的流程则如 Algorithm 2 所示,进行解压缩之后,首先从非均匀量化后存储的码本和下标中恢复出浮点结果,然后再与基准权重(上一个检查点的原始权重或恢复出的重建权重)相加,得到检查点完整文件。而恢复出整个训练流程中的检查点文件的流程如 Algorithm 3 所示,在完成训练后只保存初始化权重的随机种子和每个检查点存储的压缩结果,然后依次对检查点进行恢复以得到完整的检查点序列,以供从其中选择某个或多个检查点恢复训练 / 进行测试等。

实验结果

文章中不仅对于大语言模型做了评估,在 ViT-L32 这样较大的视觉模型上这一方法也能取得很好的效果。

70倍极致压缩!大模型的检查点再多也不怕

从消融实验里也可以看出,采用残差剪枝的方法大大减少了剪枝带来的损失。

70倍极致压缩!大模型的检查点再多也不怕

文章中还提供了大语言模型压缩前后问答的样例,可以看到压缩本身对于模型的问答能力也没有造成损害。

70倍极致压缩!大模型的检查点再多也不怕

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-06 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

权威AI开源标准1.0版发布:Llama也不算开源
...。参数应根据 OSI 批准条款提供。 例如,训练中间阶段的检查点以及优化器状态。对于机器学习系统,模型权重也是一个重要因素。OSI 在开源定义中表述道:AI 模型由模型架构、
2024-10-30 09:52:00
算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
...2训练,模型就会有大幅改善。例如,通过在PaLM540B的中间检查点上使用UL2R,可以达到PaLM540B在最终检查点的性能
2022-12-13 21:15:00
XAI大模型Grok-1已正式开源 但并不是在马斯克说的上周
...的模型,此次发布的是预训练阶段结束时的原始基础模型检查点,预训练阶段在去年10月份完成。这也就意味着他们开源的模型,没有进行针对对话等任何具体应用的微调。在官网上,xAI披露
2024-03-18 20:19:00
谷歌没开源的 PaLM,网友给开源了
...型无法从Torchhub正确下载,请务必清除 .cache/torch/hub/ 中的检查点和模型文件夹。如果问题仍未解决
2023-05-13 17:42:00
值得推广的小学定向运动课余训练方法
...,着实令人耳目一新。一、以“立体”作“平面”,巧设检查点,妙用楼层等高差——定向运动楼层地图的实践运用各小学校园占地面积基本相近,教学楼层数多的特点也是如此。反复在操场和校园
2023-08-07 18:22:00
DeepSeek,大消息
...FP8 模型性能的99.8%。目前,英伟达基于FP4优化的DeepSeek-R1检查点已经在Hugging Face上开源
2025-02-27 15:51:00
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
...」,。 此外,Shankar还预告说,之后会继续上线模型中间检查点和优化器状态。难道,这就是LLM开源社区的春天了吗
2024-07-22 09:41:00
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...ookresearch/LayerSkip研究人员开源了层跳过的推理代码和微调检查点,包括Llama 3、Llama 2和Code Llama
2024-11-28 12:02:00
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...a3-V的代码是对MiniCPM-Llama3-V 2.5的重新格式化,其模型行为检查点的噪声版本高度相似。其中,Llama3-V只是对代码进行了重新格式化和变量重命名
2024-06-04 14:35:00
更多关于科技的资讯:
【2025数博会】记者探数博|机器人“咖啡师”上岗
在2025中国国际大数据产业博览会现场,一台智能咖啡机器人成为许多观众科技之旅的起点。只需简单几步,这位“咖啡师”就能制作出一杯手工现磨咖啡
2025-08-30 05:29:00
近日,在省通信管理局精心筹划下,国家超算太原中心、中国移动山西公司智算中心携手接入北京市算力互联互通平台,标志着山西在落实国家“东数西算”战略
2025-08-30 06:46:00
胶东金秋家装节大牌联动920启动仪式在青岛成功举办
青岛,2025年8月29日——今日下午,“胶东金秋家装节 大牌联动920启动仪式”在青岛市市北区居然之家店负一层中庭隆重举行
2025-08-30 07:23:00
【红色导师·思想汇报60】以青春之我,奔赴人工智能浪潮下的时代之约
思想汇报:“人工智能是引领新一轮科技革命和产业变革的战略性技术。”今年暑假,我作为华中农业大学经济管理学院“数智商途”暑期社会实践团队的队长
2025-08-29 14:52:00
临沂首届“何为精工”高端私宅精工论坛启幕,精工专委会同步成立
8月27日至28日,临沂首届“何为精工”高端私宅精工论坛在居然之家北城店盛大启幕。论坛由临沂室内设计师协会主办,汇聚建筑
2025-08-29 14:52:00
从“一瓶酒”到“一头牛”:海普数智为传统产业装上“数据引擎”
在氤氲的酱酒香里,一粒粒红缨子高粱正被赋予数字身份,经历着从农田到餐桌的全程溯源;在繁忙的灌装生产线上,一个个智能瓶盖不再只是容器
2025-08-29 14:55:00
央牧乳业:构建全域渠道生态,引领羊乳产业升级新纪元
央牧乳业以“真羊乳,选央牧”为品牌核心,打造中国羊乳产业渠道建设标杆。目前已完成全国5000+龙头商超系统战略布局(含大润发
2025-08-29 14:59:00
鲁网8月29日讯2025年8月,知名学者王立胜等人所著的《胖东来凭什么:一家幸福企业的哲学逻辑》一书由中国民主法制出版社出版发行
2025-08-29 16:03:00
小米升级澎湃OS 3Beta版后手机变得很烫,官方:约3天恢复满血
8月29日,小米澎湃OS官方微博发布答网友问,详细介绍了澎湃OS 3 Beta 后续推送计划,集中回答大家对小米澎湃OS 3 Beta版的高频问题
2025-08-29 16:04:00
拼多多要亲自拍短剧?招聘短剧制片运营,年薪近50万
8月29日消息,拼多多在招聘平台上发布了一则引人注目的招聘信息,招聘“短剧制片运营”岗位,年薪近50万,负责短剧内容制作
2025-08-29 16:05:00
【2025数博会】可信数据空间破解数据要素流通难题
8月28日,2025中国国际大数据产业博览会上,行业专家与企业代表聚焦可信数据空间建设及数据要素市场化发展开展深度交流
2025-08-29 16:29:00
浙江卫视×浙江文交所 联手打造全球首个爆款综艺文化数字资产
综艺史上的首次突破!浙江文化产权交易所携手Z视介,联手打造的浙江卫视全球首张综艺数字卡,8月29日重磅上线浙江文交所旗下乐数通平台
2025-08-29 16:30:00
对话领航者--滨高电梯朱海涛:成立换新体验中心 业务聚焦两大领域
鲁网8月29日讯近日,齐鲁商势力联盟对话领航者走进滨州市滨高电梯销售有限公司日立换新体验中心,与公司负责人朱海涛面对面
2025-08-29 16:40:00
贵安超算中心:每秒1.3亿亿次的峰值算力助力影视项目渲染
2025年暑期档光影盛宴的背后,贵安超算中心功不可没:参与《猫和老鼠:星盘奇缘》《刺杀小说家2》《731》等12部影视项目渲染
2025-08-29 17:00:00
【2025数博会】虚拟F1驱动贵阳打造全球数字体育新生态
虚拟F1赛事已从娱乐载体跃升为融合职业竞技、技术研发与商业创新的复合生态系统,成为推动真实F1技术革新与连接尖端科技大众化的核心桥梁
2025-08-29 17:00:00