• 我的订阅
  • 科技

70倍极致压缩!大模型的检查点再多也不怕

类别:科技 发布时间:2024-08-06 09:27:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

该论文的作者均来自于华为诺亚实验室,第一作者为李文硕,通讯作者为王云鹤和陈醒濠。相关团队团队近年来在ICML、CVPR、NeurIPS、ICCV、ECCV等顶会上有多项代表性工作发表,在高效大语言模型、视觉模型等领域都有丰富的成果产出,和知名高校和科研机构合作广泛。

大模型作为当下 AI 工业界和学术界当之无愧的「流量之王」,吸引了大批学者和企业投入资源去研究与训练。随着规模越做越大,系统和工程问题已经成了大模型训练中绕不开的难题。例如在 Llama3.1 54 天的训练里,系统会崩溃 466 次,平均 2.78 小时一次!

70倍极致压缩!大模型的检查点再多也不怕

那么,频繁存储检查点就显得十分必要。但存储检查点本身也是一个大工程。

70倍极致压缩!大模型的检查点再多也不怕

Meta 做了很多努力来加速存储检查点时间和增加存储频率,来对抗频繁出现的系统失效。但频繁存储也意味着大量的存储资源开销,其训练集群配备了 240PB 的 SSD 来应对这一挑战,光存储这一项的耗费就要亿元!

华为诺亚的 ExCP 方法也就应运而生,为了应对存储带来的巨大开销,他们提出了极致压缩检查点技术,能够无损压缩模型 70 倍,大幅降低训练中的存储开销。

70倍极致压缩!大模型的检查点再多也不怕

70倍极致压缩!大模型的检查点再多也不怕

代码目前已经开源,在 Apache 2.0 框架下发布,issue 中已经有小伙伴成功复现了结果。

70倍极致压缩!大模型的检查点再多也不怕

文章地址:https://arxiv.org/abs/2406.11257 仓库地址:https://github.com/Gaffey/ExCP

方法也很有创新性,文章中提到了两个重要的概念,一个是利用训练中检查点的残差信息,通过时间序列上信息的稀疏性实现更高的剪枝比例;另一个是将优化器和权重联合起来进行压缩,实现整体的高压缩率。

70倍极致压缩!大模型的检查点再多也不怕

具体方法

1. 检查点残差

在训练过程中,当前的参数可以看作上一个检查点存储的权重加上逐次迭代时梯度更新的总和,这部分是相对稀疏的,包含的信息量较少,因此对这一残差进行压缩,可以获得更好的压缩比例。而与此相反的,优化器中存储的动量是梯度一阶矩和二阶矩的滑动平均值,对于一阶矩来说,它的滑动平均默认的参数是 0.9,在数百到数千个迭代之后与上一次检查点存储的内容已经没有太大的关联,所以对于优化器直接压缩其本身的值而非残差。最终待压缩的检查点表示为

70倍极致压缩!大模型的检查点再多也不怕

2. 权重 - 优化器动量联合压缩

目前已有的模型压缩相关的工作一般只关注于模型的推理性能,或者是模型最终存储检查点的大小,而不关注模型在整个训练过程中对储存空间的开销。因而已有工作只对权重进行压缩,而忽略了 Adam 等常见优化器中实际上存储了两倍于权重数量的动量。这一工作一方面将两者一起进行了压缩,显著提升了整体的压缩比例;另一方面也利用了权重和优化器动量的关联性,进一步提升彼此的压缩比例。

权重剪枝:由于剪枝的权重是残差值,优化器动量的二阶矩可以大致表示在过去一段时间内权重残差值的变化幅度,所以可以使用优化器动量的二阶矩作为指标来确定不同层的剪枝比例。剪枝策略如下文公式所示

70倍极致压缩!大模型的检查点再多也不怕

式中,W 和分别表示权重和二阶矩。

70倍极致压缩!大模型的检查点再多也不怕

优化器动量剪枝:对于动量剪枝,可以使用一阶矩作为指示器来进行剪枝,论文中有关于可收敛性的一个简要证明。同时,如果一个位置的权重已经被剪枝,那么对应位置的优化器动量也应该同步被处理,所以剪枝策略如下文公式所示

70倍极致压缩!大模型的检查点再多也不怕

式中, 表示一阶矩。

3. 整体压缩流程

整体压缩流程如 Algorithm 1 所示,依次进行计算权重残差 / 联合压缩 / 非均匀量化 / 编码压缩等步骤,得到最终的压缩结果。

70倍极致压缩!大模型的检查点再多也不怕

而恢复出检查点完整文件的流程则如 Algorithm 2 所示,进行解压缩之后,首先从非均匀量化后存储的码本和下标中恢复出浮点结果,然后再与基准权重(上一个检查点的原始权重或恢复出的重建权重)相加,得到检查点完整文件。而恢复出整个训练流程中的检查点文件的流程如 Algorithm 3 所示,在完成训练后只保存初始化权重的随机种子和每个检查点存储的压缩结果,然后依次对检查点进行恢复以得到完整的检查点序列,以供从其中选择某个或多个检查点恢复训练 / 进行测试等。

实验结果

文章中不仅对于大语言模型做了评估,在 ViT-L32 这样较大的视觉模型上这一方法也能取得很好的效果。

70倍极致压缩!大模型的检查点再多也不怕

从消融实验里也可以看出,采用残差剪枝的方法大大减少了剪枝带来的损失。

70倍极致压缩!大模型的检查点再多也不怕

文章中还提供了大语言模型压缩前后问答的样例,可以看到压缩本身对于模型的问答能力也没有造成损害。

70倍极致压缩!大模型的检查点再多也不怕

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-06 11:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

权威AI开源标准1.0版发布:Llama也不算开源
...。参数应根据 OSI 批准条款提供。 例如,训练中间阶段的检查点以及优化器状态。对于机器学习系统,模型权重也是一个重要因素。OSI 在开源定义中表述道:AI 模型由模型架构、
2024-10-30 09:52:00
算力就这么点,为了提升语言模型性能,谷歌想了个新点子论文链接
...2训练,模型就会有大幅改善。例如,通过在PaLM540B的中间检查点上使用UL2R,可以达到PaLM540B在最终检查点的性能
2022-12-13 21:15:00
XAI大模型Grok-1已正式开源 但并不是在马斯克说的上周
...的模型,此次发布的是预训练阶段结束时的原始基础模型检查点,预训练阶段在去年10月份完成。这也就意味着他们开源的模型,没有进行针对对话等任何具体应用的微调。在官网上,xAI披露
2024-03-18 20:19:00
谷歌没开源的 PaLM,网友给开源了
...型无法从Torchhub正确下载,请务必清除 .cache/torch/hub/ 中的检查点和模型文件夹。如果问题仍未解决
2023-05-13 17:42:00
值得推广的小学定向运动课余训练方法
...,着实令人耳目一新。一、以“立体”作“平面”,巧设检查点,妙用楼层等高差——定向运动楼层地图的实践运用各小学校园占地面积基本相近,教学楼层数多的特点也是如此。反复在操场和校园
2023-08-07 18:22:00
DeepSeek,大消息
...FP8 模型性能的99.8%。目前,英伟达基于FP4优化的DeepSeek-R1检查点已经在Hugging Face上开源
2025-02-27 15:51:00
OpenAI掀小模型血战!苹果DCLM强势登场,碾压Mistral 7B全开源
...」,。 此外,Shankar还预告说,之后会继续上线模型中间检查点和优化器状态。难道,这就是LLM开源社区的春天了吗
2024-07-22 09:41:00
一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等
...ookresearch/LayerSkip研究人员开源了层跳过的推理代码和微调检查点,包括Llama 3、Llama 2和Code Llama
2024-11-28 12:02:00
斯坦福AI团队抄袭国产大模型?连识别“清华简”都抄了!清华系团队发文回应
...a3-V的代码是对MiniCPM-Llama3-V 2.5的重新格式化,其模型行为检查点的噪声版本高度相似。其中,Llama3-V只是对代码进行了重新格式化和变量重命名
2024-06-04 14:35:00
更多关于科技的资讯:
中新经纬9月19日电 题:L3上路,如何精准定义“接管时刻”?作者 陈兵 南开大学法学院副院长、教授L3级车型上路或将提速
2025-09-19 16:56:00
近年来,江西银行做深做实金融“五篇大文章”,积极发挥金融力量,提高授信审批效能,加快产品创新,支持科技企业发展,促进科技金融与实体经济“同频共振”
2025-09-19 16:06:00
【多彩新论】 小小包装,大有文章
安顺市镇宁自治县,某公司生产的包装盒因高端的设计、过硬的品质,漂洋过海远销北美、欧洲、中亚等地。8个月出口数量超百万,产值1000万元
2025-09-19 15:45:00
航空公司早已按舱等售票,却在值机选座时再加一道“锁”,要求旅客付费或使用积分解锁。这道无形的锁不仅锁住了座位,更锁住了航空服务应有的公平底线
2025-09-19 12:22:00
最近中国组织人事报“快牛”勿用鞭打的话题走红网络,吸引了公众的眼球,引发无数网友点赞转发。试问,这篇组工文章究竟有何魅力
2025-09-19 12:28:00
鑫荟金行黄金点钻节启幕 国潮新品闪耀登场!
近日,鑫荟金行备受瞩目的黄金点钻节启幕,为广大珠宝爱好者带来了一场视觉与体验的双重盛宴。此次黄金点钻节不仅汇聚了海量爆款
2025-09-19 13:19:00
近日,上海恒轩健康咨询有限公司凭借其创新的体检服务和专业的健康管理解决方案,在健康咨询领域崭露头角,成为上海地区健康管理行业的关注焦点
2025-09-19 13:38:00
联舌工坊发布「五星鲜」标准:以科技与匠心重塑预制食材产业高度
2025年9月18日,上海——在预制食材行业高速发展的背景下,国内领军企业联舌工坊今日正式发布《「五星鲜」预制食材企业标准》
2025-09-19 13:39:00
山东移动文登分公司“云守护” 6家药店用上数智“安全卫士”
齐鲁晚报·齐鲁壹点客户端 李孟霏近日,山东移动威海文登分公司凭借“精准诊断+场景化演示”服务模式,成功与6家连锁药店达成合作
2025-09-19 13:19:00
厦大智慧教室迈入“无感扩声”时代教师无需佩戴麦克风,声音可清晰覆盖整个教室东南网9月19日讯 (海峡导报记者 梁静 通讯员 戴佩琪)新学期伊始
2025-09-19 10:26:00
为积极推动实现“专业化、生态化、数字化”战略远景,积极服务大局,在人工智能的浪潮中,切实推进“保险+”服务的建设,瑞众人寿河北分公司将在全省开展以“拾光美好·瑞意相伴”为主题的客户嘉年华活动
2025-09-19 10:14:00
满算力每天可产出上百万分钟视频,成本只需人工的10%宁企AI“拍”短剧,拓展“数字丝路”新蓝海□南京日报/紫金山新闻特派记者黄琳燕9月18日
2025-09-19 07:44:00
光博会上,宁企全球首发先进高光谱成像相机粉笔灰冒充面粉?“天眼”一拍现原形南报网讯(记者张安琪)“两堆白色粉末摆在眼前
2025-09-19 07:45:00
厦门网讯(厦门日报记者 刘艳)昨日,2025金砖国家新工业革命伙伴关系论坛6场平行分论坛发布6项成果。此次金砖国家新工业革命伙伴关系论坛共发布了12项成果
2025-09-18 08:20:00
一口预制菜,搅动全民心。近日,罗永浩与西贝的“预制菜之争”告一段落,但引发的消费者知情权问题,仍备受关注。罗永浩与西贝争论的焦点
2025-09-18 09:31:00