• 我的订阅
  • 科技

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

类别:科技 发布时间:2024-07-23 09:41:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

本工作由中科大认知智能全国重点实验室 IEEE Fellow 陈恩红团队与华为诺亚方舟实验室完成。陈恩红教授团队深耕数据挖掘、机器学习领域,在顶级期刊与会议上发表多篇论文,谷歌学术论文引用超两万次。诺亚方舟实验室是华为公司从事人工智能基础研究的实验室,秉持理论研究与应用创新并重的理念,致力于推动人工智能领域的技术创新和发展。

数据是大语言模型(LLMs)成功的基石,但并非所有数据都有益于模型学习。直觉上,高质量的样本在教授 LLM 上预期会有更好的效率。因此,现有方法通常专注于基于质量的数据选择。然而,这些方法中的大多数独立地评估不同的数据样本,忽略了样本之间复杂的组合效应。如图 1 所示,即使每个样本质量完美,由于它们的互信息冗余或不一致性,它们的组合可能仍然次优。尽管基于质量的子集由所有三个优质样本组成,但它们编码的知识实际上是冗余和冲突的。相比之下,另一个由几个相对较低质量但多样化的样本组成的数据子集在教授 LLM 方面可能传达更多信息。因此,基于质量的数据选择并未完全符合最大化 LLM 知识掌握的目标。

而本文旨在揭示 LLM 性能与数据选择之间的内在关系。受 LLM 信息压缩本质的启发,我们发现了一条 entropy law,它将 LLM 性能与数据压缩率和前几步模型训练的损失加以联系,分别反映了数据集的信息冗余程度和 LLM 对数据集中固有知识的掌握程度。通过理论推导和实证评估,我们发现模型性能与训练数据的压缩率呈负相关,而这通常会产生较低的训练损失。基于 entropy law 的发现,我们提出了一种非常高效且通用的数据选择方法用于训练 LLM,名为 ZIP,其旨在优先选择低压缩率的数据子集。ZIP 分多阶段、贪心地选择多样化的数据,最终获得一个具有良好多样性的数据子集。

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

团队:中科大认知智能全国重点实验室陈恩红团队,华为诺亚方舟实验室

论文链接: https://arxiv.org/pdf/2407.06645

代码链接: https://github.com/USTC-StarTeam/ZIP

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

图 1

Entropy law

我们对数据压缩与 LLM 性能之间的关系进行理论分析。直觉上,训练数据的正确性和多样性会影响最终模型的性能。同时,如果数据存在严重的内在冲突或模型对数据编码的信息掌握不佳,LLM 的性能可能会次优。基于这些假设,我们将 LLM 的性能表示为 Z ,其预期会受到以下因素的影响:

数据压缩率 R:直觉上,压缩率越低的数据集表明信息密度越高。

训练损失 L:表示数据对模型来说是否难以记忆。在相同的基础模型下,高训练损失通常是由于数据集中存在噪声或不一致的信息。

数据一致性 C:数据的一致性通过给定前文情况下下一个 token 的概率的熵来反映。更高的数据一致性通常会带来更低的训练损失。

平均数据质量 Q:反映了数据的平均样本级质量,可以通过各种客观和主观方面来衡量。

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

基于 Entropy law,我们提出两个推论:

如果将 C 视为常数,训练损失直接受压缩率影响。因此,模型性能由压缩率控制:如果数据压缩率 R 较高,那么 Z 通常较差,这将在我们的实验中得到验证。

在相同的压缩率下,较高训练损失意味着较低的数据一致性。因此,模型学到的有效知识可能更有限。这可以用来预测 LLM 在具有相似压缩率和样本质量的不同数据上的性能。我们将在后续展示这一推论在实践中的应用。

ZIP:高度轻量化的数据选择算法

在 entropy law 的指导下,我们提出了 ZIP 这一数据选择方法,通过数据压缩率来选择数据样本,旨在在有限的训练数据预算下最大化有效信息量。出于效率考量,我们采用了一种迭代多阶段贪心范式,以高效地获得具有相对低压缩率的近似解。在每轮迭代中,我们首先使用全局选择阶段来选择一组具有低压缩率的候选样本池,找到信息密度高的样本。然后,我们采用粗粒度的局部选择阶段,选择一组与已选样本冗余度最低的较小样本集。最后,我们使用细粒度的局部选择阶段,最小化要添加样本之间的相似性。上述过程持续进行直到获得足够的数据,具体算法如下:

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

实验结果

1.ZIP 选择算法对于不同 LLM、在不同 LLM 对齐阶段的有效性

对比不同的 SFT 数据选择算法,基于 ZIP 选择数据所训练得到的模型性能上展现出优势,并且在效率上也占优。具体结果见下表:

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

得益于 ZIP 的模型无关、内容无感知的特性,其同样也可应用于偏好对齐阶段的数据选择。而 ZIP 所选择的数据同样展现出了较大的优势。具体结果见下表:

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

2.Entropy law 的实验验证

基于 SFT 数据选择实验,我们基于模型效果、数据压缩率以及模型在前几步训练的损失,分别拟合了多条关系曲线。结果见图 2 以及图 3,我们从图中可以观察到三个因素之间的紧密关联。首先,低压缩率数据通常会带来更好的模型效果,这是因为 LLMs 的学习过程与信息压缩高度相关,我们可以将 LLM 视为数据压缩器,那么压缩率较低的数据意味着更多的知识量,从而对压缩器更有价值。同时,可以观察到较低的压缩率通常伴随着更高的训练损失,这是因为难以压缩的数据携带了更多的知识,对 LLM 吸收其中蕴含的知识提出了更大的挑战。

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

图 2 Mistral-7B

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

图 3 Llama-3-8B

3.Entropy law 的实际应用

我们提供了一个 entropy law 在真实场景中指导 LLM 训练数据增量更新的应用。在该任务场景中,训练数据量保持相对稳定,只有一小部分数据会被修改。结果见图 4,其中

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

是逐渐增量更新的 5 个数据版本,出于保密要求,仅提供不同压缩率下模型效果的相对关系。根据 entropy law 预测,假设每次增量更新后数据质量没有显著下降,可以预期随着数据压缩率的降低,模型性能会有所提升。这一预测与图中数据版本的结果一致。然而,数据版本

显示出损失和数据压缩率的异常增加,这预示了由于训练数据一致性下降导致的模型性能下降的潜在可能。这一预测通过随后的模型性能评估进一步得到证实。因此,entropy law 可以作为 LLM 训练的指导原则,无需在完整数据集上训练模型直到收敛,便可预测 LLM 训练失败的潜在风险。鉴于训练 LLM 的高昂成本,这一点尤其重要。

中科大联合华为诺亚Entropy Law,揭秘大模型性能、数据压缩率

图 4

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-23 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

中科大/华为诺亚出手!芯片性能≠布局评分,EDA设计框架全面开源
...,有了直指性能指标的新测评标准!中科大MIRA Lab和华为诺亚方舟实验室联合发布了新的评估框架和数据集,而且完全开源。有了这套标准,布局指标与最终的端到端性能不一致、得分高
2024-08-13 09:40:00
华为盘古大模型将于7月7日在开发者大会上公布重大升级
...部部长尤鹏、华为云人工智能领域首席科学家田奇、华为诺亚方舟实验室主任姚骏也将围绕盘古大模型发表主题演讲。 据介绍,盘古大模型将首次明确定位,即“为行业而生”;盘古基础大模型
2023-06-26 23:04:00
智能体首达Kaggle Grandmaster,华为结构化推理补齐思维链短板
...能体任务,从而动态地、分步骤地解决问题。近日,华为诺亚方舟实验室、伦敦大学学院(UCL)和达姆施塔特工业大学的一个研究团队在这个研究方向上做出了自己的贡献。他们采用第一性原理
2024-11-09 09:53:00
华为诺亚方舟实验室打造底层视觉套件
...图像和视频的修复复原、质量提升、风格变换任务。华为诺亚方舟实验室基于昇思MindSporeAI框架打造了MindSporeEditing底层视觉套件
2023-11-22 12:07:00
看看都有哪些重磅大咖!这份掘金年度技术演讲指南请收好
...坛带来分享的嘉宾是:字节跳动数据库负责人张雷,华为诺亚方舟实验室语音语义首席科学家刘群,Datastrato Founder &
2024-01-04 15:00:00
AI重塑千行百业 华为云发布盘古大模型3.0和昇腾AI云服务
...术,大模型训练效能可以调优到业界主流GPU的1.1倍。华为诺亚方舟实验室主任姚骏介绍盘古基础大模型全栈创新算力是训练大模型的基础。在本次大会上,张平安宣布单集群2000P F
2023-07-10 18:01:00
探索终端操作系统领域AI大模型创新趋势 OpenHarmony技术大会OS原生智能分论坛召开
...大学计算机科学与工程系副教授郑文立主题分享来自华为诺亚方舟实验室的研究员侯璐则在现场分享了《大语言模型的压缩加速和高效部署》,这一报告从架构设计、成本、吞吐、时延、长序列等方
2023-11-06 14:46:00
70倍极致压缩!大模型的检查点再多也不怕
...zhixin.com;zhaoyunfeng@jiqizhixin.com该论文的作者均来自于华为诺亚实验室,第一作者为李文硕
2024-08-06 09:27:00
华为云发布大模型混合云十大创新技术
[中国,东莞,2024年6月22日]今日,在华为开发者大会2024期间,以“大模型混合云,十大创新技术引领政企智能升级”为主题的高峰论坛成功举办。会上,华为主机上云军团CEO、混
2024-06-24 10:45:00
更多关于科技的资讯:
“贵州白酒云展会”数字化平台于“一码贵州”正式上线
多彩贵州网讯 9月9日,在第十四届中国(贵州)国际酒类博览会盛大开幕之际,“贵州白酒云展会”数字化平台于“一码贵州”正式上线
2025-09-10 00:50:00
投洽会期间厦门火炬高新区共有41个项目完成签约 计划总投资约433亿元
投洽会上,火炬高新区企业展示的芯片产品吸引客商关注。(本组图/厦门日报全媒体记者 卢剑豪 摄)多家位于火炬高新区的专精特新“小巨人”企业亮相投洽会
2025-09-09 08:44:00
刚刚过去的暑假,“工厂游”火爆出圈。多地工厂纷纷敞开大门,推出丰富多彩的研学项目。而在社交平台上,“工厂游”的攻略被大量转发
2025-09-09 08:46:00
东南网9月8日讯(通讯员 苏培婷)9月5日,由大田县总工会、国网大田县供电公司联合主办,国网大田县供电公司工会承办的首届“电力工匠”职业技能竞赛AI技术应用项目比赛圆满落幕
2025-09-09 09:28:00
本报讯 作为中国洗涤用品工业协会主办的行业盛会,第45届(2025)中国洗涤用品行业年会与第17届中国国际日化产品原料及设备包装展览会(以下简称“中国国际日化展”)将于今年10月15日至17日在重庆国际博览中心举行
2025-09-09 10:44:00
摩登中国时尚展传递中国皮革强音
本报记者 解 磊 文/摄为了满足人们对鞋包服饰等消费需求,为国际国内品牌企业、特色区域、独立设计师提供一个高端商贸合作
2025-09-09 10:44:00
近年来,我国消费市场涌现出许多新亮点,其中一个令人意外却极具代表性的现象是:碳纤维最大应用市场,竟然不是航空航天或风电叶片
2025-09-09 10:45:00
获SIAL创新金奖:纸沙拉沙拉脆片掀起零食健康新主张
消费日报网讯 9月1日,在2025 SIAL西雅国际食品展(深圳)举办同期,第24届SIAL创新大赛获奖榜单正式发布。湖南立方体食品有限公司选送的产品纸沙拉沙拉脆片荣获金奖
2025-09-09 11:17:00
王腾发微博辟谣:有失职,但没有窃取机密出售
9月8日,王腾发布离开小米的微博,当天,“小米王腾因泄密被辞退”登上热搜。此前,2023年8月25日,王化曾发博表示,欢迎王腾回京~好好干
2025-09-09 11:18:00
王腾深夜发文离开小米,其曾被赠“谨言慎行”T恤
9月8日晚,中国区市场部总经理、REDMI品牌总经理王腾发布微博:很惭愧跟大家说声抱歉,过去犯了一些错误,接受该有的代价
2025-09-09 11:18:00
前零一万物联创戴宗宏创业:20人团队,能干上百人的AI定制项目
文|周鑫雨编辑|苏建勋国内市场、ToB、定制化——每个词都踩到了当下AI创业的雷点上。但这恰恰是前零一万物联合创始人戴宗宏
2025-09-09 15:19:00
不再低调的二次元,正在经营一种「痛系生活」
撰文|深海 封面来源|视觉中国 刚刚过去的这个夏天,上海俨然变成了一座二次元年轻人的“痛城”。 7月开始,几大动漫展会接连袭来
2025-09-09 21:51:00
全棉时代官宣孙颖莎为全球品牌代言人
9月8日,全棉时代官宣乒乓球运动员孙颖莎为全球品牌代言人,为旗下棉柔巾品类代言。双方将携手传递舒适、健康、环保的全棉生活方式
2025-09-09 14:30:00
京东超市11周年发布新战略 未来三年用户数从3亿将增至5亿
京东超市11周年发布会8日在北京举行,全球快消行业超400家知名品牌负责人、高管齐聚一堂。面对全球零售业遇到的多重挑战
2025-09-09 15:02:00
中秋至味 团圆共飨|好太太2025中秋礼盒上线啦!
月满人间,礼寄相思好太太中秋诚挚献礼好太太中秋礼盒是家的味道,更是爱的传递礼盒产品线下各大商超均有售卖欢迎各企事业单位
2025-09-09 15:19:00