• 我的订阅
  • 科技

CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升

类别:科技 发布时间:2024-08-02 09:40:00 来源:机器之心Pro

CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文主要作者来自清华大学和卡内基梅隆大学(CMU)。共同一作为清华大学计算机系本科毕业生赵晨阳,卡内基梅隆大学硕士生贾雪莹。

虽然大规模语言模型(LLM)在许多自然语言处理任务中表现优异,但在具体任务中的效果却不尽如人意。为了提升模型在特定自然语言任务上的表现,现有的方法主要依赖于高质量的人工标注数据。这类数据的收集过程既耗时又费力,对于数据稀缺的任务尤为困难。

为了解决这个问题,一些研究尝试通过强大的 Teacher Model 生成训练数据,来增强 Student Model 在特定任务上的性能。然而,这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下,如何持续迭代模型的能力,成为了亟待解决的问题。

来自卡内基梅隆大学和清华大学的研究团队提出了 SELF-GUIDE 方法。该方法通过语言模型自身生成任务特定的数据集,并在该数据集上进行微调,从而显著提升模型在特定任务上的能力,无需依赖大量外部高质量数据或更强大的 Teacher Model。具体来说,在外部输入大约 3 个样例的情况下,SELF-GUIDE 采用多阶段的生成和过滤机制,利用模型生成的合成数据进行微调,使模型在特定任务上的表现更加出色。

CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升

论文地址:https://arxiv.org/abs/2407.12874 代码仓库:https://github.com/zhaochenyang20/Prompt2Model- SELF-GUIDE

CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升

图 1:SELF-GUIDE 利用模型自主合成数据的能力提升模型执行特定任务的能力。

方法

具体来说,研究团队将 SELF-GUIDE 方法分解为三个主要阶段:输入数据生成、输出数据生成和质量优化。

输入数据生成

在 SELF-GUIDE 框架的设计和实现过程中,研究者首先根据任务类型(生成型任务或分类型任务)指定不同的提示模板。对于生成型任务, SELF-GUIDE 框架使用一个相对简单的提示模板。而对于分类型任务, SELF-GUIDE 框架则采用了另一种策略。对于分类任务, SELF-GUIDE 框架首先从全部标签空间中随机选择一个标签,将其作为条件生成的伪标签,指导输入数据的生成。选定伪标签后, SELF-GUIDE 框架使用较为复杂的条件生成模板,引导模型生成与所选伪标签相对应的输入内容。

CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升

图 2:SELF-GUIDE 的核心在于一个高效的多阶段生成机制,其中语言模型逐步生成输入数据输出数据组合。经过生成和过滤后,自生成的数据进一步用于微调语言模型本身。此图描述了 SELF-GUIDE 针对生成任务的流程。

选定模板并填充示例(few-shot examples)后,完整的提示被传递给 LLM,以生成输入数据。每轮提示后,新生成的输入会被添加到输入库中。从这个库中随机抽取一部分输入,并与初始示例中的输入合并,形成新的提示,逐步扩展 LLM 生成的输入集并且减少重复。SELF-GUIDE 仅进行一轮输入生成,随后在质量优化阶段,应用基于规则的过滤器来去除低质量的输入。

CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升

图 3:此图描述了 SELF-GUIDE 完成分类任务的过程。对于分类任务的数据,SELF-GUIDE 首先生成伪标签,然后生成对应的输入,最后重新生成真实标签。

输出数据生成

输出数据生成阶段采用了典型的上下文学习方法:研究者向模型提供任务指令和原始示例,使模型对输入生成阶段产生的每一个输入进行标注。在获取所有输出后,再进行一轮基于规则的过滤,以选择最终的合成数据集。

质量优化

生成数据的质量对于下游训练的成功至关重要。SELF-GUIDE 采用了两种策略来提高质量:调整生成参数以提高生成质量并基于规则过滤掉低质量样本。

调整温度:调整温度是一种平衡多样性和质量的常见策略。SELF-GUIDE 框架在输入生成阶段使用较高的温度以鼓励多样性,在其他阶段通过使用较低的温度确保得到概率最高的输出,从而保证整体数据质量。然而,仅依靠温度调整不足以实现所需的平衡。因此, SELF-GUIDE 还在输入生成后和输出注释后分别进行了两轮基于规则的数据过滤。

噪声过滤(Noise Filter):研究者手动整理了一份噪声术语列表,包括常见的问候语和噪声字符(例如,生成内容中的”\\”)。如果生成示例的输入或输出中出现了任何来自这份列表的噪声术语, SELF-GUIDE 将丢弃整个示例。

长度过滤(Length Filter):虽然示例的长度可能存在偏差,但是研究者认为这些示例在特定任务的长度分布方面仍然具有代表性。SELF-GUIDE 假设示例的长度遵循正态分布,并计算出输入样例的均值 μ 和标准差 σ,研究者假定生成示例的输入和输出长度应符合同一正态分布,并要求长度在 (μ − 2σ, μ + 2σ) 范围内。

整体参数微调(One Parameter Fits All):为了使 SELF-GUIDE 生成符合指令和示例指定目标分布的训练数据,需要在标注数据点上优化各种超参数,包括生成输入输出的个数、输入数据生成的温度、输出数据生成的温度、微调参数等。研究者将实验测试任务分为两部分:一部分可以利用所有数据进行验证以调整生成参数,称为验证任务;另一部分的数据仅用于测试而不可用于调整参数,称为测试任务。研究者在验证任务上搜索 “最大化最差任务性能” 的参数,并将其固定用于测评 SELF-GUIDE 在测试任务上的表现。

实验结果

为了评估 SELF-GUIDE 的有效性,研究者从 Super-NaturalInstructions V2 基准中选择了 14 个分类任务和 8 个生成任务。研究者随机选择了一半任务用于超参数搜索,剩余的一半用于评估。在模型方面,研究者选择了 Vicuna-7b-1.5 作为输入生成、输出生成和微调的基础模型。在评估指标方面,研究者采用了与 Super-NaturalInstructions 基准相同的评估指标,即分类任务的 Exact Match 和生成任务的 ROUGE-L。

为了体现 SELF-GUIDE 的效果,研究者将 SELF-GUIDE 与其他指令跟随和上下文学习方法进行了比较:

1.Few-Shot ICL:作为主要基准,研究者与直接提示语言模型进行了比较。这种方法直接依赖于模型固有的指令跟随能力。

2.Self-ICL:Self-ICL 使用自生成的示例来提高零样本指令跟随。研究者在 Self-ICL 工作的基础上进行了修改,通过自生成尽可能多的示例(而不是固定个数的示例)填充提示词,从而增加参考样本数目。

3.Few-Shot Finetuning:直接利用输入的少量示例进行微调。

SELF-GUIDE 原文主要实验结果如下所示。在基准的评估指标上,分类任务的绝对提升达到了 14.5%,而生成任务的绝对提升则达到了 17.9%。这些结果表明, SELF-GUIDE 在指导 LLM 向任务特定专业化方向发展方面具有显著效果,即使在数据极其有限的情况下。这突显了自我生成数据在大规模适应 LLM 到特定任务中的潜力。更多实验结果和消融实验请参考论文原文。

CMU&清华:让LLM自己合成数据来学习,特定任务性能同样大幅提升

图 4:对于每类任务(分类和生成任务),研究者将任务随机分成两半,一半用于调试 “One Parameter Fits All” 策略的参数,另一半用于使用这些调试好的参数测试 SELF-GUIDE 的性能。我们使用相同的解码参数和提示模板来评估模型在 SELF-GUIDE 前后的表现。

总结

SELF-GUIDE 框架鼓励模型自主生成训练数据并在此数据上进行微调。实验结果表明,这种方法在提升大规模语言模型特定任务的专业能力方面具有巨大潜力,尤其是在数据有限的情况下,SELF-GUIDE 可以有效解决缺少训练数据的问题。同时,这也为探索自主模型适应和持续学习的技术提供了参考。研究者希望这一工作能够推动 AI 系统在自主对齐和改进机制方面的发展,使其更加符合人类的意图。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-02 11:45:07

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

清华提出时间序列大模型:面向通用时序分析的生成式Transformer
...据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特
2024-07-22 09:44:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...关注的大模型前沿论文SwiftEdit:50 倍速文本引导图像编辑清华团队提出大模型“密度定律”足球领域首个视觉语言基础模型Aguvis
2024-12-10 09:53:00
清华教授唐杰:Scaling Laws虽被质疑,但至今仍是提高大模型性能的重要方法
清华大学计算机系讲席教授、人工智能研究院基础模型研究中心主任唐杰出品|搜狐科技作者|郑松毅2024年已过半,大模型之争热度不减,通往AGI的路究竟该怎么走?近日,清华大学计算机系
2024-06-05 18:36:00
NeurIPS | 消除多对多问题,清华大规模细粒度视频片段标注新范式
...邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com陈厚伦,清华大学计算机系媒体所的二年级博士生
2024-10-29 09:55:00
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化
...码住了。论文一作为华人学者Tianhao Wu,导师之一是2011年清华特奖得主焦剑涛。团队提出了一种称作思考偏好优化(Thought Preference Optimization)的方法
2024-10-29 09:58:00
ChatGPT笨了,还是老了?
...百川智能Baichuan2开源大模型发布会上,中国科学院院士、清华大学人工智能研究院名誉院长张钹表示:“到现在为止,全世界对大模型的理论工作原理、所产生的现象都是一头雾水,所
2023-09-17 16:13:00
大模型观察|从训练到落地金融业,大模型“升级之路”面临哪些挑战?
...务的提质增效作用,许多机构都有亲身体验。1月24日,由清华大学经济管理学院、度小满、《麻省理工科技评论》中国、清华大学经济管理学院动态竞争与创新战略研究中心联合编写的《202
2024-01-29 21:36:00
商汤发布开源社区最大最强多模态多任务通用大模型“书生2.5”
...(INTERN)”最初版本由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学在2021年11月首次共同发布,并持续联合研发。当前,人工智能技术的发展正面临着
2023-03-15 13:30:00
首个多模态连续学习综述,港中文、清华、UIC联合发布
...分享,欢迎投稿或者联系报道。本文作者来自于港中文、清华和UIC。主要作者包括:余甸之,港中文博士生;张欣妮,港中文博士生;陈焱凯,港中文博士;刘瑷玮,清华大学博士生;张逸飞,
2024-11-14 09:46:00
更多关于科技的资讯:
“你好,顺丰快递,来送‘国补’数码产品。”10月21日,市民陈洁收到了网购的手机。这款手机享受“国补”和以旧换新后,比市场价便宜了不少
2025-10-24 08:05:00
集美加快布局新能源商用车赛道
“集链聚能 智驭未来”——2025厦门新能源商用车产业“四链融合”对接会吸引资源对接。(本组图/集美区 提供)企业展示的各类新能源商用车
2025-10-24 08:58:00
第三届“苏颂杯”未来产业技术创新赛圆满收官
大赛组委会为一等奖项目颁奖。台下,选手们仔细聆听台上评委点评。 海外嘉宾发来视频点评本届“苏颂杯”大赛。(本组图/市科技局 提供)厦门网讯(厦门日报记者 李晓平 通讯员 庄佩贞)经过激烈角逐
2025-10-24 08:58:00
珍爱网受邀参与“清朗网络守护者”启动大会 筑牢网络安全坚实屏障
在数字化快速发展的今天,网络安全已成为国家安全的重要组成部分。近日,由政府相关部门指导,深圳广播电影电视集团主办的以“聚焦网络空间治理 护航社会高质量发展”为主题的“清朗网络守护者”启动大会在深圳正式举行
2025-10-24 08:59:00
90 载科学传承:GNC 以城市环游诠释运动营养真谛
以骑行运动为突破口,GNC加速深耕中国运动健康市场2025年10月23日,首届环贵州公园省国际公路自行车赛圆满落幕。GNC健安喜作为铂金赞助商及官方唯一指定营养补充剂品牌
2025-10-24 08:59:00
“微米”社交APP以线下实名社交破局
近日,一款名为“微米(WEMET)”的创新型社交应用正式面世,其以“地图社交+线下实体联动”为核心模式,围绕“真实、附近
2025-10-24 08:59:00
全国首例!吉大中日联谊医院成功植入超百通道侵入式柔性脑机接口
10月22日,记者从吉林大学中日联谊医院获悉,神经外科高宇飞、张金男团队与北京智冉医疗科技有限公司联手,在全国率先成功完成首例超百通道侵入式柔性脑机接口的临床植入手术
2025-10-24 11:08:00
客如云AI碰碰贴“商业增长引擎”,让营销触手可及
在数字经济深度融入实体经济的当下,实体门店正面临“营销落地难、用户互动低效、场景覆盖有限”的共性挑战——传统推广依赖人工操作与分散物料
2025-10-24 11:20:00
继感知位置后!海尔空调将发布可感知呼吸的新品,可自适应送风
曾经,手动调节、躲避直吹是使用空调时的日常烦恼;如今,随着“主动感知”成为可能,空调正变得真正“懂你”。继10月21日首发可感知人体位置的海尔麦浪舒适风空调后
2025-10-24 11:22:00
“今天查,明天做”ICL晶体云柜正式落户福州普瑞眼科 高清视界无需等待
廿载耕耘,瞩目焕新!在普瑞眼科成立20周年之际,福州普瑞眼科迎来又一重大技术升级——正式启用EVOICL官方授权“云柜系统”
2025-10-24 11:29:00
厦门新能源商用车应用场景清单发布东南网10月24日讯(海峡导报记者 康泽辉)厦门市新能源商用车应用场景清单发布,聚焦5类道路场景43个应用场景项目
2025-10-24 11:30:00
全球首个百亿级人类基因组基础模型Genos发布!
在生命科学的前沿探索中,我们早已能高效“读出”生命的序列,但如何从30亿碱基对中“读懂”生命奥秘,长期以来都是一项巨大挑战
2025-10-24 13:21:00
鲁网10月24日讯作为支撑信息通信网络稳定运行的“核心枢纽”,通信机房承载着海量高功耗数据设备,其温度精准控制直接关系到网络畅通与服务质量
2025-10-24 13:47:00
鲁网10月24日讯近日,东平农商银行向东平县百通电子商务有限公司发放400万元创业担保贷款,为企业扩大经营规模、优化供应链提供强有力的金融支持
2025-10-24 13:48:00
鲁网10月24日讯东平农商银行始终以客户需求为导向,创新构建“三快”服务体系。通过深化协同服务、优化业务流程、强化跟踪保障
2025-10-24 13:49:00