• 我的订阅
  • 科技

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

类别:科技 发布时间:2024-08-01 09:40:00 来源:新智元

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。

LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DPO等对齐阶段。

后者不仅依赖昂贵的人工标注数据,而且很可能让人类水平限制LLM的进一步发展。

今年1月,Meta和NYU的团队就提出了语言模型的自我奖励机制,使用LLM-as-a-Judge的提示机制,让模型在训练期间进行自我反馈。

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

论文地址:https://arxiv.org/abs/2401.10020

论文发现,即使不依靠人类标注者,LLM也能通过评价自己的响应实现性能提升。

最近,这个团队又发表了一篇研究,将LLM「自我奖励」这件事情再拔高了一个层次。

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

论文地址:https://arxiv.org/abs/2407.19594

毕竟是自己给自己打分,因此不能只关注模型作为actor如何从反馈中优化,也需要保证模型作为judge具备优秀的自我评价能力。

之前的研究就因为过于关注前者而忽略后者,造成了迭代训练期间性能的过快饱和。

甚至,还有可能造成比饱和更差的情况,即对奖励信号的过度拟合(reward hacking)。

因此,来自Meta、NYU、UC伯克利等机构的研究者们提出,还需要增加一个「元奖励」步骤——让模型评价自己的评价,从而提升评价能力。

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

虽然听起来有点绕,但实际是合理的。而且实验发现,加上这一层嵌套有显著的提升效果。

比如Llama-3-8B-Instruct在AlpacaEval 2上的胜率就从22.9%增至39.4%,比GPT-4的表现更佳;在Arena-Hard上则从20.6%提升至29.1%。

如果说,今年1月发表的研究是LLM-as-a-Judge,那么这篇论文提出的「元奖励」,就相当于LLM-as-a-Meta-Judge。

不仅Judge不需要人类,Meta-Judge也能自给自足,这似乎进一步证明,模型的自我提升可以摆脱对人类监督的依赖。

Meta科学家Yann LeCun也转发了这篇研究,并亲自下场玩起了双关梗——

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

Meta提出的Meta-Judge,FAIR能否实现fair?

研究不重要,重要的是Meta FAIR这一波曝光率拉满了。

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

元奖励(Meta-Rewarding)

用更直白的话说,「元奖励」方法就是在原有的actor-judge的互动中再引入meta-judge,且由同一个模型「分饰三角」,不需要额外人类数据的参与。其中,actor负责对给定提示生成响应;judge负责为自己的响应进行评价和打分;而meta-judge会对自己的打分质量进行对比。

最终的优化目标,是希望actor能生成更好的响应,但训练效率依赖于judge的准确率。

因此,meta-judge作为训练judge的角色,可以同时提升模型作为actor和judge的性能。

这三种角色组成的迭代训练模式如图1所示,在第t个步骤中,先收集模型M_t对提示x的响应,由再让M_t对自己进行评价,由此得到用于训练actor的偏好数据。

之后,给定同一个响应内容y,让M_t生成各种不同评价的变体,由meta-judge进行打分和排名,由此得到用于训练judge的偏好数据。

结合上述的两类偏好数据,通过DPO方法对模型M_t进行偏好优化,就完成了一轮迭代,得到模型M_(t+1)。

长度偏好

之前的工作曾经发现,作为judge的模型会偏好更长的响应,这会导致多轮迭代后答案的「长度爆炸」。

因此,作者引入了一种简洁的「长度控制」(length-control)机制——使用参数ρ∈[0,1],权衡judge的评分和响应文本长度。

比如,对于分数在第一梯队的模型响应,即分数范围为[(1-ρ)Smax+ρSmin, Smax],选择其中最短的响应作为最优答案。

Judge偏好数据的创建

首先,选择judge最没有把握的模型响应,通过分数方差衡量judge的确定性。对于每个选中的响应y,我们有最多N个对应的模型评价{j1, … , jN}。

之后,对其中的每一对(jm, jn)进行成对评估,使用如图2所示的meta-judge提示模板。

除了给出评价结果,meta-judge还需要生成CoT推理过程。

为减少meta-judge可能存在的位置偏好(可能倾向于选择最先出现的Judgment A),对同一对数据(jm, jn)会交换顺序让meta-judge进行两次评价,得到单次结果rmn:

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

引入参数w1、w2用于表征可能存在的位置偏好:

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

其中win1st和win2nd表示在meta-judge的整个评价过程中,两个位置的评价分别有多少次胜出。

用以上变量构建「对决矩阵」(battle matrix)B记录每一次的最终结果:

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

利用Elo评分,可以从矩阵B计算meta-judge给每个judge赋予的元奖励分数。

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

作者发现,meta-judge和judge一样,也会展现出「长度偏好」,倾向于选择更长的评价意见。

为了避免最终训出的模型过于啰嗦,构建judge数据集时也采取了过滤措施。如果meta-judge选中的评价意见超过一定长度,整个数据对都会被直接舍弃。

评估实验

实验准备

实验使用Llama-3-8B-Instruct作为种子模型,其他方面的实验设置与之前发表的论文《Self-Rewarding Language Models》一致。

在元奖励训练之前,实验首先在EFT(Evaluation Fine-Tuning)数据集上对种子模型进行监督微调(SFT)。

EFT数据集是根据Open Assistant构建的,并提供初始的LLM-as-a-Judge训练数据,包含经过排名的人类响应,能训练模型充当法官。

对于元奖励迭代,实验利用2万个提示,由Llama-2-70B-Chat经过8-shot提示生成。

如上图所示,训练所用的提示在分布上更接近AlpacaEval数据集,而Arena-Hard的提示集中分布于训练提示的一个子集。

对于每次迭代,实验从该种子集中抽取5,000个提示,总共进行四次迭代。

迭代过程如下:

- Iter 1:从初始的SFT模型开始,使用DPO(Direct Preference Optimization)对生成的actor和judge的偏好对进行训练,获得M1。

- Iter 2:使用DPO对M1生成的actor和judge偏好对进行训练,获得M2。

- Iter 3/4:使用DPO仅对M2/M3生成的actor偏好对进行训练,获得M3/M4。

每个prompt都让模型生成K=7个响应,每次迭代总共生成3.5万个响应。然后,我们过滤掉相同的响应(通常删除不超过50个重复项)。

接下来,使用相同的采样参数为每个响应生成N = 11^2个不同的判断。

评估方法

元奖励模型的目标是要让模型既能自己「演」,还能自己「评」,因此实验也要评估模型在这两个角色中的表现如何。

基线模型是前述论文中提出的自我奖励模型,带有相同的「长度控制」机制,可以直接对比出元奖励机制带来的性能增益。

首先,先看看如何评判「演」的怎么样。

实验利用三个基于GPT4-as-a-Judge的自动评估基准,包括AlpacaEval 2、Arena-Hard和MT-Bench,分别侧重于模型的不同方面。

例如,AlpacaEval主要关注聊天场景,提示集涵盖了各种日常问题。

相比之下,Arena-Hard包含更复杂或更具挑战性的问题,要在预定义的7个方面(创造力、复杂性、问题解决能力等)满足更多的标准。

MT-Bench有8个不同的问题类别,主要评估模型的多轮对话能力。

另一方面,为了评估LLM法官「评」的怎么样,实验测量了LLM给的分数与人类偏好的相关性。如果没有可用的人类标注数据,则使用较强的AI法官代替。

指令跟随评估

图3展示了在AlpacaEval基准上,元奖励方法(带有长度控制机制)胜率随训练迭代的变化。

总体来看,元奖励的胜率从22.9%大幅提升到39.4%,超过了GPT-4,并接近Claude Opus模型。

考虑到种子模型参数量只有8B,并且,除了在SFT阶段使用的EFT数据集,没有引入任何额外的人工数据,这是一个相当优秀的结果。

另外,结果也证明了meta-judge和长度控制机制的重要性。

自我奖励模型训练到超过3轮时,开始出现饱和迹象,但带有元奖励的模型并没有,到第4轮时仍保持性能增长。

这表明了对模型评价能力进行训练的重要性,以及meta-judge这一角色的有效性。

如表1所示,经过4轮迭代,无论是自我奖励模型还是元奖励模型,平均响应长度(以字符为单位)都没有显著增加,证明长度控制机制的有效性。

元奖励机制有以下三个较为明显的改进。

首先,将AlpacaEval中的805个类别细分为18个类别进行详细分析,可以看到,元奖励几乎改进了所有类别的响应(图4),包括需要大量知识和推理的学科,例如科学(Science)、游戏(Gaming)、文学(Literature)等。

值得注意的是,旅游(Travel)和数学(Mathematics)这两类,模型并没有实现显著提升。

第二,元奖励改进了对于复杂和困难问题的回答。

实验进一步使用Arena-Hard评估在元奖励方法在回答复杂和具有挑战性的问题上的表现。

表2中的评估结果显示,元奖励在4次迭代中都能提高分数,与种子模型(20.6%)相比,显著提高了8.5%。

第三,元奖励在仅训练单轮对话的情况下也并未牺牲多轮对话能力。

论文进行了MT-Bench评估,以检查在仅训练单轮数据的情况下多轮对话能力的损失。

结果如下表显示,元奖励模型的4次迭代显著提高了第一轮对话得分,从8.319(种子模型)提高到8.738,而第二轮对话得分仅下降了不超过 0.1。

这是对基线模型中自我奖励+长度控制(Self-Rewarding + LC)的巨大改进,因为后者通常会在第二轮对话得分上,下降超过 0.2,同时没有提高第一轮对话得分。

奖励模型评估

实验评估了模型对种子模型Llama3-8B-Instruct生成响应的判断准确性。

在缺乏人工标注的情况下,作者选择测量元奖励模型与当前最强的判断模型gpt-4-1106-preview之间的评分相关性。

分析采用了两种略有不同的设置,主要区别在于它们如何处理判断模型给出的平局,因此使用了两种指标:将平局计为0.5的一致性分数(agreement)和舍弃平局结果的一致性分数。

结果显示,模型在进行训练后判断能力有所提高。

表3中的分析显示,与基线模型相比,在两种评估设置中,元奖励与强大的GPT-4判断模型之间的相关性显著提高。

这些结果表明,元奖励方法能够改进模型判断能力,使其评估结果与更复杂的语言模型GPT-4的评估结果更加接近。

此外,实验对比了模型判断结果与Open Assistant数据集中人类响应排名的相关性(表7),发现元奖励训练提高了与人类的判断相关性。

然而,这种改进在后续训练迭代中没有持续,可能是由于模型生成的响应与人类响应之间的分布差异导致的。

分析

长度控制机制

长度控制机制对于保持模型响应的全面性和简洁性之间的平衡至关重要。

实验比较了最后一次训练迭代中不同长度控制参数ρ的结果,如表4所示:

4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化

ρ = 0,相当于在偏好数据选择中不进行任何长度控制。

正如预期的那样,这种训练方式使得模型生成的响应变得过于冗长,LC胜率降低。

使用外部奖励模型进行训练

元奖励机制让模型自己作为judge,来评估其自身的响应;实验尝试了使用强大的外部奖励模型Starling-RM-34B作为对比。

然而,结果发现StarlingRM-34B未能在第一次迭代中提高AlpacaEval的LC胜率(24.63% vs. 27.85%),这可能是由于其长度偏见。

meta-judge偏见

在元奖励训练的第一次迭代之后,meta-judge几乎总是更倾向于更高分数的判断,如表5所示。

这种分数偏见显著地将判断的评分分布向满分5分倾斜。对于位置偏见,我们也看到在训练过程中有增加的趋势,特别是在比较两个相同分数的判断时。

判断评分变化:为了调查在元奖励训练迭代过程中判断评分分布的变化,实验使用与奖励建模评估相同的验证提示。

使用Llama-3-8B-Instruct在每个提示上生成7个响应,然后为每个响应生成11次判断。图5是评分分布的可视化,密度是使用高斯核密度估算的。

可见,使用meta-judge训练判断进一步增加了其生成高分的可能性。

然而,判断训练的前两次迭代使其倾向于分配4.5、4.75、4.9的分数,根据根据指示这些分数应该是整数。

尽管这些是高分,但它们提供了更细致的区分能力,以区分不同质量的响应。

结论

实验提出了一种新机制,通过使用meta-judge为作为judge的模型分配元奖励(meta-rewards),从而提高模型的评判能力。

这解决了自奖励(Self-Rewarding)框架的一个主要限制,即缺乏对模型评判能力的训练。

为了使元奖励训练(Meta-Rewarding training)更加有效,实验还引入了一种新的长度控制技术,以缓解在使用AI反馈进行训练时出现的长度爆炸问题。

通过自动评估基准AlpacaEval、Arena-Hard和MT-Bench,元奖励方法的有效性也得到了验证。

值得注意的是,即使在没有额外人类反馈的情况下,这种方法也显著改进了Llama-3-8B-Instruct,并超越了依赖大量人类反馈的强基线方法自奖励(Self-Rewarding)和SPPO。

此外,评估模型的评判能力时,它在与人类评判和强大的AI评判(如 gpt-4-1106-preview)的相关性上表现出显著的改进。

总体而言,研究结果提供了有力的证据,证明无需任何人类反馈的自我改进模型是实现超级对齐(super alignment)的一个有前途的方向。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-01 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
让 LLM 在自我进化时也能保持对齐。我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足,就需要突破许多限制,包括可用数据和规模和质量以及有用新信息的增长率。对基于
2024-11-06 09:44:00
推动大模型自我进化,北理工推出「流星雨计划」
...和自身频繁交互,并从中获取经验予以改进。大模型自我进化研究之所以重要,正是源于该思想,并且更倾向于探究大模型自身能力的深度挖掘和扩展。基于这一趋势,北京理工大学 DIRECT
2024-12-06 09:52:00
扩散模型=进化算法!生物学大佬用数学揭示本质
【新智元导读】扩散模型的本质竟是进化算法!生物学大佬从数学的角度证实了这个结论,并结合扩散模型创建了全新的进化算法。扩散模型居然就是生物的进化算法!这个结论来自「新常春藤」塔夫茨
2024-11-25 09:56:00
...业赋能平台,形成“采—存—训—用”闭环体系,吸引长三角企业共同参与场景创新。上虞作为环杭州湾区域的重要节点,正通过深度融入区域产业链协同发展体系,以“链主企业+应用场景+产业
2025-07-06 07:39:00
青云科技沈鸥:探究 AI 进化背后的“算力经济”!
...前沿分论坛上,青云科技副总裁沈鸥以《算力革命与 AI 进化——构建智能未来》为题,同政府领导、行业专家、合作伙伴及媒体就 AIGC 落地工程展开分享与交流。一、助力数字经济,
2023-08-23 20:00:00
...模型在思考、反思、探索等方面的能力。AI模型未来如何进化在2025年美国消费电子展上,美国英伟达公司高管为AI的进化勾画了一条路线图:以智能水平为纵轴、以计算量为横轴,衡量A
2025-02-27 05:08:00
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
...理教授(研究)杨林易。o1 作为 OpenAI 在推理领域的最新模型,大幅度提升了 GPT-4o 在推理任务上的表现
2024-10-15 09:56:00
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...计算机学院攻读博士二年级,研究方向为强化学习、扩散模型和大模型对齐。OpenAI 最近发布的 o1 模型在数学、代码生成和长程规划等复杂任务上取得了突破性进展,据业内人士分析
2024-10-26 09:48:00
文心大模型4.0 Turbo来了!百度推出文心快码2.5,已覆盖内部80%程序员
...步研发了智能体(Agent)机制,包括理解、规划、反思和进化,使其能够可靠执行、自我进化,并一定程度上将思考过程白盒化,让大模型像人一样思考和行动,调用工具自主完成复杂任务,
2024-07-01 09:21:00
更多关于科技的资讯:
最近有件事儿越来越常见:外国人不光来中国旅游,还专门“打飞的”来看病。不是出于好奇体验,而是真心觉得值!值在哪儿?三个字
2026-01-21 21:52:00
中新经纬1月21日电 广东省政府网站21日公布《广东省人工智能赋能交通运输高质量发展若干政策措施》(下称《政策措施》)
2026-01-21 20:20:00
织金平远公司完成 500kVⅡ 组母线母差保护装置校验及传动
多彩贵州网讯(通讯员 史凡莉)近日,织金平远公司厂区内,500kVⅡ组母线设备区域一派忙碌景象。电热检修部与发电运行部工作人员有条不紊地开展母差保护A屏
2026-01-21 17:15:00
九阳太空厨房已安全稳定运行超1500天
中国消费者报报道(记者桑雪骐)航天员们如何健康、舒适地展开太空生活和吃好一日三餐,是大家都很关心的话题。据了解,这背后其实有一个我国自主研制的太空厨房
2026-01-21 18:05:00
秦皇岛经开区第一小学开展人工智能科技实践活动
河北新闻网讯(李佳新)日前,秦皇岛经开区第一小学开展以“AI探索,智创未来”为主题的人工智能科技实践,通过沉浸式实训活动激发学生的科技探索热情
2026-01-21 18:11:00
马年将至(农历),在广州大夫山森林公园,一些徒步爱好者分享了一种创意玩法——“画马”,相关穿越路线攻略一时引发追捧。所谓“画马”
2026-01-21 18:36:00
三重蝶变,中天钢铁解锁“企业主理”新范式
大寒虽寒,热潮涌动。原点空间路演大厅内,由中天钢铁主理的第37场沙龙——“AI智能体创新大赛总结沙龙”以三重蝶变,为常州“智能体+场景应用”示范城市建设吹响了热力全开的奋进号角
2026-01-21 18:28:00
苏州市女企协秘书长、国浩律师(苏州)事务所合伙人葛霞青律师荣登《钱伯斯大中华区指南2026》推荐榜单
江南时报讯 1月15日,全球领先的法律研究和分析机构钱伯斯(Chambers & Partners)发布《钱伯斯大中华区指南2026》(Chambers Greater China Region Guide 2026)
2026-01-21 15:23:00
盐城盐都:“翼”技傍身 照亮前程
江南时报讯 启动无人机,校准飞行参数,规划测绘航线,精准捕捉地面数据……日前,2026年盐城市盐都区首期无人机测绘操控员技能培训在都U+乐业空间正式开班
2026-01-21 15:24:00
全国首款!仙库3D智能足脊扫描仪正式发布!
近日,深圳仙库智能有限公司(以下简称“仙库”)正式发布仙库3D智能足脊扫描仪XK-CH005,这是全国首款实现“足脊一体”同步评估的硬核科技产品
2026-01-21 16:24:00
国家级备案落地!疯狂体育Foretell革命性AI平台,开启体育智能决策新阶段
2026年1月20日,疯狂体育正式官宣推出旗下AI赛事预测工具Foretell。凭借已经完成的国家互联网信息办公室深度合成服务算法备案资质
2026-01-21 16:47:00
当我们在思考“哪些中国企业创新做得不错”时,CES 2026舞台上的联想集团给出了一个全面而深刻的答案。这不仅仅是一次产品发布会
2026-01-21 16:49:00
近日,剑桥大学教育学院院长Hilary正式受聘为中国素质教育品牌欣乾程的学术顾问。此次合作不仅是国际顶尖学术力量与中国创新型教育机构的一次重要握手
2026-01-21 14:24:00
跨越顶奢与潮饮的“美酒+美食”表达 五粮液全力构建中国白酒全球新叙事
鲁网1月21日讯当一位新加坡米其林星厨在构思新菜单时,正在将中国白酒作为风味拼图中一块充满惊喜的“香料”。在他手中,一杯五粮液可能被用来平衡炙烤龙虾的鲜甜
2026-01-21 12:03:00
农行肥城桃都支行:以政策优势精准破解粮企贷款难题
鲁网1月21日讯2026年伊始,桃都支行延续2025年末服务“黄羽鸡”产业的奋进势头,步履不停,持续扎根三农,精准运用粮食购销领域的专项贷款方案
2026-01-21 12:05:00