• 我的订阅
  • 科技

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

类别:科技 发布时间:2024-08-10 13:48:00 来源:新智元
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

新智元报道

编辑:乔杨好困

【新智元导读】RLHF到底是不是强化学习?最近,AI大佬圈因为这个讨论炸锅了。和LeCun同为质疑派的Karpathy表示:比起那种让AlphaGo在围棋中击败人类的强化学习,RLHF还差得远呢。

昨天,Andrej Karpathy又发了长推,不过用了一句很有争议的话开头——「RLHF只是勉强的RL」。

这条推特可谓「一石激起千层浪」,瞬间点燃了LLM社区的讨论热情。

毕竟RLHF作为刚提出没几年的方法,又新颖又有争议。一边遭受质疑,一边又在工业界和学界迅速流行。

5G冲浪的LeCun也赶来声援Karpathy,但他的话很短,只有一句——「RLHF不是真正的RL」。

RLHF最早可以追溯到OpenAI安全团队2017年发表的论文:

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

论文地址:https://arxiv.org/abs/1706.03741

当时,Jan Leike还在DeepMind、Dario Amodei还没创办Anthropic,而OpenAI还没all in语言模型,仍是一家研究范围更广泛的AI公司。

他们提出,通过人类反馈,让AI模型更好地学习「如何翻出一个漂亮的后空翻」。

训练时,AI agent在环境中不断观察并行动,并得到奖励模型的反馈进行自我改进。但比较特别的是,奖励函数是由拟合人类反馈得到的。

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

2019年,这项技术被用到了NLP领域,用于微调语言模型。

论文地址:https://arxiv.org/abs/1909.08593

这篇论文附带的代码也很好地定义了RLHF的标准流程。

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

仓库地址:https://github.com/openai/lm-human-preferences?tab=readme-ov-file

到了2022年3月,ChatGPT发布前夕,OpenAI发布了使用RLHF微调过的大模型InstructGPT,这是弥合GPT-3和GPT-3.5 Turbo之间差距的关键一步,后者为ChatGPT的推出提供了关健动力。

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

论文地址:https://arxiv.org/abs/2203.02155

此后,RLHF就成为了OpenAI、DeepMind、谷歌、Anthropic等AI巨头们训练模型的必备环节。

所以,Karpathy为什么会突然对此发难?我们先来看一下他的推特原文是怎么说的。

Karpathy原帖的大意如下:

RLHF全称为「从人类反馈中进行强化学习」(Reinforcement Learning from Human Feedback),是训练LLM的第三个阶段,也是最后一个主要阶段,接在预训练和监督微调(SFT)之后。

我对RLHF的批评是:它几乎算不上是真正的强化学习,而且我认为这一点没有被广泛理解。强化学习很强大,而RLHF则不然。

让我们来看一个AlphaGo的例子,它的训练用到了实际的RL算法:计算机通过下围棋,在最大化奖励函数(即赢得比赛)的推演过程中进行训练,最终超越了最优秀的人类棋手。AlphaGo并不是用RLHF训练的,否则它的效果就不会这么好。

那么,用RLHF训练AlphaGo会是什么样子呢?首先,你需要让人类标注者看到两个围棋局面,并询问他们更喜欢哪个:

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

你需要收集大概10万条这类的对比数据,并训练一个「奖励模型」RM(Reward Model)来模仿人类对棋盘状态的这种「直觉判断」(vibe check),使RM的判断在平均水平上与人类一致。

有了奖励模型的直觉判断,就可以在此基础上运行强化学习,让原模型学习下出能够让人类直觉上认为不错的棋步。

显然,这在围棋中不会产出太好的结果,有两个根本且独立的原因:

1. 直觉可能会产生误导。这并不是真正的奖励(赢得比赛),而是个很差的替代目标。但更糟的是——

2. 强化学习优化会失控,因为它很快就会发现对抗奖励模型的棋盘状态。RM是一个拥有数十亿参数的庞大神经网络,用来模仿直觉。有些棋盘状态超出了训练数据的分布范围,可能并不是好的状态,但由于偶然性,也会从RM得到了很高的奖励。

出于完全相同的原因,有时我惊讶于RLHF对LLM的效果,因为其中的RM也在进行同样的直觉判断。它对人类评分员似乎喜欢的那类响应打出高分,但这不是正确解决问题的「实际」目标,只是人类觉得不错的替代目标。

其次,RLHF不能运行太久,因为原模型很快就能学会操控奖励模型,从而预测出一些看起来很奇怪的token。比如,LLM助手会开始对提示词响应一些无厘头的内容,像「the the the the the the」。

这在人类看来很荒谬,但由于某种原因,RM认为这些响应看起来很棒。

这就是LLM找到的对抗性案例(adversarial examples),对于RM的训练数据而言,这是未定义领域的分布外数据。

你可以反复将这些特定例子添加到训练集中来缓解这种情况,但下次还会有其他对抗性案例出现。因此,RLHF不能运行过多步骤,几百/几千步后就必须停下,因为模型的优化过程将开始操控RM。这不是像AlphaGo那样的强化学习。

然而,在构建LLM助手时,RLHF依旧是利大于弊。其中有几个微妙的原因,但我最喜欢指出的是,LLM可以通过RLHF过程受益于生成器和判别器之间的难度差距(generator-discriminator gap)。

对于许多类型的问题,相比于从零开始撰写理想答案,人类标注者会觉得从几个候选中选择最佳答案要容易得多。比如这样的提示:「生成一首关于回形针的诗」,普通的人类标注者很难写出一首好诗作为SFT示例,但在给出几个候选答案的情况下,他们可以选出一个看起来不错的诗。

因此,RLHF相当于利用了这种人类监督的「简便性」差距。

还有其他几个原因,例如,RLHF也有助于减少幻觉现象。如果RM是一个足够强大的模型,可以捕捉到LLM的虚构内容,就能通过低奖励来惩罚这种行为,教会模型在不确定时避免冒险使用事实知识。但对幻觉及其令人满意的缓解措施是另一个话题,此处不再赘述。

总之,RLHF确实是净有用的,但它不是传统的强化学习。

迄今为止,在开放领域还没有出现生产级的「实际」RL方法,可以大规模地在LLM上实现,并给出令人信服的演示。从直观上讲,这是因为在开放式的问题解决任务中给出奖励值(等效于AlphaGo赢得比赛)确实很困难。

在一个封闭的、类似游戏的环境中,比如围棋,动态受到限制,奖励函数易于评估且无法操控。但你如何为总结一篇文章提供明确的奖励?或者回答关于pip安装的略显模糊的问题?或者讲个笑话?或者将一些Java代码重写为Python?

原则上,朝这个方向发展是可能的,但并不简单,它需要一些创造性的思考。如果有人给出令人信服的解决方案,就能运行实际的强化学习,那种让AlphaGo在围棋中击败人类的强化学习,只是最后得到的LLM将有可能在开放领域问题解决中击败人类。

强化学习到底是什么

如果RLHF「不是RL」,那真正的RL是什么?

Karpathy的描述比较简洁而直观——就是AlphaGo用的那种。

幸好,「强化学习」是一个人为提出的概念,更容易厘清;而且「强化学习之父」Richard Sutton专门写过一本书来解释这个领域的基本问题。

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

https://web.stanford.edu/class/psych209/Readings/SuttonBartoIPRLBook2ndEd.pdf

开头第一章第一节,强化学习的基本概念。虽然不是严谨完备的数学定义,但基本阐明了要点。

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

基本思想是,一个正在学习的agent与环境交互,如何捕捉到它面临的最重要的实际问题。

显然,这样的agent必须能够在某种程度上感知环境状态,且必须能够采取某种行动以影响状态。agent也必须有关于环境状态的目标。这一表述旨在包含三个方面:感知、行动和目标,以可行的最简洁的形式,而不会让任何一个方面只有平凡解。

任何适于解决这类问题的方法,我们都认为是强化学习方法。

除了agent和环境的存在,强化学习系统中还有以下四个要素:

策略(policy),定义正在学习的agent在指定时间的行为

奖励信号(reward signal),定义强化学习问题的目标,是对agent行为的即时反馈

值函数(value function),定义长期的优化目标

环境模型(model of the enviroment),模拟环境行为

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

那么问题来了,根据Sutton书中对强化学习的定义,你同意Karpathy的说法吗?

谁赞同,谁反对?

非常明显的是,Karpathy的观点吸引了许多LLM领域的学者和研究员的关注。

谷歌大脑、DeepMind研究科学家Kevein Murphy:

完全同意。我认为RLHF更像是行为(action)值是字符串的上下文多臂赌博机,其中提示词作为上下文,而不是完整的强化学习。但为日常任务制定明确的奖励机制是困难的部分。(我想这被称为「模型对齐」?)

Allen AI机器学习研究员Nathan Lambert回复:

同意,很棒的总结。就其提供的价值而言,下面是我最喜欢的引用,说明了RLHF的「风格」部分为何有用。

但这与为LLM解锁完整版本的RL相比,仍然微不足道。

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

这张图出自Lambert自己撰写的博客:

之后,他又专门发推进一步解释:

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

RLHF勉强算是 RL,但

- 它仍然使RL比以往任何时候都更重要,并且

- RLHF可能比至今为止其他的RL更有影响力

很罕见的是,以上是为数不多力挺Karpathy的观点。多数人还是站在了Karpathy的对立面反驳他。

评论区有网友直接回怼:「你就是看奖励函数不顺眼」。

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

Karpathy只能继续解释:

我的主要动机是想说,LLM远未达到原则上所能达到的高度,它们还没有像其他最近/流行的ASI演示那样有相同的训练方式。我想要直观地指出这种差距的根源。

马里兰大学副教授Furong Huang的观点更强调RLHF对LLM的价值。

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

当模型已经非常优秀时,RLHF是有帮助的,你只需通过收集用户反馈来「修补问题」。

RL对于推理和规划等更复杂的任务确实很重要,把LLM放到RL循环中有助于泛化和「热启动」RL。

Mila在读博士、Meta研究员Pierluca D'Oro自己就在为agent开发奖励模型,他同意Karpathy「RLHF不是真正的RL」的说法,但并不认为Karpathy预期的那种奖励模型能够实现。

我是一名科学家,致力于为智能体创建更好的奖励模型,我不同意这篇推文的主要观点。使用你无法完全信任的奖励进行的RL也是RL,而且我认为这正是我们应该研究的RL。

是的,毫无疑问,当奖励明确定义时,RL能够最大程度地发挥作用。比如围棋中的获胜条件,就是明确的!我们不在乎智能体如何获胜,只要它符合游戏规则即可。这些规则非常简单,可以由人类直接编码到智能体的设计中,或者智能体通过计算推断出来。

但是如果对于一个复杂任务,不仅仅是「做什么」重要,而是「怎么做」也很重要呢?「怎么做」往往不像在围棋中要求智能体下有效棋步那样容易实现。对于人类来说,这通常来自于人类的常识、期望或荣誉。LLM的对齐正是通过RLHF来提取这种「怎么做」。

这也可以延伸到那些看似容易定义明确目标的(智能体)任务。想要一个好的电子游戏中的NPC?可以试试正式定义一个你可以100%信任的「乐趣」的概念,祝你好运。想要一个好的网络智能体?试试正式定义一个你可以100%信任的「预期行为」的概念,祝你好运。想要一个好的分子?定义一个你可以100%信任的「毒性」的概念,祝你好运。

AI智能体旨在做对人类有益的事情。人类不仅有内部多样性,而且极其复杂,显然超出了我们能够完全理解的范围。我可以编写一个我认为是「在NetHack游戏中实现这个目标」的代码,然后发现我对「实现」的理解比智能体的定义更为细致,就像我们最近在Motif上的工作中所做的那样。

我认为追求「完美奖励」的雄心是无望的,我不认为大多数我们希望智能体表现出的行为存在这样的概念。然而,我认为有一些方法有望在奖励不完美的情况下实际提高RL的性能:

- 尽可能活跃的反馈循环,以优化智能体的奖励函数

- 对错误奖励更稳健的RL机制

- 减少人类与AI合作的摩擦

不过,我同意推文标题所说的,RLHF在用于微调LLM时几乎不能算是RL。但对我来说,这主要是因为它的半离线性质,以及智能体缺乏主动收集自身数据的机会。这些可能是RL在处理模糊、复杂,以及潜在可被利用的奖励函数时奏效的关键因素。

华盛顿大学助理教授、谷歌AI高级研究科学家Natasha Jaques的反对态度更鲜明,力挺RLHF方法:

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

这是一个不好的看法。在与人类互动时,给出人类喜欢的答案就是真正的目标。

超出分布不是RLHF独有的问题。数据集中的人类反馈比运行无限的围棋模拟更有限,但这并不意味着是不值得研究的方法,它只是一个更具挑战性的问题,并且我们希望它是一个更有影响力的问题,因为减少LLM的偏见对人类的益处显然多过比在围棋上击败人类。使用贬义语言称RM为「直觉判断」是愚蠢的;你可以对价值估计提出同样的论点。

发布这样的内容只会阻碍人们研究RLHF,而目前这是唯一可行的方法来缓解LLM偏见和幻觉可能造成的严重危害。

参考资料:

https://the-decoder.com/ai-researcher-says-that-chatgpts-secret-ingredient-may-be-holding-back-llm-capabilities/

https://x.com/karpathy/status/1821277264996352246 https://x.com/ylecun/status/1821478966365962255

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-10 14:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

RLHF不够用了,OpenAI设计出了新的奖励机制
...让大模型更听话了。自大模型兴起以来,使用强化学习从人类反馈(RLHF)中微调语言模型一直是确保 AI 准确遵循指令的首选方法。为了确保 AI 系统安全运行并与人类价值观保持一
2024-07-26 09:35:00
综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
...齐(Alignment)技术,旨在优化模型的输出,使其更加符合人类的价值观和期望。 其中,RLHF 是一种广泛使用的方法
2024-10-10 09:56:00
首个“开源chatgpt”来了:基于谷歌5400亿参数大模型
...已经出现了!基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF),华人小哥 PhillipWang 复刻了一个ChatGPT出来
2022-12-30 20:18:00
从通用人工智能到科学智能,“AI爱因斯坦”还远吗?
...结不足以达成通用人工智能。就像AlphaGo通过学习海量的人类棋谱战胜李世石那样,我们看到了机器超越人类认知的可能性。但更重要的是我们需要像AlphaGo Zero那样,从围
2024-07-08 09:54:00
与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...之一便是源于大语言模型领域的一项常用技术 —— 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback
2024-10-26 09:48:00
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
...及有用新信息的增长率。对基于 LLM 的 AI 来说,高质量的人类数据非常关键,但已有研究预计这些高质量数据将在未来几年耗尽。如果 LLM 保持现在的发展势头,预计在 202
2024-11-06 09:44:00
扩散模型版CS: GO!世界模型+强化学习:2小时训练登顶Atari 100K
...种任务。在Atari 100k基准测试中,DIAMOND的平均得分超越了人类玩家,证明了其在模拟复杂环境中处理细节和进行决策的能力
2024-11-19 09:49:00
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...言模型的主导范式。顾名思义,基于规则的系统就是依赖人类编码的规则来执行决策。这种方式构建的 AI 虽然简单,但在某些特定领域却依然很有用处,尤其是那些安全特性至关重要的领域(
2024-11-07 09:54:00
chatgpt低成本复现流程开源
...是关键ChatGPT的效果好,主要是由于在训练过程中引入了人类反馈强化学习(RLHF),但这也直接导致ChatGPT的复现训练难度飙升
2023-02-15 15:47:00
更多关于科技的资讯:
武汉智博会:三翼鸟小场景蕴含大智慧
随着技术变革与消费升级的交织演进,智能家居领域逐渐从单品智能向全屋智能加速升级。在这一过程中,面对越来越多的设备数量,纷繁复杂的产品功能
2025-11-05 21:22:00
家电院评测:海尔智家APP获评“数字孪生3D智慧家庭”
智慧家能被完整“搬”进手机吗?答案是肯定的。日前,海尔智家APP正式上线“3D智慧家庭视图”功能,将平面的APP操控变成3D立体化的可视家
2025-11-05 21:24:00
禾蛙以AI智能体+定向顾问筛选,助力新能源出海项目顺利交付
当前新能源行业蓬勃发展,企业出海已成新常态。然而,海外人才招聘却成为许多企业面临的共同难题——既要精准匹配行业经验与资质
2025-11-05 21:25:00
在武汉智博会,看见三翼鸟智慧家庭的3个进阶
当2025国际(武汉)智能建造产业博览会以前沿科技叩问居住未来时,三翼鸟在核心展区的呈现,正在印证行业的一个关键转变:智能家居的竞争
2025-11-05 21:25:00
在快节奏的现代餐饮业中,商用炒菜机器人以其高效、稳定、卫生的特点,逐渐成为各大餐厅、食堂后厨的得力助手。今天,我们特别推荐包括鸿博智成在内的10款商用炒菜机器人
2025-11-05 21:26:00
中国东航×MSC邮轮首推“航空+邮轮”梦旅计划
记者从中国东航获悉,2025年11月5日起,中国东航将与全球著名邮轮品牌MSC地中海邮轮正式启动国内首个“航空+邮轮”联合会员计划——“东方航空MSC地中海邮轮联合会员”
2025-11-05 15:29:00
海工核心装备自主化取得新突破全国首台(套)船用SCV模块化装置成功交付南报网讯(通讯员张正平记者张希)近日,由江宁高新区企业中圣科技集团旗下中圣高科公司自主研发的全国首台(套)应
2025-11-05 08:17:00
□南京日报/紫金山新闻记者余梦娇通讯员彭蓉10月31日,在“向栖霞·享未来”2025年栖霞区秋季引才校园行南京财经大学站专场招聘会上
2025-11-05 09:56:00
智艺共生:AI赋能传播设计研究生作品展开幕
展览开幕历经三十余载积淀与发展,中国传媒大学广告与品牌学院以教学、科研与创意实践的融合创新,持续引领设计教育的前沿进程
2025-11-05 10:56:00
大皖新闻讯 11月5日,威马汽车在其官方微信号发布消息称,“我们很高兴地宣布,小威随行APP于2025年11月5日重新上线iOS和Android平台
2025-11-05 11:00:00
钉钉AI表格支持千万热行,超复杂实时计算真实可用
11月5日,钉钉AI表格宣布成为业内首个单表容量支持1000万热行的智能表格,目前已率先应用于“老字号”餐饮德香苑烤鸭等多家连锁零售
2025-11-05 11:23:00
沂南农商银行:助力科技企业打造新领域标杆
鲁网11月5日讯一根摩丝仅比头发丝略粗一点,但中间却是空的,这款膜组件直径36毫米,里面装了2000多根摩丝,直径最大的膜组件超过600毫米
2025-11-05 11:44:00
科技为骨,情感为魂:米连科技如何用温度重塑品牌连接
在竞争激烈的市场中,技术和服务是骨架,而品牌情感则是血肉。米连科技的过人之处,在于它成功地将“帮助用户获得爱与归属感”这一企业使命
2025-11-05 13:58:00
2025留学机构推荐:高口碑中介综合评测
在当前全球教育交流日益频繁的趋势下,越来越多的学生选择出国深造,出国留学中介机构因此承担起连接国内外教育资源的重要角色
2025-11-05 11:09:00
在线许愿,“听劝”的Leader统帅成了年轻人最想@的家电品牌
一条评论区里的留言,一次产品论坛里的建议,甚至是一段短视频下的“许愿”……这些散落在互联网角落的零散声音,正被统帅仔细收集起来
2025-11-05 11:07:00