• 我的订阅
  • 科技

RLHF不够用了,OpenAI设计出了新的奖励机制

类别:科技 发布时间:2024-07-26 09:35:00 来源:机器之心Pro

OpenAI 的新奖励机制,让大模型更听话了。

自大模型兴起以来,使用强化学习从人类反馈(RLHF)中微调语言模型一直是确保 AI 准确遵循指令的首选方法。

为了确保 AI 系统安全运行并与人类价值观保持一致,我们需要定义期望行为并收集人类反馈来训练「奖励模型」。这种模型通过发出期望的动作来指导 AI。但是,收集这些常规和重复任务的人类反馈通常效率不高。此外,如果安全政策发生变化,已经收集的反馈可能会过时,需要新的数据。

我们能否构建一种新的机制来完成这些任务?近日,OpenAI 公布了一种教导 AI 模型遵守安全政策的新方法,称为基于规则的奖励(Rule-Based Rewards,RBR)。

相关论文已经放出。

RLHF不够用了,OpenAI设计出了新的奖励机制

论文标题:Rule Based Rewards for Language Model Safety 论文地址:https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf 代码链接:https://github.com/openai/safety-rbr-code-and-data

论文作者之一、OpenAI 安全系统负责人 Lilian Weng 表示,「RBR 可以自动执行一些模型微调。传统上, 我们依赖于来自人类反馈的强化学习作为默认的对齐训练方法来训练模型,这确实有效。然而在实践中,我们面临的挑战是,我们花了很多时间讨论政策的细节,而到最后,政策可能已经发生了变化。」

RBR 根据一组安全规则提供 RL 信号,使其更容易适应不断变化的安全政策,而无需严重依赖人类数据。此外,借助 RBR,研究者能够以更统一的视角看待安全性和模型能力,因为更强大的分级模型可以提供更高质量的 RL 信号。

OpenAI 表示自 GPT-4 发布以来,他们一直将 RBR 用作安全堆栈的一部分,包括 GPT-4o mini,并计划在未来的模型中实施它。

为什么要提出 RBR?

随着大型语言模型(LLM)功能的增强和普及,确保其安全性和对齐变得越来越重要。最近的许多工作都集中在使用人类偏好数据来调整模型上,例如基于人类反馈的强化学习(RLHF)。

然而,仅使用人类反馈来实现目标安全规范还面临许多挑战。为模型安全性收集和维护人类数据通常既费钱又费时,而且随着模型能力的提高或用户行为的改变,安全准则也会发生变化,这些数据可能会过时。即使要求相对稳定,也很难向注释者传达。安全方面的情况尤其如此,因为所需的模型响应非常复杂,需要对是否响应以及如何响应请求做出细微差别。如果说明不够明确,注释者可能不得不依赖个人偏见,从而导致超出预期的模型行为,如变得过于谨慎,或以不理想的风格(如评判)做出响应。

例如,在 OpenAI 的一次实验中,一些注释者在对用户有关自残请求的可能回复进行排序时,偏向于将用户转到美国自杀热线,而这对美国以外的用户没有帮助。要解决这些问题,往往需要重新标注或收集新数据,这既昂贵又耗时。

为了解决这些问题,使用 AI 反馈的方法最近越来越受欢迎,其中最突出的是宪法 AI(Constitutional AI)。这些方法利用 AI 反馈合成训练数据,与人类数据相结合,用于监督微调(SFT)和奖励模型(RM)训练步骤。不过,在宪法 AI 和其他方法中,「宪法」涉及「选择危害较小的响应」等一般性指导原则,AI 模型有很大的自由裁量权来决定什么是有害的。在现实世界的部署中,我们需要执行更详细的政策,规定应该拒绝哪些提示,以及拒绝的方式是什么。

因此,在这篇论文中,OpenAI 的研究者提出了一种新的 AI 反馈方法 ——RBR,它允许人类详细说明所需的模型响应,类似于给人类注释者的指示。

RBR 的工作原理是怎样的?

实施 RBR 的方法包括定义一组命题 —— 关于模型响应中期望或不期望方面的简单陈述,例如「带有评判性」、「包含不允许的内容」、「提及安全政策」、「免责声明」等。然后,这些命题被用来形成规则,这些规则被精心设计以捕捉在各种场景中安全和适当响应的细微差别。

例如,在面对不安全请求时,拒绝(如「抱歉,我无法帮你」)是一种期望的模型响应。相关规则将规定,拒绝应「包含简短的道歉」并且「应说明无法遵从」。

研究团队设计了三类期望的模型行为,用于处理有害或敏感的话题。根据安全政策,不同的请求对应不同的模型响应类型。

RLHF不够用了,OpenAI设计出了新的奖励机制

图中内容由 AI 工具翻译,仅供参考。

以下是一些命题的简化示例,以及它们如何映射理想行为或非理想行为到不同响应类型的。

RLHF不够用了,OpenAI设计出了新的奖励机制

图中内容由 AI 工具翻译,仅供参考。

研究者在下表中提供了一些在实验中训练模型所完成的示例。

RLHF不够用了,OpenAI设计出了新的奖励机制

RLHF不够用了,OpenAI设计出了新的奖励机制

RLHF不够用了,OpenAI设计出了新的奖励机制

图中内容由 AI 工具翻译,仅供参考。

评估器是一个固定的语言模型,根据响应遵循规则的程度对其进行评分,从而使 RBR 方法能够灵活适应新规则和安全政策。

RBR 使用这些评分来拟合一个线性模型,该模型的权重参数是从一个已知理想响应类型的小数据集,以及对应的期望做法和不期望做法中学习的。

这些 RBR 奖励随后与来自「仅提供帮助」的奖励模型的奖励结合起来,作为 PPO 算法的额外信号,以鼓励模型遵循安全行为策略。

该方法允许研究者对模型的行为进行精细控制,确保其不仅避免有害内容,而且以一种既表示尊重又有帮助的方式进行。

RLHF不够用了,OpenAI设计出了新的奖励机制

强化学习过程中 RBR 与传统奖励模型的集成。

RBR 好用吗?

实验显示,经过 RBR 训练的模型表现出与经过人类反馈训练的模型相当的安全性能。前者还减少了错误地拒绝安全请求(即过度拒绝)的情况。

此外,RBR 还显著减少了对大量人工数据的需求,使训练过程更快、更具成本效益。

随着模型能力和安全准则的发展,RBR 可以通过修改或添加新规则快速更新,而无需进行大量重新训练。

RLHF不够用了,OpenAI设计出了新的奖励机制

该图显示了有用性(以模型正确遵循安全提示的百分比来衡量)与安全性(以模型正确拒绝不安全提示的百分比来衡量)之间的权衡。对于这两个指标,值越高越好。右上角标记了有用性和安全性之间的完美平衡。有用性基线不使用安全性 RBR,往往更有用但安全性较低。人类基线是在仅有帮助和人工注释的安全性数据上进行训练的,往往非常安全但有用性较低。借助 RBR,OpenAI 的目标是使模型既安全又有用。

RBR 有哪些局限?

尽管规则基础的系统(RBR)在有明确、直观规则的任务中表现良好,但在更主观的任务中(如撰写高质量的文章),应用 RBR 可能会有些棘手。然而,RBR 可以与人类反馈结合起来,以平衡这些挑战。例如,RBR 可以强制执行特定的准则(如「不要使用俚语」或模型规范中的规则),而人类反馈可以帮助处理更细微的方面(如整体连贯性)。RBR 的强度被优化为既能正确执行安全偏好,又不会过度影响最终的奖励评分 —— 这样,RLHF 奖励模型仍然可以在如写作风格等方面提供强有力的信号。

伦理考量:将安全检查从人类转移到 AI 上可能会减少对 AI 安全的人工监督,并且如果使用有偏见的模型提供 RBR 奖励,还可能放大潜在的偏见。为了解决这个问题,研究人员应该仔细设计 RBR,以确保其公平和准确,并考虑结合使用 RBR 和人类反馈,以最大限度地减少风险。

OpenAI 表示,RBR 不仅限于安全训练,它们可以适应各种任务,其中明确的规则可以定义所需的行为,例如为特定应用程序定制模型响应的个性或格式。下一步,OpenAI 还计划进行更广泛的消融研究,以更全面地了解不同的 RBR 组件、使用合成数据进行规则开发以及人工评估,以验证 RBR 在包括安全以外的其他领域的各种应用中的有效性。

参考内容:

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-26 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

与OpenAI o1技术理念相似,TDPO-R算法有效缓解奖励过优化问题
...模型解决复杂问题的能力,尤其是在 o1 所采用的细粒度奖励机制的加持下。这种奖励机制为模型的每一步推理提供细粒度的反馈,而不仅是依赖最终答案的正确性来评估模型的表现。通过精细
2024-10-26 09:48:00
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...penAI 安全团队发布了一项新的研究成果,发现基于规则的奖励可用于提升语言模型的安全性。这不由得让人想到了科幻作家艾萨克・阿西莫夫提出的「机器人三定律」和作为补充的「机器人
2024-11-07 09:54:00
从通用人工智能到科学智能,“AI爱因斯坦”还远吗?
...他看来,未来世界模型需要新的算法机制,应该更加关注奖励组合的设计,不仅包括外部环境给予的奖励,也包含模拟对于人类追寻好奇心的内部奖励。通过奖励机制组合优化模型不仅能让模型追寻
2024-07-08 09:54:00
独家揭秘!CEEX交易所的极致通缩模型CMC的设计哲学
...费将自动转换为购买CMC,并通过销毁代币方式实现CMC算力奖励。这一机制不仅简化了上币流程,还增加了CMC的市场需求,确保了其价值的持续增长。此外,持有一定数量CMC的经纪人
2024-06-12 15:35:00
一文读懂CEEX交易所的MeMe平台币——CMC
...性,激励社区成员积极参与价值建设。25%生态发展(算力奖励):这部分代币直接打入黑洞地址,换成算力作为奖励支持生态发展,促进社区成员的参与和贡献。10%社区建设(算力奖励):
2024-06-18 13:30:00
独家对话:CEEX全币种交易所发起CMC的初衷与愿景
...励社区成员积极参与CMC价值建设。25%用于生态发展(算力奖励),这些代币将作为原生代币打入黑洞地址,换成算力支持生态发展。生态的算力奖励的目标是促进社区成员的参与和贡献,以
2024-06-14 17:28:00
“联盟智能”:共享大数据“思想”
...可仅靠自家数据训练出来的人工智能模型往往“思想性”不够,存在精准性、适应性不高等“瓶颈”。要保障用户数据的安全性和隐私性,同时让人工智能模型有尽可能多的数据训练,联盟智能便成
2023-08-07 03:24:00
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在
2024-08-01 09:40:00
ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!
...」。 训练时,AI agent在环境中不断观察并行动,并得到奖励模型的反馈进行自我改进。但比较特别的是,奖励函数是由拟合人类反馈得到的
2024-08-10 13:48:00
更多关于科技的资讯: