• 我的订阅
  • 科技

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

类别:科技 发布时间:2024-07-01 09:23:00 来源:新智元

新智元报道

编辑:乔杨

【新智元导读】今天,OpenAI悄悄在博客上发布了一篇新论文——CriticGPT,而这也是前任超级对齐团队的「遗作」之一。CriticGPT同样基于GPT-4训练,但目的却是用来指正GPT-4的输出错误,实现「自我批评」。

OpenAI最近的拖延症状逐渐严重,不仅GPT-5遥遥无期,前几天还宣布GPG-4o的语音功能将推迟一个月发布。

或许是为了缓解广大网友的热切期待,OpenAI在今天放出了新模型CriticGPT,相当于GPT-4的「拐杖」。

我们训练了一个模型CriticGPT,来捕获GPT-4生成代码中的错误。我们开始将此类模型集成到RLHF对齐管道中,以帮助人类监督AI执行困难的任务。

值得注意的是,CriticGPT依旧是用GPT-4模型训练的,但被用于给GPT-4生成的代码「捉虫」,这似乎有点「自我闭环」的意思?

推特网友迅速质疑,「我用石头摧毁石头」,矛盾得有点好笑。

但也有人从另一个角度发现了华点:这难道就是模型自我提升的开始?

官方发布的推文和博客中还没有提及CriticGPT何时会集成到ChatGPT中,但技术文章已经发布,而且又是一篇离职人员的遗留作品——由超级对齐的scalable oversight团队共同完成,作者署名包含Jan Leike。

论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

那就来仔细看看,让GPT-4「自我提升」的结果究竟如何?

GPT-4自己批自己

RLHF全称为Reinforcement Learning from Human Feedback,是包括ChatGPT在内的很多LLM常用的对齐方法。人类AI训练师们会收集模型对同一个问题的不同响应并进行评分,以此改进模型。

随着ChatGPT的响应变得更加准确,它犯的错误也会更微妙、让人类训练师更难察觉,因而降低了RLHF的有效性。

事实上,这也是RLHF的根本限制,随着模型逐渐进化到比任何提供反馈的专家都更有知识,基于人类的评价来调整模型就会越来越困难。

因此,OpenAI的「可扩展监督」团队想到了跳出RLHF的框架,干脆训练模型为ChatGPT撰写评论,纠正输出结果中不准确的地方。

这种方法似乎取代了RLHF,但好像又没取代——因为训练CriticGPT的过程,仍然采用了RLHF。

核心思想非常简洁:CriticGPT依旧是自回归模型。标注者先向ChatGPT的响应输出中人为注入一些微妙的错误,CriticGPT针对这些有错误的答案生成批评意见,之后再由人类训练师为批评意见进行打分排名。

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

CriticGPT训练流程

RLHF的训练过程与ChatGPT类似,具体如下:

    为数据集中每个问题和答案采样CriticGPT生成的批评意见

    人类评估者对其各个属性及总体质量进行评分

    训练奖励模型用于预测人类对模型输出的整体质量排名

    使用PPO优化奖励模型

    应用一种创新的推理时采样策略:强制采样束搜索(FSBS)

大部分的训练数据都来自人类篡改GPT答案的这个过程,但也包含少部分未经修饰的原始答案。

为什么一定要人为向ChatGPT的响应输出中注入bug?不能直接筛选出有bug的答案吗?

论文中提出,使用原始、未经修饰的答案会存在如下几个问题:

许多答案不会包含严重问题,进而降低了数据对于改进批评意见的价值

如果无法控制错误类型,CriticGPT会输出自由形式且模糊不清的批评意见,难以验证其正确性

人类也很难发现CriticGPT遗漏的重要问题

偏好率可能受到许多风格因素的影响,并会高估模型性能

需要注意的是,人类已经检测到有bug的模型输出,本身就说明它们更容易被人发现!

篡改方法最重要的优点是制造出了高质量、难以发现的错误,而且平均而言更严重。知道了哪里有预先插入的bug,人类训练师也更容易区分出那些不够全面、遗漏bug的批评。

团队有意地保证了这些人为篡改的复杂和微妙。他们训练了一个二元判别器预测代码是否被篡改,发现较小的模型并没有较好的分辨能力(图13),以此验证了篡改代码的质量。

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

人类评估CriticGPT的批评意见时,从以下几个维度给出评分和排名:

是否全面 ,即没有遗漏任何明显或严重的问题

是否捕获到了之前插入的特定bug,即CBI(critique-bug inclusion)

有没有出现幻觉或者挑剔现象,指出了不存在的问题

对整体有用性的主观评级,包含上述内容并考虑风格和整体的实用性

在训练CriticGPT的过程中,除了RLHF方法,团队将奖励模型与搜索结合,提出了一种名为强制采样束搜索的方法(Forced Sampling Beam Seach,FSBS)。

一般来说,模型产生的批评意见更长时,也更容易出现幻觉。这有点类似于「准确率」和「召回率」之间的权衡。

FSBS能够激励CriticGPT在产生更长、更全面的批评时,减少「无中生有」或者「鸡蛋里挑骨头」的发生率。

之后进行的消融实验也证明了FSBS方法的有效性(图12)。

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

当然,OpenAI还是忘不了他们最喜欢的Scaling Law。他们用RLHF训练并评估了一系列模型,来描述模型规模对bug检测效果的影响(图5)。

直观来看,要达到CriticGPT(只进行了RL)的同等水平,在没有额外数据或修改pipeline的情况下,需要将ChatGPT的预训练计算量扩大30×。

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

评估结果

首先,团队把人类和CriticGPT撰写的批评意见混杂在一起,再交给人类进行评估。

标注者们会更喜欢自己同行们的产出吗?并没有。

ChatGPT和CriticGPT都超过了人类表现(图1b),而且63%的情况下,CriticGPT撰写的批评意见比人类的更受青睐(图1a)。

要知道,研究团队招来写批评意见的不是编程门外汉,而是有平均5年Python研发经验的技术人员。他们在每个例子上大约会花费50分钟,并能执行代码或查找参考手册,结果也只能发现25%左右的人为注入的bug。

论文认为,这些评估者在没有LLM帮助下撰写的批评意见相对较短,而且可能缺乏所需的领域知识(比如特定的Python库),并且有些篡改行为确实难以发现,这三个原因导致了人类和模型之间如此明显的差异。

从图6中可以看到,CriticGPT的检测错误能力比较全面,对于人为篡改的错误以及原始输出中就存在的错误,都达到了最高的全面性百分比。

更令人惊讶的是,ChatGPT在这两个方面的表现也都超过人类独立撰写的批评意见。人类评估者要借助CriticGPT,才能与ChatGPT水平相当。

但是下面的图7又开启了一轮反转。团队发现,虽然人类容易遗漏错误,但人类也最不容易产生幻觉或者「鸡蛋里挑骨头」的问题。

在产生幻觉这方面,ChatGPT的表现最不如人意,CriticGPT稍有提升。

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

考虑到批评意见的全面性与减少幻觉之间的权衡,作者提出了团队中「人机合作」模式的好处。如图8所示,人类+CriticGPT的团队表现能够超越模型或人类分别单独工作时的Pareto边界。

GPT-4批评GPT-4实现「自我提升」!OpenAI前超级对齐团队又一力作被公开

总结

可扩展监督(scalabel oversight)的终极目标是帮助人类评估模型,来训练出更好、更安全的策略。

从长期来看,我们应该找到一种泛化性更强的批评模型训练方法,适用于没有groung truth和奖励函数的长形式、开放式任务。

在现实场景中,模型输出的错误可能分布在答案的很多部分。CriticGPT的工作重点是指出一处的重要错误,但未来依旧需要探索,如何识别出分散在答案中各处的错误。

CriticGPT依旧存在幻觉问题,且帮助有限。如果编码任务或者原模型的输出过于复杂,即使是有模型协助的专家也可能无法做出很好的评估。

但这篇文章的方法为今后的RLHF训练带来了一种新鲜思路:将RLHF应用到GPT-4中,训练出CriticGPT这样的模型,可以合成出更多的高质量RLHF数据。

参考资料:

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-01 12:45:25

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【新智元导读】合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量
2024-08-20 13:44:00
模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞
新智元报道编辑:乔杨 好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3
2024-06-27 09:31:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
...好数据集 Align-Anything,提供详细的人类偏好注释以及用于批评和改进的精细语言反馈,在增强模型的多模态理解能力的同时,从而实现跨模态的全面评估和改进。全模态大模型
2024-10-18 09:47:00
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...为在单一模型内构建有向无环图(DAG)。DAG由代表命题、批评、精炼和验证的节点组成,边表示它们之间的逻辑关系或依赖关系,边都有方向,不存在任何循环路径。这种无环的特性确保推
2024-09-24 13:36:00
o1金牌团队揭秘AI超越人类惊人时刻!22分完整版视频全公开
...学习加持的o1,比人类更善于发现新的CoT推理步骤2 自我批评的涌现,是o1最强有力的时刻3 让o1「超时」前完成回答
2024-09-23 09:50:00
史上ai最高分,谷歌大模型创美国医师执照试题新纪录
...大规模裁员重组后,这可以说是他们在医疗领域推出一大力作。 连谷歌AI负责人JeffDean都出来站台,表示强烈推荐!有业内人士看完后也称赞道:临床知识是一个复杂的领域,往往
2022-12-28 16:09:00
大模型不是未来?你需要学习下图灵奖得主Yann LeCun选择的“世界模型”
...怀疑者」之一。他已经不止一次公开表达了对 LLM 热潮的批评,比如他曾在一场辩论中毫不客气地说:「从现在起 5 年内
2023-06-26 13:37:00
OpenAI超级对齐团队遗作:两个大模型博弈一番,输出更好懂了
...有益的。值得一提的是,这篇论文来自 OpenAI 的超级对齐团队,其中几位作者在今年早些时候已经离开 OpenAI,团队也已经分崩离析。其中一位作者透露,这是该团队的最后一篇
2024-07-19 09:45:00
硅谷手记|AI抄袭背后的硅谷“不光彩文化”
...证据和对方反应来看,抄袭性质已比较确定”。曼宁发声批评后,斯坦福该团队的两名成员夏尔马和加格也在社交媒体上正式道歉,并表示要完全撤下Llama3-V模型。在当前的人工智能热潮
2024-06-05 13:55:00
更多关于科技的资讯:
浪潮智慧科技深耕标准建设:3项主导数字山东技术规范成功获批
近日,山东省大数据局正式下发《关于发布〈矿产资源数据治理规范〉等11项数字山东技术规范的公告》,其中由浪潮智慧科技主导编制的《智慧渔业养殖系统建设规范》《数字孪生机场模型构建规范
2025-10-11 10:24:00
长白时评评论员 杨飞近日,陕西西安等地出台政策,全面暂停网约车“一口价”等低价营销行为,严禁任何形式的价格欺诈和恶意压价
2025-10-11 10:47:00
厦门网讯(厦门日报记者 林露虹 通讯员 管轩 雷飏)集护眼、通透、高刷新率于一体的天马 “天工屏”;“全球最窄四等边设计”的手机屏幕……今年以来
2025-10-10 08:28:00
2025河北国际工业设计周活动观察:全球智慧赋能未来智造
全球智慧赋能未来智造——2025河北国际工业设计周活动观察9月20日,2025河北国际工业设计周主会场活动在雄安新区举行
2025-10-10 08:40:00
工信部日前公布首批制造业数字化转型促进中心建设主体名单,太原福莱瑞达物流设备科技有限公司入选。制造业数字化转型促进中心是国家落实产业数字化战略的核心公共服务载体
2025-10-10 08:42:00
10月9日,从太原第二热电厂获悉,为全力保障太原市冬季供热安全稳定,持续提升供热服务质效,太原二热秉持“早谋划、早部署
2025-10-10 08:43:00
齐鲁晚报·齐鲁壹点客户端 李孟霏在刚刚过去的国庆中秋“双节”,山东移动威海乳山分公司移动社区营销团队实现品牌口碑与业务发展的双赢
2025-10-10 11:07:00
优优绿能(301590)成立于2015年,是国内直流充电桩模块领军企业之一,2024年在国内充电模块市占率达16%,位居行业第二
2025-10-10 23:06:00
恒润达生信披“迷雾”:“消失”的研发总监与首席科学家?
除研发核心人员离职或在外创办同行业企业外,上海恒润达生生物科技股份有限公司(下称“恒润达生”)招股书对研发团队人员信披的真实性
2025-10-10 23:06:00
互联网贷款普及后,不少初次接触的用户常因平台选择难、流程不熟悉犯愁。其实只要按步骤操作执行,安全又高效,下面由榕易有钱为大家梳理了几项关键步骤
2025-10-10 11:34:00
从志愿翻译到时装新星 河南姑娘在非洲书写青春与梦想
大河网讯 非洲大陆,机遇与挑战并存。越来越多的中国人选择在这里扎根创业,为当地发展注入新活力。毕业于河南工业大学的何方方便是其中之一
2025-10-10 12:11:00
姜杰秀:心中有梦,创业有方,用执着与努力让喜龙果出海
鲁网10月10日讯“我父亲就是做农副产品加工的,从小受父亲的熏陶,我对农副产品加工就有别样的情愫。于是,我就在农副产品加工上有了梦想
2025-10-10 13:56:00
中新经纬10月10日电 “市说新语”微信号10日消息,近日,国家市场监管总局(国家标准委)批准发布一批重要国家标准,涉及助老扶幼
2025-10-10 14:06:00
解锁工业自动化密码,威图与易盼2025IAS硬核破圈瞬间
"新质驱动、高端引领、数智赋能" ,2025中国国际工业博览会聚焦新工业新经济,旨在拉开加快构建一流产业生态,开启智能制造新时代的帷幕
2025-10-10 14:59:00
圆满收官 | 威图RiLineX全新一代配电平台正式发布
制造业行业数字化与智能化水平要求日益提升,这意味着制造业将面临集人力、技术、时间和成本全面优化的巨大挑战。配电系统作为工业场景下能源传输的载体
2025-10-10 14:59:00