我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

类别：科技发布时间：2024-07-01 09:23:00 来源：新智元

新智元报道

编辑：乔杨

【新智元导读】今天，OpenAI悄悄在博客上发布了一篇新论文——CriticGPT，而这也是前任超级对齐团队的「遗作」之一。CriticGPT同样基于GPT-4训练，但目的却是用来指正GPT-4的输出错误，实现「自我批评」。

OpenAI最近的拖延症状逐渐严重，不仅GPT-5遥遥无期，前几天还宣布GPG-4o的语音功能将推迟一个月发布。

或许是为了缓解广大网友的热切期待，OpenAI在今天放出了新模型CriticGPT，相当于GPT-4的「拐杖」。

我们训练了一个模型CriticGPT，来捕获GPT-4生成代码中的错误。我们开始将此类模型集成到RLHF对齐管道中，以帮助人类监督AI执行困难的任务。

值得注意的是，CriticGPT依旧是用GPT-4模型训练的，但被用于给GPT-4生成的代码「捉虫」，这似乎有点「自我闭环」的意思？

推特网友迅速质疑，「我用石头摧毁石头」，矛盾得有点好笑。

但也有人从另一个角度发现了华点：这难道就是模型自我提升的开始？

官方发布的推文和博客中还没有提及CriticGPT何时会集成到ChatGPT中，但技术文章已经发布，而且又是一篇离职人员的遗留作品——由超级对齐的scalable oversight团队共同完成，作者署名包含Jan Leike。

论文地址：https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

那就来仔细看看，让GPT-4「自我提升」的结果究竟如何？

GPT-4自己批自己

RLHF全称为Reinforcement Learning from Human Feedback，是包括ChatGPT在内的很多LLM常用的对齐方法。人类AI训练师们会收集模型对同一个问题的不同响应并进行评分，以此改进模型。

随着ChatGPT的响应变得更加准确，它犯的错误也会更微妙、让人类训练师更难察觉，因而降低了RLHF的有效性。

事实上，这也是RLHF的根本限制，随着模型逐渐进化到比任何提供反馈的专家都更有知识，基于人类的评价来调整模型就会越来越困难。

因此，OpenAI的「可扩展监督」团队想到了跳出RLHF的框架，干脆训练模型为ChatGPT撰写评论，纠正输出结果中不准确的地方。

这种方法似乎取代了RLHF，但好像又没取代——因为训练CriticGPT的过程，仍然采用了RLHF。

核心思想非常简洁：CriticGPT依旧是自回归模型。标注者先向ChatGPT的响应输出中人为注入一些微妙的错误，CriticGPT针对这些有错误的答案生成批评意见，之后再由人类训练师为批评意见进行打分排名。

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

CriticGPT训练流程

RLHF的训练过程与ChatGPT类似，具体如下：

为数据集中每个问题和答案采样CriticGPT生成的批评意见

人类评估者对其各个属性及总体质量进行评分

训练奖励模型用于预测人类对模型输出的整体质量排名

使用PPO优化奖励模型

应用一种创新的推理时采样策略：强制采样束搜索（FSBS）

大部分的训练数据都来自人类篡改GPT答案的这个过程，但也包含少部分未经修饰的原始答案。

为什么一定要人为向ChatGPT的响应输出中注入bug？不能直接筛选出有bug的答案吗？

论文中提出，使用原始、未经修饰的答案会存在如下几个问题：

许多答案不会包含严重问题，进而降低了数据对于改进批评意见的价值

如果无法控制错误类型，CriticGPT会输出自由形式且模糊不清的批评意见，难以验证其正确性

人类也很难发现CriticGPT遗漏的重要问题

偏好率可能受到许多风格因素的影响，并会高估模型性能

需要注意的是，人类已经检测到有bug的模型输出，本身就说明它们更容易被人发现！

篡改方法最重要的优点是制造出了高质量、难以发现的错误，而且平均而言更严重。知道了哪里有预先插入的bug，人类训练师也更容易区分出那些不够全面、遗漏bug的批评。

团队有意地保证了这些人为篡改的复杂和微妙。他们训练了一个二元判别器预测代码是否被篡改，发现较小的模型并没有较好的分辨能力（图13），以此验证了篡改代码的质量。

人类评估CriticGPT的批评意见时，从以下几个维度给出评分和排名：

是否全面，即没有遗漏任何明显或严重的问题

是否捕获到了之前插入的特定bug，即CBI（critique-bug inclusion）

有没有出现幻觉或者挑剔现象，指出了不存在的问题

对整体有用性的主观评级，包含上述内容并考虑风格和整体的实用性

在训练CriticGPT的过程中，除了RLHF方法，团队将奖励模型与搜索结合，提出了一种名为强制采样束搜索的方法（Forced Sampling Beam Seach，FSBS）。

一般来说，模型产生的批评意见更长时，也更容易出现幻觉。这有点类似于「准确率」和「召回率」之间的权衡。

FSBS能够激励CriticGPT在产生更长、更全面的批评时，减少「无中生有」或者「鸡蛋里挑骨头」的发生率。

之后进行的消融实验也证明了FSBS方法的有效性（图12）。

当然，OpenAI还是忘不了他们最喜欢的Scaling Law。他们用RLHF训练并评估了一系列模型，来描述模型规模对bug检测效果的影响（图5）。

直观来看，要达到CriticGPT（只进行了RL）的同等水平，在没有额外数据或修改pipeline的情况下，需要将ChatGPT的预训练计算量扩大30×。

评估结果

首先，团队把人类和CriticGPT撰写的批评意见混杂在一起，再交给人类进行评估。

标注者们会更喜欢自己同行们的产出吗？并没有。

ChatGPT和CriticGPT都超过了人类表现（图1b），而且63%的情况下，CriticGPT撰写的批评意见比人类的更受青睐（图1a）。

要知道，研究团队招来写批评意见的不是编程门外汉，而是有平均5年Python研发经验的技术人员。他们在每个例子上大约会花费50分钟，并能执行代码或查找参考手册，结果也只能发现25%左右的人为注入的bug。

论文认为，这些评估者在没有LLM帮助下撰写的批评意见相对较短，而且可能缺乏所需的领域知识（比如特定的Python库），并且有些篡改行为确实难以发现，这三个原因导致了人类和模型之间如此明显的差异。

从图6中可以看到，CriticGPT的检测错误能力比较全面，对于人为篡改的错误以及原始输出中就存在的错误，都达到了最高的全面性百分比。

更令人惊讶的是，ChatGPT在这两个方面的表现也都超过人类独立撰写的批评意见。人类评估者要借助CriticGPT，才能与ChatGPT水平相当。

但是下面的图7又开启了一轮反转。团队发现，虽然人类容易遗漏错误，但人类也最不容易产生幻觉或者「鸡蛋里挑骨头」的问题。

在产生幻觉这方面，ChatGPT的表现最不如人意，CriticGPT稍有提升。

考虑到批评意见的全面性与减少幻觉之间的权衡，作者提出了团队中「人机合作」模式的好处。如图8所示，人类+CriticGPT的团队表现能够超越模型或人类分别单独工作时的Pareto边界。

总结

可扩展监督（scalabel oversight）的终极目标是帮助人类评估模型，来训练出更好、更安全的策略。

从长期来看，我们应该找到一种泛化性更强的批评模型训练方法，适用于没有groung truth和奖励函数的长形式、开放式任务。

在现实场景中，模型输出的错误可能分布在答案的很多部分。CriticGPT的工作重点是指出一处的重要错误，但未来依旧需要探索，如何识别出分散在答案中各处的错误。

CriticGPT依旧存在幻觉问题，且帮助有限。如果编码任务或者原模型的输出过于复杂，即使是有模型协助的专家也可能无法做出很好的评估。

但这篇文章的方法为今后的RLHF训练带来了一种新鲜思路：将RLHF应用到GPT-4中，训练出CriticGPT这样的模型，可以合成出更多的高质量RLHF数据。

参考资料：

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-07-01 12:45:25

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于力作,批评,团队,模型,人类,训练的资讯：

LLM数学性能暴涨168%，微软14人团队力作！合成数据2.

【新智元导读】合成数据2.0秘诀曝光了！来自微软的研究人员们提出了智能体框架AgentInstruct，能够自动创建大量

2024-08-20 13:44:00

模拟5亿年自然进化史，全新蛋白质大模型ESM3诞生！前Met

新智元报道编辑：乔杨好困【新智元导读】能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3

2024-06-27 09:31:00

全模态对齐框架align-anything来啦：实现跨模态指

...好数据集 Align-Anything，提供详细的人类偏好注释以及用于批评和改进的精细语言反馈，在增强模型的多模态理解能力的同时，从而实现跨模态的全面评估和改进。全模态大模型

2024-10-18 09:47:00

姚期智院士大模型新研究：思维图DoT，用数学理论确保AI逻辑

...为在单一模型内构建有向无环图（DAG）。DAG由代表命题、批评、精炼和验证的节点组成，边表示它们之间的逻辑关系或依赖关系，边都有方向，不存在任何循环路径。这种无环的特性确保推

2024-09-24 13:36:00

o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

...学习加持的o1，比人类更善于发现新的CoT推理步骤2 自我批评的涌现，是o1最强有力的时刻3 让o1「超时」前完成回答

2024-09-23 09:50:00

史上ai最高分，谷歌大模型创美国医师执照试题新纪录

...大规模裁员重组后，这可以说是他们在医疗领域推出一大力作。连谷歌AI负责人JeffDean都出来站台，表示强烈推荐！有业内人士看完后也称赞道：临床知识是一个复杂的领域，往往

2022-12-28 16:09:00

大模型不是未来？你需要学习下图灵奖得主Yann LeCun选

...怀疑者」之一。他已经不止一次公开表达了对 LLM 热潮的批评，比如他曾在一场辩论中毫不客气地说：「从现在起 5 年内

2023-06-26 13:37:00

OpenAI超级对齐团队遗作：两个大模型博弈一番，输出更好懂

...有益的。值得一提的是，这篇论文来自 OpenAI 的超级对齐团队，其中几位作者在今年早些时候已经离开 OpenAI，团队也已经分崩离析。其中一位作者透露，这是该团队的最后一篇

2024-07-19 09:45:00

硅谷手记｜AI抄袭背后的硅谷“不光彩文化”

...证据和对方反应来看，抄袭性质已比较确定”。曼宁发声批评后，斯坦福该团队的两名成员夏尔马和加格也在社交媒体上正式道歉，并表示要完全撤下Llama3-V模型。在当前的人工智能热潮

2024-06-05 13:55:00

更多关于科技的资讯：

“世界舞台”上秀一圈，南京收获了什么？

进博会圆满落幕，南京交易分团意向成交9.98亿美元“世界舞台”上秀一圈，南京收获了什么？□南京日报/紫金山新闻记者黄琳燕11月10日

2025-11-14 08:38:00

埃斯顿工业机器人出货量持续增长宁企连续三季霸榜国内“一哥”

11月13日，在江宁开发区埃斯顿智能制造示范车间内，工业机器人正在做各种场景应用展示。宁企埃斯顿今年前三季度机器人总销量约25000台

2025-11-14 08:39:00

一批创新产品亮相“宁创新品”信创产业教育专场活动

一批创新产品亮相“宁创新品”信创产业教育专场活动只需3步，20分钟完成全班作业批改南报网讯（记者徐宁）上传空白试卷和答案

2025-11-14 08:39:00

以AI引擎打造数字化转型山西模式

图片由讲述人提供讲述人山西数据流量谷副总经理邵同旭我是山西数据流量谷的邵同旭，长期专注于数据要素与人工智能领域。多年来

2025-11-14 08:52:00

张家口农商银行宣泰支行年末服务提质增效

岁末是金融服务的“大考期”，业务量激增、客户需求多元叠加。张家口农商银行宣泰支行聚焦柜面运营核心环节，以“压降投诉、提升质量

2025-11-14 10:07:00

情绪消费流行，要做好服务和引导

秋实如今，快节奏的都市生活中，“情绪消费”成为一种新的消费方式。数据显示，超九成青年认可情绪价值，近六成青年愿意为情绪价值买单

2025-11-14 11:28:00

一杯咖啡里的中国大市场

新华社记者王雨萧周蕊一杯咖啡，能勾勒出怎样的经济图景？从云南绵延百万余亩的咖啡种植园，到上海梧桐树下香气氤氲的创意特调

2025-11-14 11:28:00

“信息茧房”效应是怎样破解的？

惠依近日，深圳大学深圳城市传播创新研究中心发布《短视频用户的算法实践与“破茧”报告》。《报告》显示，与一些人担忧“信息茧房”形成对比

2025-11-14 11:28:00

如新荣获2025消费责任对话活动客户服务创新典型案例

2025年11月5日，以“大力提振消费品质服务担当”为主题的消费责任对话活动在成都成功举办。本次活动由中国消费者协会

2025-11-14 11:29:00

Shopee 11.11大促热力爆棚，Shopee Live

2025年11月13日，中国 —— 近日，东南亚及巴西领航电商平台Shopee 11.11大促再掀购物狂潮，Shopee Live直播开场4分钟即售出1100万件商品

2025-11-14 11:31:00

风暴来袭！先优食品推出以“樱花炸鸡“为核心的四大天王系列炸鸡

当颜值经济邂逅味觉升级，以创新研发与品质制造为核心优势的青岛先优食品有限公司，重磅推出以“樱花炸鸡“为核心的四大天王系列炸鸡战略级产品

2025-11-14 11:32:00

招商创科携手凯赛生物推动生物基材料应用助力纺织产业绿色升级

在科技创新成为国家发展战略核心的背景下，招商局集团积极推进“第三次创业”，通过旗下招商创科、招商积余到家汇平台，联合生物制造企业凯赛生物

2025-11-14 11:32:00

佳人与银都拉玛集团成立合资公司共推全球纺织行业循环发展

曼谷（泰国）/浙江（中国）——2025年11月11日——全球领先的再生聚酯纤维、纱线及技术纺织品供应商银都拉玛集团（Indorama Ventures）纤维业务部

2025-11-14 11:32:00

凡泰极客FinClip ChatKit：破解金融AI落地困局

在金融行业数字化转型的浪潮中，AI技术的崛起正以前所未有的速度重塑着业务逻辑与技术架构。从颠覆传统风控的智能大脑，到赋能普惠金融的智能投顾

2025-11-14 11:33:00

AI视觉重塑质检“智慧之眼”，聚焦四大核心应用场景

当前，AI视觉质检技术正以“精准化、场景化、智能化”为核心驱动力，推动测试测量领域从传统人工/2D检测向“3D全维度+AI深度赋能”跨越式升级

2025-11-14 11:33:00

头条订阅服务

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开