• 我的订阅
  • 科技

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

类别:科技 发布时间:2024-12-09 09:53:00 来源:新智元
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

【新智元导读】OpenAI第二天的直播,揭示了强化微调的强大威力:强化微调后的o1-mini,竟然全面超越了地表最强基础模型o1。而被奥特曼称为「2024年我最大的惊喜」的技术,技术路线竟和来自字节跳动之前公开发表的强化微调研究思路相同。

OpenAI 12天连播的第二弹,用短短三个单词体现了什么叫「字少事大」——强化微调(Reinforcement Fine-Tuning)。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

首先,这是OpenAI第一次将之前仅限自家模型(如GPT-4o和o1系列)使用的强化学习技术,开放给外部开发者。

其次,开发者只需提供最低「几十个」高质量任务,就能通过强化微调实现领域专家模型的定制!并且,还能根据提供的参考答案对模型的回应进行评分。

最后,强化微调加强了模型在处理领域问题时的推理能力,并提升了在特定任务上的准确性。对于那些要求高精确性和专业知识的领域,强化微调将会发挥至关重要的作用。

从OpenAI的官方演示中不难看出,强化微调的效果可谓是相当显著——经过强化微调的o1 mini,竟然全面超越了当今最强的基础模型o1。

其中,强化微调版的o1 mini,在Top-1准确率上直接跃升180%达到了31%,远超o1的25%。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

对此,奥特曼激动地表示:「这项工作效果出奇得好,是我2024年最大的惊喜之一!非常期待大家会用它去构建什么。」

目前,强化微调研究计划已进入Alpha阶段,并将于2025年第一季度公开发布。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1
OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

为了搞清楚「强化微调」到底是个啥,我们便去问了问OpenAI自家的AI搜索。

没想到,结果却出人意料——这个技术思路,在一篇被ACL 2024录用为Oral的论文中,就已经提出了。

而更喜人的是,团队的成员全部来自字节跳动!

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

在这项工作中,研究人员提出了一种简单而有效的方法,来自增强LLM推理时的泛化能力——强化微调(Reinforced Fine-Tuning,ReFT)。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

论文地址:https://arxiv.org/abs/2401.08967

简单来说,ReFT首先会使用SFT对模型进行预热,然后采用在线强化学习(PPO算法)进行优化。

也就是,对给定的问题自动采样大量的推理路径,并根据真实答案来获取奖励,从而进一步对模型进行微调。

在GSM8K、MathQA和SVAMP数据集上的大量实验表明,ReFT显著优于SFT,并且通过结合多数投票和重新排序等策略,可以进一步提升模型性能。

不仅如此,ReFT还有着卓越的泛化能力——在训练中仅需使用与SFT相同的问题集,而无需依赖额外或增强的训练数据。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

强化微调,不是传统微调

这次上阵直播的四人,是OpenAI的研究员Mark Chen、John Allard、Julie Wang,以及伯克利实验室计算生物学家Justin Reese。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

他们介绍说,这项功能已允许用户在自己的数据集上微调o1。

不过要强调的是,并不是传统的微调,而是强化微调。它真正利用了强化学习算法,把模型从高级中学水平提升到专家博士级别。

这个功能,能够帮助把自己的优质数据集转化为独一无二的用品,带来「魔力」。

强化微调(RFT),能让开发者、研究人员和机器学习工程师首次有机会使用强化学习来创建专家级模型,在特定领域的任务中有卓越表现。

对于法律、金融、工程、保险等领域,这项技术简直是量身打造的。

举例来说,OpenAI最近和汤森路透合作,利用强化微调对o1 Mini进行了微调,使其成为了一名法律助手,帮法律专业人士完成了一些复杂、需要深入分析的工作流程 。

史上首次,OpenAI微调支持强化学习

去年年初,OpenAI就推出了监督微调API。这项技术非常强大,核心目标是让模型复制在输入文本或图像中发现的特征。

在强化微调中,它不仅是教模型模仿输入,而是去学习在自定义域上以全新的方式进行推理。

当模型看到一个问题,研究者会给它空间来思考问题,然后给它的最终答案进行评分。

然后,利用强化学习的强大能力,他们会强化那些导致正确答案的思维路径,同时抑制那些导致错误答案的思维路径。

只需要数十到数千个高质量示例,模型就能学会以新的、有效的方式在定制领域中进行推理了!

用OpenAI研究者的话说,这实在太疯狂了,令人难以置信——仅用12个例子就能做到,这是传统微调难以实现的。

这也是史上首次,OpenAI的模型定制平台可以支持强化学习。

研究者强调说,OpenAI内部用来训练GPT-4o和o1系列等顶尖模型,就是用的同样技术。

强化微调的o1,诊断罕见病

伯克利实验室的Justin,就介绍了强化微调给他的研究带来的巨大帮助。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

他研究的是,使用计算方法来理解罕见疾病背后的遗传原因。

然而,现在评估罕见疾病并不容易,首先要对医学有专业领域知识,还要对生物医学数据进行系统化推理。

而这,o1模型可以凭借其高级推理能力提供帮助。

在这个项目中,Justin和同事们从数百篇关于罕见疾病的科学病例报告中提取了疾病信息,包括患者的体征和症状。

他们希望能根据患者的症状,找出可能发生突变、导致这些症状的基因。

为此,他们和OpenAI团队一起训练了o1模型,让它更高效地推理疾病的成因。

而在「根据一系列症状预测可能引发遗传疾病的基因」这一任务上,o1-mini的表现超越了o1!

这非常重要,因为o1-mini比o1更小、更快、成本更低。

在OpenAI的开发平台上,他们已经对一个模型进行监督微调一年多了。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

他们上传了一个训练数据集,包含1100个示例。

以下是一个单独的数据点,包括病例报告、指令、正确答案三个部分。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

病例报告显示,这是一名51岁的女性,有眼距增宽、甲状旁腺功能亢进等症状。 在指令部分,研究者会提示模型,希望它做什么。 最后就是正确答案。

注意,训练过程中,并不会向模型展示这个答案,否则就是作弊了。

但是,研究者以这训练过程中用这个答案来评估模型。

可以看出,这个任务的难度,已经远远超越了「Strawberry中有几个r」的级别。

接下来,他们上传了一些验证数据,它的格式与训练数据完全相同,但验证数据集和训练数据集之间的正确基因没有重叠。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

这就意味着,模型不能作弊,不能只是简单地记住症状列表并将其与基因匹配。

它必须真正从训练数据集泛化到验证数据集。

强化学习的部分,是这样体现的——

他们引入评分器的概念,将模型输出与正确答案比较,返回0到1之间的一个分数。0表示模型完全错误,1表示模型完全正确。

在这个例子中,模型得到了0.7的分数,因为FOXE 3是正确答案,在基因列表中排第二位。

它在列表中越往后,分数会越接近0。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

最终,研究者提供了一套评分器合集,能有效覆盖在强化微调时可能会有的各种意图空间。

接下来,可以快速地复制一下评分器,然后就启动了一个训练任务。

厉害的地方在于,只需要提供数据集和评分器(体现领域专业知识),就可以利用OpenAI强化学习算法的全部能力,以及完整的分布式模型训练技术栈,来为自己的使用场景定制一个前沿模型了。

一句话就是:拿上你的数据集和评分器,OpenAI就会给你一个微调模型。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

强化学习微调任务可能需要几个小时到几天的时间来运行

可以看到,验证集的奖励分数呈上升趋势。

由于训练数据集和验证数据集之间的基因没有重叠,这意味着:模型确实学会了这项任务中进行泛化!

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

模型学会通用推理能力

为了更深入地了解模型中微调过程中发生了什么变化,可以查看评估仪表板。

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

其中,研究者设置了三个不同运行,分别是运行在o1、o1 mini和强化微调后的o1 mini上的任务。

可以看到,奖励分数呈现右上角上升的趋势,但这对任务来说意味着什么呢?

为此,他们设置了三个不同的评估指标,分别是Top-1(第一项正确率)、Top-5(前五项正确率)和Top-max(是否包含正确答案)。

在Top-1指标中,o1 mini在约200条数据上的得分是17%。o1得到了25%,而微调后的o1 mini,得到了31%。

ChatGPT就此生成了一张更直观的图表。

这显示出,模型确实学会了如何在这类数据上进行推理的通用能力!

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

在Justin看来,强化学习将极大地振奋生物学研究社区,近期内的最佳方案,可能就是结合现有生物信息学工具和类o1模型的混合解决方案。

而以上,仅仅是强化微调在科学研究中的一个应用而已。

除了已经验证的生物化学、AI安全、法律以及医疗保健数据集,模型还会在数百种其他应用场景上发挥作用。

OpenAI的Alpha计划,会让更多人在最重要的任务上,推动o1模型能力的边界。

直播最后,依然是OpenAI式的圣诞冷笑话一则——

最近,圣诞老人在尝试制造一辆无人驾驶雪橇,但不知为何,他的模型总是无法识别树木,导致雪橇不停地撞上道路两旁的树。你们猜这是为什么?

答案是:因为他忘了给模型进行「pine-tune」(松树微调)!

OpenAI直播第二弹!奥特曼2024年最大惊喜竟来自字节?强化微调让o1-mini逆袭o1

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-09 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

周活过亿,GPT4再升级!OpenAI放出杀手锏:可自定义,更强大还便宜
...球开发者大会“OpenAI DevDay”。在大会上,OpenAI的CEO山姆·奥特曼(Sam Altman)和其他人一起带来了“干货满满”的45分钟演讲
2023-11-07 10:40:00
比赛开始了!Sora对手直呼奥特曼是魔术师,创意行业最先受冲击?
...AI的CEO埃马德·莫斯塔克(Emad Mostaque)则在X平台上感慨“奥特曼(OpenAI的创始人兼CEO)真是一个魔术师”
2024-02-18 18:30:00
...间10月17日,WSJTech Live闭门会上,“ChatGPT之父”、OpenAI CEO奥特曼(Sam Altman)参与了一场50分钟左右的圆桌对话
2023-10-21 13:49:00
【科技早报】字节跳动更新激励政策;微软研究院否认关闭传言
...,第四季度商用版将与所有消费者见面。(新浪科技) 奥特曼:AI目前的能力水平还极其有限OpenAI CEO山姆·奥特曼(Sam Altman)今日在达沃斯世界经济论坛上表示
2024-01-19 16:00:00
让OpenAI焦虑的 还有奥特曼的中年危机
...他自己跨年忘了写总结,就在前两天,也就是 1 月 6 号,奥特曼发了一篇博客,开始好顿反思。作为 AI 行业的龙头,创始人突然发个几千字的总结性质的文章,在里面爆出一些当年做
2025-01-13 15:52:00
创始人山姆辞去OpenAI CEO,马斯克旗下X挂出求职链接
OpenAI官网宣布,创始人兼CEO山姆·奥特曼(SamAltman)离开OpenAI,首席技术官(CTO)MiraMurati担任临时CEO
2023-11-18 23:10:00
OpenAI官宣:圣诞大礼包连更12天!满血版o1、Sora确认亮相
...,满血版o1和Sora会正式发布。消息一出,网友们沸腾了。奥特曼也提前预热,称AGI将在2025年实现!就在刚刚,奥特曼宣布——从12月5日开始
2024-12-06 09:52:00
要资本还是技术?奥特曼回归后的OpenAI,新董事会能否有惊喜
...)新锐巨头OpenAI的“政变大戏”落幕后,一切仿佛又随着奥特曼的回归回到了原点。然而,对于未能成功罢免奥特曼的董事会来说
2023-11-27 19:56:00
全国首例!AI自动生成奥特曼图片侵权案,法院判了
提供AI技术自动生成奥特曼形象图片,平台却因侵犯知识产权被告上法庭。4月21日,浙江省高院在2025年知识产权宣传周期间
2025-04-21 13:28:00
更多关于科技的资讯:
制造为基,智慧引领——春宇控股以红旗实力赋能新能源充电生态
在波澜壮阔的能源革命浪潮中,红旗集团——这家集科研、开发、生产、销售于一体,拥有8家子公司、200多家销售公司,业务横跨电线电缆
2025-12-29 11:44:00
光荣浙商,誉归乐清!贝昂智能总经理胡加明当选“2025光荣浙商”
近日,从浙江日报传来喜讯,乐清籍企业家、苏州贝昂智能科技股份有限公司联合创始人兼总经理胡加明,正式入选“2025光荣浙商”
2025-12-29 11:44:00
近日,中国移动江苏公司无锡分公司(以下简称“无锡移动”)成功完成汇聚机房碳氢类浸没式液冷技术试点。历经3个月的全场景测试验证
2025-12-29 13:28:00
AI驱动绿色发展,中国移动江苏公司开辟节能新路径
近日,中国移动江苏公司无锡分公司(以下简称“无锡移动”)成功研发并部署基于AI协同调控的数据中心空调节能智能化系统,通过端到端节能智能体创新应用
2025-12-29 13:28:00
智推互联GEO助力企业品牌决胜:别只顾做产品,先让AI“认识”你
在人工智能大模型逐渐成为公众获取信息首要入口的当下,企业的“数字存在感”早已超越官网或社交媒体账号的范畴——它直接决定了用户是否“看见你
2025-12-29 13:45:00
像导游一样的前台、会直播的销售 去酒店上班,也要懂自媒体运营
今年,杭州的酒店屡上热搜,先是酒店外摆卖美食,再是40元打包酒店自助餐……那些“第一个吃螃蟹”的酒店借着流量火了一波,证实了酒店在公域耕耘的重要性
2025-12-29 08:42:00
解码当下流行文化:腾讯QQ流行文化观察(2025)
卷首语从通讯工具到数字生活空间当我们在2025年审视QQ,看到的早已不是一个简单的即时通讯应用。它更像一座自然形成的数字城市
2025-12-29 08:43:00
“数据合规与保护专业能力评价”首次考试圆满举行
2025年12月27日,由中国计算机行业协会主办的“数据合规与保护专业能力评价”首次考试顺利举行,作为国内第一个数据合规领域的标准化能力评价考试
2025-12-29 09:13:00
中新经纬12月29日电 据韩联社报道,韩国电商巨头酷澎(Coupang)创始人、其美国母公司酷澎Inc.董事会主席金范锡(音)12月28日就近期引起广泛关注的用户信息外泄事件首次公开致歉
2025-12-29 10:16:00
2025年,兴业银行石家庄分行以“安愉人生”养老金融服务品牌为核心,围绕“生态构建、服务升级、安全守护”三大维度发力,全方位推进养老金融高质量发展
2025-12-29 10:29:00
做用户信赖的智家服务守护者——记泰安联通岱岳分公司夏张营业部王景峰
鲁网12月29日讯泰安联通岱岳夏张营业部智家工程师王景峰,坚守装维服务一线,以精益求精的服务态度、扎实过硬的专业能力,成为用户口中“信得过
2025-12-29 11:02:00
预计年产值20亿元!杭州新开工项目,2028年投用!
近日,杭州赋厨人工智能产业发展有限公司新建AI+智能厨电研发及生产项目正式开工建设。据悉,该项目位于杭州富春湾新城,总投资10亿元
2025-12-29 08:11:00
RUA RUA PANDA大熊猫主题全球巡展伦敦站期间,来自德国、法国、荷兰的粉丝专程“打飞的”到Bamboo Zoo快闪店抢购侦探熊猫
2025-12-29 07:40:00
中新经纬12月27日电 据“网信中国”微信号,27日,国家互联网信息办公室起草了《人工智能拟人化互动服务管理暂行办法(征求意见稿)》
2025-12-28 09:18:00
杭州发放10000张无门槛停车券!今天开抢
好消息:2025年12月28日至2026年1月3日,连续7天,“杭州停车”微信小程序将每天放出停车优惠券,总计10000张
2025-12-28 11:45:00