• 我的订阅
  • 科技

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

类别:科技 发布时间:2024-10-29 09:58:00 来源:量子位

OpenAI-o1替代品来了,大模型能根据任务复杂度进行不同时间的思考。

不限于推理性的逻辑或数学任务,一般问答也能思考的那种。

最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究,被网友们齐刷刷码住了。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

论文一作为华人学者Tianhao Wu,导师之一是2011年清华特奖得主焦剑涛。

团队提出了一种称作思考偏好优化(Thought Preference Optimization)的方法,能让模型像OpenAI-o1一样,通过内部“思考”输出更好答案,最终只显示结果,不展示思考过程。

TPO将思维链式提示/推理融入训练中:

在回答之前,用思维链式方法进行思考;使用一个LLM评判来评估响应(不包括由LLM生成的想法);根据被拒绝和优选的响应形成偏好对进行DPO(包括这些响应中的想法)。

基于Llama 3 8B Instruct的结果表明,TPO效果相当好。

有意思的是,如果添加了思维提示,但Llama 3 8B Instruct基础模型没有在偏好对上经历DPO微调,那么这个基础模型的性能会比没有思维提示时差得多。

在指令数据(直接响应基线)上对模型进行微调(无需思考提示)就能显著提升基模型的性能。

进一步加入TPO,在AlpacaEval、Arena-Hard基准测试中,性能比基线再提升约4%。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

网友纷纷表示这项研究很有意思,简单而又实用。

如果你已经在进行DPO,那么采用这种方法几乎就是不二之选了。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

所以,TPO到底长啥样?

两种思考提示模板,无需额外人工标注数据

TPO的基本思路就是让模型在给出最终回答前先生成“思考”过程,且思考过程对用户不可见,仅作为模型内部计算过程,然后通过迭代优化来提升思考的质量,无需额外的人工标注数据。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

具体来说,它的实现过程始于一个经过指令微调的基础语言模型,首先通过提示词引导模型生成包含思考过程和最终回答两个部分的输出。

这个提示词可以是通用型的,简单要求模型写下思考过程;也可以是具体型的,明确要求模型先写出草稿回答并进行评估。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

对于每个用户指令,模型会生成多个不同版本的输出,每个都包含思考和回答部分。

且思考过程采用自然语言形式,便于解释和利用预训练知识。

然后系统会将这些输出中的回答部分(不含思考过程)提供给一个评判模型来打分。

评判模型可以是像ArmoRM这样直接对单个回答评分的模型,也可以是像Self-Taught Evaluator这样通过比较两个回答来选出更好者的模型。

基于评判结果,系统会选出得分最高和最低的回答,连同它们对应的思考过程一起构成偏好对。

这些偏好对随后被用于直接偏好优化(DPO)训练,通过这种方式,模型能够逐步学习到哪些思考方式能带来更好的回答。

整个过程是迭代进行的,每轮训练后得到的新模型会被用于下一轮的思考和回答生成。

为了防止回答变得过于冗长,TPO还引入了长度控制机制,通过在评分中加入长度惩罚项来平衡回答的质量和简洁性。

值得注意的是,在实际使用时,模型生成的思考过程会被隐藏,只向用户展示最终的回答部分。

更多细节,感兴趣的童鞋可自行查看原论文。

通过这种训练方法,即使是像Llama-3-8B-Instruct这样相对较小的模型也能在AlpacaEval等基准测试中取得接近甚至超过一些更大模型的性能。

在AlpacaEval基准测试中,TPO模型获得52.5%的胜率,比基线提升4.1%;在Arena-Hard测试上,TPO模型获得37.3%的胜率,比基线提升4.3%。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

研究发现,虽然在训练初期,带思考的模型表现不如直接回答的基线模型,但经过多轮迭代训练后,TPO模型的表现明显超过基线。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

更细致的分析显示,思考不仅对推理和数学等传统认为需要思考的任务有帮助,在营销、健康、一般知识等非推理任务上也表现出优势,模型会随着训练逐渐学会更高效的思考(思考长度缩短)。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

华人一作

这项研究由来自Meta FAIR、加州大学伯克利分校、纽约大学的研究人员共同提出。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

论文一作为华人学者Tianhao Wu。

Tianhao Wu目前是加州大学伯克利分校博士生,导师是焦剑涛(Jiantao Jiao)和Kannan Ramchandran。

本科主修数学,合作导师是北大教授、清华交叉信息学院兼职教授王立威(Liwei Wang)。

他的研究重点是通过强化学习改善大语言模型的指令遵循和推理能力,目标是构建可以解决需要多步骤推理的复杂任务的大规模模型。

此外他还在开发由Agent组成的AI社会,这些Agent可以以模块化的方式连接起来,形成更强大的集体智能。

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化

论文链接:https://arxiv.org/abs/2410.10630

参考链接:[1]https://x.com/rasbt/status/1850177459930497118[2]https://thwu1.github.io/tianhaowu/

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-29 11:45:05

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

首届大模型顶会COLM高分论文:偏好搜索算法让大模型评估更高效
...。在 RLHF 训练范式中,奖励模型根据排名比较数据与人类偏好对齐。这增强了 LLMs 与人类价值观的对齐,从而生成更好地帮助人类并遵守人类价值观的回应。近日,第一届大模型顶
2024-08-06 09:26:00
将偏好学习引入模型训练,北大李戈团队提出代码生成优化新框架
代码模型SFT对齐后,缺少进一步偏好学习的问题有解了。北大李戈教授团队与字节合作,在模型训练过程中引入偏好学习,提出了一个全新的代码生成优化框架——CodeDPO。在部分模型上,
2024-11-28 09:57:00
4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
...应,由再让M_t对自己进行评价,由此得到用于训练actor的偏好数据。 之后,给定同一个响应内容y,让M_t生成各种不同评价的变体
2024-08-01 09:40:00
扩散模型也能搞定社交信息推荐,港大数据智能实验室提出RecDiff
...的基于扩散模型的推荐框架,能够更好地捕捉用户的潜在偏好和兴趣,从而生成个性化、贴合用户需求的推荐内容。具体而言,该框架采用隐空间扩散机制,有效清除用户表示中的噪声,无论是压缩
2024-07-30 09:31:00
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
...器。一方面,为了使LLM自动评分更加合理、准确并与人类偏好保持一致,对人类判断的数据收集极其重要。 然而,获得这些判断数据既昂贵又耗时。从以前的研究中收集现有的人类评估貌似
2024-08-05 09:37:00
关于LLM-as-a-judge范式,终于有综述讲明白了
...来源(人工标注和模型反馈)和微调技术(有监督微调和偏好学习)对这些工作进行了详细讨论。图 4:LLM-as-a-judge prompting 方法(2)提示
2024-12-04 09:49:00
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR
...对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学习
2024-06-21 09:21:00
昆仑万维SkyReels团队正式发布并开源SkyReels-V2
...SkyCaptioner-V1表现优异,超越了SOTA的模型。 2.针对运动的偏好优化现有的视频生成模型在运动质量上表现不佳
2025-04-21 13:53:00
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全
...型,既能改善过度谨慎的奖励模型,也能改进(有时候)偏好不安全输出的奖励模型。 该团队也进行了消融研究,实验了不同的设计选择,比如多种不同的安全提示集数量和组成。用于安全的基于
2024-11-07 09:54:00
更多关于科技的资讯:
英科医疗开年首展登录迪拜WHX展会,“中国智造”医疗解决方案亮相全球市场
2月9日至12日,全球领先的医疗护理产品供应商英科医疗携三大事业部创新成果亮相阿拉伯国际医疗器械展览会(World Health Expo Dubai)
2026-02-15 13:50:00
龙岗文旅数字IP城市巡礼破圈传播,迎春花市成内容热点
市民围观、拍照打卡,数字人引爆春节花市春节前夕,龙岗迎春花市迎来一场特别的巡礼:数字IP首次在花市与市民面对面互动。现场
2026-02-15 13:52:00
近日,中亦科技收到了一封来自大众汽车的感谢信。信中对中亦科技服务团队在应对大规模生产系统突发故障时的卓越表现,以及长期以来展现出的专业素养和“以客户为中心”的担当精神给予了高度评价
2026-02-15 10:23:00
杭产数字人“席卷”东南亚
“这款粉底色号非常自然,贴合亚洲人肤色。” 马来西亚TikTok直播间,一位妆容精致的主播正微笑着与观众互动,当用户追问具体颜色
2026-02-15 07:41:00
《视野》杂志启动AI协作创作大赛
中国青年报客户端讯(中青报·中青网记者 马富春)2月13日,《视野》杂志“人类文明备忘录”AI协作创作大赛正式启动。活动以直播+实时互动形式展开
2026-02-14 20:52:00
新春走基层丨76秒,一套汽车零部件焊接就能下线
见习记者 朱荣琛2月12日,农历腊月廿五。春节临近,廊坊经开区道路两旁挂上了大红灯笼,沿街企业的大门已贴上了大对联。热热闹闹的年味儿在这个城市的大街小巷悄然弥漫
2026-02-14 22:12:00
针对春节期间服务需求,中国银行隆尧支行近日聚焦自助服务渠道,启动了专项保障工作。针对县域网点分布广、运维半径长的特点,隆尧支行依托历史运行数据
2026-02-14 22:17:00
领航新质生产力——2025浙江省科学企业家这个专题,是省科协和潮新闻联合举办的,已陆续推出了近二十位具有科技创新精神的浙商企业家
2026-02-14 22:34:00
深圳地铁陪你「返屋企」,跨场景互动刷新通勤与春运体验
近日,深圳地铁迎来了新春限定数字人,结合AI原创音乐与互动体验,走到了春运最前沿。这是深圳地铁数字IP首次以完整的互动形态沉浸式接入城市公共空间
2026-02-14 20:26:00
2月14日消息,2026年“新春招聘月”系列活动将于2月24日(正月初八)在五一广场太原人才大市场(迎泽区零工示范站)正式启幕
2026-02-14 17:37:00
星火空间完成数千万天使+轮融资 核心产品“进化一号”发动机完成首次试车
大皖新闻讯 此前关于合肥要造火箭的消息引发外界广泛关注,背后则是合肥星火空间科技有限公司(以下简称“星火空间”)落户合肥新站高新区
2026-02-14 18:45:00
国医大师李佃贵为2026雄安国际医疗大健康技术应用大赛发声推介。他表示,当下是中西医并重、传统智慧与现代科技深度融合的时代,中医核心思想与大健康领域发展目标高度契合,期待中医药领
2026-02-14 19:13:00
中国科大取得重要突破 首次实现量子李雅普诺夫指数的精确提取
大皖新闻讯 ”这一结果意义重大,为观测混沌的量子世界提供了全新视角。”相关人员如此评价说。2月14日,大皖新闻记者从中国科学技术大学获悉
2026-02-14 17:35:00
鲁网2月14日讯为提升居民网络使用体验,助力智慧社区建设,近日,山东移动临沂分公司装维团队深入多个社区,开展 “移动装维进社区”专项服务活动
2026-02-14 15:10:00
山东移动临沂分公司:智慧装维服务升级,开启家庭网络新体验
鲁网2月14日讯“您好,我是中国移动装维工程师张师傅,现在上门为您检测网络,这是我的工作证件。”周六上午9点,临沂北城新区书香苑小区的王女士刚结束早间会议
2026-02-14 15:11:00