• 我的订阅
  • 科技

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

类别:科技 发布时间:2024-10-18 09:51:00 来源:量子位

Meta版慢思考也来了。

田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。

能解决迷宫、推箱子等复杂问题。

通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可以在模仿慢思考的同时,像快思考一样走捷径。

由此能形成更简洁的思维链(CoT)。

从结果来看,在慢思考模式下,Dualformer的最优解率达到97.6%,推理步骤减少45.5%。

自动切换快慢思考模式下,最优率也达到96.6%,且推理步骤减少59.9%。

搞定o1玩不来的迷宫游戏

o1带火了系统2(慢思考),能让大模型推理能力大幅提升。

但是随之而来的计算成本更高。

Dualformer能很好结合快慢思考,从而缓解这一问题。

它建立在Searchformer这项工作的基础上。Searchformer是一个可以解决复杂推理任务的模型,在A*搜索算法生成的路径上训练而来,在路径规划任务(如迷宫、推箱子游戏)上表现良好,可以以更高效率找到最优解。

研究发现,人类会在思考过程中倾向于找捷径。为了更进一步模拟人类,Dualformer在随机推理轨迹数据上进行训练,并在训练过程中依据定制的丢弃策略丢到部分结构。

比如在处理路径规划任务时,根据搜索轨迹中的不同子句(如close子句、子句中的cost tokens、create子句等)设计了四个级别的丢弃策略,从只丢弃close子句到丢弃整个轨迹,并在训练时随机选择应用这些策略。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

基于这些策略,Dualformer可以学习更简洁有效的搜索和推理过程。

在推理阶段,Dualformer可配置快速模式(仅输出解决方案)、慢速模式(输出推理链和最终解决方案)或自动模式(自行决定推理模式)。

这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整,类似于人类思维在不同情况下的决策方式。

在具体任务上,研究设置了迷宫(Maze)和推箱子游戏(Sokoban),让模型进行路径规划。以及数学推理任务。

对比来看,在迷宫任务中,o1-preview和o1-mini模型输出的路径并不好,会“穿墙”。

快思考模式下,Dualformer的表现如下。

Dualformer以80%的最优率完成这些任务,显著优于仅基于解决方案数据训练的Solution-Only模型,后者的最优率仅为 30%。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

慢思考模式表现如下。

30×30迷宫任务中,在97.6%的情况下可以达到最优解,同时推理步骤减少45.5%。

自动切换快慢思考模式下,Dualformer的最优率达到 96.6%,与Searchformer相比,推理步骤减少59.9%。

将该方法推广到Mistral-7B和Llama3-8B上,在Aug-MATH数据集上,模型的表现都有所提升。

比如在Mistral-7B模型上,当p=0.1、0.2和0.3时,Pass@20度量的基线模型,其中绝对正确率增加到61.9%。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

最后,来看一下研究团队阵容。

该研究由田渊栋等人带来。

田渊栋现在是Meta FAIR的研究科学家主任,领导LLM推理、规划和决策小组。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Qinqing Zheng是FAIR的工程师,研究方向集中在生成模型和强化学习方面。她本科毕业于浙江大学,在芝加哥大学攻读博士学位。2017-2019年期间在Facebook担任研究科学家,帮助Facebook建立了广告推荐模型的分布式训练系统。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Sainbayar Sukhbaatar是FAIR的研究科学家,主要负责大模型推理和记忆方面研究。他曾先后在谷歌、DeepMind、Meta任职。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Michael Rabbat是FAIR的创始成员之一。加入Meta之前他曾是麦吉尔大学计算机工程系教授。研究领域包括机器学习、分布式算法、信号处理等。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

论文地址:

https://arxiv.org/pdf/2410.09918

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-18 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...题 1 和 2,该团队训练了求解迷宫导航任务和紧密相关的推箱子(Sokoban)任务的 Transformer。为了解答问题 3
2024-10-17 09:47:00
一款蒸汽朋克风格的第一人称回合制地牢冒险游戏
...同时移动。游戏的主旋律是探索解密,解密的玩法类似于推箱子,还要解开各种机关。迷宫中还有各式各样的敌人,玩家要通过风骚的走位和巧妙的攻击来消灭它们,正面硬钢往往会损失惨重。角色
2023-03-19 19:48:00
逆水寒手游下一个打算缝双人成行?玩家:再缝下去真的要出事
...机格斗、推理破案等玩法都能在游戏里体验到,甚至还有推箱子、萝卜蹲等小游戏,玩一款游戏就等于玩了十几款游戏,绝对的好玩不亏!《逆水寒》手游中的缝合并不是照搬,而是有自己的风格特
2023-08-06 20:50:00
盘点直播间“喂饼”大师:“推箱子专家”年薪破20万,“氛围组”竟然是敌军?
...特色的辅助工种也开始受到大众的关注。新晋主播招聘“推箱子专家”最近,一个新的“带货一姐”出现了——抖音主播“郑香香”突然走红,她在5天时间里涨粉百万,预计带货量超过5000万
2023-11-13 10:02:00
《超感迷宫》杀青 段奕宏窦骁携手冲破人性的迷雾
...演在片场喊出最后一声“卡”,都市罪案悬疑网剧《超感迷宫》在历经了2个多月的紧张拍摄后,正式宣布全组杀青,杀青现场演员段奕宏、窦骁、王佳佳、吕星辰、安悦溪、李晟、张兆辉、刘金山
2023-09-04 12:15:00
大部分毒品有关的故事,背景都设置在金三角地区,而雪迷宫不一样
《雪迷宫》中虽然也有南方部分的情节设置,但主要故事背景选择在东北小镇哈岚,虽然这是一个这样的背景设定更偏向于反黑或者纯犯罪故事。剧集播出过半,有观众表示,作为一个禁毒悬疑剧,《雪
2024-09-12 22:34:00
直播间推箱子,凭啥月薪两万?
...大众热烈讨论:杭州某公司开出每个月两万的高价招聘“推箱子专家”。(图/BOSS直聘截图)“推箱子专家”是什么?其实就是电商直播中的主播助理。招聘软件的职位详情显示,推箱子专家
2023-11-22 15:01:00
崩坏星穹铁道佣人的容器其二推箱子攻略
崩坏星穹铁道佣人的容器其二推箱子怎么过?只要完成了第一关推箱子,到后面的第二关推箱子,难度并不是那么大了,下面橙子小编就给大家详细的介绍一下推箱子的路线。一起来看看吧!崩坏星穹铁
2023-11-07 21:22:00
阴阳师逐月寻珍推箱子玩法攻略 逐月寻珍推箱子怎么玩
...要推动木箱,将它推到指定位置,完成任务。看着是一个推箱子玩法,但是操作起来难度很有点大,下面就来看看具体的游戏攻略吧!阴阳师逐月寻珍推箱子玩法攻略一、玩法介绍1、第一天2、第
2023-10-22 23:20:00
更多关于科技的资讯: