• 我的订阅
  • 科技

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

类别:科技 发布时间:2024-10-18 09:51:00 来源:量子位

Meta版慢思考也来了。

田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。

能解决迷宫、推箱子等复杂问题。

通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可以在模仿慢思考的同时,像快思考一样走捷径。

由此能形成更简洁的思维链(CoT)。

从结果来看,在慢思考模式下,Dualformer的最优解率达到97.6%,推理步骤减少45.5%。

自动切换快慢思考模式下,最优率也达到96.6%,且推理步骤减少59.9%。

搞定o1玩不来的迷宫游戏

o1带火了系统2(慢思考),能让大模型推理能力大幅提升。

但是随之而来的计算成本更高。

Dualformer能很好结合快慢思考,从而缓解这一问题。

它建立在Searchformer这项工作的基础上。Searchformer是一个可以解决复杂推理任务的模型,在A*搜索算法生成的路径上训练而来,在路径规划任务(如迷宫、推箱子游戏)上表现良好,可以以更高效率找到最优解。

研究发现,人类会在思考过程中倾向于找捷径。为了更进一步模拟人类,Dualformer在随机推理轨迹数据上进行训练,并在训练过程中依据定制的丢弃策略丢到部分结构。

比如在处理路径规划任务时,根据搜索轨迹中的不同子句(如close子句、子句中的cost tokens、create子句等)设计了四个级别的丢弃策略,从只丢弃close子句到丢弃整个轨迹,并在训练时随机选择应用这些策略。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

基于这些策略,Dualformer可以学习更简洁有效的搜索和推理过程。

在推理阶段,Dualformer可配置快速模式(仅输出解决方案)、慢速模式(输出推理链和最终解决方案)或自动模式(自行决定推理模式)。

这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整,类似于人类思维在不同情况下的决策方式。

在具体任务上,研究设置了迷宫(Maze)和推箱子游戏(Sokoban),让模型进行路径规划。以及数学推理任务。

对比来看,在迷宫任务中,o1-preview和o1-mini模型输出的路径并不好,会“穿墙”。

快思考模式下,Dualformer的表现如下。

Dualformer以80%的最优率完成这些任务,显著优于仅基于解决方案数据训练的Solution-Only模型,后者的最优率仅为 30%。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

慢思考模式表现如下。

30×30迷宫任务中,在97.6%的情况下可以达到最优解,同时推理步骤减少45.5%。

自动切换快慢思考模式下,Dualformer的最优率达到 96.6%,与Searchformer相比,推理步骤减少59.9%。

将该方法推广到Mistral-7B和Llama3-8B上,在Aug-MATH数据集上,模型的表现都有所提升。

比如在Mistral-7B模型上,当p=0.1、0.2和0.3时,Pass@20度量的基线模型,其中绝对正确率增加到61.9%。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

最后,来看一下研究团队阵容。

该研究由田渊栋等人带来。

田渊栋现在是Meta FAIR的研究科学家主任,领导LLM推理、规划和决策小组。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Qinqing Zheng是FAIR的工程师,研究方向集中在生成模型和强化学习方面。她本科毕业于浙江大学,在芝加哥大学攻读博士学位。2017-2019年期间在Facebook担任研究科学家,帮助Facebook建立了广告推荐模型的分布式训练系统。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Sainbayar Sukhbaatar是FAIR的研究科学家,主要负责大模型推理和记忆方面研究。他曾先后在谷歌、DeepMind、Meta任职。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Michael Rabbat是FAIR的创始成员之一。加入Meta之前他曾是麦吉尔大学计算机工程系教授。研究领域包括机器学习、分布式算法、信号处理等。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

论文地址:

https://arxiv.org/pdf/2410.09918

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-18 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...题 1 和 2,该团队训练了求解迷宫导航任务和紧密相关的推箱子(Sokoban)任务的 Transformer。为了解答问题 3
2024-10-17 09:47:00
逆水寒手游下一个打算缝双人成行?玩家:再缝下去真的要出事
...机格斗、推理破案等玩法都能在游戏里体验到,甚至还有推箱子、萝卜蹲等小游戏,玩一款游戏就等于玩了十几款游戏,绝对的好玩不亏!《逆水寒》手游中的缝合并不是照搬,而是有自己的风格特
2023-08-06 20:50:00
一款蒸汽朋克风格的第一人称回合制地牢冒险游戏
...同时移动。游戏的主旋律是探索解密,解密的玩法类似于推箱子,还要解开各种机关。迷宫中还有各式各样的敌人,玩家要通过风骚的走位和巧妙的攻击来消灭它们,正面硬钢往往会损失惨重。角色
2023-03-19 19:48:00
...提升深度思考强化学习效率及效果。其次,统一模型下的快慢思考混合训练方法,充分发挥快慢思考数据相互促进作用,实现基于系统指令控制模型是否深度思考,支撑下游更高效便捷地部署使用;
2025-04-22 16:50:00
盘点直播间“喂饼”大师:“推箱子专家”年薪破20万,“氛围组”竟然是敌军?
...特色的辅助工种也开始受到大众的关注。新晋主播招聘“推箱子专家”最近,一个新的“带货一姐”出现了——抖音主播“郑香香”突然走红,她在5天时间里涨粉百万,预计带货量超过5000万
2023-11-13 10:02:00
《超感迷宫》杀青 段奕宏窦骁携手冲破人性的迷雾
...演在片场喊出最后一声“卡”,都市罪案悬疑网剧《超感迷宫》在历经了2个多月的紧张拍摄后,正式宣布全组杀青,杀青现场演员段奕宏、窦骁、王佳佳、吕星辰、安悦溪、李晟、张兆辉、刘金山
2023-09-04 12:15:00
直播间推箱子,凭啥月薪两万?
...大众热烈讨论:杭州某公司开出每个月两万的高价招聘“推箱子专家”。(图/BOSS直聘截图)“推箱子专家”是什么?其实就是电商直播中的主播助理。招聘软件的职位详情显示,推箱子专家
2023-11-22 15:01:00
崩坏星穹铁道佣人的容器其二推箱子攻略
崩坏星穹铁道佣人的容器其二推箱子怎么过?只要完成了第一关推箱子,到后面的第二关推箱子,难度并不是那么大了,下面橙子小编就给大家详细的介绍一下推箱子的路线。一起来看看吧!崩坏星穹铁
2023-11-07 21:22:00
阴阳师逐月寻珍推箱子玩法攻略 逐月寻珍推箱子怎么玩
...要推动木箱,将它推到指定位置,完成任务。看着是一个推箱子玩法,但是操作起来难度很有点大,下面就来看看具体的游戏攻略吧!阴阳师逐月寻珍推箱子玩法攻略一、玩法介绍1、第一天2、第
2023-10-22 23:20:00
更多关于科技的资讯:
这一年,杭产机器人忙着进化忙着上岗
宇树机器人化身武林高手亮相春晚“这才一年,太震惊了!”昨晚的央视春晚上,宇树机器人和河南塔沟武术学校带来的《武BOT》一亮相
2026-02-17 07:17:00
新春走基层|总台春晚这条“骐骥驰骋”红色羊绒围巾出自河北品牌
见习记者于歆2026年总台春晚舞台上部分演员及嘉宾佩戴的“骐骥驰骋”红色羊绒围巾,出自河北品牌!由邢台市清河县的河北红太集团生产
2026-02-17 01:36:00
阿里发布千问3.5,性能媲美Gemini 3, Token价格仅为其1/18
2月16日除夕当天,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 Pro,登顶全球最强开源模型
2026-02-16 17:34:00
海信冰箱联手央视《探班春晚》 用真空保鲜科技“锁住年味”
鲁网2月16日讯2月16日,作为央视新闻新媒体《探班春晚》的独家家电合作伙伴,海信冰箱携真空保鲜科技亮相“春晚会客厅”
2026-02-16 18:47:00
余杭文化“新三样”扬帆 驶向全球文化蓝海
《长安三万里·梦回大唐》获金鸡虚拟现实电影季“年度最佳艺术表现奖”。后亚运时代,杭州如何将因赛会集聚的国际目光,转化为持续的城市发展动能
2026-02-16 11:33:00
北京亦庄与它石智航达成战略合作!共建产业新高地
2026年伊始,具身智能产业持续加速发展。2月14日,北京亦庄与它石智航达成战略合作,双方将在具身智能关键技术攻关、应用落地和产业生态建设方面展开合作
2026-02-16 08:21:00
厦门网讯(厦门日报记者 林露虹)马年春节假期,厦门科技企业的“电子年货”火热上线。在厦门过年,市民和游客可以请AI当导游
2026-02-16 08:40:00
自2025年夏季,京东、美团、阿里等数字平台企业相继开启围绕即时零售市场的激烈争夺。这场“闪购大战”,初期以各方投入“天价补贴”争抢流量而引发社会广泛关注
2026-02-16 08:53:00
马年新春,光景别样。打开手机AI小程序,输入姓名、爱好与新年心愿,一键可生成专属春联。AI深度融入日常生活,无所不在。拥抱AI
2026-02-16 07:39:00
鲁网2月15日讯在人工智能加速重构产业组织形态的背景下,“一人即公司”(OPC)正成为全球创新创业的新范式。2026年2月12日
2026-02-15 20:48:00
石家庄市栾城区妇联举办美妆技能培训
河北新闻网讯(王秀平、李明发)近日,石家庄市栾城区妇联联合妆颜美化妆培训学校,精心举办了一场干货满满的美妆技能培训活动
2026-02-15 19:16:00
英科医疗开年首展登录迪拜WHX展会,“中国智造”医疗解决方案亮相全球市场
2月9日至12日,全球领先的医疗护理产品供应商英科医疗携三大事业部创新成果亮相阿拉伯国际医疗器械展览会(World Health Expo Dubai)
2026-02-15 13:50:00
龙岗文旅数字IP城市巡礼破圈传播,迎春花市成内容热点
市民围观、拍照打卡,数字人引爆春节花市春节前夕,龙岗迎春花市迎来一场特别的巡礼:数字IP首次在花市与市民面对面互动。现场
2026-02-15 13:52:00
近日,中亦科技收到了一封来自大众汽车的感谢信。信中对中亦科技服务团队在应对大规模生产系统突发故障时的卓越表现,以及长期以来展现出的专业素养和“以客户为中心”的担当精神给予了高度评价
2026-02-15 10:23:00