• 我的订阅
  • 科技

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

类别:科技 发布时间:2024-10-18 09:51:00 来源:量子位

Meta版慢思考也来了。

田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。

能解决迷宫、推箱子等复杂问题。

通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可以在模仿慢思考的同时,像快思考一样走捷径。

由此能形成更简洁的思维链(CoT)。

从结果来看,在慢思考模式下,Dualformer的最优解率达到97.6%,推理步骤减少45.5%。

自动切换快慢思考模式下,最优率也达到96.6%,且推理步骤减少59.9%。

搞定o1玩不来的迷宫游戏

o1带火了系统2(慢思考),能让大模型推理能力大幅提升。

但是随之而来的计算成本更高。

Dualformer能很好结合快慢思考,从而缓解这一问题。

它建立在Searchformer这项工作的基础上。Searchformer是一个可以解决复杂推理任务的模型,在A*搜索算法生成的路径上训练而来,在路径规划任务(如迷宫、推箱子游戏)上表现良好,可以以更高效率找到最优解。

研究发现,人类会在思考过程中倾向于找捷径。为了更进一步模拟人类,Dualformer在随机推理轨迹数据上进行训练,并在训练过程中依据定制的丢弃策略丢到部分结构。

比如在处理路径规划任务时,根据搜索轨迹中的不同子句(如close子句、子句中的cost tokens、create子句等)设计了四个级别的丢弃策略,从只丢弃close子句到丢弃整个轨迹,并在训练时随机选择应用这些策略。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

基于这些策略,Dualformer可以学习更简洁有效的搜索和推理过程。

在推理阶段,Dualformer可配置快速模式(仅输出解决方案)、慢速模式(输出推理链和最终解决方案)或自动模式(自行决定推理模式)。

这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整,类似于人类思维在不同情况下的决策方式。

在具体任务上,研究设置了迷宫(Maze)和推箱子游戏(Sokoban),让模型进行路径规划。以及数学推理任务。

对比来看,在迷宫任务中,o1-preview和o1-mini模型输出的路径并不好,会“穿墙”。

快思考模式下,Dualformer的表现如下。

Dualformer以80%的最优率完成这些任务,显著优于仅基于解决方案数据训练的Solution-Only模型,后者的最优率仅为 30%。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

慢思考模式表现如下。

30×30迷宫任务中,在97.6%的情况下可以达到最优解,同时推理步骤减少45.5%。

自动切换快慢思考模式下,Dualformer的最优率达到 96.6%,与Searchformer相比,推理步骤减少59.9%。

将该方法推广到Mistral-7B和Llama3-8B上,在Aug-MATH数据集上,模型的表现都有所提升。

比如在Mistral-7B模型上,当p=0.1、0.2和0.3时,Pass@20度量的基线模型,其中绝对正确率增加到61.9%。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

最后,来看一下研究团队阵容。

该研究由田渊栋等人带来。

田渊栋现在是Meta FAIR的研究科学家主任,领导LLM推理、规划和决策小组。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Qinqing Zheng是FAIR的工程师,研究方向集中在生成模型和强化学习方面。她本科毕业于浙江大学,在芝加哥大学攻读博士学位。2017-2019年期间在Facebook担任研究科学家,帮助Facebook建立了广告推荐模型的分布式训练系统。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Sainbayar Sukhbaatar是FAIR的研究科学家,主要负责大模型推理和记忆方面研究。他曾先后在谷歌、DeepMind、Meta任职。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Michael Rabbat是FAIR的创始成员之一。加入Meta之前他曾是麦吉尔大学计算机工程系教授。研究领域包括机器学习、分布式算法、信号处理等。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

论文地址:

https://arxiv.org/pdf/2410.09918

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-18 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...题 1 和 2,该团队训练了求解迷宫导航任务和紧密相关的推箱子(Sokoban)任务的 Transformer。为了解答问题 3
2024-10-17 09:47:00
逆水寒手游下一个打算缝双人成行?玩家:再缝下去真的要出事
...机格斗、推理破案等玩法都能在游戏里体验到,甚至还有推箱子、萝卜蹲等小游戏,玩一款游戏就等于玩了十几款游戏,绝对的好玩不亏!《逆水寒》手游中的缝合并不是照搬,而是有自己的风格特
2023-08-06 20:50:00
一款蒸汽朋克风格的第一人称回合制地牢冒险游戏
...同时移动。游戏的主旋律是探索解密,解密的玩法类似于推箱子,还要解开各种机关。迷宫中还有各式各样的敌人,玩家要通过风骚的走位和巧妙的攻击来消灭它们,正面硬钢往往会损失惨重。角色
2023-03-19 19:48:00
...提升深度思考强化学习效率及效果。其次,统一模型下的快慢思考混合训练方法,充分发挥快慢思考数据相互促进作用,实现基于系统指令控制模型是否深度思考,支撑下游更高效便捷地部署使用;
2025-04-22 16:50:00
盘点直播间“喂饼”大师:“推箱子专家”年薪破20万,“氛围组”竟然是敌军?
...特色的辅助工种也开始受到大众的关注。新晋主播招聘“推箱子专家”最近,一个新的“带货一姐”出现了——抖音主播“郑香香”突然走红,她在5天时间里涨粉百万,预计带货量超过5000万
2023-11-13 10:02:00
《超感迷宫》杀青 段奕宏窦骁携手冲破人性的迷雾
...演在片场喊出最后一声“卡”,都市罪案悬疑网剧《超感迷宫》在历经了2个多月的紧张拍摄后,正式宣布全组杀青,杀青现场演员段奕宏、窦骁、王佳佳、吕星辰、安悦溪、李晟、张兆辉、刘金山
2023-09-04 12:15:00
直播间推箱子,凭啥月薪两万?
...大众热烈讨论:杭州某公司开出每个月两万的高价招聘“推箱子专家”。(图/BOSS直聘截图)“推箱子专家”是什么?其实就是电商直播中的主播助理。招聘软件的职位详情显示,推箱子专家
2023-11-22 15:01:00
崩坏星穹铁道佣人的容器其二推箱子攻略
崩坏星穹铁道佣人的容器其二推箱子怎么过?只要完成了第一关推箱子,到后面的第二关推箱子,难度并不是那么大了,下面橙子小编就给大家详细的介绍一下推箱子的路线。一起来看看吧!崩坏星穹铁
2023-11-07 21:22:00
大部分毒品有关的故事,背景都设置在金三角地区,而雪迷宫不一样
《雪迷宫》中虽然也有南方部分的情节设置,但主要故事背景选择在东北小镇哈岚,虽然这是一个这样的背景设定更偏向于反黑或者纯犯罪故事。剧集播出过半,有观众表示,作为一个禁毒悬疑剧,《雪
2024-09-12 22:34:00
更多关于科技的资讯:
零的突破!云知声中标全国首个省级医保大模型项目,打通医保治理现代化“最后一公里”
2026年开年,智慧医保领域迎来里程碑式突破——云知声智能科技股份有限公司成功中标全国首个省级医保垂直大模型项目“江苏省医保垂直大模型及智能体应用项目”
2026-01-24 17:26:00
香港大学中国商业学院2026年专业研究生文凭课程火热招生中
香港大学中国商业学院2026年专业研究生文凭课程全面启动招生!课程涵盖人工智能、创新管理、增长营销、财务金融、人力资源等前沿及核心商管领域
2026-01-24 17:27:00
当哲思遇见科技:华为阅读携手周国平,探讨如何在独处中沉淀自我
在信息纷扰、节奏加速的时代,何处寻得一方宁静,让思想深度扎根?华为阅读联合北京广播电视台纪实科教频道《我们读书吧》第二季
2026-01-24 17:29:00
1月8日,深圳市精锋医疗科技股份有限公司(以下简称精锋医疗)在香港联合交易所主板成功挂牌上市,成为2026年深圳IPO“第一股”
2026-01-24 17:29:00
赋能普惠,引领向善:龙环汇丰实践获公益节大奖肯定
1月22日,第十五届公益节暨2025ESG影响力年会在北京盛大开幕。本届大会以“15年,共益新篇章”为主题,回顾中国公益事业十五年发展历程
2026-01-24 17:30:00
鸿蒙 6“智感握姿” 让交互体验更“近”一步
你是否也经历过这样“手忙脚乱”的时刻:出差途中单手提包,电话突然响起,另一只手紧紧攥着手机,大拇指却怎么也够不到那段长长的滑动接听条
2026-01-24 17:27:00
蚌埠这场脑机接口大会,让“大脑连接未来”照进现实!
大皖新闻讯 1月23日至25日,安徽省脑机接口创新发展大会在蚌埠隆重启幕。为期三天的盛会汇聚了300余位来自高等院校、科研院所
2026-01-24 16:54:00
固体废物综合治理是生态文明建设的重要内容,也是推进美丽中国建设的关键环节。近日,国务院办公厅印发《固体废物综合治理行动计划》
2026-01-24 12:14:00
鲁网1月24日讯国家新一轮消费品以旧换新及数码智能产品购新补贴政策红利持续释放。作为通信行业标杆企业,山东移动济宁分公司积极响应国家号召
2026-01-24 14:00:00
提供16万多方生态空间 设立7亿元资本活水每日商报讯 眼下,“AI漫剧”正加速走入公众视野。作为人工智能时代下中国文化“新三样”(网文
2026-01-24 10:59:00
固安搭建AI智慧招商平台 30秒生成企业选址方案
1月20日,“立业固安”平台工作人员(中)通过平台向企业推荐合适的选址方案。 万 倩摄河北日报讯(记者刘英)30秒,生成一份定制化的选址方案
2026-01-24 08:19:00
近日,杭州德胜快速路(石德立交至明石路段)、秋石快速路(石德立交-石石立交)两项夜景照明提升工程顺利竣工。具体有哪些改变
2026-01-24 09:28:00
距离过年只剩大半个月时间,今年的年货你已经准备好了吗?本周日,100多个AI高手将集结在杭州东站的中国数谷·未来数智港
2026-01-24 10:29:00
来雄安,体验智能弹性绿波带
来雄安,体验智能弹性绿波带主要道路早晚高峰通行缩短15分钟近日,雄安新区容东片区乐民街的数字化道路上,车辆顺畅通行。 河北日报记者 刘光昱摄河北日报讯(见习记者康晓博)从雄安新区工信科技数据局获悉
2026-01-24 08:27:00
太重集团1月21日发布消息,太重首批32米纯电直臂式高空作业平台顺利批量下线,这不仅是太重高空作业平台产品型谱的重要补位
2026-01-24 07:17:00