• 我的订阅
  • 科技

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

类别:科技 发布时间:2024-10-18 09:51:00 来源:量子位

Meta版慢思考也来了。

田渊栋团队带来新作Dualformer,把快慢思考无缝结合,性能提升还成本更低。

能解决迷宫、推箱子等复杂问题。

通过让模型在推理轨迹和最终答案上进行训练,再基于特定策略丢掉部分轨迹,Dualformer模型可以在模仿慢思考的同时,像快思考一样走捷径。

由此能形成更简洁的思维链(CoT)。

从结果来看,在慢思考模式下,Dualformer的最优解率达到97.6%,推理步骤减少45.5%。

自动切换快慢思考模式下,最优率也达到96.6%,且推理步骤减少59.9%。

搞定o1玩不来的迷宫游戏

o1带火了系统2(慢思考),能让大模型推理能力大幅提升。

但是随之而来的计算成本更高。

Dualformer能很好结合快慢思考,从而缓解这一问题。

它建立在Searchformer这项工作的基础上。Searchformer是一个可以解决复杂推理任务的模型,在A*搜索算法生成的路径上训练而来,在路径规划任务(如迷宫、推箱子游戏)上表现良好,可以以更高效率找到最优解。

研究发现,人类会在思考过程中倾向于找捷径。为了更进一步模拟人类,Dualformer在随机推理轨迹数据上进行训练,并在训练过程中依据定制的丢弃策略丢到部分结构。

比如在处理路径规划任务时,根据搜索轨迹中的不同子句(如close子句、子句中的cost tokens、create子句等)设计了四个级别的丢弃策略,从只丢弃close子句到丢弃整个轨迹,并在训练时随机选择应用这些策略。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

基于这些策略,Dualformer可以学习更简洁有效的搜索和推理过程。

在推理阶段,Dualformer可配置快速模式(仅输出解决方案)、慢速模式(输出推理链和最终解决方案)或自动模式(自行决定推理模式)。

这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整,类似于人类思维在不同情况下的决策方式。

在具体任务上,研究设置了迷宫(Maze)和推箱子游戏(Sokoban),让模型进行路径规划。以及数学推理任务。

对比来看,在迷宫任务中,o1-preview和o1-mini模型输出的路径并不好,会“穿墙”。

快思考模式下,Dualformer的表现如下。

Dualformer以80%的最优率完成这些任务,显著优于仅基于解决方案数据训练的Solution-Only模型,后者的最优率仅为 30%。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

慢思考模式表现如下。

30×30迷宫任务中,在97.6%的情况下可以达到最优解,同时推理步骤减少45.5%。

自动切换快慢思考模式下,Dualformer的最优率达到 96.6%,与Searchformer相比,推理步骤减少59.9%。

将该方法推广到Mistral-7B和Llama3-8B上,在Aug-MATH数据集上,模型的表现都有所提升。

比如在Mistral-7B模型上,当p=0.1、0.2和0.3时,Pass@20度量的基线模型,其中绝对正确率增加到61.9%。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

最后,来看一下研究团队阵容。

该研究由田渊栋等人带来。

田渊栋现在是Meta FAIR的研究科学家主任,领导LLM推理、规划和决策小组。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Qinqing Zheng是FAIR的工程师,研究方向集中在生成模型和强化学习方面。她本科毕业于浙江大学,在芝加哥大学攻读博士学位。2017-2019年期间在Facebook担任研究科学家,帮助Facebook建立了广告推荐模型的分布式训练系统。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Sainbayar Sukhbaatar是FAIR的研究科学家,主要负责大模型推理和记忆方面研究。他曾先后在谷歌、DeepMind、Meta任职。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Michael Rabbat是FAIR的创始成员之一。加入Meta之前他曾是麦吉尔大学计算机工程系教授。研究领域包括机器学习、分布式算法、信号处理等。

Meta版慢思考来了!田渊栋团队整合快慢思考,能走迷宫推箱子

论文地址:

https://arxiv.org/pdf/2410.09918

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-18 12:45:03

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

补齐Transformer规划短板又不放弃快速思考,Dualformer双重优势
...题 1 和 2,该团队训练了求解迷宫导航任务和紧密相关的推箱子(Sokoban)任务的 Transformer。为了解答问题 3
2024-10-17 09:47:00
逆水寒手游下一个打算缝双人成行?玩家:再缝下去真的要出事
...机格斗、推理破案等玩法都能在游戏里体验到,甚至还有推箱子、萝卜蹲等小游戏,玩一款游戏就等于玩了十几款游戏,绝对的好玩不亏!《逆水寒》手游中的缝合并不是照搬,而是有自己的风格特
2023-08-06 20:50:00
一款蒸汽朋克风格的第一人称回合制地牢冒险游戏
...同时移动。游戏的主旋律是探索解密,解密的玩法类似于推箱子,还要解开各种机关。迷宫中还有各式各样的敌人,玩家要通过风骚的走位和巧妙的攻击来消灭它们,正面硬钢往往会损失惨重。角色
2023-03-19 19:48:00
...提升深度思考强化学习效率及效果。其次,统一模型下的快慢思考混合训练方法,充分发挥快慢思考数据相互促进作用,实现基于系统指令控制模型是否深度思考,支撑下游更高效便捷地部署使用;
2025-04-22 16:50:00
盘点直播间“喂饼”大师:“推箱子专家”年薪破20万,“氛围组”竟然是敌军?
...特色的辅助工种也开始受到大众的关注。新晋主播招聘“推箱子专家”最近,一个新的“带货一姐”出现了——抖音主播“郑香香”突然走红,她在5天时间里涨粉百万,预计带货量超过5000万
2023-11-13 10:02:00
《超感迷宫》杀青 段奕宏窦骁携手冲破人性的迷雾
...演在片场喊出最后一声“卡”,都市罪案悬疑网剧《超感迷宫》在历经了2个多月的紧张拍摄后,正式宣布全组杀青,杀青现场演员段奕宏、窦骁、王佳佳、吕星辰、安悦溪、李晟、张兆辉、刘金山
2023-09-04 12:15:00
直播间推箱子,凭啥月薪两万?
...大众热烈讨论:杭州某公司开出每个月两万的高价招聘“推箱子专家”。(图/BOSS直聘截图)“推箱子专家”是什么?其实就是电商直播中的主播助理。招聘软件的职位详情显示,推箱子专家
2023-11-22 15:01:00
崩坏星穹铁道佣人的容器其二推箱子攻略
崩坏星穹铁道佣人的容器其二推箱子怎么过?只要完成了第一关推箱子,到后面的第二关推箱子,难度并不是那么大了,下面橙子小编就给大家详细的介绍一下推箱子的路线。一起来看看吧!崩坏星穹铁
2023-11-07 21:22:00
大部分毒品有关的故事,背景都设置在金三角地区,而雪迷宫不一样
《雪迷宫》中虽然也有南方部分的情节设置,但主要故事背景选择在东北小镇哈岚,虽然这是一个这样的背景设定更偏向于反黑或者纯犯罪故事。剧集播出过半,有观众表示,作为一个禁毒悬疑剧,《雪
2024-09-12 22:34:00
更多关于科技的资讯:
蔡高民:颠覆认知!打破西方理论垄断!中国老年学自主知识体系诞生
《全生命周期养能力发展与医养结合:理论和实践》的核心突破,在于建构“养”的元概念、定义与内涵外延,并以此为基础构建了逻辑自洽的三大理论体系
2026-01-04 20:15:00
编者按:周期更迭,变量叠加。站在“十五五”开局之年的关键节点上,各行业如何调整节奏、校准路径、寻找增量?中新经纬广邀多领域学者
2026-01-04 20:21:00
春节临近,年味渐浓。在贵阳,一场不同于传统年货市集的新春活动正在酝酿——它以“创意游乐场”为定位,融合在地风物、潮流文化与青年创造力
2026-01-04 21:50:00
不经意晃动手机,软件立即跳转购物页面。最近,记者实测发现,备受诟病的“摇一摇跳转”广告乱象依然时有发生,困扰着不少用户
2026-01-04 17:59:00
2025年度帆书APP经典热搜榜,精准解锁经典中的成长指南
当“信息过载”成为常态,“选择困难”深入骨髓,我们比任何时候都更需要一个清晰的信号:什么才是值得投入时间的真知?近日,帆书APP根据全年用户收听数据发布的“经典热搜榜”
2026-01-04 14:25:00
黄鹤权据光明网报道,英国《剑桥词典》将2025年年度词汇定为“准社交”,形容个体单方面与名人、虚拟角色或聊天机器人产生的密切连接感
2026-01-04 14:25:00
飞晟科技入选海南省儋州市中小企业数字化转型城市试点服务商
近日,海南省儋州市科学技术和工业信息化局对外公示《儋州市中小企业数字化转型城市试点服务商拟纳入名单(第一批)》。公示名单显示
2026-01-04 15:28:00
抖音生活服务联合南京德基广场落地“心动街区”,电视台直播+明星见面会+打卡活动助力商圈消费
12月30日,抖音生活服务“心动街区”活动联合江苏电视台城市频道零距离栏目发起“心动德基24h·南京跨年在德基”美食专场直播
2026-01-04 15:30:00
浪潮卓数大数据旗下公司入围多项2025年山东省大数据产业“三优两重”项目
近日,山东省工业和信息化厅正式公布2025年山东省大数据产业“三优两重”项目名单。浪潮卓数大数据旗下天元征信公司、浪潮(山东)大数据科技有限公司
2026-01-04 15:31:00
华麟数科推出联盟生态链“麒麟链”,加速数字经济深度融合与转型
【中国,2026年1月】 —— 在数字经济浪潮席卷全球、深入渗透各行各业的关键阶段,华麟数科(广东)有限公司(以下简称“华麟数科”)正式宣布
2026-01-04 15:31:00
以具身智能赋能教育未来----开普勒机器人助力高校产学研融合创新
在新一轮科技革命与产业变革加速演进的背景下,人工智能正从"算法与算力"的竞争,走向"智能体与真实世界深度融合"的新阶段
2026-01-04 15:33:00
中国首个!新奈发布“智能呼吸工程体系”,破解家用呼吸设备长期安全难题
在睡眠与呼吸健康领域,真正的改变往往不是某一功能的增加,而是背后那套长期支撑它持续进化的技术体系。2025年12月,新奈 Synaire 对外发布年度科研成果
2026-01-04 15:33:00
中国科技定义未来运动 HURA超现实远程赛车亮相世界未来运动会
2025年12月18日至23日,全球体育科技前沿的目光齐聚阿联酋首都阿布扎比国家展览中心。在这里举办的2025世界未来运动会(Games of the Future 2025)上
2026-01-04 15:33:00
京东健康深化政企协同 助力吉林人参产业发展提质增效
元旦假期期间,人参等滋补品在节庆送礼与家庭健康消费中的需求集中释放。京东健康的消费数据显示,近一个月以来,人参等滋补品类销售同比增长55%
2026-01-04 15:59:00
稳送万物,乘势而上:顺丰同城交出2025年度答卷
2025年,即时零售的“东风”依旧猛烈,市场规模逼近万亿大关,“餐饮+非餐”品类单量均刷新了历史纪录,验证即时零售的天花板远未见顶
2026-01-04 13:55:00