• 我的订阅
  • 科技

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

类别:科技 发布时间:2024-09-29 09:51:00 来源:量子位

o1-preview终于赢过了mini一次!

亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。

相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处于一个十分尴尬的地位。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

作者在推文中表示,尽管存在可保证性和成本问题,但仅针对CoT而言,o1已经超越了大模型的“近似检索”性质,提升到了“近似推理”层次。

并且在论文中,o1全程被称作LRM(Large Reasoning Model,大型推理模型),而非一般大型语言模型的LLM。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1团队的核心成员Noam Brown也转发了这项研究,顺便给o1-preview打了个call。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

还有网友翻出了隔壁Meta的LeCun半个多月前的推文,当时LeCun说大模型没有规划能力,结果现在OpenAI就带着o1来踢馆了。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

用“搭积木”测试大模型

为了评估o1系列模型的规划能力,作者使用了PlanBench评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam,以及他的导师Subbarao Kambhampati。

PlanBench专门为评估大模型规划能力而设计,任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验,作者使用了其中来自于国际规划竞赛(IPC)的Blocksworld和其变体。

此类问题涉及在桌子上堆叠积木块,目标是从一个初始状态,重新排列到目标配置。

木块用不同的颜色标识,一次只能移动一个积木块,且只能移动每一堆中顶部的积木块,被拿起的积木块也只能放在顶部或直接放在桌子上。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

变体Mystery Blocksworld则是在Blockworlds的基础上加入混淆机制,用一些毫不相干的词语来代替操作中的动作。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在此基础之上,还有更为复杂的全随机变体,指令进一步从其他英文单词变成了无意义的字符串。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在o1之前,Blockworlds上的SOTA模型是Llama3.1-405B,成绩为达到 62.6%,而在Mystery Blockworlds上,没有任何模型的成绩能超过5%。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1-preview超强规划

o1这边的测试结果显示,preview相比mini,成绩优势十分明显。

在Blockworlds任务上,preview版准确率达98%,而mini只有56.6%,表现还不如llama。

当然加入了混淆之后,mini相比于llama也显示出了一些优势——

在零样本配置下,preview版的准确率超过了一半,比llama的4.3%高出了11倍多;mini版也达到了19.1%,比llama高3.4倍。

最后在全随机版本下,o1-preview还能拥有37.3%的准确率。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

以上结果显示出了o1系列模型,特别是o1-preview的超强规划能力,但是不足之处也十分明显。

一是随着规划长度的增加,模型的性能也会迅速下降,即使对于未混淆的Blockworlds来说也同样如此。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

另外,Blockworlds系列问题并非全部可解,作者发现o1在识别不可解问题上的准确率依然存在不足。

对于未混淆版本准确率只有27%,但没有误判为不可解的情况;对于全随机版本则只有16%,另外还有11.5%的概率将可解问题误判为不可解。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

甚至作者还发现,o1有时也会狡辩,提出令人信服的合理理由,让人们相信其错误答案。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在模型本身的性能之外,成本和时间消耗也是一个重要考量,相比于传统大模型,o1-mini的成本相比GPT4-Turbo直接翻番,preview更是高出了数量级。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

那么,如果你是开发者,会愿意为了o1的高性能付出更多的成本吗?欢迎评论区交流。

论文地址:https://arxiv.org/abs/2409.13373参考链接:https://x.com/rao2z/status/1838245261950509170

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-29 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

海南陵水黎安国际教育创新试验区图书馆引入DeepSeek-R1 开启智慧图书馆“超能力” 时代
...文、英文、法语等多种语言,远超多数图书馆的语言服务范畴,为国际学生提供了无障碍全天候的使用体验,亦为高度国际化的学习研究提供全方位AI服务。其PPT生成功能整合领先大纲生成器
2025-02-28 12:24:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...支——从数论和实分析中的计算密集型问题到代数几何和范畴论中的抽象问题。解决一个典型问题需要相关数学分支的研究人员花费数小时的努力,对于高端问题,则需要数天。FrontierM
2024-12-10 09:53:00
...统化。国内学者的研究主要集中在现代汉语是否有时与体范畴以及时与体系统的建立方面,学者们所建立的时-体系统各不相同,同时也存在从英语和俄语中搬用时-体概念的现象,汉语的时-体系
2023-08-14 11:30:00
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员
2024-06-21 09:52:00
...科技日报讯 (记者付丽丽)记者3月30日获悉,360安全大模型3.0近期发布。360集团首席科学家兼360数字安全集团CTO潘剑锋在相关发布会上透露
2024-04-01 02:22:00
...转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本
2024-06-12 18:15:00
维塑科技夸父大模型横空出世,首款应用「AI教练助手」正式上线
...型。通用模型大家相对熟悉,ChatGPT、文心一言等皆是其范畴内的产物,可以处理各类信息生成反馈。 而维塑自研夸父大模型属于“专业大模型”范畴,在训练数据、应用场景、通用性
2023-09-19 22:25:00
Chat AI项目丨对标DeepMind Gato,人工智能模型「DB1」已在多领域落地验证
...认为自己属于AIGA(AI Generated Action,人工智能生成决策)范畴。AIGC的核心是大语言模型,大语言模型是指使用大量文本数据训练的深度学习模型
2023-04-19 09:26:00
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
实验证明,大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现
2024-09-25 09:48:00
更多关于科技的资讯:
南报网讯(记者张希)近日,睿众博芯总部项目在江宁开发区九龙湖国际企业总部园开业,成为江宁开发区“招投联动”模式的成功典范
2025-08-22 07:39:00
“数聚江宁 数领未来”论坛在宁举办多措并举,亮出“数据强基”组合拳南报网讯(记者孙秉印通讯员何俏闵子豪)第九届未来网络发展大会“数聚江宁数领未来”论坛昨天在江宁召开
2025-08-21 08:16:00
●黄伟伟鼓浪屿、园博苑等景区游人如织,演唱会、小剧场一票难求,博物馆、科技馆门庭若市,毕业游、亲子游不断升温……厦门,为火热的暑期文旅经济再添一把“火”
2025-08-21 08:31:00
厦门外贸优品秀出硬实力 创意快闪活动在高崎机场启幕
体育器材企业参与快闪活动,图为工作人员向旅客介绍产品。 (厦门日报记者 卢剑豪 摄)厦门网讯 (厦门日报记者 吴晓菁)18日
2025-08-21 08:31:00
近日,国家广播电视总局印发实施《进一步丰富电视大屏内容 促进广电视听内容供给的若干举措》。《若干举措》强调,要多措并举加强内容建设
2025-08-21 08:39:00
厦门网讯 (厦门日报记者 何无痕)前天,福建省首届“青春之歌”创业创新大赛厦门选拔赛举行,经过激烈角逐,“高精度大功率激光精密制造机器人研发及产业化”“智剪工坊——AI 直播切片
2025-08-21 09:02:00
“新区外贸何以逆势增长”系列报道①丨沂河新区企业“出海”记
当下,“出海”已成为中国制造企业的核心关键词——这不仅是扬帆远航的必然方向,更是转型升级的必由之路。在此背景下,沂河新区交出的外贸答卷尤为亮眼
2025-08-21 09:14:00
汽车地毯的“绿色密码”:坤泰股份用创新编织低碳未来
大众网记者 王瑜 摄影 胡斌 通讯员 刘丽丽 烟台报道在全球积极践行绿色发展理念、大力推进“双碳”战略的当下,各行各业都在探索绿色低碳转型之路
2025-08-21 09:51:00
民宿托管如何稳定收益?旭客用组合拳拆解空置率
很多房东都有这样的困扰:做日租,旺季像“爆单”,淡季却惨淡;做长租,收益总觉得低了一截;想做短租,频率又不稳定。其实,问题不在房子
2025-08-21 10:11:00
伴鱼成立十周年,创始人黄河发布内部信:打造极致的个性化教育
2025年8月20日,在线教育领域的知名企业伴鱼迎来了其成立十周年的里程碑时刻。在这个具有特殊意义的日子,伴鱼创始人兼CEO黄河发布了以“Evolving Speed is Everything”(进化速度决定一切)为核心的全新主题
2025-08-21 10:21:00
满足“健康”与“美”的时代新需求 稳健医疗荣膺2025“西普金奖”
2025年8月16日-21日,中国健康产业(国际)生态大会(英文缩写CPEO,以下简称西普会)在海南博鳌拉开帷幕。本届峰会以“快蜕变
2025-08-21 10:50:00
8月20日,喜临门(603008.SH)发布2025年半年度报告,上半年公司实现营业收入40.21亿元,同比增长1.59%
2025-08-21 10:52:00
从工业端到消费端 智能机器人加速融入生活
编者按:IFR(国际机器人联合会)最新数据显示,2024年中国机器人专利申请量占全球总量67%,人形机器人的运动控制与灵巧操作技术取得关键性突破
2025-08-21 11:05:00
中国特许加盟展2025全年展会收官 见证加盟浪潮的回归与新生
随着8月10日第65届中国特许加盟展在上海的落幕,中国特许加盟展2025全年展会圆满收官。今年的中国特许加盟展现场,再次见证加盟浪潮的回归
2025-08-21 11:12:00
在8月15日国务院新闻办举行的新闻发布会上,国家统计局相关负责人介绍,我国新质生产力正稳步发展,为高质量发展注入了源源不断的新动能
2025-08-21 11:37:00