• 我的订阅
  • 科技

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

类别:科技 发布时间:2024-09-29 09:51:00 来源:量子位

o1-preview终于赢过了mini一次!

亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。

相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处于一个十分尴尬的地位。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

作者在推文中表示,尽管存在可保证性和成本问题,但仅针对CoT而言,o1已经超越了大模型的“近似检索”性质,提升到了“近似推理”层次。

并且在论文中,o1全程被称作LRM(Large Reasoning Model,大型推理模型),而非一般大型语言模型的LLM。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1团队的核心成员Noam Brown也转发了这项研究,顺便给o1-preview打了个call。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

还有网友翻出了隔壁Meta的LeCun半个多月前的推文,当时LeCun说大模型没有规划能力,结果现在OpenAI就带着o1来踢馆了。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

用“搭积木”测试大模型

为了评估o1系列模型的规划能力,作者使用了PlanBench评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam,以及他的导师Subbarao Kambhampati。

PlanBench专门为评估大模型规划能力而设计,任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验,作者使用了其中来自于国际规划竞赛(IPC)的Blocksworld和其变体。

此类问题涉及在桌子上堆叠积木块,目标是从一个初始状态,重新排列到目标配置。

木块用不同的颜色标识,一次只能移动一个积木块,且只能移动每一堆中顶部的积木块,被拿起的积木块也只能放在顶部或直接放在桌子上。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

变体Mystery Blocksworld则是在Blockworlds的基础上加入混淆机制,用一些毫不相干的词语来代替操作中的动作。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在此基础之上,还有更为复杂的全随机变体,指令进一步从其他英文单词变成了无意义的字符串。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在o1之前,Blockworlds上的SOTA模型是Llama3.1-405B,成绩为达到 62.6%,而在Mystery Blockworlds上,没有任何模型的成绩能超过5%。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1-preview超强规划

o1这边的测试结果显示,preview相比mini,成绩优势十分明显。

在Blockworlds任务上,preview版准确率达98%,而mini只有56.6%,表现还不如llama。

当然加入了混淆之后,mini相比于llama也显示出了一些优势——

在零样本配置下,preview版的准确率超过了一半,比llama的4.3%高出了11倍多;mini版也达到了19.1%,比llama高3.4倍。

最后在全随机版本下,o1-preview还能拥有37.3%的准确率。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

以上结果显示出了o1系列模型,特别是o1-preview的超强规划能力,但是不足之处也十分明显。

一是随着规划长度的增加,模型的性能也会迅速下降,即使对于未混淆的Blockworlds来说也同样如此。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

另外,Blockworlds系列问题并非全部可解,作者发现o1在识别不可解问题上的准确率依然存在不足。

对于未混淆版本准确率只有27%,但没有误判为不可解的情况;对于全随机版本则只有16%,另外还有11.5%的概率将可解问题误判为不可解。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

甚至作者还发现,o1有时也会狡辩,提出令人信服的合理理由,让人们相信其错误答案。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在模型本身的性能之外,成本和时间消耗也是一个重要考量,相比于传统大模型,o1-mini的成本相比GPT4-Turbo直接翻番,preview更是高出了数量级。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

那么,如果你是开发者,会愿意为了o1的高性能付出更多的成本吗?欢迎评论区交流。

论文地址:https://arxiv.org/abs/2409.13373参考链接:https://x.com/rao2z/status/1838245261950509170

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-29 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

海南陵水黎安国际教育创新试验区图书馆引入DeepSeek-R1 开启智慧图书馆“超能力” 时代
...文、英文、法语等多种语言,远超多数图书馆的语言服务范畴,为国际学生提供了无障碍全天候的使用体验,亦为高度国际化的学习研究提供全方位AI服务。其PPT生成功能整合领先大纲生成器
2025-02-28 12:24:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...支——从数论和实分析中的计算密集型问题到代数几何和范畴论中的抽象问题。解决一个典型问题需要相关数学分支的研究人员花费数小时的努力,对于高端问题,则需要数天。FrontierM
2024-12-10 09:53:00
...统化。国内学者的研究主要集中在现代汉语是否有时与体范畴以及时与体系统的建立方面,学者们所建立的时-体系统各不相同,同时也存在从英语和俄语中搬用时-体概念的现象,汉语的时-体系
2023-08-14 11:30:00
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员
2024-06-21 09:52:00
...科技日报讯 (记者付丽丽)记者3月30日获悉,360安全大模型3.0近期发布。360集团首席科学家兼360数字安全集团CTO潘剑锋在相关发布会上透露
2024-04-01 02:22:00
...转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本
2024-06-12 18:15:00
维塑科技夸父大模型横空出世,首款应用「AI教练助手」正式上线
...型。通用模型大家相对熟悉,ChatGPT、文心一言等皆是其范畴内的产物,可以处理各类信息生成反馈。 而维塑自研夸父大模型属于“专业大模型”范畴,在训练数据、应用场景、通用性
2023-09-19 22:25:00
Chat AI项目丨对标DeepMind Gato,人工智能模型「DB1」已在多领域落地验证
...认为自己属于AIGA(AI Generated Action,人工智能生成决策)范畴。AIGC的核心是大语言模型,大语言模型是指使用大量文本数据训练的深度学习模型
2023-04-19 09:26:00
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...应到子对象分类器的态射和命题间的态射。通过引入PreNet范畴,他们还成功捕捉了推理过程的动态和并发特性。这种数学基础不仅确保了推理过程的逻辑一致性和完备性,还为设计下一代专
2024-09-24 13:36:00
更多关于科技的资讯:
高端润滑油的智造密码
2月9日,润滑油北京有限公司员工加紧节前生产,确保高质量交付客户产品。本报记者 程阳 摄 郑德辉 文2月9日,中国石化报记者来到润滑油北京有限公司
2026-02-12 11:53:00
中新经纬2月12日电 据“北京市场监管”微信号12日消息,近日,北京市市场监督管理局组织携程、去哪儿、飞猪、同程、美团
2026-02-12 11:57:00
聚焦雄安新区丨“人工智能+”开拓产业发展新赛道
“人工智能+”开拓产业发展新赛道——2026年雄安新区“人工智能+”创新生态系列活动观察人工智能,是雄安新区大力发展的主导产业之一
2026-02-12 08:47:00
在多个短视频平台和电商平台上,不少账号公开发布视频,称可以绕开一些平台的人脸识别验证。这些视频中,有人遮挡住手机摄像头
2026-02-12 08:58:00
当前,健康中国战略深入实施,智能健身市场需求激增,舒华体育深化"AI运动科技"定位,推动奥运技术全面渗透至各类场景,让大众共享科学健身成果
2026-02-12 09:28:00
以旧换新激活潍坊消费新引擎:一场政策引领的绿色消费革命
鲁网2月11日讯(记者 王玉龙)2025年,潍坊市消费品以旧换新直接拉动消费160亿元,是2024年的4.2倍;129万人次享受到20
2026-02-12 09:56:00
“西湖纹样”小程序正式上线杭州日报讯 第十九届杭州文博会上,西湖区的展馆前天天大排长龙。纹样编织袋、纹样透卡、纹样茶点礼盒
2026-02-12 06:41:00
2月6日,上海超导科技股份有限公司向太原钢铁(集团)有限公司发出一封感谢信,披露太钢与该企业一场历时五年的联合攻坚结出的硕果
2026-02-12 07:31:00
李建南摘要:随着大模型在预测、生成与复杂模式识别中的广泛应用,统计建模范式正在经历深刻转变。相较于以概率假设与参数推断为核心的传统统计模型
2026-02-12 07:32:00
以科技自立自强构筑创新高地杭州日报讯 近日,在湖州莫干山高新区,灵心巧手(Linkerbot)年产3万套具身智能机器人灵巧手的超级工厂项目正在全速推进
2026-02-12 07:11:00
中新经纬2月11日电 据国家市场监督管理总局网站消息,2月4日,国务院反垄断反不正当竞争委员会印发施行《关于公用事业领域的反垄断指南》(以下简称《指南》)
2026-02-11 20:18:00
季季有主题,周周有优惠!2026年河北省电影惠民观影促消费活动启动
河北日报客户端讯(记者肖煜)为积极响应落实国家电影局全国电影惠民消费季安排,进一步激活河北电影市场消费潜力,丰富群众文化生活
2026-02-11 22:05:00
2025国际宠物博览会落幕:Benarmi倡导全生命周期健康管理
12月20日,2025国际宠物博览会在北京市平谷区博物馆、体育中心拉开帷幕,汇聚全球名宠、产业企业与创新项目,集中展现宠物经济的前沿动态与发展趋势
2026-02-11 20:08:00
“民生科幻”领军人吴楚新作《背叛文明》出版,聚焦星际外交博弈
如果高等文明的馈赠是一颗带毒的蜜糖,那人类是否有智慧拒绝唾手可得的诱惑?当思想需要向未来跨出一大步时,阅读科幻依然是当下最高效的途径
2026-02-11 17:22:00
随着云计算、大数据、人工智能等数智技术的迅猛发展,传统劳动形态正经历着前所未有的变革。工作场所的虚拟化、劳动时间的弹性化以及用工关系的多元化
2026-02-11 17:31:00