• 我的订阅
  • 科技

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

类别:科技 发布时间:2024-09-29 09:51:00 来源:量子位

o1-preview终于赢过了mini一次!

亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。

相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处于一个十分尴尬的地位。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

作者在推文中表示,尽管存在可保证性和成本问题,但仅针对CoT而言,o1已经超越了大模型的“近似检索”性质,提升到了“近似推理”层次。

并且在论文中,o1全程被称作LRM(Large Reasoning Model,大型推理模型),而非一般大型语言模型的LLM。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1团队的核心成员Noam Brown也转发了这项研究,顺便给o1-preview打了个call。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

还有网友翻出了隔壁Meta的LeCun半个多月前的推文,当时LeCun说大模型没有规划能力,结果现在OpenAI就带着o1来踢馆了。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

用“搭积木”测试大模型

为了评估o1系列模型的规划能力,作者使用了PlanBench评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam,以及他的导师Subbarao Kambhampati。

PlanBench专门为评估大模型规划能力而设计,任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验,作者使用了其中来自于国际规划竞赛(IPC)的Blocksworld和其变体。

此类问题涉及在桌子上堆叠积木块,目标是从一个初始状态,重新排列到目标配置。

木块用不同的颜色标识,一次只能移动一个积木块,且只能移动每一堆中顶部的积木块,被拿起的积木块也只能放在顶部或直接放在桌子上。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

变体Mystery Blocksworld则是在Blockworlds的基础上加入混淆机制,用一些毫不相干的词语来代替操作中的动作。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在此基础之上,还有更为复杂的全随机变体,指令进一步从其他英文单词变成了无意义的字符串。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在o1之前,Blockworlds上的SOTA模型是Llama3.1-405B,成绩为达到 62.6%,而在Mystery Blockworlds上,没有任何模型的成绩能超过5%。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1-preview超强规划

o1这边的测试结果显示,preview相比mini,成绩优势十分明显。

在Blockworlds任务上,preview版准确率达98%,而mini只有56.6%,表现还不如llama。

当然加入了混淆之后,mini相比于llama也显示出了一些优势——

在零样本配置下,preview版的准确率超过了一半,比llama的4.3%高出了11倍多;mini版也达到了19.1%,比llama高3.4倍。

最后在全随机版本下,o1-preview还能拥有37.3%的准确率。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

以上结果显示出了o1系列模型,特别是o1-preview的超强规划能力,但是不足之处也十分明显。

一是随着规划长度的增加,模型的性能也会迅速下降,即使对于未混淆的Blockworlds来说也同样如此。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

另外,Blockworlds系列问题并非全部可解,作者发现o1在识别不可解问题上的准确率依然存在不足。

对于未混淆版本准确率只有27%,但没有误判为不可解的情况;对于全随机版本则只有16%,另外还有11.5%的概率将可解问题误判为不可解。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

甚至作者还发现,o1有时也会狡辩,提出令人信服的合理理由,让人们相信其错误答案。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在模型本身的性能之外,成本和时间消耗也是一个重要考量,相比于传统大模型,o1-mini的成本相比GPT4-Turbo直接翻番,preview更是高出了数量级。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

那么,如果你是开发者,会愿意为了o1的高性能付出更多的成本吗?欢迎评论区交流。

论文地址:https://arxiv.org/abs/2409.13373参考链接:https://x.com/rao2z/status/1838245261950509170

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-29 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

海南陵水黎安国际教育创新试验区图书馆引入DeepSeek-R1 开启智慧图书馆“超能力” 时代
...文、英文、法语等多种语言,远超多数图书馆的语言服务范畴,为国际学生提供了无障碍全天候的使用体验,亦为高度国际化的学习研究提供全方位AI服务。其PPT生成功能整合领先大纲生成器
2025-02-28 12:24:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...支——从数论和实分析中的计算密集型问题到代数几何和范畴论中的抽象问题。解决一个典型问题需要相关数学分支的研究人员花费数小时的努力,对于高端问题,则需要数天。FrontierM
2024-12-10 09:53:00
...统化。国内学者的研究主要集中在现代汉语是否有时与体范畴以及时与体系统的建立方面,学者们所建立的时-体系统各不相同,同时也存在从英语和俄语中搬用时-体概念的现象,汉语的时-体系
2023-08-14 11:30:00
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员
2024-06-21 09:52:00
...科技日报讯 (记者付丽丽)记者3月30日获悉,360安全大模型3.0近期发布。360集团首席科学家兼360数字安全集团CTO潘剑锋在相关发布会上透露
2024-04-01 02:22:00
...转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本
2024-06-12 18:15:00
维塑科技夸父大模型横空出世,首款应用「AI教练助手」正式上线
...型。通用模型大家相对熟悉,ChatGPT、文心一言等皆是其范畴内的产物,可以处理各类信息生成反馈。 而维塑自研夸父大模型属于“专业大模型”范畴,在训练数据、应用场景、通用性
2023-09-19 22:25:00
Chat AI项目丨对标DeepMind Gato,人工智能模型「DB1」已在多领域落地验证
...认为自己属于AIGA(AI Generated Action,人工智能生成决策)范畴。AIGC的核心是大语言模型,大语言模型是指使用大量文本数据训练的深度学习模型
2023-04-19 09:26:00
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...应到子对象分类器的态射和命题间的态射。通过引入PreNet范畴,他们还成功捕捉了推理过程的动态和并发特性。这种数学基础不仅确保了推理过程的逻辑一致性和完备性,还为设计下一代专
2024-09-24 13:36:00
更多关于科技的资讯:
河北新闻网讯(张婧)近日,开滦股份吕家坨矿洗煤厂重介介质自动化添加改造项目落地,以PLC控制系统替代人工操作,实现了从浓介质制备
2025-12-29 21:32:00
■王心怡摘要:数字化转型已成为推动航空业实现高质量发展的重要路径。地勤服务作为航空公司运行体系中直接面向旅客的关键环节
2025-12-30 04:42:00
理想、夸克 等AI 眼镜 “一镜难求” 发货排到明年 2 月!
大皖新闻讯 近期,多名购买了理想AI眼镜 Livis等产品的消费者向大皖新闻反映称,购买的AI眼镜一再被推迟发货,预计发货时效从2025年年底延期至2026年2月26日前
2025-12-29 23:09:00
中国消费者报报道(记者王小月)在数字化浪潮的深度催化下,电商巨头加速“杀入”线下零售战场,以品牌授权、闪电仓、仓店融合等轻量化扩张模式抢占即时零售新赛道
2025-12-29 17:40:00
河北新闻网讯(吴萌、王冠喜)过去,开滦集团钱家营矿业公司井运区的老师傅们,常为变形矿车的维修问题发愁:送外修理不仅每辆车需花费1300元
2025-12-29 21:19:00
河北新闻网讯(张纳军)近日,开滦股份吕家坨矿自主研发的洗煤预测系统成功上线,可有效指导重介分选等关键工序操作,大幅提升洗煤关键指标预测的精准度
2025-12-29 21:26:00
联名持续火爆,喜茶x星星人上线第二波新品提拉米苏·浓巧
鲁网12月29日讯12月29日,火遍全球的喜茶x泡泡玛特星星人联名推出第二波上新活动,带来另一款不含茶的提拉米苏·浓巧新品
2025-12-29 17:15:00
泊为智能科技入围“广东3·15消费维权打假工程”十八年深耕铸就品质实力
为进一步强化消费者权益保护,优化消费环境,提振消费信心。2025年12月27日,以“强维权、优环境、促消费”为主题的“2026广东3·15消费维权打假工程”入围签约仪式在广东广播电视台正式举行
2025-12-29 17:18:00
江淮汽车喜获双重殊荣!成功入选中国出海品牌 100 强指数,并获评ESG 海外传播优秀案例
2025年12月26日,由人民日报海外网、中华环保联合会与中国质量认证中心联合主办的“第三届中国品牌形象海外传播论坛暨2025中国企业ESG蓝皮书发布会”在人民日报社隆重举行
2025-12-29 17:23:00
中国消费者报报道(记者李燕京)据国家电影局统计,截至2025年12月13日14时30分,我国电影2025年全年总票房已突破500
2025-12-29 17:40:00
中国消费者报报道(记者孙蔚)作为数字经济与消费融合的核心载体,2026年直播电商行业将在政策规范与技术革新的双重驱动下
2025-12-29 17:40:00
作为平安产险的重要分支机构,平安产险河北分公司积极顺应数字化发展趋势,以“科技+保险”为核心战略,围绕客户需求、业务效率与风险管控
2025-12-29 17:41:00
平安产险河北分公司紧扣集团“科技驱动”战略部署,以科技数据部为核心枢纽,深耕技术赋能与人才培育双赛道,推动数智化能力与业务发展深度融合
2025-12-29 17:45:00
扭开美美的2026:美的无风感空调·可爱多携QQ黄脸表情,解锁“情绪交互”新体验
近日,美的空调跨界联名国民级IP QQ黄脸表情,在全国范围内开展“扭开美美的2026”主题线下快闪活动,掀起家电营销新热潮
2025-12-29 17:46:00
日前,北京消费者王女士因笔记本电脑需要重新安装系统,在搜索引擎中误将带有戴尔LOGO的广告链接当作官方售后,并前往线下门店维修
2025-12-29 18:41:00