• 我的订阅
  • 科技

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

类别:科技 发布时间:2024-09-29 09:51:00 来源:量子位

o1-preview终于赢过了mini一次!

亚利桑那州立大学的最新研究表明,o1-preview在规划任务上,表现显著优于o1-mini。

相比于传统模型的优势更是碾压级别,在超难任务上的准确率比Llama3.1-405B高了11倍。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

要知道之前,OpenAI自己人也发了一张图,显示preview论性能比不过满血版,论经济性又不如mini,处于一个十分尴尬的地位。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

作者在推文中表示,尽管存在可保证性和成本问题,但仅针对CoT而言,o1已经超越了大模型的“近似检索”性质,提升到了“近似推理”层次。

并且在论文中,o1全程被称作LRM(Large Reasoning Model,大型推理模型),而非一般大型语言模型的LLM。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1团队的核心成员Noam Brown也转发了这项研究,顺便给o1-preview打了个call。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

还有网友翻出了隔壁Meta的LeCun半个多月前的推文,当时LeCun说大模型没有规划能力,结果现在OpenAI就带着o1来踢馆了。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

用“搭积木”测试大模型

为了评估o1系列模型的规划能力,作者使用了PlanBench评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名——共同一作Karthik Valmeekam,以及他的导师Subbarao Kambhampati。

PlanBench专门为评估大模型规划能力而设计,任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验,作者使用了其中来自于国际规划竞赛(IPC)的Blocksworld和其变体。

此类问题涉及在桌子上堆叠积木块,目标是从一个初始状态,重新排列到目标配置。

木块用不同的颜色标识,一次只能移动一个积木块,且只能移动每一堆中顶部的积木块,被拿起的积木块也只能放在顶部或直接放在桌子上。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

变体Mystery Blocksworld则是在Blockworlds的基础上加入混淆机制,用一些毫不相干的词语来代替操作中的动作。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在此基础之上,还有更为复杂的全随机变体,指令进一步从其他英文单词变成了无意义的字符串。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在o1之前,Blockworlds上的SOTA模型是Llama3.1-405B,成绩为达到 62.6%,而在Mystery Blockworlds上,没有任何模型的成绩能超过5%。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

o1-preview超强规划

o1这边的测试结果显示,preview相比mini,成绩优势十分明显。

在Blockworlds任务上,preview版准确率达98%,而mini只有56.6%,表现还不如llama。

当然加入了混淆之后,mini相比于llama也显示出了一些优势——

在零样本配置下,preview版的准确率超过了一半,比llama的4.3%高出了11倍多;mini版也达到了19.1%,比llama高3.4倍。

最后在全随机版本下,o1-preview还能拥有37.3%的准确率。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

以上结果显示出了o1系列模型,特别是o1-preview的超强规划能力,但是不足之处也十分明显。

一是随着规划长度的增加,模型的性能也会迅速下降,即使对于未混淆的Blockworlds来说也同样如此。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

另外,Blockworlds系列问题并非全部可解,作者发现o1在识别不可解问题上的准确率依然存在不足。

对于未混淆版本准确率只有27%,但没有误判为不可解的情况;对于全随机版本则只有16%,另外还有11.5%的概率将可解问题误判为不可解。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

甚至作者还发现,o1有时也会狡辩,提出令人信服的合理理由,让人们相信其错误答案。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

在模型本身的性能之外,成本和时间消耗也是一个重要考量,相比于传统大模型,o1-mini的成本相比GPT4-Turbo直接翻番,preview更是高出了数量级。

o1规划能力首测!已超越语言模型范畴,preview终于赢mini一回

那么,如果你是开发者,会愿意为了o1的高性能付出更多的成本吗?欢迎评论区交流。

论文地址:https://arxiv.org/abs/2409.13373参考链接:https://x.com/rao2z/status/1838245261950509170

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-09-29 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

海南陵水黎安国际教育创新试验区图书馆引入DeepSeek-R1 开启智慧图书馆“超能力” 时代
...文、英文、法语等多种语言,远超多数图书馆的语言服务范畴,为国际学生提供了无障碍全天候的使用体验,亦为高度国际化的学习研究提供全方位AI服务。其PPT生成功能整合领先大纲生成器
2025-02-28 12:24:00
清华团队提出大模型“密度定律”;足球领域首个视觉语言基础模型
...支——从数论和实分析中的计算密集型问题到代数几何和范畴论中的抽象问题。解决一个典型问题需要相关数学分支的研究人员花费数小时的努力,对于高端问题,则需要数天。FrontierM
2024-12-10 09:53:00
...统化。国内学者的研究主要集中在现代汉语是否有时与体范畴以及时与体系统的建立方面,学者们所建立的时-体系统各不相同,同时也存在从英语和俄语中搬用时-体概念的现象,汉语的时-体系
2023-08-14 11:30:00
北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第二作者为刘梦真,研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航,北京大学计算机学院研究员
2024-06-21 09:52:00
...科技日报讯 (记者付丽丽)记者3月30日获悉,360安全大模型3.0近期发布。360集团首席科学家兼360数字安全集团CTO潘剑锋在相关发布会上透露
2024-04-01 02:22:00
...转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM),根据人类输入“提示词”处理和生成文本
2024-06-12 18:15:00
维塑科技夸父大模型横空出世,首款应用「AI教练助手」正式上线
...型。通用模型大家相对熟悉,ChatGPT、文心一言等皆是其范畴内的产物,可以处理各类信息生成反馈。 而维塑自研夸父大模型属于“专业大模型”范畴,在训练数据、应用场景、通用性
2023-09-19 22:25:00
Chat AI项目丨对标DeepMind Gato,人工智能模型「DB1」已在多领域落地验证
...认为自己属于AIGA(AI Generated Action,人工智能生成决策)范畴。AIGC的核心是大语言模型,大语言模型是指使用大量文本数据训练的深度学习模型
2023-04-19 09:26:00
姚期智院士大模型新研究:思维图DoT,用数学理论确保AI逻辑一致
...应到子对象分类器的态射和命题间的态射。通过引入PreNet范畴,他们还成功捕捉了推理过程的动态和并发特性。这种数学基础不仅确保了推理过程的逻辑一致性和完备性,还为设计下一代专
2024-09-24 13:36:00
更多关于科技的资讯:
最近有件事儿越来越常见:外国人不光来中国旅游,还专门“打飞的”来看病。不是出于好奇体验,而是真心觉得值!值在哪儿?三个字
2026-01-21 21:52:00
中新经纬1月21日电 广东省政府网站21日公布《广东省人工智能赋能交通运输高质量发展若干政策措施》(下称《政策措施》)
2026-01-21 20:20:00
织金平远公司完成 500kVⅡ 组母线母差保护装置校验及传动
多彩贵州网讯(通讯员 史凡莉)近日,织金平远公司厂区内,500kVⅡ组母线设备区域一派忙碌景象。电热检修部与发电运行部工作人员有条不紊地开展母差保护A屏
2026-01-21 17:15:00
九阳太空厨房已安全稳定运行超1500天
中国消费者报报道(记者桑雪骐)航天员们如何健康、舒适地展开太空生活和吃好一日三餐,是大家都很关心的话题。据了解,这背后其实有一个我国自主研制的太空厨房
2026-01-21 18:05:00
秦皇岛经开区第一小学开展人工智能科技实践活动
河北新闻网讯(李佳新)日前,秦皇岛经开区第一小学开展以“AI探索,智创未来”为主题的人工智能科技实践,通过沉浸式实训活动激发学生的科技探索热情
2026-01-21 18:11:00
马年将至(农历),在广州大夫山森林公园,一些徒步爱好者分享了一种创意玩法——“画马”,相关穿越路线攻略一时引发追捧。所谓“画马”
2026-01-21 18:36:00
三重蝶变,中天钢铁解锁“企业主理”新范式
大寒虽寒,热潮涌动。原点空间路演大厅内,由中天钢铁主理的第37场沙龙——“AI智能体创新大赛总结沙龙”以三重蝶变,为常州“智能体+场景应用”示范城市建设吹响了热力全开的奋进号角
2026-01-21 18:28:00
苏州市女企协秘书长、国浩律师(苏州)事务所合伙人葛霞青律师荣登《钱伯斯大中华区指南2026》推荐榜单
江南时报讯 1月15日,全球领先的法律研究和分析机构钱伯斯(Chambers & Partners)发布《钱伯斯大中华区指南2026》(Chambers Greater China Region Guide 2026)
2026-01-21 15:23:00
盐城盐都:“翼”技傍身 照亮前程
江南时报讯 启动无人机,校准飞行参数,规划测绘航线,精准捕捉地面数据……日前,2026年盐城市盐都区首期无人机测绘操控员技能培训在都U+乐业空间正式开班
2026-01-21 15:24:00
全国首款!仙库3D智能足脊扫描仪正式发布!
近日,深圳仙库智能有限公司(以下简称“仙库”)正式发布仙库3D智能足脊扫描仪XK-CH005,这是全国首款实现“足脊一体”同步评估的硬核科技产品
2026-01-21 16:24:00
国家级备案落地!疯狂体育Foretell革命性AI平台,开启体育智能决策新阶段
2026年1月20日,疯狂体育正式官宣推出旗下AI赛事预测工具Foretell。凭借已经完成的国家互联网信息办公室深度合成服务算法备案资质
2026-01-21 16:47:00
当我们在思考“哪些中国企业创新做得不错”时,CES 2026舞台上的联想集团给出了一个全面而深刻的答案。这不仅仅是一次产品发布会
2026-01-21 16:49:00
近日,剑桥大学教育学院院长Hilary正式受聘为中国素质教育品牌欣乾程的学术顾问。此次合作不仅是国际顶尖学术力量与中国创新型教育机构的一次重要握手
2026-01-21 14:24:00
跨越顶奢与潮饮的“美酒+美食”表达 五粮液全力构建中国白酒全球新叙事
鲁网1月21日讯当一位新加坡米其林星厨在构思新菜单时,正在将中国白酒作为风味拼图中一块充满惊喜的“香料”。在他手中,一杯五粮液可能被用来平衡炙烤龙虾的鲜甜
2026-01-21 12:03:00
农行肥城桃都支行:以政策优势精准破解粮企贷款难题
鲁网1月21日讯2026年伊始,桃都支行延续2025年末服务“黄羽鸡”产业的奋进势头,步履不停,持续扎根三农,精准运用粮食购销领域的专项贷款方案
2026-01-21 12:05:00