• 我的订阅
  • 科技

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

类别:科技 发布时间:2024-11-20 09:42:00 来源:量子位

北大等出品,首个多模态版o1开源模型来了——

代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。

在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

新模型具体如何推理,直接上实例,比如问题是:

减去所有的小亮球和紫色物体,剩下多少个物体?选项:A. 4,B. 8,C. 2,D. 6

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

传统提示词方法还是老路子,让Llama-3.2-11B-Vision-Instruct打个样就是:

第一步减去所有的小亮球;第二步减去所有紫色物体;最后给出答案,鉴于我们已经移除了所有的小亮球,而且一开始就没有紫色物体,正确答案是C. 2;

哐哐一顿输出,得出错误结果。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

我们再来看LLaVA-o1的推理过程:

总结阶段:问题是什么?我应该怎么做?注释阶段:我能从这张图片中知道什么?推理阶段:如何一步一步解决问题?结论阶段:最终答案是什么?

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

是不是明显不同。这就对了,LLaVA-o1超越传统COT思维链,采用了结构化、多步骤推理。

简单说,它将推理过程划分为四个阶段,并在每一阶段采用优中选优策略来为下一阶段提供响应。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

难怪看完最新效果,网友们直呼:推理 is all you need!

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

看来,让模型思考更多在多模态领域也同样适用——

“第一个能自发、系统推理的视觉语言模型”

前一阵,o1模型的发布又带火了COT思维链这一推理模式。(像人类一样步步思考)

于是,让模型思考更多是否会提高模型能力成为新的研究热点。

这不,除了像o1这样的通用大语言模型,北大团队还瞄上了多模态这一领域——

他们超越传统COT思维链,采用结构化、多步骤推理,一举推出多模态版o1模型——LLaVA-o1。

作者先澄清了一下, 虽然最近的VLM模型有类似名称,但LLaVA-o1是建立在Llama-3.2-Vision模型之上,而不是LLaVA。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

那么,学会逐步推理的LLaVA-o1有多大提升呢?

根据论文介绍,仅用一个包含10万训练样本的数据集,LLaVA-o1在多模态推理基准测试中超越了其基础模型8.9%,并且在性能上超越了更大的模型。

甚至包括一些闭源模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

针对这一提升,团队也发现了背后的关键原因:

结构化响应显著提高了模型的系统推理能力

为了使LLaVA-o1更加结构化和系统化,团队设计了4个标签来帮助模型识别当前的推理阶段,并使用GPT-4o来生成LLaVA-o1-100k数据集。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-20 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第
2024-06-21 09:52:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。
2024-08-08 16:23:00
北大提出首个通用指令导航大模型系统 | CoRL 24
...可导航价值。 直觉价值地图(Intuition Value Map):利用多模态大模型判断全景图中最适合移动的区域
2024-09-13 13:38:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试
2024-06-25 09:45:00
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预
2025-05-17 12:05:00
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA
2024-08-07 09:42:00
阿里发布千问3.5,性能媲美Gemini 3, Token价格仅为其1/18
...问大语言模型不同,千问3.5实现了从纯文本模型到原生多模态模型的代际跃迁。千问3预训练在纯文本Tokens上进行,而千问3
2026-02-16 17:34:00
本周(4.8-4.14)AI界发生了什么?
...源:论文论文链接:AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1
2024-04-14 20:33:00
更多关于科技的资讯:
实现从光芯片设计到模块封装量产每日商报讯 近日,位于拱墅区大运河数智未来城省级高新区核心区块的拱政工出【2025】6号地块标准厂房(一期)项目(以下称“芯速联高速硅光模块智能制造基地”)正式完工
2026-03-12 08:12:00
涂鸦智能:以开放平台与AI能力重塑宠物喂食器解决方案
宠物智能用品正从基础的“联网控制”迈向“主动关怀”的深度智能时代。传统宠物喂食器多限于手机App远程定时出粮,难以应对动态调整食量
2026-03-12 08:34:00
纵览原创|石家庄“装虾”线上线下冰火两重天:多家线下店铺称“没听说过”,有线上卖家已安装20多单
见习记者 朱荣琛“你养龙虾了吗?”成为近期网络热议的话题。最近,这款名为OpenClaw(网友俗称“龙虾”)的开源AI智能体工具迅速走红网络
2026-03-12 08:47:00
长白时评评论员 崔越然近期一款名为OpenClaw的开源人工智能体工具火遍全网,因其鲜红的图标被广大网民亲切地称为“龙虾”
2026-03-12 10:29:00
想尝鲜,又怕烫手 西湖边,数百人排队免费领养本地版“龙虾”
西湖边掀起“养虾”热潮。春夜渐凉,西湖边的“养虾”热潮,到昨晚8点仍没有退去。从中午开始,滨次元AI文旅驿站外的12号场地就排起了长队
2026-03-12 09:13:00
杭州日报讯 近日,在中国纺织信息中心浙江分中心·国际纺织时尚交流中心的组织下,涛搏纺织、凯亨纺织、卓伦纺织、优时进出口等10家绍兴柯桥纺织标杆企业组团亮相越南西贡会展中心
2026-03-12 07:11:00
杭州日报讯 “开年前两个月,订单量同比两位数增长,完成甚至突破预定生产目标,我们信心很足!”“产线满负荷运转,订单排得满满当当
2026-03-12 07:11:00
数字贸易平台海外版上线杭州日报讯 昨日,在2026年中国国际针织(春夏)博览会上,濮院毛衫数字贸易平台海外版正式上线,其专属海外品牌“PlinkX”同步亮相
2026-03-12 07:11:00
推动进口贸易与消费升级深度融合杭州日报讯 为深入推进高水平对外开放,释放中国超大规模市场红利,推动进口贸易与消费升级深度融合
2026-03-12 07:11:00
82岁老人换了新手机,但不熟悉操作,结果误开通多项收费业务。3月11日,老人收到扣费短信后向网格员求助,顺利取消了扣费服务
2026-03-11 17:36:00
中新经纬3月11日电 (董湘依)近年来,中国文化“新三样”(网文、网剧、网游)在海外迅速走红。全国两会期间,全国政协委员
2026-03-11 19:27:00
中新经纬3月11日电 题:“养龙虾”火出圈 ,算力变成稀缺资源作者 薛洪言 星图金融研究院常务副院长、苏商银行特约研究员2026年的早春
2026-03-11 19:28:00
河北新闻网讯(闫丽颖、唐福刚)近日,开滦股份范各庄矿聚焦“物理隔离+智能管控”核心需求,创新应用一套具备智能闭锁、声光报警
2026-03-11 19:51:00
中国联通eSIM尝鲜季再添新力
3月11日上午,中国联通eSIM尝鲜季——三星国内首款eSIM手机Galaxy S26系列首销仪式在西单北营业厅隆重举行
2026-03-11 14:14:00
大皖新闻讯 家里空调、冰箱等家电出故障,找维修却怕遇上“小病大修”“坐地起价”。别愁,专为安徽消费者打造的家电维修“放心平台”来了
2026-03-11 14:55:00