• 我的订阅
  • 科技

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

类别:科技 发布时间:2024-11-20 09:42:00 来源:量子位

北大等出品,首个多模态版o1开源模型来了——

代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。

在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

新模型具体如何推理,直接上实例,比如问题是:

减去所有的小亮球和紫色物体,剩下多少个物体?选项:A. 4,B. 8,C. 2,D. 6

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

传统提示词方法还是老路子,让Llama-3.2-11B-Vision-Instruct打个样就是:

第一步减去所有的小亮球;第二步减去所有紫色物体;最后给出答案,鉴于我们已经移除了所有的小亮球,而且一开始就没有紫色物体,正确答案是C. 2;

哐哐一顿输出,得出错误结果。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

我们再来看LLaVA-o1的推理过程:

总结阶段:问题是什么?我应该怎么做?注释阶段:我能从这张图片中知道什么?推理阶段:如何一步一步解决问题?结论阶段:最终答案是什么?

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

是不是明显不同。这就对了,LLaVA-o1超越传统COT思维链,采用了结构化、多步骤推理。

简单说,它将推理过程划分为四个阶段,并在每一阶段采用优中选优策略来为下一阶段提供响应。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

难怪看完最新效果,网友们直呼:推理 is all you need!

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

看来,让模型思考更多在多模态领域也同样适用——

“第一个能自发、系统推理的视觉语言模型”

前一阵,o1模型的发布又带火了COT思维链这一推理模式。(像人类一样步步思考)

于是,让模型思考更多是否会提高模型能力成为新的研究热点。

这不,除了像o1这样的通用大语言模型,北大团队还瞄上了多模态这一领域——

他们超越传统COT思维链,采用结构化、多步骤推理,一举推出多模态版o1模型——LLaVA-o1。

作者先澄清了一下, 虽然最近的VLM模型有类似名称,但LLaVA-o1是建立在Llama-3.2-Vision模型之上,而不是LLaVA。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

那么,学会逐步推理的LLaVA-o1有多大提升呢?

根据论文介绍,仅用一个包含10万训练样本的数据集,LLaVA-o1在多模态推理基准测试中超越了其基础模型8.9%,并且在性能上超越了更大的模型。

甚至包括一些闭源模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

针对这一提升,团队也发现了背后的关键原因:

结构化响应显著提高了模型的系统推理能力

为了使LLaVA-o1更加结构化和系统化,团队设计了4个标签来帮助模型识别当前的推理阶段,并使用GPT-4o来生成LLaVA-o1-100k数据集。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-20 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第
2024-06-21 09:52:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。
2024-08-08 16:23:00
北大提出首个通用指令导航大模型系统 | CoRL 24
...可导航价值。 直觉价值地图(Intuition Value Map):利用多模态大模型判断全景图中最适合移动的区域
2024-09-13 13:38:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试
2024-06-25 09:45:00
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预
2025-05-17 12:05:00
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA
2024-08-07 09:42:00
本周(4.8-4.14)AI界发生了什么?
...源:论文论文链接:AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1
2024-04-14 20:33:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码
2024-09-24 13:36:00
更多关于科技的资讯:
日前,第十四届中国创新创业大赛(浙江赛区)生物医药、高端装备制造行业决赛在杭州举行。来自浙江的29家生物医药企业、28家高端装备制造企业亮出创新成果
2025-08-05 07:30:00
□南京日报/紫金山新闻记者王婷婷通讯员周海盈“验收成功,所有测试全部通过!”近日,在埃及斋月十日城铁路自动售检票系统的实验室里爆发出热烈的掌声
2025-08-05 07:45:00
多措并举发展人工智能●推进算力资源优化配置●打造产业公共服务平台●强化资金要素保障●拓展应用场景落地●支持集聚区建设厦门网讯(厦门日报记者 林露虹 实习生 刘婉琳)近日
2025-08-05 07:50:00
海信发布ESG报告:科技有AI成关键词
8月4日,海信集团发布2024年度ESG报告,这是海信集团连续第三年发布ESG报告,AI成为推动ESG落地的重要关键词
2025-08-05 07:53:00
号称质量不输正品的“大厂尾货女装”,根本没那么诱人?
原标题:网上十几块一件的衣服能买吗?这三类劝你赶紧退!策划:江野鸿监制:Feidi明媚的夏天到了,衬衫、吊带、小裙子们当然也要更新换代啦
2025-08-04 23:27:00
风暴降临!阿迪达斯轻机甲老爹鞋XLG STORM「机甲风暴」迭代登场!
在adidas Sportswear未来实验室的能量风暴场,轻机甲老爹鞋XLG STORM「机甲风暴」破界诞生。作为初代轻机甲鞋XLG RUNNER的全新迭代之作
2025-08-04 20:40:00
日丰管:以标杆品质与全球视野,铸就中国家装管道领军品牌
近日,由范志毅演绎的“日丰管,管用五十年”巨幅广告,在全国数个高铁站亮相,引得不少旅客驻足。此次携手合作,是两位同样以专业立身的行业领军者的强强联合
2025-08-04 20:45:00
近期,易观发布《中国第三方支付行业年度分析报告2025》(以下简称“报告),报告对中国第三方支付行业当前的发展现状及趋势进行了分析及洞察
2025-08-04 20:45:00
京东再迎国际品牌入驻 IKEA宜家家居京东官方旗舰店开业
8月4日,京东与全球知名家具及家居用品品牌宜家家居达成合作,正式开启IKEA宜家家居京东官方旗舰店,并将于8月8日盛大开业
2025-08-04 11:14:00
考拉悠然:以多模态大模型为基 深耕工业检测赋能产业升级
消费日报网讯(记者 冯举)在人工智能技术加速渗透实体经济的浪潮中,四川省的成都考拉悠然科技有限公司(简称“考拉悠然”)正以“技术突破+行业落地”的双轮驱动模式
2025-08-04 14:04:00
天津市优秀基层理论宣讲员风采展示
2025-08-04 14:31:00
天津市优秀基层理论宣讲员风采展示
2025-08-04 14:34:00
国网济宁供电公司:率先实现小型无人机可靠安装配电线路故障指示器
鲁网8月4日讯近日,国网济宁供电公司工作人员在10千伏塔安I线服装城分支1号杆塔开展无人机安装配电线路故障指示器实验,取得圆满成功
2025-08-04 14:41:00
Arduino AI助手中国首秀!欧时RS创客沙龙开启开源智能未来
近日,电子元件和工业品数字化全球供应商欧时RS联合四方维(Supplyframe)创新中心成功举办 "欧时RS创客沙龙——Arduino主题开放日"
2025-08-04 14:59:00
槐荫首家苏宁易购Pro超级旗舰国融大厦店8月8日盛大开业
坐镇济南城市西兴战略核心,城投重点打造的商业标杆项目——槐荫首家苏宁易购Pro超级旗舰国融大厦店,将于8月8日盛大开业
2025-08-04 15:01:00