• 我的订阅
  • 科技

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

类别:科技 发布时间:2024-11-20 09:42:00 来源:量子位

北大等出品,首个多模态版o1开源模型来了——

代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。

在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

新模型具体如何推理,直接上实例,比如问题是:

减去所有的小亮球和紫色物体,剩下多少个物体?选项:A. 4,B. 8,C. 2,D. 6

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

传统提示词方法还是老路子,让Llama-3.2-11B-Vision-Instruct打个样就是:

第一步减去所有的小亮球;第二步减去所有紫色物体;最后给出答案,鉴于我们已经移除了所有的小亮球,而且一开始就没有紫色物体,正确答案是C. 2;

哐哐一顿输出,得出错误结果。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

我们再来看LLaVA-o1的推理过程:

总结阶段:问题是什么?我应该怎么做?注释阶段:我能从这张图片中知道什么?推理阶段:如何一步一步解决问题?结论阶段:最终答案是什么?

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

是不是明显不同。这就对了,LLaVA-o1超越传统COT思维链,采用了结构化、多步骤推理。

简单说,它将推理过程划分为四个阶段,并在每一阶段采用优中选优策略来为下一阶段提供响应。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

难怪看完最新效果,网友们直呼:推理 is all you need!

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

看来,让模型思考更多在多模态领域也同样适用——

“第一个能自发、系统推理的视觉语言模型”

前一阵,o1模型的发布又带火了COT思维链这一推理模式。(像人类一样步步思考)

于是,让模型思考更多是否会提高模型能力成为新的研究热点。

这不,除了像o1这样的通用大语言模型,北大团队还瞄上了多模态这一领域——

他们超越传统COT思维链,采用结构化、多步骤推理,一举推出多模态版o1模型——LLaVA-o1。

作者先澄清了一下, 虽然最近的VLM模型有类似名称,但LLaVA-o1是建立在Llama-3.2-Vision模型之上,而不是LLaVA。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

那么,学会逐步推理的LLaVA-o1有多大提升呢?

根据论文介绍,仅用一个包含10万训练样本的数据集,LLaVA-o1在多模态推理基准测试中超越了其基础模型8.9%,并且在性能上超越了更大的模型。

甚至包括一些闭源模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

针对这一提升,团队也发现了背后的关键原因:

结构化响应显著提高了模型的系统推理能力

为了使LLaVA-o1更加结构化和系统化,团队设计了4个标签来帮助模型识别当前的推理阶段,并使用GPT-4o来生成LLaVA-o1-100k数据集。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-20 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第
2024-06-21 09:52:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。
2024-08-08 16:23:00
北大提出首个通用指令导航大模型系统 | CoRL 24
...可导航价值。 直觉价值地图(Intuition Value Map):利用多模态大模型判断全景图中最适合移动的区域
2024-09-13 13:38:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试
2024-06-25 09:45:00
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预
2025-05-17 12:05:00
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA
2024-08-07 09:42:00
本周(4.8-4.14)AI界发生了什么?
...源:论文论文链接:AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1
2024-04-14 20:33:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码
2024-09-24 13:36:00
更多关于科技的资讯:
春节前夕,继“年货节”之后,拼多多接棒上线“春节不打烊”活动,加大对水果生鲜、粮油米面、肉禽蛋奶、零食滋补、酒水饮料、日用百货等春节必需品的补贴力度
2026-02-13 08:29:00
买年货,不仅仅是坚果、腊味、粮油。随着马年春节的临近,一股“科技年货热”正在杭州兴起。2月11日,记者来到了位于杭州市西湖区的文三数字生活街区
2026-02-13 08:31:00
青岛将高水平打造北方OPC先行示范城
鲁网2月12日讯2月12日,青岛市政府新闻办召开新闻发布会,介绍青岛OPC发展的有关情况。OPC,又称“一人公司”,是指由一人或几人借助AI工具创办的小微企业
2026-02-13 08:59:00
中国钛谷·東吉:专研航天材料的民用革命
近年来,随着健康消费理念的普及与材料科技的不断突破,钛金属凭借“亲生物、天然抑菌、耐腐蚀、轻质高强”等特性,正从航空航天等高端领域
2026-02-13 10:08:00
2月11日上午,随着锣声响起,2026年科创板首家浙江企业、易思维(杭州)科技股份有限公司成功上市。“赶在马年春节前,办妥了这件大事
2026-02-13 09:02:00
2月10日上午10点,游戏科学发布了《黑神话钟馗》6分钟的做饭实机演示视频,向全球玩家提前预祝马年大吉。视频发布后在全球玩家中再次引发狂欢
2026-02-13 06:30:00
一纸墨香载着宋韵风华,越过山海,在异国他乡漾开温柔涟漪。“像被异国文化轻轻拥抱”,海外读者对《上元欢》的这句留言,让作者王誉蓉久久动容
2026-02-13 06:30:00
周静娴摘要:在人工智能技术的推动下,英语教学模式正经历深刻变革。传统教学模式存在诸多不足,尤其在个性化学习与实时反馈方面
2026-02-13 07:35:00
鸿蒙版皖事通升级 上线“高效办成一件事”服务入口
大皖新闻讯 近日,安徽省一体化政务服务平台“皖事通”(移动端)已经全面适配鸿蒙系统,依托鸿蒙意图框架实现“功能一步达”创新服务模式
2026-02-12 20:45:00
随着春节的临近,采购年货成了消费者近期最主要的消费行为。伴随着即时零售的迅速发展,越来越多的商家加入了“春节不打烊”服务阵营
2026-02-12 21:23:00
从参与“墨子号”项目到助力“祖冲之三号” 这位“80后”博士眼中的量子科技“很有趣”
大皖新闻讯 丙午马年春节的脚步越来越近,“80后”博士李东东依然忙碌着,身为科大国盾量子技术股份有限公司(以下简称“国盾量子”)的高级技术专家
2026-02-12 21:53:00
莱芜农商银行雪野旅游区公司业务营销中心:金融夜校进企业 岁末赋能助扬帆
鲁网2月12日讯年关将至,购置年货、返乡出行、储蓄规划、消费理财成为企业员工的核心关切。为破解上班族“白天忙工作、无暇办金融”的困扰
2026-02-12 22:01:00
“电影想象力消费”入选2025年度“人文学科十大学术热点”
中国青年报客户端讯(中青报·中青网记者 余冰玥)日前,由中国人民大学书报资料中心人文编辑部策划组织的2025年度“人文学科十大学术热点”公布
2026-02-12 22:46:00
中新经纬2月12日电 12日,商务部召开例行新闻发布会。商务部新闻发言人何亚东在会上提到,持续推进出海服务资源的优质供给和高效匹配
2026-02-12 18:24:00
“万物科普”精彩继续 “智造”妙趣点亮新春 扫码阅读手机版
2月11日上午,河西区图书馆“万物科普课堂”迎来第二场精彩活动。本次“神奇‘印’记——3D打印共塑马年新章”专场,将前沿的3D打印技术与激光切割工艺深度融合
2026-02-12 14:30:00