• 我的订阅
  • 科技

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

类别:科技 发布时间:2024-11-20 09:42:00 来源:量子位

北大等出品,首个多模态版o1开源模型来了——

代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。

在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

新模型具体如何推理,直接上实例,比如问题是:

减去所有的小亮球和紫色物体,剩下多少个物体?选项:A. 4,B. 8,C. 2,D. 6

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

传统提示词方法还是老路子,让Llama-3.2-11B-Vision-Instruct打个样就是:

第一步减去所有的小亮球;第二步减去所有紫色物体;最后给出答案,鉴于我们已经移除了所有的小亮球,而且一开始就没有紫色物体,正确答案是C. 2;

哐哐一顿输出,得出错误结果。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

我们再来看LLaVA-o1的推理过程:

总结阶段:问题是什么?我应该怎么做?注释阶段:我能从这张图片中知道什么?推理阶段:如何一步一步解决问题?结论阶段:最终答案是什么?

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

是不是明显不同。这就对了,LLaVA-o1超越传统COT思维链,采用了结构化、多步骤推理。

简单说,它将推理过程划分为四个阶段,并在每一阶段采用优中选优策略来为下一阶段提供响应。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

难怪看完最新效果,网友们直呼:推理 is all you need!

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

看来,让模型思考更多在多模态领域也同样适用——

“第一个能自发、系统推理的视觉语言模型”

前一阵,o1模型的发布又带火了COT思维链这一推理模式。(像人类一样步步思考)

于是,让模型思考更多是否会提高模型能力成为新的研究热点。

这不,除了像o1这样的通用大语言模型,北大团队还瞄上了多模态这一领域——

他们超越传统COT思维链,采用结构化、多步骤推理,一举推出多模态版o1模型——LLaVA-o1。

作者先澄清了一下, 虽然最近的VLM模型有类似名称,但LLaVA-o1是建立在Llama-3.2-Vision模型之上,而不是LLaVA。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

那么,学会逐步推理的LLaVA-o1有多大提升呢?

根据论文介绍,仅用一个包含10万训练样本的数据集,LLaVA-o1在多模态推理基准测试中超越了其基础模型8.9%,并且在性能上超越了更大的模型。

甚至包括一些闭源模型,如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct。

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源

针对这一提升,团队也发现了背后的关键原因:

结构化响应显著提高了模型的系统推理能力

为了使LLaVA-o1更加结构化和系统化,团队设计了4个标签来帮助模型识别当前的推理阶段,并使用GPT-4o来生成LLaVA-o1-100k数据集。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-20 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作
...息处理全国重点实验室两大平台,长期从事机器学习、多模态学习和具身智能方向的研究。本工作第一作者为刘家铭博士,研究方向为面向开放世界的多模态具身大模型与持续性学习技术。本工作第
2024-06-21 09:52:00
全模态对齐框架align-anything来啦:实现跨模态指令跟随
... OpenAI o1 技术的深入分析累计点击量已超过 15 万。如何全模态大模型与人类的意图相对齐,已成为一个极具前瞻性且至关重要的挑战。在当前 AI 领域的快速发展中,「有
2024-10-18 09:47:00
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
...进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。无论是语言模型还是视觉模型,似乎都很难完成更抽象层次上的理解和推理任务。
2024-08-08 16:23:00
北大提出首个通用指令导航大模型系统 | CoRL 24
...可导航价值。 直觉价值地图(Intuition Value Map):利用多模态大模型判断全景图中最适合移动的区域
2024-09-13 13:38:00
奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?
...数据泄露,从而反映模型的真实性能。研究团队测试了多模态大模型(LMMs)和纯文本大模型(LLMs)。对于LLMs的测试
2024-06-25 09:45:00
阶跃星辰李璟:多模态是AGI的必经之路,视觉模型可按语言模型路线实现大一统
...智能的上限仍然是当下最重要的事情。“我们始终认为多模态对AGI的实现非常重要,是实现AGI的必经之路。”对大模型的下一步发展,李璟表示,阶跃星辰主要会在两个方向发力。一是在预
2025-05-17 12:05:00
手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态
...导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA
2024-08-07 09:42:00
本周(4.8-4.14)AI界发生了什么?
...源:论文论文链接:AI界前线马斯克旗下xAI发布其首款多模态大模型4月13日消息,马斯克AI初创公司xAI推出了其首款多模态大模型Grok-1
2024-04-14 20:33:00
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升
【新智元导读】NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码
2024-09-24 13:36:00
更多关于科技的资讯:
近日,商务部等九部门发布《关于实施绿色消费推进行动的通知》(下称《通知》),提出将消费品以旧换新作为推动绿色消费的重要抓手
2026-01-22 23:19:00
胶东在线1月20日讯(记者 王向荣 孙子研 孔易凡) 1月18日上午,烟台市政协十四届五次会议隆重开幕。市政协委员于俊宁紧扣消费升级趋势
2026-01-23 04:04:00
《认识你自己的孩子》出版发行,五型人分类法破解当代育儿焦虑
2026年1月,资深媒体人、资深教育观察者钟国兴深耕家庭教育领域新作《认识你自己的孩子》,由北京联合出版公司正式出版。该书跳出传统育儿说教框架
2026-01-22 20:50:00
东南网1月22日讯(本网记者 陈楠)记者获悉,1月23日晚,聚焦科技创新、对话企业未来的大型科创节目《创投新势力》将播出
2026-01-22 21:42:00
“河南中医药法规标准库”小程序上线
大河网讯 近日,“河南中医药法规标准库”微信小程序正式上线,查询中医药相关法规、国家标准、行业标准等,用手机扫一扫就能轻松实现
2026-01-22 22:58:00
蚂蚁数科金融AI落地保险业,与同方全球人寿签约保险AI创新应用
1月22日,蚂蚁数科与同方全球人寿签署“保险AI创新应用”合作协议。双方将以人工智能技术为核心,在保险全业务领域深化合作
2026-01-22 20:32:00
京东达沃斯公布数据:“AI”搜索量去年激增超百倍,AI消费迎来“爆发元年”
世界经济论坛2026年年会(冬季达沃斯年会)1月19日在瑞士达沃斯开幕。京东集团创始人、京东集团董事局主席刘强东,京东集团SEC副主席
2026-01-22 20:02:00
2026年最新AI修图软件:三款工具提升摄影后期效率
AI修图技术已经从简单的滤镜应用发展为能够深度理解图像内容并智能优化的复杂系统。根据2025年的摄影行业调,,约95%的专业用户已经将一键式AI修图纳入工作流程
2026-01-22 17:19:00
匠心守品质 订单跨山海 普定萨伽冲刺首季“开门红”
新年伊始,普定工业园区内,贵州萨伽乐器有限公司生产车间一派繁忙景象。机器高速运转,轰鸣声此起彼伏,工人们在各条生产线上有条不紊地穿梭作业
2026-01-22 18:08:00
合肥轨道5号线云谷路站添新“员工”!机器人组队提供“无感服务”
大皖新闻讯 无需排队咨询、自助办结票务、语音精准导航……1月21日,合肥轨道机器人创新项目发布会召开,全国首创全空间机器人智慧调度平台同步亮相
2026-01-22 18:58:00
中国网1月22日讯 据“工信微报”微信公众号消息,为深入贯彻落实党中央、国务院决策部署,加快形成全国算力资源“一本账”
2026-01-22 19:11:00
除冰不用人!安徽“小黄人”“小蓝人”打响电网智能除冰战
大皖新闻讯 寒冬时节,皖南山区和大别山银装素裹。对于电网人来说,这不仅是美景,更意味着严峻考验。输电线路覆冰,如同给电网“血管”套上枷锁
2026-01-22 19:31:00
以赛促创!激活“AI+制造”新动能
江南时报讯 1月16日,2026年(第十七届)阳澄湖创客大赛行业赛——人工智能OPC和高端装备制造专场在中国计量大学国家大学科技园河庄数智产业园成功举办
2026-01-22 18:06:00
1月下旬,浙江高校陆续进入考试周。记者注意到,如今不少高校课程的期末考核,早已跳出“考试、论文、报告”的传统“三件套”
2026-01-22 16:55:00
追觅集团成为总台2026年春晚智能科技生态战略合作伙伴
中国青年报客户端讯(中青在线记者 朱仪杰)1月21日,中央广播电视总台与追觅集团共同举办签约活动,宣布追觅集团正式成为总台《2026年春节联欢晚会》智能科技生态战略合作伙伴
2026-01-22 14:15:00