• 我的订阅
  • 科技

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

类别:科技 发布时间:2024-08-07 09:42:00 来源:新智元

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

【新智元导读】面壁小钢炮MiniCPM-V 2.6重磅出击,再次刷新端侧多模态天花板!凭借8B参数,已经取得单图、多图、视频理解三项SOTA ,性能全面对标GPT-4V。

再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!

仅8B参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标超越 GPT-4V 水平。

更有多项功能首次上「端」:小钢炮一口气将实时视频理解、多图联合理解(还包括多图OCR、多图ICL等)能力首次搬上端侧多模态模型,更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界,更能充分发挥端侧 AI 传感器富集、贴近用户的优势。

亮点众多,延续了「小钢炮」系列一贯的以小博大与高效低成本,划重点如下:

「三合一」最强端侧多模态:首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。

多项功能首次上端:实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能,第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」,不仅看得清晰,还能有样学样、模仿学习。

极致高效,最高多模态像素密度: 类比知识密度,小钢炮2.6取得了两倍于GPT-4o的单 token 编码像素密度(token density),在端侧方寸之地,一路将大模型「能效比」挖到极限。这一进展,得益于视觉 token 相比上一代下降 30% ,比同类模型低 75%。

端侧友好:量化后端侧内存仅占 6 GB;端侧推理速度高达 18 tokens/s,相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理;且支持多种语言。

统一高清框架,高效能力一拖三:小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平,并进一步覆盖单图、多图、视频理解。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

MiniCPM-V 2.6 开源地址:

GitHub:https://github.com/OpenBMB/MiniCPM-V

HuggingFace:https://huggingface.co/openbmb/MiniCPM-V-2_6

llama.cpp、ollama、vllm 部署教程地址:

https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

MiniCPM 系列开源地址:

https://github.com/OpenBMB/MiniCPM

单图、多图、视频理解 3 SOTA!

GPT-4V级、三合一最强端侧多模态

注:指20B以下、端侧模型SOTA

以小博大,是端侧模型的核心竞争力。

仅 8B 参数,新一代 MiniCPM-V 2.6 不仅再一次取得了媲美 GPT-4V 的综合性能, 还首次作为端侧 AI 模型,掀开单图、多图、视频理解三项多模态核心能力全面超越 GPT-4V 之新格局,且均实现 20B 参数以下模型性能 SOTA。

在 MiniCPM-V 2.6 的知识压缩率方面,我们发现,MiniCPM-V 2.6 体现出极致的高效,取得了两倍于 GPT-4o 的最高多模态大模型像素密度(Token Density) 。

Token Density = 编码像素数量 / 视觉 token 数量,是指单个 token 承载的像素密度即图像信息密度,直接决定了多模态模型实际的运行效率,数值越大,模型运行效率越高。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

闭源模型的 Token Density 由 API 收费方式估算得到。结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的,延续了小钢炮一贯的极致高效特点

单图方面 :在综合评测权威平台 OpenCompass 上,单图理解能力越级超越多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini。

多图方面 :在多图评测权威平台 Mantis-Eval 榜单上,MiniCPM-V 2.6 多图联合理解能力实现开源模型SOTA ,且超越 GPT-4V。

视频方面 :在视频评测权威平台 Video-MME 榜单上,MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA,超越GPT-4V。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA,延续并加强了小钢炮系列最强端侧 OCR 能力的传统优势。

在幻觉评测榜单Object HalBench上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)优于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

实时视频理解,首次上端!

睁开端侧「眼睛」,打开具身广阔潜力

真实世界的视觉信息是流动的!

端侧视频理解具有天然优势,手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头,具有天然的多模态输入能力。相比云端,离用户更近,链路更短,效率更高,同时具有更强的信息安全优势。

有了实时视频理解功能,大模型犹如拥有一双「眼睛」,能够实时看到真实世界,这是多模态大模型走向具身智能等更多实际领域,实现 AGI 的必要条件之一。此外实时视频理解功能也让人机交互也更加自然友好。

MiniCPM-V 2.6 让实时视频理解功能第一次运行在端侧。

在下面对面壁智能公司实时拍摄中,室内场景的各种办公设备、墙上、会议室上的文字都能轻松被模型精准识别。

此外,对于「太长不看」的视频,现在可以直接把文件拖进来,让模型为你总结重点信息,不用看完、不用倍速、也不用快进。

这段 1 分钟左右的天气预报视频,MiniCPM-V 2.6 能在没有听到任何语音的情况下,发挥强大的视频 OCR 功能,识别出视频画面里密集的文字,给出不同视频段落中不同城市的详细天气描述。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

注:该结果为代码环境中复现

多图联合理解,首次上端!

流畅、聪明,一直识图一直爽

钻研多模态模型能力的不竭动力,源自于它更接近真实世界的形态,充斥着画面、视频、语言等多种模态、同时并发的信息。

难以想象,当我们睁开眼睛看世界,只能一个画面、一个画面,顺次机械而卡顿地识别理解;也不会事事都能得到精准的文字指示,像小孩子模仿大人行为举止般「有样学样」地揣摩学习与动作跟随,是绝大多数我们学习与尝试新事物时所发生的样子。

将端侧AI的多模态能力进行极致探寻,最新发布的 MiniCPM-V 2.6 首次将多图联合理解、多图ICL(上下文少样本学习 )功能集成在端侧模型,这也是此前业界多模态王者 GPT-4V 引以为傲的能力。

1. 流畅的多图多轮理解,爽!

就像人们习惯把多个文件拖拽给大模型处理,在日常生活和工作中,联合处理多张图像是高频刚需。

比如常令人头疼的记账或报销难题,小票上密密麻麻的数字难以辨别,更别提进行繁琐的总账计算。拍照下来,一口气甩给 MiniCPM-V 2.6,除了一一找出每张小票的金额,最后还把总账计算出来,十分方便。

强大的 OCR 能力+CoT (思维链)能力加持,不仅小票金额精准抓取,解题思路与卷面呈现都清晰简洁:

端侧多模态复杂推理能力也被一并刷新:

比如这道 GPT-4V 官方演示经典命题:调整自行车车座。这个对人很简单的问题对模型却非常困难,它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。

仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力,通过和模型进行多图多轮对话,它清晰地告知完成调低自行车车座的每一个详细步骤,还能根据说明书和工具箱帮你找到合适的工具。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

2. 强悍的多图复杂推理能力,竟能读懂你的梗!

得益于强大的多图复杂推理能力,MiniCPM-V 2.6 不仅能联合识别多张图片的表面信息,还能「读懂」梗图背后的槽点。

比如让模型解释下面两张图背后的小故事,MiniCPM-V 2.6 能够通过OCR精准识别到两张图片上的文字:

「WFH Employees 8:59 AM」和 「WFH Employees 9:00 AM」,推理出「WFH」居家办公状态,然后结合两张图片的视觉信息联合推理出「工作在家时,8:59还在床上睡觉,9点立马出现在视频会议上」的居家办公的「抓狂」状态,尽显梗图的槽点和幽默,可谓是多图联合理解和 OCR 能力的强强结合。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

多图复杂推理能力表现惊艳,单图也不在话下。

MiniCPM-V 2.6 能轻松揣测出梗图中很多未明显露出的潜台词,简直是充满幽默感的大模型「梗王」。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

左右滑动查看

多图 ICL,首次上「端」!

大模型学会揣测模仿,有样学样

很多时候,很多场景,难以用语言完全说清,通过明确定义的语言 prompt 来控制模型的输出行为难以奏效。

这个时候,图文信息一起「看」来理解,就像我们婴童时期那样观察、模仿、学习,往往更加直接与准确。

这其实就是多图 ICL(In context learning)上下文少样本学习,它能激发出模型的潜力,让模型无需fine-tune,即可快速适配到特定领域和任务,显著提高模型的输出稳定性。

在下面的例子中,我们直接通过视觉 prompt 给大模型下指示:

给出两组神转折画面,以及对画面中的「梗」给出示意文字描述,例如一个戴着手套、重视卫生的厨师,下一秒却用戴手套的手直接去拿实际有些肮脏的纸币;一个看似热衷环保的人,却把塑料瓶装水打开装进环保水壶……

这时 MiniCPM-V 2.6 能够自动从前面两组图文关系,揣摩出题人的意图,并自动学会「答题模版」,给出神转折答案—— 一个人手握大量加密数字货币,可你猜怎么着,他出门购物,可是商店却只收现金!

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

统一高清视觉架构

高效多模态能力一拖三

新一代小钢炮的最大亮点:单图、多图、视频理解等核心能力对 GPT-4V 的全面对标。

从单一优势,到全面对标,大幅跃进从何而来?在 Qwen2-7B 基座模型的性能加持之外,要归功于采用了统一高清视觉架构。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

统一高清视觉架构,让传统单图的多模态优势功能得以继承,并实现了一通百通。

例如,多管齐下的 OCR SOTA 能力:

它将 MiniCPM-V 单图场景的「180万高清图像解析」进行能力迁移和知识共享,无缝拓展至多图场景和视频场景,并将这三种视觉理解场景统一形式化为图文交替的语义建模问题,共享底层视觉表示机制,实现相比同类型模型,视觉 token 数量节省超过 75% 。

OCR 信息提取的基础上,MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT(思维链)的复杂推理。

比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌,CoT 的过程是:

    首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家;

    再将前三名国家的金牌总数相加。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

8.2%的超低幻觉率,亦是发挥了小钢炮系列AI可信方面的传统优势。

面壁 RLAIF-V 高效对齐技术对低幻觉贡献颇多,MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力亦因面壁 Ultra 对齐技术得到一并增强:

在多模态复杂推理能力对齐方面,MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据,构造高效对齐种子数据,并通过模型自迭代完成数据净化和知识学习。

在多图联合理解方面,MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义,实现多图联合理解数据的高效构造。

手机上能跑的「GPT-4V」来啦!多图、视频理解首次上端!面壁小钢炮开源史上最强端侧多模态

在端侧最强多模态的道路上,小钢炮 MiniCPM-V 系列已成为标杆性的存在。

自24年2月1日首次开创端侧部署多模态先河,短短半年,即接连完成了端侧模型从单一、到全面对标 GPT-4V 的重大突破,小钢炮系列下载量已破百万!

为何面壁「小钢炮」系列,频出以小博大的多模态端侧佳作?

可以说,MiniCPM 端侧模型系列,正是面壁长期以来「大模型科学化」路线的结晶。

一方面,通过科学提升训练方法与数据质量,不断提升大模型「知识密度」,得到同等参数,性能更强、成本更低的高效模型。两倍于 GPT-4o 的巅峰级单 token 图像信息密度(Token Density),小钢炮 2.6 交出一份漂亮的多模态高效运行效率成绩单。

另一方面,面壁不断钻研 OCR、多图与视频理解等核心多模态能力创新技术,并持续突破对于端侧极为关键的能耗与内存极限,把最优秀的多模态模型放在离用户最近的地方!

相比上代模型快 33%,高达 18 tokens/s 的推理速度,6GB 的内存占用…… 每一点滴对模型「能效比」的锱铢必较,只为了你将 iPad 捧在手心的那一刻,实时丝滑酣畅的体验。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-08-07 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

让手机、PC、汽车、AIoT等“终端”都用好AI,搞定统一生态这事太重要了
...。面壁智能联合创始人&CTO曾国洋重点分享了自家面壁小钢炮系列大模型的最新进展,其“以小博大、高效低成本”的特点刚好印证了林咏华对于大模型趋势的判断
2024-12-12 09:41:00
国产地表最强视频模型震惊歪果仁,官方现场摇人30s直出!视觉模型进入上下文时代
...,才是Vidu真正放大招的时候了。 现在,任何人可以在「多图参考」功能中选择上传多个主体。它既可以是人物角色,也可以是人物+道具物体、环境背景等等,即便是「多主体」Vidu
2024-11-15 09:52:00
多图直击ChinaJoy:百度腾讯阿里字节抢人气 鸿蒙游戏上场
《科创板日报》8月2日讯(记者 黄心怡)第22届中国国际数码互动娱乐展览会(ChinaJoy)于8月1日启幕。 百度、腾讯、阿里、字节等互联网企业都纷纷亮相。《科创板日报》记者注
2025-08-02 11:49:00
王炸级3nm安卓AI芯片发布,生成视频不用联网
...态模型运算速度达到了50Tokens每秒。利用面壁智能推出的小钢炮模型,可以快速识别二元一次方程组图像并做出解答。同时还能理解图片中文字的对应关系,秒速读懂外文菜单,推荐菜品
2024-10-18 09:49:00
联汇科技发布最新智能体应用——第二代多模态智能体OmAgent
...够处视频、图、文复杂的混合输入,具有时序关系判断和多图关系理解能力。Om多模态智能体全新产品系列——空间运营智能体、知识服务智能体。空间运营智能体将对环境的全感知能力和大模型
2024-07-18 14:51:00
vivo S系列再添“猛将”,性能小钢炮+Vlog神器,是你的菜吗?
vivo的手机一直都是以影像著称,尤其是S系列,一发布就获得了诸多年轻用户的青睐,尤其是它强大的自拍能力,极受女性用户喜爱。此次发布的vivo S16系列在外观、影像方面进行了全
2022-12-24 03:00:00
继“上刀山”之后,华为Mate X5又“下火海”
...再加之丰富的折叠生态,以及包含隔空手势、分区截图、多图同比、跨屏拖拽、小窗交互、AI熄屏显示在内的智慧体验,无疑大幅提升了手机的实用性和便捷性。就拿多图同比来说,视频中工作人
2023-12-12 13:23:00
“五一”假期,十堰到底有多火?多图+视频为你“揭秘”
十堰广电讯 “五一”假期,全市各地推出以文化游、乡村游、休闲游为主体的文旅产品,将文化展示与沉浸式体验相结合,打造多元化文旅场景,为市民游客奉上一场春意盎然、文化丰盛的假日盛宴
2025-05-05 19:35:00
游戏小钢炮!OPPO K12 Plus配置揭晓:搭载第三代骁龙7
... Plus将于10月12日正式发布,官方号称“续航千里马、游戏小钢炮”。续航配置此前已经宣布,内置了6400mAh电池
2024-10-10 07:41:00
更多关于科技的资讯:
最近有件事儿越来越常见:外国人不光来中国旅游,还专门“打飞的”来看病。不是出于好奇体验,而是真心觉得值!值在哪儿?三个字
2026-01-21 21:52:00
中新经纬1月21日电 广东省政府网站21日公布《广东省人工智能赋能交通运输高质量发展若干政策措施》(下称《政策措施》)
2026-01-21 20:20:00
织金平远公司完成 500kVⅡ 组母线母差保护装置校验及传动
多彩贵州网讯(通讯员 史凡莉)近日,织金平远公司厂区内,500kVⅡ组母线设备区域一派忙碌景象。电热检修部与发电运行部工作人员有条不紊地开展母差保护A屏
2026-01-21 17:15:00
九阳太空厨房已安全稳定运行超1500天
中国消费者报报道(记者桑雪骐)航天员们如何健康、舒适地展开太空生活和吃好一日三餐,是大家都很关心的话题。据了解,这背后其实有一个我国自主研制的太空厨房
2026-01-21 18:05:00
秦皇岛经开区第一小学开展人工智能科技实践活动
河北新闻网讯(李佳新)日前,秦皇岛经开区第一小学开展以“AI探索,智创未来”为主题的人工智能科技实践,通过沉浸式实训活动激发学生的科技探索热情
2026-01-21 18:11:00
马年将至(农历),在广州大夫山森林公园,一些徒步爱好者分享了一种创意玩法——“画马”,相关穿越路线攻略一时引发追捧。所谓“画马”
2026-01-21 18:36:00
三重蝶变,中天钢铁解锁“企业主理”新范式
大寒虽寒,热潮涌动。原点空间路演大厅内,由中天钢铁主理的第37场沙龙——“AI智能体创新大赛总结沙龙”以三重蝶变,为常州“智能体+场景应用”示范城市建设吹响了热力全开的奋进号角
2026-01-21 18:28:00
苏州市女企协秘书长、国浩律师(苏州)事务所合伙人葛霞青律师荣登《钱伯斯大中华区指南2026》推荐榜单
江南时报讯 1月15日,全球领先的法律研究和分析机构钱伯斯(Chambers & Partners)发布《钱伯斯大中华区指南2026》(Chambers Greater China Region Guide 2026)
2026-01-21 15:23:00
盐城盐都:“翼”技傍身 照亮前程
江南时报讯 启动无人机,校准飞行参数,规划测绘航线,精准捕捉地面数据……日前,2026年盐城市盐都区首期无人机测绘操控员技能培训在都U+乐业空间正式开班
2026-01-21 15:24:00
全国首款!仙库3D智能足脊扫描仪正式发布!
近日,深圳仙库智能有限公司(以下简称“仙库”)正式发布仙库3D智能足脊扫描仪XK-CH005,这是全国首款实现“足脊一体”同步评估的硬核科技产品
2026-01-21 16:24:00
国家级备案落地!疯狂体育Foretell革命性AI平台,开启体育智能决策新阶段
2026年1月20日,疯狂体育正式官宣推出旗下AI赛事预测工具Foretell。凭借已经完成的国家互联网信息办公室深度合成服务算法备案资质
2026-01-21 16:47:00
当我们在思考“哪些中国企业创新做得不错”时,CES 2026舞台上的联想集团给出了一个全面而深刻的答案。这不仅仅是一次产品发布会
2026-01-21 16:49:00
近日,剑桥大学教育学院院长Hilary正式受聘为中国素质教育品牌欣乾程的学术顾问。此次合作不仅是国际顶尖学术力量与中国创新型教育机构的一次重要握手
2026-01-21 14:24:00
跨越顶奢与潮饮的“美酒+美食”表达 五粮液全力构建中国白酒全球新叙事
鲁网1月21日讯当一位新加坡米其林星厨在构思新菜单时,正在将中国白酒作为风味拼图中一块充满惊喜的“香料”。在他手中,一杯五粮液可能被用来平衡炙烤龙虾的鲜甜
2026-01-21 12:03:00
农行肥城桃都支行:以政策优势精准破解粮企贷款难题
鲁网1月21日讯2026年伊始,桃都支行延续2025年末服务“黄羽鸡”产业的奋进势头,步履不停,持续扎根三农,精准运用粮食购销领域的专项贷款方案
2026-01-21 12:05:00