• 我的订阅
  • 科技

全球瞩目,又是杭州!这款视觉推理模型一夜起飞

类别:科技 发布时间:2025-02-26 07:07:00 来源:杭州网

杭州日报讯 “点击图中最小的红色三棱柱”——我们登录DeepSeek时,都遇到类似验证问题。

识图、辨别、点击。这对我们人类来说并不难;但若AI在深度思考几秒后,也能自动识别图片并圈出答案,并把它的思考过程“解释”给你听呢?

——这不是想象!这两天,全球开源圈又“炸”了。

在全球最大的代码托管与协作平台GitHub上,一款名叫VLM-R1的全新开源项目在上线短短十多个小时内,收到了来自各国开发者的2000多个星标收藏,并迅速登上平台热门趋势榜,关注度持续居高不下。

VLM-R1是什么?

2000多个星标又意味着什么?

“你可以把VLM-R1简单理解成‘视觉版DeepSeek’,它不仅会看,还很擅长思考,会举一反三。”项目带头人、Om AI Lab人工智能中心主任、浙江大学博士生导师赵天成博士在为记者通俗解释的同时,也表达了对引发反响的意外惊喜,“一天涨十几个星标比较常见,能收获几百个星标已经算是全球顶尖了;像VLM-R1这样一夜之间暴增上千关注的,前所未见!”

当DeepSeekR1方法遇上视觉模型

会有什么新变化?

“这个项目的灵感来自DeepSeek R1方法,其通过GRPO(Group Relative Policy Optimization)强化学习方法,在纯文本大模型上取得了显著效果。”赵天成表示。他毕业于卡内基梅隆大学(CMU),是全球最早一批推动生成式AI与大模型理论技术成熟的青年学者之一,“基于这个思路,我们开始思考:视觉模型是否也能实现类似的推理能力?”

与传统大模型训练的 SFT(Supervised Fine-Tuning)方法不同,R1方法的突破在于其路径创新。SFT依赖海量标注数据进行“填鸭式”教学,而R1方法则通过强化学习,让模型自主探索最优路径。“我们在Qwen2.5-VL的基础上,同时对比了R1和SFT方法,发现R1在各种复杂场景下都能保持稳定的高性能,这对实际应用至关重要。”赵天成解释道。

采访时,他分享了一个训练案例:在一张人行道的街景照片中,VLM-R1被要求定位可能对盲人行走造成危险的物体。照片中包含了常见的障碍物,如公交站牌、车辆、行人等,但其中还出现了一个特殊的元素——台阶。VLM-R1通过逐步分析,清晰地展示了其思考过程,并准确地圈出了台阶的位置。“对人类来说,这种推理是常识,但对视觉模型而言,准确识别图像、进行专业推理并用文本清晰表达,却非常具有挑战性。”

更令人惊叹的是VLM-R1的泛化能力。“它能举一反三,适应多种场景和任务,而无需针对每个任务进行专门训练。”赵天成举例,当你想买台电脑,苦恼于多种款式和不同价格,拍下比较图问AI:“选出性价比最高的一款”;当你在健身对吃大餐有负担,拍下菜单发给AI:“挑出高蛋白、低脂肪的食物”……这意味着R1方法让模型真正“学会”了理解视觉内容,而非简单的机械记忆。

2月15日,赵天成在海外社交平台上发布VLM-R1的实验结果,并将它开源、上传到GitHub,一夜之间成“顶流”。截至目前,该项目已获得全球开发者们给出的2800多个星标收藏。

“性能惊艳,潜力无限”“证明了R1方法的通用性,不止文本领域玩得转”“为多模态AI带来全新思路”“或许能够引领一种全新的视觉语言模型训练潮流”……业内人士纷纷对 VLM-R1表示高度认可。

“视觉版DeepSeek”

为什么是VLM-R1?

VLM-R1爆火,看似意料之外,实则情理之中。

以赵天成为首,这支以“95后”为主的年轻研发团队,含金量极高。在位于滨江区秋溢路上的金润科技园里,Om AI Lab汇聚了来自卡内基梅隆大学、微软研究院、清华大学、浙江大学等顶尖学术机构和科研单位的50名计算机领域精英。

“VLM-R1项目从春节启动,能迅速通过实验验证并取得成果,离不开我们前期的深厚积累,主要还是基础搭得牢。”赵天成表示,“我自2014年考入CMU时起就专注于AI生成式模型的研究,并结识了一群志同道合的伙伴。2021年,我们回国成立了Om AI Lab,就一直深耕于滨江。团队具备丰富的研究经验和创新思维,聚焦于AGI底层技术与架构的探索,始终致力于推动人工智能技术在各个领域的应用与发展。”

当行业刚刚开始关注大语言模型时,Om AI Lab早已坚定地探索多模态方向,并取得了工信部大模型检测的001号证书。“而002号证书的获得者,便是大家熟悉的‘文心一言’。”赵天成笑着说。

而Om AI Lab背后的母公司联汇科技,其多个智能体应用已通过与运营商、国家电网、广电媒体等企业机构的合作实现规模化落地,例如自动化输电线路巡检、开发AI眼镜帮助视障者“看见”世界等。

“视觉智能体产品,就像为机器人装上‘大脑’,为人类提供‘副脑’。随着VLM-R1内核的升级,未来将能实现更多应用场景。”赵天成表示,借助多模态的思考能力,VLM-R1将显著提升图像识别准确率,并生成相应的解决方案,“目前版本还处于1.0阶段,仍需更多实验来完善。”

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2025-02-26 08:45:04

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

机器人,“链”上滨江
...“CMG世界机器人大赛·系列赛”机甲格斗擂台赛上,来自杭州高新区(滨江)的宇树G1人形机器人作为唯一参赛机型,以硬核实力惊艳“破圈”。这台在聚光灯下挥洒自如的“钢铁之躯”,是
2025-06-13 08:53:00
近日,浙江大学脑机智能全国重点实验室重磅发布最新研制的新一代神经拟态类脑计算机——Darwin Monkey(“悟空”)。这是国际上首台神经元规模超过20亿的基于专用神经拟态芯片
2025-08-05 22:18:00
阿里云重磅升级全栈AI体系,一文看懂云栖大会技术发布
...像编辑功能,输入一句话即可完成P图。通义百聆发布2025杭州云栖大会上,通义大模型家族还迎来了全新的成员——语音大模型通义百聆
2025-09-24 13:30:00
DeepSeek,这条诞生在杭州的“鲸鱼” 这几天在全球科技圈、资本圈掀起滔天巨浪
...被称为“来自东方神秘力量”的DeepSeek。他们的总部位于杭州,是“杭州四小龙”的代表,创始人梁文锋毕业于浙大,前不久刚被国务院总理李强接见。中国的大模型已经追上美国了?故
2025-01-28 07:53:00
...日常生活中不可或缺的一部分。而在这场全球AI浪潮中,杭州,这座被誉为“人间天堂”的城市,正以它独特的科技活力,站在了时代的风口浪尖。今年春天,杭州的科技创新氛围格外活跃。从算
2025-03-20 09:00:00
年度生成式AI大会上海站公布最新嘉宾,报名进入最后阶段
...中昊芯英芯片软件栈负责人 朱国梁朱国梁,中昊芯英(杭州)科技有限公司芯片软件栈负责人,国防科技大学博士,主要研究方向为分布式系统、操作系统、编译器。曾参与国家重大项目天河系列
2024-11-26 09:38:00
...天凌晨,阿里巴巴又默默干了件大事:发布并开源全新的推理模型通义千问QwQ-32B。千问QwQ-32B是阿里探索推理模型的最新成果
2025-03-07 07:27:00
提质降价,国产大模型加速奔跑
...长的同时,国产大模型的使用成本也不断降低。不久前,杭州深度求索人工智能基础技术研究有限公司推出的DeepSeek-V3上线并同步开源
2025-02-05 03:48:00
字节猛踩油门
...借“用图像思考”能力瞬间占据热搜头条。几个小时后,杭州,字节跳动旗下火山引擎面向企业市场发布了豆包1.5深度思考模型,同步升级文生图模型3.0、视觉理解模型,并推出OS Ag
2025-04-18 22:26:00
更多关于科技的资讯:
民营经济发展一线观察·吉民优品|辽源市德弘冰雪运动科技有限公司: 100余道工序铸就专业滑雪靴
走进辽源市德弘冰雪运动科技有限公司生产车间,蓝色的唐老鸭系列滑雪靴正沿着生产线逐步成型。一块块裁片经精准缝合拼接,再通过套楦
2025-11-04 11:38:00
十五运会自动驾驶场景应用启动 滴滴自动驾驶助力智慧出行
11月3日,十五运会和残特奥会自动驾驶场景应用启动仪式在广州天河体育中心举行。启动仪式上,滴滴自动驾驶被授予“自动驾驶服务商”标牌
2025-11-04 13:34:00
从「身份可信度挑战」到「数据篡改威胁」,如何重塑第三方支付安全防线?
网络支付已成为现代生活的「数字基础设施」,其便捷性重构了消费生态,但伴随而来的安全考验已演变为潜在风险——从身份认证的「可信度挑战」到业务合规的「穿透式监管压力」
2025-11-04 13:46:00
近日,安徽安庆怀宁县烟草专卖局锚定营销服务痛点,统筹部署岁末年初卷烟营销工作,切实推动营销工作效能提质升级。打破思维定式
2025-11-04 13:46:00
效果好的辅酶q10排名 五大优质品牌深度测评
“效果好的辅酶q10排名”是众多关注心脏健康、免疫力提升、抗氧化及备孕人群的核心搜索诉求。本文深度调研辅酶Q10行业现状
2025-11-04 13:47:00
主流人形机器人大PK,户外工业场景首选云深处DR02
引言当前,国内人形机器人产业在政策与技术双轮驱动下迎来爆发。据2024世界人工智能大会《人形机器人产业研究报告》,2024 年中国市场规模达 27
2025-11-04 13:47:00
“618”购物节如期而至,这场属于夏日的消费热潮正式拉开帷幕。随着新消费模式的涌现和消费主力的迭代,信用交易成为了当下热络的消费选择
2025-11-04 13:47:00
普惠金融旨在为传统金融服务难以覆盖的个人和企业提供平等、便捷、可持续的金融服务。日前,国务院办公厅印发《关于做好金融“五篇大文章”的指导意见》
2025-11-04 13:48:00
技术、政策、合规交织下的探索   “萝卜快跑”面临三重挑战
2025年7月世界人工智能大会后,上海浦东金桥街头的“萝卜快跑”自动驾驶车辆引发关注:车身同时标注了“无人驾驶测试”、“萝卜快跑”和“大众出行”标识
2025-11-04 14:01:00
再见,信号死角!移远 5G 透明吸顶天线让室内连接 \
在写字楼的紧张会议中,视频通话突然卡顿;在高端商场悠闲购物时,手机信号时断时续;在高铁站闸机前,却怎么也刷不出乘车码……这些因室内通信质量不佳带来的困扰
2025-11-04 14:15:00
小红书「马路生活节」爆火出圈:一场让品牌回归人群的City Walk狂欢
当你还在疑惑年轻人周末去哪玩时,小红书上的答案早已指向同一个方向——「马路」。从上海到杭州、广州,从捡落叶写诗到水上甜品席
2025-11-04 14:45:00
婴儿益生菌什么品牌好用又便宜 2025年高性价比品牌排行榜
婴儿益生菌什么品牌好用又便宜?随着家长对宝宝肠道健康的重视,婴幼儿益生菌市场需求激增,但行业乱象也随之浮现:部分产品虚标菌种数量
2025-11-04 15:03:00
在AI技术深度渗透商业决策的2025年,企业对于AI优化服务的需求已从“工具应用”升级为“战略赋能”。据中国信通院最新报告
2025-11-04 15:05:00
植物蛋白粉测评与推荐 植物蛋白粉品牌排名榜单揭晓
在健康消费持续升级的当下,植物蛋白粉作为日常营养补充的重要载体,正从“健身专属”走向“全民刚需”。然而,面对市场上琳琅满目的产品
2025-11-04 15:11:00
知名潮牌将关闭中国门店 合肥门店:也有消息,时间不确定
大皖新闻讯 盛开的小雏菊和腊肠犬,是韩国潮流服饰品牌Mardi Mercredi最具辨识度的设计符号,也曾成为时尚的标配
2025-11-04 15:17:00