• 我的订阅
  • 科技

银河通用王鹤:用三维视觉小模型+基础大模型实现具身智能

类别:科技 发布时间:2024-04-15 10:13:00 来源:每日看点快看

本文转自:企业观察报

金旺

随着通用人工智能的浪潮来袭,具身智能也成了一个热门研究方向。

在近日上海举办的首届具身智能大会上,有专家认为,通用人工智能是人类一个永恒的目标,但很可能永远都达不到;有专家认为,大家对大数据和大模型关注度太高了,现在的人形机器人应该更多关注机器人本体。

而关于具身智能,身为北京大学计算机学院前沿计算研究中心(CFCS)助理教授、博士生导师,同时又是银河通用机器人公司创始人的王鹤认为,谷歌RT-2和Figure给出的不是最优解,三维视觉小模型+基础大模型会是实现具身智能的一条路径。

为什么这样认为。对此,王鹤在具身智能大会具身多模态大模型论坛上给出了解释,科技行者就这一演讲关键内容进行了不改变原意的整理:

机器人从动嘴到动手有多难

最近,具身多模态大模型非常火,我们看到了OpenAI和Figure的联合演示,也知道英伟达最近在GTC 2024上宣布了Project GR00T计划。这其中,一个重要问题是,通用机器人必须拥有一套通用的模型。

这样的模型有人叫它机器人基础大模型,也有人称为具身多模态大模型。它的本质是能够将语言、视觉和其他机器人本体(包括本体传感器)在内的融合信息当作输入信息,而输出的一定是动作,不只是动动嘴。

具身多模态大模型和非具身多模态大模型最大的区别是,能不能输出让机器人运动起来的动作指令。

实际上,谷歌是最早对这一问题进行探索的公司,他们这几年在RT系列上的工作备受全球关注。

例如,RT-1上就搭载了谷歌多模态大模型和多模态动作小模型,其中,大模型负责的是控制指令分解,例如打开抽屉,将物体从抽屉里拿出来等。

RT-2是一个更加端到端的系统,它的模型可以直接输出动作,而且是在一个完全开放环境中进行操作,可以做到“把香蕉放到第二个位置”“把草莓放到正确的碗里”。什么是“正确的”碗里,在这里很重要。

这其实是把多模态大模型背后的理解、规划、动作模型输出的交互能力融为了一体。这样的模型是端到端的视觉-语言-动作模型,直接输出机器人末端六自由度的位姿。

这类模型的出现,是否就意味着今天已经有了具身多模态大模型或机器人基础模型了呢?我个人的答案是,不是。

两大难题:泛化能力、响应速度

那么问题在哪里呢?第一个问题是泛化性差。

谷歌RT系列的动作数据,虽然覆盖了移动、抓取、放下这些移动场景中很多任务,但是场景非常单一,只是在谷歌的厨房里。这一模型在他们的厨房里执行任务的成功率相当高,数据显示,在这个场景中,它执行任务的成功率高达97%。但一旦出了这个厨房,到了一个不熟悉的环境中,RT-1执行任务的成功率就会大幅下降。

RT-2通过把互联网上的视频作为辅助训练数据,这在一定程度上提升了模型的泛化能力,但是由于进行数据采集的厨房里桌子的高度是固定的,一旦在真实世界里桌子的高度与训练数据中桌子的高度有较大差异,就无法再执行这样的动作。

即便如此,收集这些数据,谷歌依然花了上千万美金。

第二个问题是慢。

谷歌RT-2这样的端到端大模型,用55B的模型,运动频率只能做到1-3Hz,实际视频中展示出的运动效果都经过了加速。而Figure和OpenAI展示出的Demo是原倍数播放的,动作一气呵成,看起来非常舒服。

Figure背后的模型有多快呢?Figure给出的官方说法是,这个模型能达到200Hz的输出频率,也就是说,它执行动作的延时只有5ms,谷歌如果将模型压缩到5B,也只能达到50Hz,延时依然有200ms,比Figure慢了几十倍。

Figure的技术虽然快而且丝滑,但它背后也是基于一个单一任务场景进行了大量的数据采集,实际上也不具备泛化性。

真正又快、又有泛化性的技术可能是什么样的呢?

具身智能关键:三维视觉小模型

我认为一种有效的途径是使用三维视觉小模型。

三维视觉具有几何的泛化性,它看到的物体几何即使颜色不一样,场景发生变化后,同一个物体的几何也拥有极大的相似性。把各种物体放到足够多场景中进行仿真,甚至把传感器都放进去仿真,就有可能通过合成数据和Sim2Real训练出一个又快、泛化能力又强的三维小模型。

今天分享的是我们的三层级具身多模态大模型系统:

在这个系统中,底层是硬件层。

中间层是具身智能的技能模型。它们通过三维视觉和仿真数据Sim2Real学习到一系列技能,包括可泛化的自动建图、可泛化的地图导航、物体抓取、关节类物体操作、移动抓取操作、叠衣服、挂衣服等技能,这些都是三维视觉小模型。

上层是任务规划模型。用GPT-4V、Emu2等多模态大模型做任务规划者,通过它们来调用中间层的小模型。

一个指令进来后,大模型负责安排调用小模型,小模型执行完后,大模型根据状况,再研究下一步如何做。

例如,如何做到开放指令中的“关”。这需要覆盖很多任务,包括怎么打开一个从未见过的家用电器的门、拉抽屉、提盖子、打开微波炉、用榨汁机等,可以把它通俗地归纳为泛化的家用电器操作。

我们在2023年CVPR的论文GAPartNet提出了一个数据集,总结了家用电器9种常见的零部件。将真实世界里80%-90%的家用电器、家具上要用手操作的零部件进行了合成,形成了一个合成数据集,基于这个数据集,可以做到跨场景、跨类别的泛化。

一个机器人从未见过的柜子,可以分割出它的抽屉、把手,标注出把手的位姿,这样就可以实现跨类别、跨物体的泛化位姿。这是一个类别级位姿,可以告诉机器人从哪个方向去接近它、沿哪个方向去拉。这样的能力就能让机器人去执行开门、拉抽屉等动作。

这些都是基于三维视觉看到零部件的点云后,进行的感知+位姿估计+动作组合,这样的模型还可以在没有见过的物体类别上得到零部件的位姿和操作方法。

有了这些能力后,大模型如何调用这些小模型的API让机器人工作,就是我们最近在做的工作。

例如,看到一个从没见过的微波炉,GPT-4V不清楚它有哪些零部件。我们把基于三维视觉数据训练出的零部件分割和检测模型,在三维点云里所有零部件的数据检测出来,然后告诉GPT-4V,让GPT-4V生成关于这个场景的综合描述。

这样的描述可以是:这是一个微波炉,上面有一个转的门、一个直线型的手、一个按钮。

这时,只要给GPT-4V几个API端口,它就可以跨物体类别去调用这些API。在微波炉例子中,它就调用了抓取、绕轴转90°的API。这其中,抓取、绕轴转、90°都是它自己填写的。

三维视觉小模型负责告诉它抓的位置、转轴的位置,生成圆周的轨迹,这样就形成了机器人的动作。

在这个操作过程中,会遇到门强拉不开的问题。不断将相应的位姿反馈给机器人,它会根据上一次描述中的按钮,执行按按钮操作。这样,GPT4V作为一个大脑,不断反馈下一步应该怎么做、重新规划方案,就可以将门打开了。这就体现了大模型和三维视觉小模型互动,共同完成机器人操作任务。

那么什么是未来的多模态具身大模型或机器人基础模型?

一个思路是,类似于Figure的GPT-4V大模型在顶层,中间层是一些响应很快的小模型,如三维视觉小模型,最后形成了可泛化的任务执行能力。

那么,什么是终极具身智能呢?

什么时候能做到类脑模型,把所有的模态数据全放到数据集中,还能拥有足够快的响应速度,还能听得懂语义,就能做到真正的具身智能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-15 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...演变为动态的、智能的叙事参与者。关键词:数字 道具 模型 影视美术一、数字建模技术在道具创作中的核心应用数字建模技术的应用,为影视道具创作带来了从“做什么”到“如何做”的全方
2025-11-22 04:50:00
虚拟现实终于迎来了拐点?
...功实现了基于照片建模的云渲染/渲染加速,以及同拓扑模型与自动蒙皮绑定系统,不仅大幅提升了生产效率,更将传统的PGC模式逐渐转向了AIGC+UGC,有效拓宽了业务范围——如戚薇
2022-12-30 07:00:00
...伙伴联合推出首个具身智能智慧药房解决方案,由具身大模型机器人Galbot负责24小时无人值守运营。”银河通用市场部相关负责人武文韬表示,Galbot具备全球首个开放语义六自由
2025-03-27 13:07:00
彩色3D打印仕女图三维扫描数字化3d打印服务
...描仪设备获取仕女表面的三维点云数据,之后对三维点云模型优化处理。1、通过激光三维扫描设备获取仕女的三维模型2、优化三维模型,使模型完整,布线合理3、将优化后的模型进行UV划分
2023-02-28 10:20:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...《捉妖记》海报。 赵宜OpenAI开发的文(图)生视频模型Sora演示素材发布后,再次在全球范围引发了对生成式人工智能的迭代进化及内容生成能力的关注。它可以根据
2024-04-10 10:41:00
文生视频让自动驾驶看到新方向
...工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora,近来更是在全球范围内激发了科技创新的热潮。香港科技大学(广州)人工智能学领域助理教授兼博士生导师陈颖聪教授,
2024-03-14 05:26:00
苏州创企,想要掀起一场三维重建的AI革命
...绍 3D 高斯溅射技术,这项技术使得大规模生成精细化 3D 模型成为可能。论文一经发出,便在计算机视觉领域引起极高关注。「这项技术具有划时代意义」,知天下创始人兼 CEO 宋
2024-04-28 11:00:00
...、开瓶盖,在日复一日大数据加持的交互学习中,具身大模型机器人训练出决策的“大脑”和执行的“小脑”,指挥日渐灵巧的“手”,能够独立完成越来越多的工作。北京银河通用机器人有限公司
2024-05-10 07:59:00
大道之行@共同富裕丨看中国视谷里的那些“黑科技”
...中轻轻一扫,一旁的显示屏上就出现了牙齿状况的3D数据模型。“这台口齿扫描仪省去了以往牙齿种植患者需要咬牙模、翻制石膏模型的繁琐环节,极大地提高了患者的诊疗效率。”先临三维科技
2023-12-15 22:20:00
更多关于科技的资讯:
胶东在线3月5日讯(通讯员 史振华 徐冰鑫)3月初,山东移动龙口分公司(以下简称“龙口移动”)携手山东裕龙石化产业园,共同打造的智慧园区一体化管理平台项目圆满收官
2026-03-05 14:02:00
今年春晚,《武BOT》惊艳了世界,仅仅一两年的时间,中国的具身智能机器人产业便迎来了质的飞跃,让国人震撼,世界惊叹。在这场全球的机器人产业浪潮中
2026-03-05 14:03:00
新奥受邀加入国际聚变核心协作平台ITPEA
河北新闻网讯(张新)近日,新奥集团所属能源研究院收到国际能源署(IEA)托卡马克技术合作计划执行委员会的正式邀请,成功加入该机制
2026-03-05 11:27:00
张宣科技:体系强基 打造品牌效益新格局
河北新闻网讯(王杨、赵兰季、石磊英)近年来,河钢集团张宣科技以“科技创新、绿色发展”为战略引领,紧扣“品牌拓市、绿色溢价”核心主线
2026-03-05 11:27:00
河北新闻网讯(贾蒙蒙、白一雄)近日,第三届雄安未来之城场景汇首批需求清单印发,廊坊开发区12项场景成功入选,涵盖空间信息
2026-03-05 11:29:00
鲁网3月5日讯近日,国家知识产权局公布了新一批国家知识产权示范企业名单,位于山东省泰安市泰山区徐家楼街道的普瑞特机械制造股份有限公司荣耀上榜
2026-03-05 13:42:00
超3万个岗位!杭州这场盛会即将开启,欢迎你来!
1200余家优质单位,超3万个岗位!2026“起跑春天”杭州青年人才交流大会将于3月14日启幕,想找工作的人别错过哦!这是杭州市年度较大规模的线下人才招聘会
2026-03-05 11:58:00
全国两会期间,短剧行业高质量发展成为代表委员热议的文化话题。作为数字文化产业的新兴力量,短剧以轻量化表达、大众化传播,成为丰富文化供给
2026-03-05 12:57:00
3月4日,上海报业集团旗下财联社、《科创板日报》 “2025中国AI+应用Top50”优秀案例正式揭晓,罗普特(股票代码
2026-03-05 11:01:00
舒爱民不想穿的衣服鞋子、有划痕的旧家具、不再喜欢的摆件、闲置的小电器……藏在街巷里的二手店铺,成了兼具温度与环保意义的消费新场景
2026-03-05 11:09:00
商报讯 曾在去年连涨三次、让众多羽毛球爱好者直呼“打不起”的羽毛球,终于迎来价格回落。自2月下旬起,以威克多、亚狮龙为首的近十个知名品牌密集宣布下调产品价格
2026-03-05 08:56:00
厦门网讯(厦门日报记者 应洁 林岑)加快推动创新链、资金链、人才链深度赋能产业链,我市持续在“链”上精准发力,以县域重点产业链作为发展县域经济的关键引擎与重要抓手
2026-03-05 09:19:00
3月3日,爱达邮轮宣布3月5日正式推出为期一个月的“2026邮轮狂欢节”,通过线上系列活动,让更多中国消费者了解邮轮旅行,推动邮轮文化的传播,助力上海乃至全国邮轮经济的高质量发展
2026-03-05 09:10:00
2月3日,由北京凯声文化传媒有限责任公司牵头起草、中国生产力学会标准化工作委员会发布的《儿童故事机》(T/CAPS 086-2026)团体标准正式出台
2026-03-05 08:08:00
杭州日报讯 开栏语杭州,金融强市、民营经济大市,发展脉动中始终跃动着两股同频共振的强劲节拍。金融如何真正赋能实体?创新产品如何精准触达
2026-03-05 06:54:00