• 我的订阅
  • 科技

银河通用王鹤:用三维视觉小模型+基础大模型实现具身智能

类别:科技 发布时间:2024-04-15 10:13:00 来源:每日看点快看

本文转自:企业观察报

金旺

随着通用人工智能的浪潮来袭,具身智能也成了一个热门研究方向。

在近日上海举办的首届具身智能大会上,有专家认为,通用人工智能是人类一个永恒的目标,但很可能永远都达不到;有专家认为,大家对大数据和大模型关注度太高了,现在的人形机器人应该更多关注机器人本体。

而关于具身智能,身为北京大学计算机学院前沿计算研究中心(CFCS)助理教授、博士生导师,同时又是银河通用机器人公司创始人的王鹤认为,谷歌RT-2和Figure给出的不是最优解,三维视觉小模型+基础大模型会是实现具身智能的一条路径。

为什么这样认为。对此,王鹤在具身智能大会具身多模态大模型论坛上给出了解释,科技行者就这一演讲关键内容进行了不改变原意的整理:

机器人从动嘴到动手有多难

最近,具身多模态大模型非常火,我们看到了OpenAI和Figure的联合演示,也知道英伟达最近在GTC 2024上宣布了Project GR00T计划。这其中,一个重要问题是,通用机器人必须拥有一套通用的模型。

这样的模型有人叫它机器人基础大模型,也有人称为具身多模态大模型。它的本质是能够将语言、视觉和其他机器人本体(包括本体传感器)在内的融合信息当作输入信息,而输出的一定是动作,不只是动动嘴。

具身多模态大模型和非具身多模态大模型最大的区别是,能不能输出让机器人运动起来的动作指令。

实际上,谷歌是最早对这一问题进行探索的公司,他们这几年在RT系列上的工作备受全球关注。

例如,RT-1上就搭载了谷歌多模态大模型和多模态动作小模型,其中,大模型负责的是控制指令分解,例如打开抽屉,将物体从抽屉里拿出来等。

RT-2是一个更加端到端的系统,它的模型可以直接输出动作,而且是在一个完全开放环境中进行操作,可以做到“把香蕉放到第二个位置”“把草莓放到正确的碗里”。什么是“正确的”碗里,在这里很重要。

这其实是把多模态大模型背后的理解、规划、动作模型输出的交互能力融为了一体。这样的模型是端到端的视觉-语言-动作模型,直接输出机器人末端六自由度的位姿。

这类模型的出现,是否就意味着今天已经有了具身多模态大模型或机器人基础模型了呢?我个人的答案是,不是。

两大难题:泛化能力、响应速度

那么问题在哪里呢?第一个问题是泛化性差。

谷歌RT系列的动作数据,虽然覆盖了移动、抓取、放下这些移动场景中很多任务,但是场景非常单一,只是在谷歌的厨房里。这一模型在他们的厨房里执行任务的成功率相当高,数据显示,在这个场景中,它执行任务的成功率高达97%。但一旦出了这个厨房,到了一个不熟悉的环境中,RT-1执行任务的成功率就会大幅下降。

RT-2通过把互联网上的视频作为辅助训练数据,这在一定程度上提升了模型的泛化能力,但是由于进行数据采集的厨房里桌子的高度是固定的,一旦在真实世界里桌子的高度与训练数据中桌子的高度有较大差异,就无法再执行这样的动作。

即便如此,收集这些数据,谷歌依然花了上千万美金。

第二个问题是慢。

谷歌RT-2这样的端到端大模型,用55B的模型,运动频率只能做到1-3Hz,实际视频中展示出的运动效果都经过了加速。而Figure和OpenAI展示出的Demo是原倍数播放的,动作一气呵成,看起来非常舒服。

Figure背后的模型有多快呢?Figure给出的官方说法是,这个模型能达到200Hz的输出频率,也就是说,它执行动作的延时只有5ms,谷歌如果将模型压缩到5B,也只能达到50Hz,延时依然有200ms,比Figure慢了几十倍。

Figure的技术虽然快而且丝滑,但它背后也是基于一个单一任务场景进行了大量的数据采集,实际上也不具备泛化性。

真正又快、又有泛化性的技术可能是什么样的呢?

具身智能关键:三维视觉小模型

我认为一种有效的途径是使用三维视觉小模型。

三维视觉具有几何的泛化性,它看到的物体几何即使颜色不一样,场景发生变化后,同一个物体的几何也拥有极大的相似性。把各种物体放到足够多场景中进行仿真,甚至把传感器都放进去仿真,就有可能通过合成数据和Sim2Real训练出一个又快、泛化能力又强的三维小模型。

今天分享的是我们的三层级具身多模态大模型系统:

在这个系统中,底层是硬件层。

中间层是具身智能的技能模型。它们通过三维视觉和仿真数据Sim2Real学习到一系列技能,包括可泛化的自动建图、可泛化的地图导航、物体抓取、关节类物体操作、移动抓取操作、叠衣服、挂衣服等技能,这些都是三维视觉小模型。

上层是任务规划模型。用GPT-4V、Emu2等多模态大模型做任务规划者,通过它们来调用中间层的小模型。

一个指令进来后,大模型负责安排调用小模型,小模型执行完后,大模型根据状况,再研究下一步如何做。

例如,如何做到开放指令中的“关”。这需要覆盖很多任务,包括怎么打开一个从未见过的家用电器的门、拉抽屉、提盖子、打开微波炉、用榨汁机等,可以把它通俗地归纳为泛化的家用电器操作。

我们在2023年CVPR的论文GAPartNet提出了一个数据集,总结了家用电器9种常见的零部件。将真实世界里80%-90%的家用电器、家具上要用手操作的零部件进行了合成,形成了一个合成数据集,基于这个数据集,可以做到跨场景、跨类别的泛化。

一个机器人从未见过的柜子,可以分割出它的抽屉、把手,标注出把手的位姿,这样就可以实现跨类别、跨物体的泛化位姿。这是一个类别级位姿,可以告诉机器人从哪个方向去接近它、沿哪个方向去拉。这样的能力就能让机器人去执行开门、拉抽屉等动作。

这些都是基于三维视觉看到零部件的点云后,进行的感知+位姿估计+动作组合,这样的模型还可以在没有见过的物体类别上得到零部件的位姿和操作方法。

有了这些能力后,大模型如何调用这些小模型的API让机器人工作,就是我们最近在做的工作。

例如,看到一个从没见过的微波炉,GPT-4V不清楚它有哪些零部件。我们把基于三维视觉数据训练出的零部件分割和检测模型,在三维点云里所有零部件的数据检测出来,然后告诉GPT-4V,让GPT-4V生成关于这个场景的综合描述。

这样的描述可以是:这是一个微波炉,上面有一个转的门、一个直线型的手、一个按钮。

这时,只要给GPT-4V几个API端口,它就可以跨物体类别去调用这些API。在微波炉例子中,它就调用了抓取、绕轴转90°的API。这其中,抓取、绕轴转、90°都是它自己填写的。

三维视觉小模型负责告诉它抓的位置、转轴的位置,生成圆周的轨迹,这样就形成了机器人的动作。

在这个操作过程中,会遇到门强拉不开的问题。不断将相应的位姿反馈给机器人,它会根据上一次描述中的按钮,执行按按钮操作。这样,GPT4V作为一个大脑,不断反馈下一步应该怎么做、重新规划方案,就可以将门打开了。这就体现了大模型和三维视觉小模型互动,共同完成机器人操作任务。

那么什么是未来的多模态具身大模型或机器人基础模型?

一个思路是,类似于Figure的GPT-4V大模型在顶层,中间层是一些响应很快的小模型,如三维视觉小模型,最后形成了可泛化的任务执行能力。

那么,什么是终极具身智能呢?

什么时候能做到类脑模型,把所有的模态数据全放到数据集中,还能拥有足够快的响应速度,还能听得懂语义,就能做到真正的具身智能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-15 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...演变为动态的、智能的叙事参与者。关键词:数字 道具 模型 影视美术一、数字建模技术在道具创作中的核心应用数字建模技术的应用,为影视道具创作带来了从“做什么”到“如何做”的全方
2025-11-22 04:50:00
虚拟现实终于迎来了拐点?
...功实现了基于照片建模的云渲染/渲染加速,以及同拓扑模型与自动蒙皮绑定系统,不仅大幅提升了生产效率,更将传统的PGC模式逐渐转向了AIGC+UGC,有效拓宽了业务范围——如戚薇
2022-12-30 07:00:00
...伙伴联合推出首个具身智能智慧药房解决方案,由具身大模型机器人Galbot负责24小时无人值守运营。”银河通用市场部相关负责人武文韬表示,Galbot具备全球首个开放语义六自由
2025-03-27 13:07:00
彩色3D打印仕女图三维扫描数字化3d打印服务
...描仪设备获取仕女表面的三维点云数据,之后对三维点云模型优化处理。1、通过激光三维扫描设备获取仕女的三维模型2、优化三维模型,使模型完整,布线合理3、将优化后的模型进行UV划分
2023-02-28 10:20:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...《捉妖记》海报。 赵宜OpenAI开发的文(图)生视频模型Sora演示素材发布后,再次在全球范围引发了对生成式人工智能的迭代进化及内容生成能力的关注。它可以根据
2024-04-10 10:41:00
文生视频让自动驾驶看到新方向
...工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora,近来更是在全球范围内激发了科技创新的热潮。香港科技大学(广州)人工智能学领域助理教授兼博士生导师陈颖聪教授,
2024-03-14 05:26:00
苏州创企,想要掀起一场三维重建的AI革命
...绍 3D 高斯溅射技术,这项技术使得大规模生成精细化 3D 模型成为可能。论文一经发出,便在计算机视觉领域引起极高关注。「这项技术具有划时代意义」,知天下创始人兼 CEO 宋
2024-04-28 11:00:00
...、开瓶盖,在日复一日大数据加持的交互学习中,具身大模型机器人训练出决策的“大脑”和执行的“小脑”,指挥日渐灵巧的“手”,能够独立完成越来越多的工作。北京银河通用机器人有限公司
2024-05-10 07:59:00
大道之行@共同富裕丨看中国视谷里的那些“黑科技”
...中轻轻一扫,一旁的显示屏上就出现了牙齿状况的3D数据模型。“这台口齿扫描仪省去了以往牙齿种植患者需要咬牙模、翻制石膏模型的繁琐环节,极大地提高了患者的诊疗效率。”先临三维科技
2023-12-15 22:20:00
更多关于科技的资讯:
2月27日下午,2026年江苏省城市足球联赛(苏超)小微企业商务遴选合作抽签结果正式公布。在众多中签企业中,苏州市谷系列产业园开发有限公司脱颖而出
2026-03-05 03:13:00
“我这几件春装要上新,帮我做个视频,模特风格清新一点,背景偏户外。”2月27日,在江苏省沭阳县沭智工坊OPC社区,溪泊信息科技(江苏)有限公司总经理周倜对着电脑说出需求
2026-03-05 03:13:00
2026年GEO优化力量崛起,犀牛GEO优化如何成为众多服务商中的黑马?
进入2026年,互联网流量逻辑发生了根本性逆转。传统SEO(搜索引擎优化)的时代已经落幕,取而代之的是GEO(生成式引擎优化)
2026-03-04 22:55:00
能写提纲 能生成稿件 大皖新闻两会报道组有了智能体助手
大皖新闻讯 3月3日,大皖新闻2026年全国两会报道组抵达北京,正式开启全国两会报道工作。继2026年安徽省两会期间
2026-03-04 21:35:00
纽约街头灯火阑珊,义乌市芮行进出口有限公司总经理李慧丹结束了一整天密集的客户拜访与市场调研后,依旧埋头在电脑前,复盘需求反馈
2026-03-04 21:47:00
鱼跃旗下普美康半自动体外除颤器(AED)系列新品在京东健康全网首发
3月4日,鱼跃医疗旗下普美康全新一代Heartsave H8半自动体外除颤器(AED)多款型号在京东健康平台全网首发。该系列AED设备以“小巧便携
2026-03-04 14:36:00
当数字金融成为金融业转型的必答题,金融租赁公司的数智化升级,早已不是选择题,而是生存题。在国产化浪潮席卷而来的当下,浦银金租与电科金仓的携手
2026-03-04 14:37:00
鲁网3月4日讯深入剖析国内先行地区的成功案例可见,人才发展集团成长轨迹呈现清晰的演进逻辑:早期依托政府“哺育”奠定发展基础
2026-03-04 14:39:00
那拉集团二十周年庆典 一场关于特色乳业未来的深度对话即将拉开帷幕
当三月的春风拂过古都西安,一场关于特色乳业未来的深度对话即将拉开帷幕。2026年3月20日,那拉集团二十周年庆典不仅是一场企业的生日宴会
2026-03-04 14:41:00
成人纸尿裤推荐品牌:专业护理视角下的市场优选指南
随着人口老龄化程度加深,成人失禁护理已成为家庭护理的重要议题。选择一款合适的成人纸尿裤,不仅关乎使用者的生理舒适,更直接影响其生活质量与尊严维护
2026-03-04 15:12:00
家庭影院电视推荐,有娃家庭的安心之选:海信激光电视星光S1纯享版
作为一名孩子妈,同时也是家里的“家电决策人”,我曾为客厅该买哪种百寸大屏电视纠结了整整三个月。因为我既想要画质好、声音震撼
2026-03-04 15:16:00
鲁网3月4日讯为积极响应总省行科技赋能创新服务、提升公共事业缴费服务能力的号召,近期,工行枣庄分行成功投产基于全新GTCG引擎的枣庄鸿阳热力缴费项目
2026-03-04 16:24:00
南方电网册亨供电局:无人机巡检 保障复工复产用电安全
随着各行各业复工复产,用电需求持续攀升。近日,南方电网册亨供电局运用无人机对辖区内配电线路、杆塔设备及通道环境开展排查
2026-03-04 16:47:00
潍坊如何下好“人工智能”这盘棋?
鲁网3月4日讯(记者 王玉龙)日前举行的全市工作动员大会上,“六个坚定不移”勾勒出潍坊2026全年乃至以后数年的发展路线图
2026-03-04 16:58:00