• 我的订阅
  • 科技

银河通用王鹤:用三维视觉小模型+基础大模型实现具身智能

类别:科技 发布时间:2024-04-15 10:13:00 来源:每日看点快看

本文转自:企业观察报

金旺

随着通用人工智能的浪潮来袭,具身智能也成了一个热门研究方向。

在近日上海举办的首届具身智能大会上,有专家认为,通用人工智能是人类一个永恒的目标,但很可能永远都达不到;有专家认为,大家对大数据和大模型关注度太高了,现在的人形机器人应该更多关注机器人本体。

而关于具身智能,身为北京大学计算机学院前沿计算研究中心(CFCS)助理教授、博士生导师,同时又是银河通用机器人公司创始人的王鹤认为,谷歌RT-2和Figure给出的不是最优解,三维视觉小模型+基础大模型会是实现具身智能的一条路径。

为什么这样认为。对此,王鹤在具身智能大会具身多模态大模型论坛上给出了解释,科技行者就这一演讲关键内容进行了不改变原意的整理:

机器人从动嘴到动手有多难

最近,具身多模态大模型非常火,我们看到了OpenAI和Figure的联合演示,也知道英伟达最近在GTC 2024上宣布了Project GR00T计划。这其中,一个重要问题是,通用机器人必须拥有一套通用的模型。

这样的模型有人叫它机器人基础大模型,也有人称为具身多模态大模型。它的本质是能够将语言、视觉和其他机器人本体(包括本体传感器)在内的融合信息当作输入信息,而输出的一定是动作,不只是动动嘴。

具身多模态大模型和非具身多模态大模型最大的区别是,能不能输出让机器人运动起来的动作指令。

实际上,谷歌是最早对这一问题进行探索的公司,他们这几年在RT系列上的工作备受全球关注。

例如,RT-1上就搭载了谷歌多模态大模型和多模态动作小模型,其中,大模型负责的是控制指令分解,例如打开抽屉,将物体从抽屉里拿出来等。

RT-2是一个更加端到端的系统,它的模型可以直接输出动作,而且是在一个完全开放环境中进行操作,可以做到“把香蕉放到第二个位置”“把草莓放到正确的碗里”。什么是“正确的”碗里,在这里很重要。

这其实是把多模态大模型背后的理解、规划、动作模型输出的交互能力融为了一体。这样的模型是端到端的视觉-语言-动作模型,直接输出机器人末端六自由度的位姿。

这类模型的出现,是否就意味着今天已经有了具身多模态大模型或机器人基础模型了呢?我个人的答案是,不是。

两大难题:泛化能力、响应速度

那么问题在哪里呢?第一个问题是泛化性差。

谷歌RT系列的动作数据,虽然覆盖了移动、抓取、放下这些移动场景中很多任务,但是场景非常单一,只是在谷歌的厨房里。这一模型在他们的厨房里执行任务的成功率相当高,数据显示,在这个场景中,它执行任务的成功率高达97%。但一旦出了这个厨房,到了一个不熟悉的环境中,RT-1执行任务的成功率就会大幅下降。

RT-2通过把互联网上的视频作为辅助训练数据,这在一定程度上提升了模型的泛化能力,但是由于进行数据采集的厨房里桌子的高度是固定的,一旦在真实世界里桌子的高度与训练数据中桌子的高度有较大差异,就无法再执行这样的动作。

即便如此,收集这些数据,谷歌依然花了上千万美金。

第二个问题是慢。

谷歌RT-2这样的端到端大模型,用55B的模型,运动频率只能做到1-3Hz,实际视频中展示出的运动效果都经过了加速。而Figure和OpenAI展示出的Demo是原倍数播放的,动作一气呵成,看起来非常舒服。

Figure背后的模型有多快呢?Figure给出的官方说法是,这个模型能达到200Hz的输出频率,也就是说,它执行动作的延时只有5ms,谷歌如果将模型压缩到5B,也只能达到50Hz,延时依然有200ms,比Figure慢了几十倍。

Figure的技术虽然快而且丝滑,但它背后也是基于一个单一任务场景进行了大量的数据采集,实际上也不具备泛化性。

真正又快、又有泛化性的技术可能是什么样的呢?

具身智能关键:三维视觉小模型

我认为一种有效的途径是使用三维视觉小模型。

三维视觉具有几何的泛化性,它看到的物体几何即使颜色不一样,场景发生变化后,同一个物体的几何也拥有极大的相似性。把各种物体放到足够多场景中进行仿真,甚至把传感器都放进去仿真,就有可能通过合成数据和Sim2Real训练出一个又快、泛化能力又强的三维小模型。

今天分享的是我们的三层级具身多模态大模型系统:

在这个系统中,底层是硬件层。

中间层是具身智能的技能模型。它们通过三维视觉和仿真数据Sim2Real学习到一系列技能,包括可泛化的自动建图、可泛化的地图导航、物体抓取、关节类物体操作、移动抓取操作、叠衣服、挂衣服等技能,这些都是三维视觉小模型。

上层是任务规划模型。用GPT-4V、Emu2等多模态大模型做任务规划者,通过它们来调用中间层的小模型。

一个指令进来后,大模型负责安排调用小模型,小模型执行完后,大模型根据状况,再研究下一步如何做。

例如,如何做到开放指令中的“关”。这需要覆盖很多任务,包括怎么打开一个从未见过的家用电器的门、拉抽屉、提盖子、打开微波炉、用榨汁机等,可以把它通俗地归纳为泛化的家用电器操作。

我们在2023年CVPR的论文GAPartNet提出了一个数据集,总结了家用电器9种常见的零部件。将真实世界里80%-90%的家用电器、家具上要用手操作的零部件进行了合成,形成了一个合成数据集,基于这个数据集,可以做到跨场景、跨类别的泛化。

一个机器人从未见过的柜子,可以分割出它的抽屉、把手,标注出把手的位姿,这样就可以实现跨类别、跨物体的泛化位姿。这是一个类别级位姿,可以告诉机器人从哪个方向去接近它、沿哪个方向去拉。这样的能力就能让机器人去执行开门、拉抽屉等动作。

这些都是基于三维视觉看到零部件的点云后,进行的感知+位姿估计+动作组合,这样的模型还可以在没有见过的物体类别上得到零部件的位姿和操作方法。

有了这些能力后,大模型如何调用这些小模型的API让机器人工作,就是我们最近在做的工作。

例如,看到一个从没见过的微波炉,GPT-4V不清楚它有哪些零部件。我们把基于三维视觉数据训练出的零部件分割和检测模型,在三维点云里所有零部件的数据检测出来,然后告诉GPT-4V,让GPT-4V生成关于这个场景的综合描述。

这样的描述可以是:这是一个微波炉,上面有一个转的门、一个直线型的手、一个按钮。

这时,只要给GPT-4V几个API端口,它就可以跨物体类别去调用这些API。在微波炉例子中,它就调用了抓取、绕轴转90°的API。这其中,抓取、绕轴转、90°都是它自己填写的。

三维视觉小模型负责告诉它抓的位置、转轴的位置,生成圆周的轨迹,这样就形成了机器人的动作。

在这个操作过程中,会遇到门强拉不开的问题。不断将相应的位姿反馈给机器人,它会根据上一次描述中的按钮,执行按按钮操作。这样,GPT4V作为一个大脑,不断反馈下一步应该怎么做、重新规划方案,就可以将门打开了。这就体现了大模型和三维视觉小模型互动,共同完成机器人操作任务。

那么什么是未来的多模态具身大模型或机器人基础模型?

一个思路是,类似于Figure的GPT-4V大模型在顶层,中间层是一些响应很快的小模型,如三维视觉小模型,最后形成了可泛化的任务执行能力。

那么,什么是终极具身智能呢?

什么时候能做到类脑模型,把所有的模态数据全放到数据集中,还能拥有足够快的响应速度,还能听得懂语义,就能做到真正的具身智能。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-04-15 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

...演变为动态的、智能的叙事参与者。关键词:数字 道具 模型 影视美术一、数字建模技术在道具创作中的核心应用数字建模技术的应用,为影视道具创作带来了从“做什么”到“如何做”的全方
2025-11-22 04:50:00
虚拟现实终于迎来了拐点?
...功实现了基于照片建模的云渲染/渲染加速,以及同拓扑模型与自动蒙皮绑定系统,不仅大幅提升了生产效率,更将传统的PGC模式逐渐转向了AIGC+UGC,有效拓宽了业务范围——如戚薇
2022-12-30 07:00:00
...伙伴联合推出首个具身智能智慧药房解决方案,由具身大模型机器人Galbot负责24小时无人值守运营。”银河通用市场部相关负责人武文韬表示,Galbot具备全球首个开放语义六自由
2025-03-27 13:07:00
彩色3D打印仕女图三维扫描数字化3d打印服务
...描仪设备获取仕女表面的三维点云数据,之后对三维点云模型优化处理。1、通过激光三维扫描设备获取仕女的三维模型2、优化三维模型,使模型完整,布线合理3、将优化后的模型进行UV划分
2023-02-28 10:20:00
“世界模拟器”的文化偏见与AIGC时代的文化竞争
...《捉妖记》海报。 赵宜OpenAI开发的文(图)生视频模型Sora演示素材发布后,再次在全球范围引发了对生成式人工智能的迭代进化及内容生成能力的关注。它可以根据
2024-04-10 10:41:00
文生视频让自动驾驶看到新方向
...工智能在AI技术应用中成为焦点,尤其是文本生成视频大模型Sora,近来更是在全球范围内激发了科技创新的热潮。香港科技大学(广州)人工智能学领域助理教授兼博士生导师陈颖聪教授,
2024-03-14 05:26:00
苏州创企,想要掀起一场三维重建的AI革命
...绍 3D 高斯溅射技术,这项技术使得大规模生成精细化 3D 模型成为可能。论文一经发出,便在计算机视觉领域引起极高关注。「这项技术具有划时代意义」,知天下创始人兼 CEO 宋
2024-04-28 11:00:00
...、开瓶盖,在日复一日大数据加持的交互学习中,具身大模型机器人训练出决策的“大脑”和执行的“小脑”,指挥日渐灵巧的“手”,能够独立完成越来越多的工作。北京银河通用机器人有限公司
2024-05-10 07:59:00
大道之行@共同富裕丨看中国视谷里的那些“黑科技”
...中轻轻一扫,一旁的显示屏上就出现了牙齿状况的3D数据模型。“这台口齿扫描仪省去了以往牙齿种植患者需要咬牙模、翻制石膏模型的繁琐环节,极大地提高了患者的诊疗效率。”先临三维科技
2023-12-15 22:20:00
更多关于科技的资讯:
1月8日,贵州省商务厅发布《关于发放家电产品以旧换新、数码和智能产品购新活动补贴券相关事项的公告》(下称《公告》),明确2026年贵州家电产品以旧换新
2026-01-09 23:02:00
人工智能、物联网与5G技术的成熟迭代,让智能家居家电产品从高端小众走向大众消费,成为现代家庭标配。近日,江苏省消费者权益保护委员会发布专项调查报告
2026-01-09 17:10:00
动漫周边衍生品热销
动漫周边行业作为文化产业的重要组成部分,近年来呈现出快速发展的态势。近日,记者走访位于北京王府井的一家大型动漫主题实体店发现
2026-01-09 17:10:00
“冻鲜互变”仍保鲜 保税区进口牛肉凭啥这么牛?
大河网讯 进口冰冻牛肉,由冻转鲜,再由鲜转冻……虽经多次变身,仍然“鲜”活诱人,这里的牛肉凭啥这么牛?1月8日,记者走进郑州新郑综合保税区首个生鲜产品加工项目——省重点项目南洋优鲜超级工厂
2026-01-09 17:18:00
《文旅短剧活力城市指数》年度报告日前发布,太原和重庆、大同、东莞等8座城市入选“最具创新价值城市”榜单。《文旅短剧活力城市指数》(简称《指数》)由中国人民大学新闻学院
2026-01-09 17:58:00
张宣科技:智维创新赋能氢冶金高效运行
河北新闻网讯(郭晓通、王杨、范俊慧)全球首例120万吨氢冶金示范工程一期项目高效运行,背后有着设备维护创新硬核支撑的努力
2026-01-09 18:13:00
贵定税务:“全链条服务”点亮眼镜零售行业“睛”彩路
多彩贵州网讯 “现在付款后消费者自己在手机上动动手指就能收到发票,节省了消费者的时间,也节约了我们的人力,税务部门的管理服务让我们经营更便捷了
2026-01-09 17:23:00
【劲牌故事荟 大家谈友好】“四个友好”引领劲牌构建健康可持续新生态
□谭金山(湖北省社科联“文安平”团队、宜昌市西陵区市场监管局)企业的发展如同时代浪潮中的一叶扁舟,既需乘风破浪,更需掌舵定向
2026-01-09 14:15:00
UU远程2026远程协助重磅升级:被控免登录、自定义验证码等率先上线
引言:网易UU远程2026年即将迎来远程协助升级三连,远程协助功能实现多场景全面升级近日,网易 UU 远程迎来 2026 年首次重磅版本更新
2026-01-09 14:18:00
清华大学携手阿里巴巴共筑AI安全防线 启动大模型与智能体安全研究
近日,阿里巴巴集团与清华大学签订协议,启动智能体与多模态安全产学研深度融合专项合作。双方此次合作为期5年,聚焦中国AI用户在真实应用场景中面临的核心安全挑战
2026-01-09 14:23:00
中国故事海外热播、“泰国模式”全球复制,爱奇艺探索流媒体出海的“长期主义”
2025年,是爱奇艺海外业务进入稳定期之后,增速最高的一年。第三季度,爱奇艺国际版日均会员数创下历史新高,海外会员收入同比增长超过40%
2026-01-09 14:53:00
为进一步优化知识产权服务供给,打通创新成果转化通道,提升知识产权公共服务效能,上饶市“人工智能+”知识产权大数据服务平台(http://shr
2026-01-09 15:04:00
从五金功能件制造者到智能睡眠守护者,喜安思“守护狮”的觉醒之路!
在珠江之畔制造业奔腾的脉搏里,总有一群敢想敢干敢拼的人,让这片沃土跃动出一个又一个传奇,而喜安思智能床垫就是其中之一,喜安思创始人梁富城与陈傲鹏更是其中佼佼者
2026-01-09 15:35:00
近日,【同程商旅】联合【曹操出行】,聚焦国内企业差旅交通全景,重磅发布《2026中国企业差旅交通出行数据研究报告》。发现价值“新流向”国际出行逆势增长
2026-01-09 15:35:00
悍高集团股份有限公司接待44家机构调研,战略清晰彰显经营韧性
随着家居行业逐步从增量市场迈向存量市场,家居五金企业如何找到新的增长曲线,成为考验企业战略定力与运营能力的关键。近期,悍高集团股份有限公司(董事长为悍高欧锦锋)接受包括百嘉基金
2026-01-09 15:35:00