• 我的订阅
  • 科技

机器人轻松模仿人类,还能泛化到不同任务和智能体

类别:科技 发布时间:2024-10-23 12:05:00 来源:量子位

让机械臂模仿人类动作的新方法来了,不怕缺高质量机器人数据的那种。

微软提出图像目标表示(IGOR,Image-GOal Representation),“投喂”模型人类与现实世界的交互数据。

IGOR能直接为人类和机器人学习一个统一的动作表示空间,实现跨任务和智能体的知识迁移以及下游任务效果的提升。

要知道,在训练具身智能领域的基础模型时,高质量带有标签的机器人数据是保证模型质量的关键,而直接采集机器人数据成本较高。

考虑到互联网视频数据中也展示了丰富的人类活动,包括人类是如何与现实世界中的各种物体进行交互的,由此来自微软的研究团队提出了IGOR。

机器人轻松模仿人类,还能泛化到不同任务和智能体

究竟怎样才能学到人类和机器人统一的动作表示呢?

IGOR框架解读

IGOR框架如下所示,包含三个基础模型:

Latent Action Model、Policy Model和World Model。

机器人轻松模仿人类,还能泛化到不同任务和智能体

具体来说,IGOR先是提出了潜在动作模型LAM(Latent Action Model),将初始状态和目标状态之间的视觉变化压缩为低维向量,并通过最小化初始状态和动作向量对目标状态的重建损失来进行训练。

这样一来,具有相似视觉变化的图像状态将具有相似的动作向量,代表了他们在语义空间而非像素空间上的变化。

通过LAM,可以将互联网规模的视频数据转化为带有潜在动作标注的数据,大大扩展了具身智能基础模型能够使用的数据量。

这个统一的潜在动作空间使团队能够在几乎任意由机器人和人类执行的任务上训练Policy Model和World Model。

通过结合LAM和World Model,IGOR成功地将一个视频中的物体运动“迁移”到其他视频中。并且,这些动作实现了跨任务和跨智能体的迁移。

也就是说,用人的行为给机器人做演示,机器人也能做出正确的动作。如下图所示,LAM得到的潜在动作表示可以同时实现跨任务(用手移动不同物体)和跨智能体(用手的移动指导机械臂的移动)的迁移。

机器人轻松模仿人类,还能泛化到不同任务和智能体

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Latent Action实现跨任务和智能体的迁移

以下是模型架构的具体细节。

Latent Action Model

LAM的目标是以无监督的方式从互联网规模的视频数据中学习和标注潜在动作,即给定视频帧序列,对于每一对相邻帧提取潜在动作表示。

为此,LAM模型由一个Inverse Dynamic Model(IDM)和Forward Dynamic Model(FDM)组成。

IDM的从视频帧序列中提取潜在动作表示,而FDM负责用学到的表示和当前视频帧来重建接下来的视频帧。

由于将潜在动作表示限定在较低的维度,因此LAM模型会将两帧之间语义上的区别学习到之中。

值得注意的是,这种方式天然保证了学到的潜在动作是具有泛化性的。

如下图所示, 在未见数据集上,LAM学到的相似潜在动作反映了相似的语义,包括打开夹子、机械臂向左移动和关闭夹子,这些潜在动作在不同任务间共享,进而提升下游模型的泛化性。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Latent Action Model在未见数据集上的表现

Foundation World Model

World Model的作用是根据历史视频帧和未来多帧的潜在动作表示,生成在历史帧的基础上执行各个潜在动作之后的未来视频帧。

为此,研究人员选择从预训练的视频生成模型上进行微调,将条件从文本换成了潜在动作表示和FDM的重建输出。

在具身智能的相关数据集上进行微调之后,研究人员观察到World Model可以成功地在给定相同历史帧时,针对不同的潜在动作表示生成相对应的未来视频帧。

如下图所示,此方法可以通过潜在动作和World Model控制不同物体的独立移动。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△World Model对于给定的不同潜在动作表示时的生成结果

Foundation Policy Model

Policy Model的目标是在具体的下游任务上,根据视频帧和文本指令来预测智能体每一步要采取的动作。

在IGOR中,它的训练分为了两个阶段。

在第一阶段,Policy Model将根据输入的视频帧和文本指令来预测LAM提取出的相应的潜在运动表示,从而建立从视频帧到通用潜在运动表示的映射。

在第二阶段,该模型则会根据文本指令、视频帧以及第一阶段模型预测出来的潜在动作表示共同预测下游任务上具体的运动标签。

和现有模型相比,第一阶段预测出的潜在动作表示蕴含了完成该任务需要达成的短期目标,丰富了模型的输入信息,因此提升了最终策略的任务成功率,如下图所示。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Policy Model在下游机器人任务上的表现

在相同的场景下给定不同的文本指令,研究人员也验证了Policy Model的有效性,即模型可以根据不同的指令生成相应的潜在动作表示,进而通过World Model模拟执行相应的指令。

机器人轻松模仿人类,还能泛化到不同任务和智能体

△Policy Model和World Model对于不同文本指令的生成结果

总的来说,IGOR提出了通过大量人类和机器人视频预训练学习动作表示并泛化到不同任务和智能体的新方法。通过从大量视频中学到的动作表示,IGOR可以实现机器人轻松模仿人类动作,进而实现更通用的智能体。

项目主页:https://aka.ms/project-igor论文:https://aka.ms/project-igor-paper

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-10-23 15:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

探索人形机器人的奥秘(开卷知新)
...铸造了金属巨人塔罗斯以守护家园;经典科幻作品《我,机器人》畅想2035年机器人不仅具备高超的运动能力,还衍生出人类情感,高度融入人类生活。如今,随着人工智能与机器人技术迅猛发
2024-07-16 05:59:00
...种新的方式,帮助人工智能(AI)系统在编码、战略规划和机器人科学三个领域执行复杂推理任务。聊天生成预训练转换器(ChatGPT)和“克劳德3-奥普斯”(Claude 3 Opus)等大语言模型(LLM)
2024-06-12 18:15:00
我们去看了智元机器人的「数采厂」,等等!这不是《星球大战》片场吗?
...025年初,我们了解到一件事,国内具身智能独角兽“智元机器人”(就是B站知名UP主“稚晖君”当CTO的那家公司),在上海,建了一座“数据采集工厂”(简称“数采厂”)。这是啥?
2025-01-24 06:34:00
OpenAI家庭机器人NEO登场,动作丝滑逼近人类!穿着西装的「人」却专做家务
...OpenAI支持的明星初创1X Technologies,发布了最新的通用家务机器人NEO。不仅外形自然拟人,还有仿生设计带来的丝滑动作
2024-09-02 13:33:00
来,看看机器人的“类人生活”(瞰前沿)
...日报图①:第二十七届中国北京国际科技产业博览会上,机器人在“点赞”。宋家儒摄(影像中国)图②:2025年贵州“村超”40强交叉赛的比赛间隙,机器人进行趣味足球赛。新华社记者
2025-05-24 05:40:00
稚晖君独家撰文:具身智能即将为通用机器人补全最后一块拼图
...某产业智能论坛上提出,随着基础模型的突破,通用智能机器人(具身智能)是未来的发展方向。在产业界,微软、谷歌、英伟达等大厂均开展了相关研究
2023-08-28 16:38:00
清华全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶热榜
...证了 RDT 大模型的诞生,它就像 “小脑” 一样负责控制机器人的运动。同行看后纷纷表示:有了十亿参数的 RDT
2024-10-21 09:55:00
GR-2登场!ByteDance Research提出机器人大模型,具备世界建模
最近,ByteDance Research 的第二代机器人大模型 —— GR-2,终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性
2024-10-10 09:57:00
本文转自:人民网电影《流浪地球2》中,人工智能机器人550W量子计算机“小苔藓”、四足仿生机器人机械狗“笨笨”受到了观众的喜爱与关注。事实上,不少科幻电影中的机器人并非特效制作,
2023-03-14 10:10:00
更多关于科技的资讯:
拾亿圆赋能商业新想象,Eleven Homebar重塑年轻人轻社交
当城市的夜幕垂下,白天的喧嚣却并未沉寂,而是悄然转化为了另一种生机勃勃的形态。对于越来越多的年轻人而言,夜间已经成为生活的重要时段
2025-09-12 13:56:00
唐山港京唐港区首台智慧生态机器人上岗
河北新闻网讯(任小霞、王育民)9月8日,唐山港京唐港区矿石码头首台智慧生态机器人正式上岗。这台机器人具有灵敏感知、快速决策
2025-09-12 13:57:00
360联盟合作伙伴大会圆满落幕,共探AI时代广告联盟破界增长之道
随着AI技术在数字营销领域的深入应用,营销行业正朝着技术驱动、效率提升和生态协同的方向不断进化,也为行业参与者带来了更加多元的发展机遇
2025-09-12 13:57:00
河北新闻网讯(刘蕾、师源)9月10日,唐山高新区商务局举办“数智浪潮・无界跨境”唐山内转外专享外贸峰会,全市130余家意向“出海”企业参会
2025-09-12 13:57:00
北京大学医学博士陶勇教授携手Blueglass,推出联名护眼酸奶“叶黄素太空益生菌黑加仑益生菌含酸奶饮”
当眼科专家遇上健康食品创新,一场关于眼部健康的饮食革命正在悄然发生。北京大学医学博士陶勇教授与高端现制酸奶品牌Blueglass正式联手
2025-09-12 13:59:00
创作人的福音来了!微信公众号智能回复功能上线,还可以24小时在线陪聊
9月11日,微信派公众号发文称:微信公众号智能回复功能上线。在公众号 PC 端后台“互动管理”内点击“自动回复”,即可开启“智能回复”
2025-09-12 11:55:00
唐山百川机器人共享智能制造工厂通过“共享制造”模式,为京津冀中小企业提供非标零件加工、样机试制等一站式服务。该工厂拥有800台智能设备和千余名技术人员
2025-09-12 09:21:00
聚焦酒博会|共赴“佳酿之约”,酒博会“新朋友”为行业注入新活力
9月9日至13日,以“汇全球佳酿促开放合作”为主题的第十四届中国(贵州)国际酒类博览会在贵阳举行。本届盛会不仅汇聚了众多行业“老朋友”
2025-09-12 06:01:00
潍柴船舶动力新能源产品,大会现场批量签单!
9月9日-10日,作为我国航运领域最具影响力的行业盛会之一,内河航运高质量发展论坛(2025)在重庆举行。来自全国水运行业的200余家单位代表齐聚一堂
2025-09-12 07:05:00
南报网讯(记者张安琪)在2025江苏产学研合作对接大会主题大会上,长城企业战略研究所首次发布2025中国科创未来之星企业研究报告
2025-09-12 07:44:00
□南京日报/紫金山新闻记者黄琳燕清晨,老山脚下的养蜂基地里,蜂农按规范检查蜂群,采集的蜂王浆样本贴着专属溯源码;生产车间内
2025-09-12 07:44:00
2025江苏产学研合作对接大会成果、需求集中发布
9月11日,2025江苏产学研合作对接大会在南京国展中心开幕。在合作洽谈区域,各大企业、高校、科研院所的创新科技产品纷纷亮相
2025-09-12 07:45:00
从科幻到现实,脑机接口领域的“山海经”
工作人员正在对脑机接口产品进行研发、测试。南京日报/紫金山新闻记者 孙中元 摄将小鼠与设备连接,研究人员即可通过查看小鼠的脑电波数据
2025-09-12 07:45:00
□南京日报/紫金山新闻记者田诗雨李香君故居陈列馆创建独立女性品牌仅一个月,相关文创产品销售额同比增长788%;南京中国科举博物馆暑期推出“能喝的墨水”
2025-09-12 07:46:00
河北日报讯(见习记者康晓博)能够自动监控、及时预警的“两个半径”防机械伤害系统,可广泛应用在机场、火车站等人流密集区的智能环保电警摄像单元
2025-09-12 07:54:00