• 我的订阅
  • 科技

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

类别:科技 发布时间:2024-11-09 09:53:00 来源:机器之心Pro
感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

本文作者来自于中国人民大学,深圳朝闻道科技有限公司以及中国电信人工智能研究院。其中第一作者冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪教授。

引言:在机器人操纵物体的过程中,不同传感器数据携带的噪声会对预测控制造成怎样的影响?中国人民大学高瓴人工智能学院 GeWu 实验室、朝闻道机器人和 TeleAI 最近的合作研究揭示并指出了 “模态时变性”(Modality Temporality)现象,通过捕捉并刻画各个模态质量随物体操纵过程的变化,提升不同信息在具身多模态交互的感知质量,可显著改善精细物体操纵的表现。论文已被 CoRL2024 接收并选为 Oral Presentation。

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

视频链接:https://mp.weixin.qq.com/s/STlxll_LWO-iRFuVbP_s6A

人类在与环境互动时展现出了令人惊叹的感官协调能力。以一位厨师为例,他不仅能够凭借直觉掌握食材添加的最佳时机,还能通过观察食物的颜色变化、倾听烹饪过程中的声音以及嗅闻食物的香气来精准调控火候,从而无缝地完成烹饪过程中的每一个复杂阶段。这种能力,即在执行复杂且长时间的操作任务时,灵活运用不同的感官,是建立在对任务各个阶段全面而深刻理解的基础之上的。

然而,对于机器人而言,如何协调这些感官模态以更高效地完成指定的操作任务,以及如何充分利用多模态感知能力来实现可泛化的任务执行,仍是当前尚未解决的问题。我们不仅需要使模型理解任务阶段本身,还需要从任务阶段的新角度重新审视多传感器融合。在一个复杂的操纵任务中完成将任务划分为不同阶段的一系列子目标的过程中,各个模态的数据质量很可能随任务阶段而不断变化。因此,阶段转换很可能导致模态重要性的变化。除此之外,每个阶段内部也可能存在相对较小的模态质量变化。我们将这种现象总结为多传感器模仿学习的一大挑战:模态时变性(Modality Temporality)。然而,过去的方法很少关注这一点,忽视了阶段理解在多传感器融合中的重要性。

本文借鉴人类的基于阶段理解的多感官感知过程,提出了一个由阶段引导的动态多传感器融合框架 MS-Bot,旨在基于由粗到细粒度的任务阶段理解动态地关注具有更高质量的模态数据,从而更好地应对模态时变性的挑战,完成需要多种传感器的精细操纵任务。

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

论文链接:https://arxiv.org/abs/2408.01366v2 项目主页:https://gewu-lab.github.io/MS-Bot/

模态时变性

在复杂的操作任务中,各传感器数据的质量可能会随着阶段的变化而变化。在不同的任务阶段中,一个特定模态的数据可能对动作的预测具有重大贡献,也可能作为主要模态的补充,甚至可能几乎不提供任何有用的信息。

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

图 1 倾倒任务的模态时变性

以上图中的倾倒任务为例,在初始的对齐阶段中,视觉模态对动作的预测起决定性作用。进入开始倾倒阶段后,模型需要开始利用音频和触觉的反馈来确定合适的倾倒角度(倒出速度)。在保持静止阶段,模型主要依赖音频和触觉信息来判断已经倒出的小钢珠质量是否已经接近目标值,而视觉几乎不提供有用的信息。最后,在结束倾倒阶段,模型需要利用触觉模态的信息判断倾倒任务是否已经完成,与开始倾倒阶段进行区分。除阶段间的模态质量变化,各个阶段内部也可能存在较小的质量变化,例如音频模态在开始倾倒和结束倾倒的前期和后期具有不同的重要性。我们将这两种变化区分为粗粒度和细粒度的模态质量变化,并将这种现象总结为多传感器模仿学习中的一个重要挑战:模态时变性。

方法:阶段引导的动态多传感器融合

为了应对模态时变性的挑战,我们认为在机器人操纵任务中,多传感器数据的融合应该建立在充分的任务阶段理解之上。因此,我们提出了 MS-Bot 框架,这是一个由阶段引导的动态多传感器融合方法,旨在基于显式的由粗到细的任务阶段理解动态地关注具有更高质量的模态数据。为了将显式的阶段理解整合到模仿学习过程中,我们首先为每个数据集中的样本添加了一个阶段标签,并将动作标签和阶段标签共同作为监督信号训练包含四个模块的 MS-Bot 框架(如图 2 所示):

特征提取模块:该模块包含一系列单模态编码器,每个编码器都接受一段简短的单模态观测历史作为输入,并将它们编码为特征。 状态编码器:该模块旨在将各模态特征和动作历史序列编码为表示当前任务状态的 token。动作历史与人类记忆相似,可以帮助指示当前所处的任务状态。我们将动作历史输入到一个 LSTM 中,并通过一个 MLP 将它们与模态特征编码为状态 token。 阶段理解模块:该模块旨在通过将阶段信息注入状态 token 中,从而实现显式的由粗到细粒度的任务阶段理解。我们用一组可学习的阶段 token 来表示每个任务阶段,并通过一个门控网络(MLP)来预测当前所处的阶段,利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合,得到当前阶段 token。门控网络的训练以阶段标签作为监督信号,对非当前阶段的预测分数进行惩罚。我们还放松了对阶段边界附近的样本上的相邻阶段分数惩罚,从而实现软约束效果,得到更平滑的阶段预测。新的注入阶段信息后的状态 token 由原状态 token 和阶段 token 加权融合得到,可以表示任务阶段内的细粒度状态,从而对多传感器动态融合进行引导。 动态融合模块:该模块根据当前任务阶段的细粒度状态动态地选择关注的模态特征。我们以注入了阶段信息的状态 token 作为 Query,将模态特征作为 Key 和 Value 进行交叉注意力(Cross Attention)。该方法根据当前任务阶段的需求,将各模态的特征动态地整合到一个融合 token 中。最后,该融合 token 输入到策略网络(MLP)中预测下一个动作。我们还引入了随机注意力模糊机制,以一定概率将各单模态特征 token 上的注意力分数替换为相同的平均值,防止模型简单地记忆与注意力分数模式对应的动作。

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

图 2 由阶段引导的动态多传感器融合框架 MS-Bot

实验结果

为了验证基于由粗到细的任务阶段理解的 MS-Bot 的优越性,我们在两个十分有挑战性的精细机器人操纵任务:倾倒和带有键槽的桩插入中进行了详细的对比。

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

图 3 倾倒与带有键槽的桩插入任务设置

如表 1 所示,MS-Bot 在两个任务的所有设置上均优于所有基线方法。MS-Bot 在两个任务中的性能超过了使用自注意力(Self Attention)进行动态融合的 MULSA 基线,这表明 MS-Bot 通过在融合过程中基于对当前阶段的细粒度状态的理解更好地分配模态权重,而没有显示阶段理解的 MULSA 基线无法充分利用动态融合的优势。

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

表 1 倾倒和带有键槽的桩插入任务上的性能比较

我们还对任务完成中各个模态的注意力分数和各阶段的预测分数进行了可视化。在每个时间步,我们分别对每种模态的所有特征 token 的注意力分数进行平均,而阶段预测分数是 Softmax 归一化后的门控网络输出。如图 4 所示,MS-Bot 准确地预测了任务阶段的变化,并且得益于模型中由粗到细粒度的任务阶段理解,三个模态的注意力分数保持相对稳定,表现出明显的阶段间变化和较小的阶段内调整。

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

图 4 各模态注意力分数和阶段预测分数可视化

为了验证 MS-Bot 对干扰物的泛化能力,我们在两个任务中都加入了视觉干扰物。在倾倒任务中,我们将量筒的颜色从白色更改为红色。对于桩插入任务,我们将底座颜色从黑色更改为绿色(“Color”),并在底座周围放置杂物(“Mess”)。如表 2 所示,MS-Bot 在各种有干扰物的场景中始终保持性能优势,这是因为 MS-Bot 根据对当前任务阶段的理解动态地分配模态权重,从而减少视觉噪声对融合特征的影响,而基线方法缺乏理解任务阶段并动态调整模态权重的能力。

感官协同配合的精细操纵,人大胡迪团队探索机器人模态时变性挑战

表 2 含视觉干扰物场景中的性能比较

本文从任务阶段的视角重新审视了机器人操纵任务中的多传感器融合,引入模态时变性的挑战,并将由子目标划分的任务阶段融入到模仿学习过程中。该研究提出了 MS-Bot,一种由阶段引导的多传感器融合方法,基于由粗到细粒度的阶段理解动态地关注质量更高的模态。我们相信由显式阶段理解引导的多传感器融合会成为一种有效的多传感器机器人感知范式,并借此希望能够激励更多的多传感器机器人操纵的相关研究。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-11-09 11:45:08

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

「千诀科技」推出通用感知大模型,专注机器人全脑研发 |早期项目
作者|杨逍编辑|邓咏仪2023年以来,机器人领域的创业纷连不断。部分公司选择从人形机器人出发,希望创造出能独立行走、完成部分复杂工作的通用形态;也有部分公司的研究侧重于突破机器人
2023-12-26 19:41:00
汇聚助残科技创新力量 2025中关村论坛年会科技助残平行论坛在京举行
...道民等参与圆桌对话,围绕人工智能、脑机接口、外骨骼机器人等前沿技术创新,共同探讨通过助残科技创新与产业发展,助力残疾人享有更加幸福美好的生活。周长奎在致辞中强调,以人工智能、
2025-03-29 22:20:00
meta开源多感官大模型,ai用6种模态体验虚拟世界
Meta最新 6模态大模型,让AI以更接近人类的方式理解这个世界。比如当你听见倒水声的时候就会想到杯子,听到闹铃声会想到闹钟,现在AI也可以。尽管画面中没有出现人类,AI听到掌声
2023-05-11 19:53:00
看乡村学校孩子如何玩转科技
...看同学们的科学幻想画,从星际探索到未来城市,从超级机器人到时间旅行,每一幅画都绚丽多姿,展现出孩子们的无限创意和对未来的美好期待。趣味性的纸桥承重比赛则突出创新实践、团队合作
2023-10-12 07:54:00
别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩家也支棱起来了
...。四月初,国外一家创业公司 Hume AI 发布了一款语音对话机器人 Empathetic Voice Interface(EVI)
2024-08-01 09:34:00
全国首个 成都创新团队发布机器人多模态模型
中国首个机器人多模态模型,可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果,根据语音指令,机器人会把苹果送到你手上;如果想收拾干净桌面,机器人就会把桌上所有的东西归置好…
2024-08-13 09:51:00
给机器人装上大模型大脑,「若愚科技」获超5000万天使轮融资|36氪首发
...的团队,创立于2023年,旨在通过多模态大模型技术打造机器人大脑。公司创始人聂礼强现任哈尔滨工业大学(深圳)计算机科学与技术学院执行院长,曾两次入选国家级人才,科研聚焦于多模
2024-03-21 05:19:00
Tech100 | 哈工大深圳团队入局多模态大模型,自研「若愚-九天」荣登OpenCompass榜首
...模型榜单证明了此团队在多模态大模型方面领先的实力。机器人是工业领域系统级应用产品,是“若愚-九天”多模态大模型基座赋能的重点落地方向。哈工大目前在机器人领域有着深厚的产学研积
2023-08-09 09:55:00
全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能
...理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此
2024-07-29 09:39:00
更多关于科技的资讯:
“咪咕阅读”正式升级为“咪咕悦看”,以文剧融合新生态践行数字文化发展使命
从追求流量到追求质量,微短剧行业正迈向精品化与主流化的升级之路,拥有大量好内容的网络文学是微短剧发展的重要推动力。咪咕阅读率先以“文剧融合”为抓手
2026-01-29 14:24:00
星聚会KTV中国香港双店同开
2026年1月27日,星聚会KTV(以下简称星聚会)正式官宣,中国香港铜锣湾V Point店与兰桂坊加州大厦店双店同步盛大启幕
2026-01-29 14:34:00
星巴克中国发布一季度财报 营收连续五个季度增长
1月28日晚,星巴克发布2026财年第一季度业绩报告,营收实现双位数增长,同店销售额连续三个季度正增长。营收连续五个季度增长
2026-01-29 15:24:00
五大优化精准惠民,2026年郯城县以旧换新再发力
鲁网1月29日讯 (记者 吴艳萍)1月29日,郯城县人民政府召开“惠企利民 消费品以旧换新”新闻发布会。郯城县商务局相关负责人介绍2025年郯城县消费品以旧换新工作开展情况
2026-01-29 16:44:00
惠民2800余万元!郯城县以旧换新释放消费新动能
鲁网1月29日讯 (记者 吴艳萍)1月29日,郯城县人民政府召开“惠企利民 消费品以旧换新”新闻发布会。郯城县商务局相关负责人介绍2025年郯城县消费品以旧换新工作开展情况
2026-01-29 16:46:00
注意力差、上课走神、做事拖拉磨蹭?这可能是学习能力需要“专业锻炼”的信号
鲁网1月29日讯学习困难是儿童成长过程中常见的问题,严重影响孩子的学业成绩和心理健康。因此,建立科学的筛查和干预机制,对于早期发现和解决学习困难问题至关重要
2026-01-29 15:35:00
科学探秘 巧手求真 观湖社区伯努利实验点亮青少年科学梦
“原来流动的空气真的有力量!”“乒乓球居然能悬浮在空中不掉下来!”近日,苏州工业园区唯亭街道观湖社区阿里博士实验室内欢呼声此起彼伏
2026-01-29 11:28:00
大皖新闻讯 1月28日晚间,星巴克发布2026财年第一季度业绩报告,中国市场延续强劲增长势头,营收实现双位数增长,同店销售额连续三个季度正增长
2026-01-29 12:51:00
京东携机器人亮相乡村舞台 光明村首届“村晚”科技感拉满
当智能机器人遇上“村晚”,科技与年味会碰撞出怎样的精彩?1月28日,江苏宿迁来龙镇光明村热闹非凡,由京东打造的首届“村晚”正式上演
2026-01-29 13:13:00
“溪山模式+溪有物种实践”赋能科创:从商业航天到核聚变
2026年1月22日,NSE2026第四届新物种进化大会暨2026溪山天使年会在北京大北农凤凰国际创新园隆重举行。这场由溪山天使汇
2026-01-29 13:14:00
爱喏与宅智造达成战略合作:融合产品体系与服务网络,打造高效家装新平台
近日,融合产品设计与实用美学的健康水生态品牌“爱喏”与国内领先的一站式建材服务商“宅智造”建材超市正式签署战略合作协议
2026-01-29 13:16:00
第五届青山科技奖出炉:聚焦“数字+绿色”,鼓励基础科研“更落地”
1月29日,第五届青山科技奖获奖名单正式揭晓,10位绿色低碳领域的青年科学家入选。获奖名单中首次出现两名“95后”科学家
2026-01-29 13:33:00
海外网1月29日电 据美国广播公司报道,亚马逊公司高级副总裁贝丝·加莱蒂(Beth Galetti)在给员工的电子邮件中表示
2026-01-29 13:33:00
从人力巡防到智能巡护:云深处科技机器狗重新定义园区安全
如今,具身智能技术加速渗透千行百业,凭借与环境的实时交互能力,高效完成各类复杂任务,成为推动各领域智能化转型的关键驱动力
2026-01-29 13:14:00
鲁网1月28日讯走进泰安斯耐特自动化设备有限公司的研发中心与生产车间,科研人员正专注调试高压电气设备智能监测系统,生产线上智能组装设备高效运转
2026-01-29 09:05:00