我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

感官协同配合的精细操纵，人大胡迪团队探索机器人模态时变性挑战

类别：科技发布时间：2024-11-09 09:53:00 来源：机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

本文作者来自于中国人民大学，深圳朝闻道科技有限公司以及中国电信人工智能研究院。其中第一作者冯若轩为中国人民大学二年级硕士生，主要研究方向为多模态具身智能，师从胡迪教授。

引言：在机器人操纵物体的过程中，不同传感器数据携带的噪声会对预测控制造成怎样的影响？中国人民大学高瓴人工智能学院 GeWu 实验室、朝闻道机器人和 TeleAI 最近的合作研究揭示并指出了 “模态时变性”（Modality Temporality）现象，通过捕捉并刻画各个模态质量随物体操纵过程的变化，提升不同信息在具身多模态交互的感知质量，可显著改善精细物体操纵的表现。论文已被 CoRL2024 接收并选为 Oral Presentation。

视频链接：https://mp.weixin.qq.com/s/STlxll_LWO-iRFuVbP_s6A

人类在与环境互动时展现出了令人惊叹的感官协调能力。以一位厨师为例，他不仅能够凭借直觉掌握食材添加的最佳时机，还能通过观察食物的颜色变化、倾听烹饪过程中的声音以及嗅闻食物的香气来精准调控火候，从而无缝地完成烹饪过程中的每一个复杂阶段。这种能力，即在执行复杂且长时间的操作任务时，灵活运用不同的感官，是建立在对任务各个阶段全面而深刻理解的基础之上的。

然而，对于机器人而言，如何协调这些感官模态以更高效地完成指定的操作任务，以及如何充分利用多模态感知能力来实现可泛化的任务执行，仍是当前尚未解决的问题。我们不仅需要使模型理解任务阶段本身，还需要从任务阶段的新角度重新审视多传感器融合。在一个复杂的操纵任务中完成将任务划分为不同阶段的一系列子目标的过程中，各个模态的数据质量很可能随任务阶段而不断变化。因此，阶段转换很可能导致模态重要性的变化。除此之外，每个阶段内部也可能存在相对较小的模态质量变化。我们将这种现象总结为多传感器模仿学习的一大挑战：模态时变性（Modality Temporality）。然而，过去的方法很少关注这一点，忽视了阶段理解在多传感器融合中的重要性。

本文借鉴人类的基于阶段理解的多感官感知过程，提出了一个由阶段引导的动态多传感器融合框架 MS-Bot，旨在基于由粗到细粒度的任务阶段理解动态地关注具有更高质量的模态数据，从而更好地应对模态时变性的挑战，完成需要多种传感器的精细操纵任务。

论文链接：https://arxiv.org/abs/2408.01366v2 项目主页：https://gewu-lab.github.io/MS-Bot/

模态时变性

在复杂的操作任务中，各传感器数据的质量可能会随着阶段的变化而变化。在不同的任务阶段中，一个特定模态的数据可能对动作的预测具有重大贡献，也可能作为主要模态的补充，甚至可能几乎不提供任何有用的信息。

图 1 倾倒任务的模态时变性

以上图中的倾倒任务为例，在初始的对齐阶段中，视觉模态对动作的预测起决定性作用。进入开始倾倒阶段后，模型需要开始利用音频和触觉的反馈来确定合适的倾倒角度（倒出速度）。在保持静止阶段，模型主要依赖音频和触觉信息来判断已经倒出的小钢珠质量是否已经接近目标值，而视觉几乎不提供有用的信息。最后，在结束倾倒阶段，模型需要利用触觉模态的信息判断倾倒任务是否已经完成，与开始倾倒阶段进行区分。除阶段间的模态质量变化，各个阶段内部也可能存在较小的质量变化，例如音频模态在开始倾倒和结束倾倒的前期和后期具有不同的重要性。我们将这两种变化区分为粗粒度和细粒度的模态质量变化，并将这种现象总结为多传感器模仿学习中的一个重要挑战：模态时变性。

方法：阶段引导的动态多传感器融合

为了应对模态时变性的挑战，我们认为在机器人操纵任务中，多传感器数据的融合应该建立在充分的任务阶段理解之上。因此，我们提出了 MS-Bot 框架，这是一个由阶段引导的动态多传感器融合方法，旨在基于显式的由粗到细的任务阶段理解动态地关注具有更高质量的模态数据。为了将显式的阶段理解整合到模仿学习过程中，我们首先为每个数据集中的样本添加了一个阶段标签，并将动作标签和阶段标签共同作为监督信号训练包含四个模块的 MS-Bot 框架（如图 2 所示）：

特征提取模块：该模块包含一系列单模态编码器，每个编码器都接受一段简短的单模态观测历史作为输入，并将它们编码为特征。状态编码器：该模块旨在将各模态特征和动作历史序列编码为表示当前任务状态的 token。动作历史与人类记忆相似，可以帮助指示当前所处的任务状态。我们将动作历史输入到一个 LSTM 中，并通过一个 MLP 将它们与模态特征编码为状态 token。阶段理解模块：该模块旨在通过将阶段信息注入状态 token 中，从而实现显式的由粗到细粒度的任务阶段理解。我们用一组可学习的阶段 token 来表示每个任务阶段，并通过一个门控网络（MLP）来预测当前所处的阶段，利用 Softmax 归一化后的阶段预测分数对阶段 token 进行加权融合，得到当前阶段 token。门控网络的训练以阶段标签作为监督信号，对非当前阶段的预测分数进行惩罚。我们还放松了对阶段边界附近的样本上的相邻阶段分数惩罚，从而实现软约束效果，得到更平滑的阶段预测。新的注入阶段信息后的状态 token 由原状态 token 和阶段 token 加权融合得到，可以表示任务阶段内的细粒度状态，从而对多传感器动态融合进行引导。动态融合模块：该模块根据当前任务阶段的细粒度状态动态地选择关注的模态特征。我们以注入了阶段信息的状态 token 作为 Query，将模态特征作为 Key 和 Value 进行交叉注意力（Cross Attention）。该方法根据当前任务阶段的需求，将各模态的特征动态地整合到一个融合 token 中。最后，该融合 token 输入到策略网络（MLP）中预测下一个动作。我们还引入了随机注意力模糊机制，以一定概率将各单模态特征 token 上的注意力分数替换为相同的平均值，防止模型简单地记忆与注意力分数模式对应的动作。

图 2 由阶段引导的动态多传感器融合框架 MS-Bot

实验结果

为了验证基于由粗到细的任务阶段理解的 MS-Bot 的优越性，我们在两个十分有挑战性的精细机器人操纵任务：倾倒和带有键槽的桩插入中进行了详细的对比。

图 3 倾倒与带有键槽的桩插入任务设置

如表 1 所示，MS-Bot 在两个任务的所有设置上均优于所有基线方法。MS-Bot 在两个任务中的性能超过了使用自注意力（Self Attention）进行动态融合的 MULSA 基线，这表明 MS-Bot 通过在融合过程中基于对当前阶段的细粒度状态的理解更好地分配模态权重，而没有显示阶段理解的 MULSA 基线无法充分利用动态融合的优势。

表 1 倾倒和带有键槽的桩插入任务上的性能比较

我们还对任务完成中各个模态的注意力分数和各阶段的预测分数进行了可视化。在每个时间步，我们分别对每种模态的所有特征 token 的注意力分数进行平均，而阶段预测分数是 Softmax 归一化后的门控网络输出。如图 4 所示，MS-Bot 准确地预测了任务阶段的变化，并且得益于模型中由粗到细粒度的任务阶段理解，三个模态的注意力分数保持相对稳定，表现出明显的阶段间变化和较小的阶段内调整。

图 4 各模态注意力分数和阶段预测分数可视化

为了验证 MS-Bot 对干扰物的泛化能力，我们在两个任务中都加入了视觉干扰物。在倾倒任务中，我们将量筒的颜色从白色更改为红色。对于桩插入任务，我们将底座颜色从黑色更改为绿色（“Color”），并在底座周围放置杂物（“Mess”）。如表 2 所示，MS-Bot 在各种有干扰物的场景中始终保持性能优势，这是因为 MS-Bot 根据对当前任务阶段的理解动态地分配模态权重，从而减少视觉噪声对融合特征的影响，而基线方法缺乏理解任务阶段并动态调整模态权重的能力。

表 2 含视觉干扰物场景中的性能比较

本文从任务阶段的视角重新审视了机器人操纵任务中的多传感器融合，引入模态时变性的挑战，并将由子目标划分的任务阶段融入到模仿学习过程中。该研究提出了 MS-Bot，一种由阶段引导的多传感器融合方法，基于由粗到细粒度的阶段理解动态地关注质量更高的模态。我们相信由显式阶段理解引导的多传感器融合会成为一种有效的多传感器机器人感知范式，并借此希望能够激励更多的多传感器机器人操纵的相关研究。

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-11-09 11:45:08

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于胡迪,模态,感官,变性,机器人,团队的资讯：

「千诀科技」推出通用感知大模型，专注机器人全脑研发｜早期项

作者｜杨逍编辑｜邓咏仪2023年以来，机器人领域的创业纷连不断。部分公司选择从人形机器人出发，希望创造出能独立行走、完成部分复杂工作的通用形态；也有部分公司的研究侧重于突破机器人

2023-12-26 19:41:00

汇聚助残科技创新力量 2025中关村论坛年会科技助残平行论坛

...道民等参与圆桌对话，围绕人工智能、脑机接口、外骨骼机器人等前沿技术创新，共同探讨通过助残科技创新与产业发展，助力残疾人享有更加幸福美好的生活。周长奎在致辞中强调，以人工智能、

2025-03-29 22:20:00

meta开源多感官大模型，ai用6种模态体验虚拟世界

Meta最新 6模态大模型，让AI以更接近人类的方式理解这个世界。比如当你听见倒水声的时候就会想到杯子，听到闹铃声会想到闹钟，现在AI也可以。尽管画面中没有出现人类，AI听到掌声

2023-05-11 19:53:00

看乡村学校孩子如何玩转科技

...看同学们的科学幻想画，从星际探索到未来城市，从超级机器人到时间旅行，每一幅画都绚丽多姿，展现出孩子们的无限创意和对未来的美好期待。趣味性的纸桥承重比赛则突出创新实践、团队合作

2023-10-12 07:54:00

别只盯着ChatGPT版Her,多模态AI拟人互动上,国内玩

...。四月初，国外一家创业公司 Hume AI 发布了一款语音对话机器人 Empathetic Voice Interface（EVI）

2024-08-01 09:34:00

全国首个成都创新团队发布机器人多模态模型

中国首个机器人多模态模型，可以相对明确地将水果和非水果进行区分和分拣如果你想吃苹果，根据语音指令，机器人会把苹果送到你手上；如果想收拾干净桌面，机器人就会把桌上所有的东西归置好…

2024-08-13 09:51:00

给机器人装上大模型大脑，「若愚科技」获超5000万天使轮融资

...的团队，创立于2023年，旨在通过多模态大模型技术打造机器人大脑。公司创始人聂礼强现任哈尔滨工业大学（深圳）计算机科学与技术学院执行院长，曾两次入选国家级人才，科研聚焦于多模

2024-03-21 05:19:00

Tech100 | 哈工大深圳团队入局多模态大模型，自研「若

...模型榜单证明了此团队在多模态大模型方面领先的实力。机器人是工业领域系统级应用产品，是“若愚-九天”多模态大模型基座赋能的重点落地方向。哈工大目前在机器人领域有着深厚的产学研积

2023-08-09 09:55:00

全球首篇！调研近400篇文献，鹏城实验室&中大深度解析具身智

...理世界的交互来完成复杂任务。近年来，多模态大模型和机器人技术得到了长足发展，具身智能成为全球科技和产业竞争的新焦点。然而，目前缺少一篇能够全面解析具身智能发展现状的综述。因此

2024-07-29 09:39:00

更多关于科技的资讯：

第二届“科创·柳叶湖”合成生物制造创新创业大赛巅峰对决即将开

第二届“科创·柳叶湖”合成生物制造创新创业大赛将于2026年1月15日至17日在湖南常德举行。本届大赛以“合创万物智引未来”为主题

2026-01-07 17:00:00

高品质鱼油赛道再迎里程碑：新加坡Biowell小金星Plus

在消费者对营养品品质与真实功效日益关注的背景下，国际权威认证成为衡量产品力的重要标尺。近日，新加坡专业营养品牌Biowell迎来关键进展

2026-01-07 17:00:00

编织数据天网守护卫星星河

——记寰宇卫星技术主管贾淋淋在卫星与地面之间，无形的数据洪流日夜奔涌，构筑起现代航天测控的生命线。而在这条关键通道的背后

2026-01-07 17:00:00

主动拥抱数字化争当转型排头兵学习油水井报表数字化应用显成

大庆油田采油一厂第九作业区新中310采油班面对油田数字化建设的深入推进，油水井报表管理正经历从传统纸质向智能数字化的关键转型

2026-01-07 17:02:00

二元魂与京东京造深度联动，共建 AI 潮玩全龄陪伴生态

近日，京东京造携手 JoyInside 全新推出4 款 AI 产品，精准覆盖全家不同生活场景的陪伴需求。此次上新阵容中

2026-01-07 17:02:00

美学舒适双在线，ROSE CASTLE 玫瑰城堡｜打造能传家

婚礼当天，新娘的足下承载着远超一双鞋的物理重量。它是踏入人生新阶段的仪式感起点，是全天候优雅姿态的基石，也是婚礼记忆中最具象的情感信物之一

2026-01-07 17:02:00

石家庄高新区一项目入选2025年人工智能医疗器械创新任务揭榜

河北新闻网讯（刘富伟）日前，工业和信息化部、国家药品监督管理局联合发布《2025年人工智能医疗器械创新任务揭榜挂帅入围名单》

2026-01-07 16:56:00

人体工学品牌MS官宣2025营收破亿，未来三年剑指十亿目标

12月30日，国内人体工学显示器支架品牌MS在年度工作总结会上宣布：2025年MS营收突破亿元大关，并确立了未来三年营收向十亿迈进的目标

2026-01-07 16:57:00

同样的预算，别买“电子垃圾”！阿尔法蛋词典笔，平价背后的专业

平价词典笔就选阿尔法蛋吗？是的，这是明智之选。在预算有限时，家长往往面临“廉价山寨”与“高价品牌”的两难。阿尔法蛋词典笔打破了这种困境

2026-01-07 16:58:00

Coosea酷赛智能的下一站：聚焦核心技术，剑指智能硬件百万

在全球智能硬件市场持续扩张的浪潮中，酷赛智能科技股份有限公司（以下简称“Coosea酷赛智能”）正以行业引领者之姿，稳步推进其战略布局

2026-01-07 15:10:00

银行网点转型不能转出数字化鸿沟

杜蒿坨数字时代，指尖轻点就能完成金融业务，银行网点正在经历“瘦身”。据国家金融监督管理总局金融许可证信息查询系统粗略统计

2026-01-07 15:27:00

厦门首次在开放道路上开展自动驾驶配送测试

从仓库到接驳点，无人配送车上路厦门首次在开放道路上开展自动驾驶配送测试东南网1月7日讯（海峡导报记者江小聪）近日

2026-01-07 15:51:00

网红经济亟待告别“避税狂欢”

王志顺国家税务总局近日通报，2025年前11个月，税务部门共查处1818名包括明星网红在内的“双高”人员，查补税款高达15

2026-01-07 15:57:00

科技赋能健康，倍轻松携AI+中医创新亮相2026 CES，全

当全球消费科技的目光聚焦于拉斯维加斯威尼斯人会展中心，中国健康科技领军企业倍轻松(股票代码：688793)以全新姿态登陆2026年国际消费电子展(CES)

2026-01-07 16:21:00

百镜大战再添新军思问AI眼镜如何脱颖而出

2026年1月10日，大湾区深中通道西人工岛，吸引人们的不只是网红打卡地、超级工程，还将有一场人工智能的科技秀：思问AI眼镜

2026-01-07 16:22:00

头条订阅服务

感官协同配合的精细操纵，人大胡迪团队探索机器人模态时变性挑战