我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

清华全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶热榜

类别：科技发布时间：2024-10-21 09:55:00 来源：机器之心Pro

今天，世界见证了 RDT 大模型的诞生，它就像 “小脑” 一样负责控制机器人的运动。

同行看后纷纷表示：有了十亿参数的 RDT ，智能机器人时代不远矣！去酒吧点 RDT 调酒师，赛博朋克感瞬间拉满。

在领略了 RDT 的强大后，是时候揭开它的神秘面纱了 —— RDT 的全称是 Robotics Diffusion Transformer，是全球最大的针对双臂机器人操作任务的扩散基础模型，由清华大学人工智能研究院 TSAIL 团队构建。

当前，机器人领域公认的卡脖子问题是 “不够智能”。许多模型需要人教几十遍才能完成单个任务，面对没教过的情况则 “束手无策”。

而 RDT 正是这个 “智能困境” 的破壁者之一。它为 ALOHA 硬件本体植入了 “小脑”，使其能摆脱人类的操控，自主完成没见过的任务。RDT 将 “小模型” 扩展为 “大模型”，从 “单臂” 变为 “双臂”，是目前运动控制水平最接近人类的机器人小脑之一。

更惊喜的是，清华团队已将 RDT 的代码、模型，甚至训练它的双臂数据集彻底开源。他们坚信，开源 RDT 能极大加速机器人研发和产业化进程。

项目主页：https://rdt-robotics.github.io/rdt-robotics 论文链接：https://arxiv.org/pdf/2410.07864 论文标题：RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation

值得注意的是，目前 RDT 在世界最大的开源模型平台 —— HuggingFace 上的机器人榜单「热度排名第一」。

在 RDT 模型的加持下，双臂机器人成功挑战 7 项高难度任务，平均成功率上比当前最好的模型还要惊人地高出 56%。

让我们一起来看看，有了 RDT，双臂机器人还能解锁哪些高阶特征吧。

效果展示

1. 灵巧操作：“机器人遛狗” 竟成现实

起猛了，发现机器人能遛机器狗了？

在 RDT 的指挥下，机器人能灵巧地握住长度不到 2cm 的迷你摇杆，控制机器狗走出完美直线。

而如果把 RDT 换成其他模型，就会导致机器狗会走弯路、甚至见墙就撞。

没办法，控制精度不足！

2. 指令遵循：善解人意的倒水大师

RDT 能充分理解并遵循人类的语言指令。

倒水大师 RDT，让倒 1/3 的水就倒 1/3 的水，让倒 2/3 就倒 2/3，简直分毫不差！

值得一提的是，RDT 从未见过 1/3 这个词，也就是说，没有人给 RDT 演示过 1/3 的水应该怎么倒。

RDT 完全是凭借自己的泛化性，准确地理解了 “1/3” 这个量词和现实世界中 1/3 水位高度之间的对应关系。

与之相对，其他模型会指挥机器人倒得过多或过少，甚至尴尬洒水。

3. 未见物体与场景：自信地与未知共舞

谁说人类才是唯一能适应环境变化的智能体？RDT 也能轻松做到。

清洗以前从没见过的杯子、在多个装饰完全不同的房间中端茶倒水...

变换任务对象和环境都难不倒它。

4. 少样本学习：一点就通的高材生

更厉害的是，RDT 有很强的领悟力，是机器人模型中的“学霸”。

教会 RDT 叠衣服仅需演示 1 遍，而其他模型要重复教几十遍才能勉强学会。

初识 RDT：Scaling Law 魅力时刻

相比其他机器人模型，为什么 RDT 能做到如此智能？相比同行最优水准领先多少？

三个 “最大” 是 RDT 实现智能飞跃的秘密：

在机器人扩散模型中，RDT 拥有目前「最大的模型参数量」，高达 1.2B。比之前由谷歌、Deepmind 等牵头研发的最大的具身扩散模型（八爪鱼，Octo，93M）还要大一个数量级。 RDT 在「最大的具身数据集」上预训练。预训练数据集包含 46 个不同的机器人数据集，总共有超过 100 万条人类演示数据。模型在 48 块 H100 显卡上预训练了 1M 步。 RDT 拥有目前「最大的双臂微调数据集」。清华团队构建了包括 300+ 任务和 6K+ 条演示的数据集。与之对比，先前由斯坦福、MIT 等领衔研发的具身大模型 OpenVLA 的微调数据集仅有几百条演示。

解密 RDT：从问题与挑战讲起

在大多数情况，人们会在日常生活中使用双手。机器人如果能像人一样挥动双臂，显然更灵活，也更能帮助人类。

但是，目前的双臂机器人距离落地还有一段路要走，根本原因是双臂的人类演示数据匮乏，“巧妇难为无米之炊”，而且模型泛化能力不足，不能“举一反三”。

为了解决这个问题，一种通常的做法是，利用多种不同机器人的数据，训练一个可泛化的「大模型」。

但这又会带来两个新的挑战：

一是，在机器人领域，缺乏一个像 GPT 一样的通用、强大的「模型架构」。

它不仅需要能学会各种的动作模式（modality），还需要具备可扩展性（scalability）。换言之，扩大模型的参数量，它的性能也要跟着一起涨。

二是，在之前的研究中，尚没有一个公认的在多种机器人数据上训练的方案。

这主要是因为不同机器人的硬件结构和传感器不同，进而导致数据的格式五花八门，难以进行统一的处理。

在本文中，研究者通过提出创新型的多模态模型架构，以及统一的物理可解释动作空间，来解决这些挑战。

设计 RDT：双臂机器人操作的新架构

「模仿学习」是当前开发通用机器人模型的主流方法。即机器人通过模仿人类的演示来学习各种各样的技能，比如擦桌子和倒水等。

然而，人类的动作模式千变万化，就连抓起一个方块都有好几种做法（见下图）。

为了能学会多样的动作模式，研究者采用扩散模型（diffusion model）来进行建模。

图 3 描绘了 RDT 的整体架构，接下来我们逐一进行介绍。

首先是多模态输入的编码。

对于一个具体的机器人任务，模型在收到人类发出的语言指令后，需要结合自己的视觉观察，来预测完成任务所需的机械臂动作（action）。

这里就涉及到了语言、图片和动作三种模态。

动作具有低维度和高频的特点。研究者采用具有傅里叶特征的多层感知机（MLP）来进行编码。图片具有高维度的特点，同时含有丰富的空间和语义信息。研究者采用经过对齐的 SigLIP 进行编码。语言具有变长的特点，并且高度抽象。研究者采用一个具有丰富知识的语言大模型 —— T5-XXL 来进行编码。

此外，不同模态包含的信息量不尽相同。

咱们人都喜欢看信息量大的图而不喜欢看信息量小的文字。其实模型也一样。

为了避免模型 “偷懒”，只看信息量大的模态，在训练中，研究者会以一定概率随机遮蔽（mask）各个模态。

接下来介绍具体的网络结构。

为了保证可扩展性，研究者选择 Transformer 作为骨干网络，并做出如下关键修改：

由于传感器失灵等原因，机器人数据中往往会出现极端值。这种极端值可能导致梯度不稳定和数值溢出等问题。研究者采用更加先进的 QKNorm 和 RMSNorm 来进行缓解。机器人的动作往往符合非线性动力学的物理规律。为了增强对非线性的近似能力，研究者将最终层的线性解码器替换为非线性的 MLP 解码器。图像的维度通常远高于文本的维度。同时将这两种模态注入到主干网络中时，往往图像会淹没文本，从而削弱模型的指令遵循能力。为此，研究者采取了交替注入的方式。

训练 RDT：预训练与微调相结合

为了在多种机器人数据上进行预训练，研究者需要对数据格式进行统一。

具体来说，研究者构建了一个统一的动作空间（如图 3 左侧所示）。

该空间的每个维度具有明确的物理含义，以保证模型能够从不同机器人数据中学习到共享的物理规律。

在有了统一数据格式后，研究者就能将所有不同类型的机器人数据汇聚在一起，形成了目前最大的数据集，其包含超过 100 万条演示。

正因为在如此大的数据集上进行预训练，RDT 获得了无与伦比的泛化性。

最后，研究者还采集了目前质量最高的双臂微调数据集，用来微调 RDT 以增强其双臂操作能力。

该数据集具有如下特点：

数量大：6K+ 演示数据。范围全：300+ 任务，从简单的抓取到精细操作，甚至包括黑板上解数学题一类的高难度操作。多样性：100+ 不同类型的物体，15+ 不同的房间以及光照条件。

测试 RDT：泛化性与操作精度并举

该团队设计了 7 个挑战性任务，从不同维度评估 RDT 的泛化能力和操作精度。

对于清洗杯子的任务，需要双手协调和物体泛化性。

具体来说，机器人需要拿起未见过的杯子，用另一只手打开水龙头，清洗杯子，倒干净杯中的水，并关闭水龙头。

这个任务对于单臂机器人来说几乎无法完成。

对于遥控机器狗，需要双手协调和极高的操作精确性。

机器人需要用一只手抓住遥控器，并用另一只手推动遥杆控制机器狗向前。

这项任务比洗杯子的精度要求更高，因为迷你摇杆的长度不到 2cm，且稍有偏移机器狗就会 “走弯路”。

对于倒水任务，模型需要能泛化到未见过的环境与语言指令，并理解用户要求，倒水至特定水位。

而对于传递物体和叠裤子的任务，仅给少量演示（1 - 5 条），RDT 就需要学会一个全新的技能。

实验评估（结果见表 3）中，研究者主要回答以下问题：

Q: RDT 能否对未见的物体和场景实现零样本（Zero-Shot）泛化？并遵循未见过的自然语言指令？

A：可以。在洗杯子（Wash Cup）和倒水（Pour Water）任务中，RDT 对未见场景和物体仍能达到较高成功率，其表现与见过的情况相差不大。

在 Pour Water-L-1/3 和 Pour Water-R-2/3 任务中，RDT 精确地理解了应该用哪只手操作、倒多少水，并能够严格遵循指令，即便它从未见过类似 “三分之一” 或 “三分之二” 这样的词汇。

Q：RDT 能否仅通过少量演示就学会新的技能？

A：可以。在物品传递（Handover）和折叠短裤（Fold Shorts）任务中，对于两个与已知动作模式完全不同的全新技能，RDT 仅分别通过 1 和 5 条演示的训练就轻松掌握，而其他方法几乎无法成功。

Q：RDT 是否能够完成需要精细操作的任务？

A：可以。在遥控机器狗（Robot Dog）任务中，RDT 在推动操纵杆时准确控制了角度，而其他模型会导致机器狗发生偏离。

Q：扩散建模、大模型以及大数据是否有助于提升 RDT 的性能？

A：是的。如表 2 所示，研究人员对三者分别进行了消融实验，结果表明缺少任何一者都会带来极大的性能损失。

特别地，仅用双臂数据训练的 RDT (scratch) 在未见物体和场景上表现极差，这表明预训练中学会的知识对于泛化性至关重要。

关于作者

该工作有两位共同一作。一位是清华大学计算机系的二年级博士生刘松铭，主要研究方向是具身智能和 AI for Science，此前在 ICML 和 NeurIPS 等顶级会议发表多篇论文，曾获清华大学本科生特等奖学金。

另一位是清华大学计算机系的二年级博士生吴凌轩，目前主要研究方向是人工智能安全和具身智能，此前在 ICLR 发表过论文。

论文团队

该项目的团队是清华大学计算机系 TSAIL 课题组，团队在扩散模型的基础理论和关键技术方面有长期的积累，提出了首个扩散模型与 Transformer 融合的架构 U-ViT，联合研制了全球首个性能全面对标 Sora 的视频大模型 Vidu，部分成果获国际表示学习大会（ICLR 2022）杰出论文奖，被华为、OpenAI、苹果、Stable Diffusion 等国内外领军企业的文生图大模型采用。特别的，TSAIL 团队在国际上率先提出 “扩散策略 “概念，并长期进行 “扩散策略” 构建算法研究，在 ICLR/NeurIPS/ICML 等顶级国际会议上连续发表了多篇相关研究工作 [1-4]，包括扩散策略模型动作重采样方法 SfBC，奖励函数引导采样算法 CEP，高效扩散策略梯度蒸馏算法 SRPO，扩散策略对齐算法 EDA 等。

参考文献

[1] Huayu Chen, Cheng Lu, Chengyang Ying, Hang Su, and Jun Zhu. Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling. In International Conference on Learning Representations (ICLR), 2023.

[2] Cheng Lu, Huayu Chen, Jianfei Chen, Hang Su, Chongxuan Li, and Jun Zhu. Contrastive Energy Prediction for Exact Energy-Guided Diffusion Sampling in Offline Reinforcement Learning. In International Conference on Machine Learning (ICML), 2023.

[3] Huayu Chen, Cheng Lu, Zhengyi Wang, Hang Su, and Jun Zhu. Score regularized policy optimization through diffusion behavior. In International Conference on Learning Representations (ICLR), 2024.

[4] Huayu Chen, Kaiwen Zheng, Hang Su, Jun Zhu. Aligning Diffusion Behavior with Q-function for Efficient Continuous Control. In Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.

[5] Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, and Shuran Song. Diffusion policy: Visuomotor policy learning via action diffusion. In Proceedings of Robotics: Science and Systems (RSS), 2023.

[6] Fan Bao, Shen Nie, Kaiwen Xue, Yue Cao, Chongxuan Li, Hang Su, and Jun Zhu. All are worth words: A vit backbone for diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 22669–22679, 2023.

[7] Zipeng Fu, Tony Z Zhao, and Chelsea Finn. Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation. arXiv preprint arXiv:2401.02117, 2024.

[8] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.

[9] Hao-Shu Fang, Hongjie Fang, Zhenyu Tang, Jirong Liu, Junbo Wang, Haoyi Zhu, and Cewu Lu. Rh20t: A robotic dataset for learning diverse skills in one-shot. In RSS 2023 Workshop on Learning for Task and Motion Planning, 2023.

[10] Team, O. M., Ghosh, D., Walke, H., Pertsch, K., Black, K., Mees, O., ... & Levine, S. (2024). Octo: An open-source generalist robot policy. arXiv preprint arXiv:2405.12213.

[11] https://mp.weixin.qq.com/s/L-4oxWuiOht1d3Cx_cI8Yw

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-21 12:45:01

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于清华,双臂,机器人,模型,机器,全球的资讯：

北京，冲刺人形机器人第一城

今年，人形机器人仿佛被按下了加速器！27款人形机器人扎堆亮相，跳舞、书法、做咖啡样样全能；数十笔亿元大额融资涌向人形机器人，银河通用7亿元拿下上半年最大额天使轮；明星玩家的人形机

2024-09-24 14:21:00

成立半年拿到超亿元天使轮融资，星动纪元专注研发具身智能人形机

作者 | 周倩编辑 | 彭孝秋硬氪获悉，人形机器人研发公司「星动纪元」获超亿元天使轮融资，由联想创投领投，金鼎资本、清控天诚跟投，老股东世纪金源超额追投，华兴资本担任本次融资独家

2024-01-10 09:54:00

呆萌又可爱！黄仁勋展示机器人Blue：还开源全球首款人形机器

...达GTC 2025发布会上，英伟达CEO黄仁勋展示了呆萌又可爱的机器人Blue，以及全球首款开源的通用人形机器人基础模型GROOT N1

2025-03-19 16:57:00

Cyan 青心意创“全面拟人”机器人 Orca Ⅰ 发布

...创（原“青心创新 / 萨恩异创”）于昨日发布了通用人形机器人 OrcaⅠ。Cyan 青心意创展示了 OrcaⅠ 在“拟人直膝”状态下的行走

2024-11-01 09:19:00

机器人多模态模型及双臂协作系统在川发布

●多模态使人形机器人能融合图像、语义、力感知、环境感知等多种因素，综合判断、生成任务并执行任务，是让人形机器人具有自主思考能力的关键核心技术●标志着成都在我国多模态模型应用于人形

2024-08-13 06:37:00

游族网络旗下具身智能公司获新一轮融资，米哈游也布局该赛道

...以下简称“游族网络”)宣布，其参股公司上海星云智慧机器人有限公司(以下简称“星云智慧机器人”)拟进行金额为2000万元人民币的新一轮融资

2024-10-07 23:33:00

人形机器人组团“十八金刚”各类AI助手工具百花齐放

...能大会上，展馆入口处有“十八金刚众创未来——人形机器人先锋阵列”。小朋友在展会现场与机器人“元萝卜”下象棋。2024世界人工智能大会，一家人工智能公司推出的“具身智能本体”

2024-07-13 09:49:00

5年投资超1000亿，北京公布一系列AI重磅成果，北大清华百

中关村国际创新中心咨询台机器人小柒（图片来源：钛媒体App编辑拍摄）钛媒体App获悉，4月27日，2024中关村论坛年会首次举办“人工智能主题日”，包括在未来人工智能先锋论坛、通

2024-04-28 11:00:00

申城“创新因子”持续释放新动能

...医”协同创新的加速度。走进医用机器研究所，术锐手术机器人正在完成一台“手术”——为鹌鹑蛋剥壳，同时还不能撕破蛋膜。剥蛋其实只是“副业”，这一自主研发的机器人是世界上首套单孔腔

2024-05-27 06:17:00

更多关于科技的资讯：

企业绩效管理体系的构建与完善路径

摘要：本文围绕企业绩效管理体系的构建与完善展开研究，首先明确该体系的核心构成，包含目标设定、过程监控、评估实施与结果应用四个相互衔接的环节

2025-11-15 05:22:00

厦门软件园健康马拉松赛开跑引入AI陪跑员

厦门网讯（厦门日报记者林露虹摄影报道）“我的‘跑友’是机器人！”昨日，厦门软件园第十七届健康马拉松赛在软件园二期热力开跑

2025-11-15 08:20:00

吉林本土动画电影《疯狂电脑城》，凭啥在海外频频获奖？

在温哥华华语电影节上，吉林动画学院师生联合打造的《疯狂电脑城》摘得“最佳动画片奖”，这已经不是该片第一次出海，2024年

2025-11-15 19:01:00

数字化转型背景下企业行政管理效率提升路径研究

摘要：本文聚焦数字化转型背景下企业行政管理效率提升问题，首先剖析数字化转型与企业行政管理的内在关联，指出二者通过流程优化

2025-11-15 05:22:00

2025网聚美好安徽｜“双路由”直连上海看宿州腾“云”而上

大皖新闻讯 11月14日，“皖美十四五再启新征程”2025网聚美好安徽网络主题活动采访团走进位于宿州高新区的汴水之畔超级计算中心

2025-11-15 10:05:00

“世界舞台”上秀一圈，南京收获了什么？

进博会圆满落幕，南京交易分团意向成交9.98亿美元“世界舞台”上秀一圈，南京收获了什么？□南京日报/紫金山新闻记者黄琳燕11月10日

2025-11-14 08:38:00

埃斯顿工业机器人出货量持续增长宁企连续三季霸榜国内“一哥”

11月13日，在江宁开发区埃斯顿智能制造示范车间内，工业机器人正在做各种场景应用展示。宁企埃斯顿今年前三季度机器人总销量约25000台

2025-11-14 08:39:00

一批创新产品亮相“宁创新品”信创产业教育专场活动

一批创新产品亮相“宁创新品”信创产业教育专场活动只需3步，20分钟完成全班作业批改南报网讯（记者徐宁）上传空白试卷和答案

2025-11-14 08:39:00

以AI引擎打造数字化转型山西模式

图片由讲述人提供讲述人山西数据流量谷副总经理邵同旭我是山西数据流量谷的邵同旭，长期专注于数据要素与人工智能领域。多年来

2025-11-14 08:52:00

张家口农商银行宣泰支行年末服务提质增效

岁末是金融服务的“大考期”，业务量激增、客户需求多元叠加。张家口农商银行宣泰支行聚焦柜面运营核心环节，以“压降投诉、提升质量

2025-11-14 10:07:00

情绪消费流行，要做好服务和引导

秋实如今，快节奏的都市生活中，“情绪消费”成为一种新的消费方式。数据显示，超九成青年认可情绪价值，近六成青年愿意为情绪价值买单

2025-11-14 11:28:00

一杯咖啡里的中国大市场

新华社记者王雨萧周蕊一杯咖啡，能勾勒出怎样的经济图景？从云南绵延百万余亩的咖啡种植园，到上海梧桐树下香气氤氲的创意特调

2025-11-14 11:28:00

“信息茧房”效应是怎样破解的？

惠依近日，深圳大学深圳城市传播创新研究中心发布《短视频用户的算法实践与“破茧”报告》。《报告》显示，与一些人担忧“信息茧房”形成对比

2025-11-14 11:28:00

如新荣获2025消费责任对话活动客户服务创新典型案例

2025年11月5日，以“大力提振消费品质服务担当”为主题的消费责任对话活动在成都成功举办。本次活动由中国消费者协会

2025-11-14 11:29:00

Shopee 11.11大促热力爆棚，Shopee Live

2025年11月13日，中国 —— 近日，东南亚及巴西领航电商平台Shopee 11.11大促再掀购物狂潮，Shopee Live直播开场4分钟即售出1100万件商品

2025-11-14 11:31:00

头条订阅服务

清华全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶热榜