我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

强化学习训练一两个小时，自主完成任务：机器人ChatGPT时刻来了?

类别：科技发布时间：2024-10-30 09:53:00 来源：机器之心Pro

把平均成功率从 50% 拉到了 100%。

最近，AI 的进步有目共睹，现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

近日，UC 伯克利 BAIR 实验室的 Sergey Levine 研究团队提出了一个强化学习框架 HIL-SERL，可直接在现实世界中训练通用的基于视觉的机器人操作策略。HIL-SERL 的表现堪称前所未有的卓越，仅需 1-2.5 小时的训练就能在所有任务上实现 100% 的成功率。要知道，基线方法的平均成功率还不到50%。就算有外部干扰，机器人也能取得很好的表现。

论文一作 Jianlan Luo 的推文，他目前正在 UC 伯克利 BAIR 实验室从事博士后研究

团队导师 Sergey Levine 也发了推文宣传这项研究，他是一位非常著名的 AI 和机器人研究科学家，曾是 2021 年发表相关论文最多的研究者，参阅机器之心报道《2021 年 ML 和 NLP 学术统计：谷歌断层第一，强化学习大牛 Sergey Levine 位居榜首》

空口无凭，眼见为实，那就先让机器人来煎个蛋吧。

在主板上安装一块固态硬盘？机器人也能与人类搭配，轻松完成。

插入 USB，问题也不大，看起来比人执行这个操作还流畅，毕竟很多人插 USB 都要对准两三次才能成功。

这么好的效果，不禁让人怀疑，这不会是远程操控吧？Nonono！这些任务都是机器人独立完成的，这次人类的角色也不是站在身后发号施令，而是在它旁边捣乱。

对于没有独立思考能力的机器人来说，任务执行起来那是相当死板。一旦目标物体换了一个位置，它们就会迷失方向。但对于采取 HIL-SERL 框架的机器人，就算你强行夺走它手中这根 USB 线，它依然能自动定位，重新完成任务。

机器人如何变得如此厉害？下面我们就来看看 UC 伯克利的这项研究。

论文标题：Precise and Dexterous Robotic Manipulation via Human-in-the-Loop Reinforcement Learning 论文地址：https://hil-serl.github.io/static/hil-serl-paper.pdf 项目地址：https://hil-serl.github.io/

简而言之，他们设计了一个有人类参与的强化学习框架。在此之前，基于强化学习的技术已经为机器人领域带来了一些技术突破，使机器人已经能够熟练地处理一些简单任务。但是，真实世界环境非常动态多变，而且非常复杂，如果能开发出某种基于视觉的通用方法，必定有助于机器人掌握更加复杂的技能。

这正是该团队做出贡献的地方，他们开发的基于视觉的强化学习系统可以让机器人掌握大量不同的机器人技能。

他们将该系统命名为 Human-in-the-Loop Sample-Efficient Robotic Reinforcement Learning，即有人类参与的样本高效型机器人强化学习，简称 HIL-SERL。

为了解决优化稳定性问题，他们采用了预训练的视觉主干网络来实现策略学习。

为了处理样本复杂性问题，他们利用了基于 RLPD 的样本高效型离策略强化学习算法，该算法还结合了人工演示和校正。

此外，为了确保策略训练期间的安全性，他们还纳入了一个精心设计的低级控制器。

在训练时，该系统会向人类操作员询问潜在的校正，然后以离策略的方式使用这些校正来更新策略。他们发现，这种有人类参与的校正程序可让策略从错误中学习并提高性能，尤其是对于这项研究中考虑的一些难以从头开始学习的任务。

如图 1 所示，该系统可解决的任务纷繁多样，包括动态翻转平底锅中的物体、从积木塔中抽出一块积木、在两个机器臂之间递交物体以及使用一个或两个机械臂组装复杂的设备，例如计算机主板、宜家置物架、汽车仪表板或正时皮带。

这些任务复杂而精细，有着动态且高维的动作空间。之前一些研究者甚至认为无法通过强化学习来学习其中一些技能，但 BAIR 这个团队的研究证否了这个说法。

研究和实验表明，他们的系统能在相当短的时间（1-2.5 小时）内在所有这些任务上都实现几近完美的成功率。

使用同样数量的人类数据（演示和校正的数量）时，他们训练的策略远胜过模仿学习方法 —— 成功率平均超过 101%，周期时间平均快 1.8 倍。

这是个具有重大意义的结果，因为其表明强化学习确实可以直接在现实世界中，使用实际可行的训练时间学会大量不同的基于视觉的复杂操作策略。而之前的强化学习方法无法做到这一点。此外，强化学习还能达到超越人类的水平，远远胜过模仿学习和人工设计的控制器。

下面展示了一个超越人类水平的有趣示例：用一根鞭子将一块积木抽打出去，同时保证积木塔整体稳定。很显然，这个任务对大多数人来说都非常困难，但这台机器人通过强化学习掌握了这一技能。

有人类参与的强化学习系统

系统概况

HIL-SERL 系统由三个主要组件组成：actor 过程、learner 过程和位于 learner 过程中的重放缓存。它们都能以分布式的方式运行，如图 2 所示。

actor 过程与环境交互的方式是在机器人上执行当前策略，并将数据发送回重放缓存。

环境采用了模块化设计，允许灵活配置各种设备，包括支持多个摄像头、集成 SpaceMouse 等用于远程操作的输入设备。

为了评估任务是否成功，也需要一个奖励函数，而该奖励函数是使用人类演示离线训练的。

在 actor 过程中，人类可使用 SpaceMouse 从强化学习策略接管机器人的控制权，从而干预机器人的行动。

该团队采用了两种重放缓存，一种是为了存储离线的人类演示（演示缓存），另一种则是为了存储在策略数据（RL 缓存）。

learner 过程会从演示缓存和 RL 缓存平等地采样数据，使用 RLPD 优化策略，并定期将更新后的策略发送到 actor 进程。

详细的系统设计选择这里不再赘述，请访问原论文。

有人类参与的强化学习

此前，强化学习理论 (Jin et al., 2018; 2020; Azar et al., 2012; Kearns and Singh, 1998) 已经证明了智能体能学会的难度和它要处理的信息量密切相关。具体来说，状态 / 动作空间的大小、任务的难度，这些变量不断累加，会导致智能体在找到最优策略时所需的样本成倍增加。最终在超过某个阈值时，所需要的样本量过多，智能体实在学不动了，摆烂了，在现实世界中训练 RL 策略也变得不切实际。

为了解决用强化学习训练真实机器人策略的难题，该团队研究后发现，人类反馈很好用 —— 可以引导学习过程，实现更高效的策略探索。具体来说，就是在训练期间监督机器人，并在有必要时进行干预，纠正其动作。如上图 2 所示。

在该系统的设计中，干预数据会被同时存储在演示缓存和 RL 缓存中，但仅有 RL 缓存带有策略转移（即干预前后的状态和动作）。事实证明，这种方法可以提升策略的训练效率。

这种干预在以下情况下至关重要：

策略导致机器人处于不可恢复或不良状态时；当机器人陷入局部最优状态时 —— 如果没有人工帮助，就可能需要大量时间才能克服。

在训练过程的开始阶段，人类会更频繁地干预以提供正确动作，随着策略的改进，频率会逐渐降低。根据该团队的经验，相比于让机器人自行探索，当人类操作员给出具体的纠正措施时，策略改进速度会更快。

研究团队放出了任务训练过程的完整录像

更具体的训练过程请访问原论文。

实验结果

研究团队选择了七个任务来测试 HIL-SERL。这些任务对应着一系列挑战，比如操纵动态物体（在平底锅中翻煎蛋）、精确操作（插 USB 线）、动态和精确操作相结合（在主板移动时插入组件）、操纵柔性物体（组装正时皮带）、包含多个子任务的多阶段任务（组装宜家书架）。

如上表所示，在几乎所有任务上，HIL-SERL 在 1 到 2.5 小时的真实世界训练里达到了 100% 的成功率。这比基线方法 HG-DAgger 的平均成功率 49.7% 有了显著提高。对于抽积木、插入 RAM 条等，这种更复杂的任务，HIL-SERL 的优势就更为明显了。

上图中显示了采用 HIL-SERL 方法的机械臂在执行任务时被人工干预的次数。为了便于统计，研究团队计算了每次干预的时步数与单次尝试中的总时步数之比（干预率），并统计了 20 次实验的动态平均值。从图表中不难看出，干预率随着训练逐渐降低。这表明 HIL-SERL 策略会不断优化，越来越不需要人类操心了。

同时，人工干预的总时长也大幅度减少。策略不成熟时，机械臂犯错，需要花较长时间纠正，随着 HIL-SERL 不断完善，较短的干预就足以减少错误。相比之下，HG-DAgger 需要更频繁的干预，亦不会因为策略逐渐完善减少犯错的次数。

上图展示了 HIL-SERL 的零样本鲁棒性。这证明新提出的策略能够让机器人灵活地适应即时变化，有效地处理外部干扰。

比如有人故意地松开了齿轮上的皮带，受 HIL-SERL 指导的两个机械臂，一个把皮带放回了原位，另一个配合着把滑轮恢复到了适当的位置。

在两个机械臂对接时，研究人员有意让其中一个机械臂「失误」，放开了手中的物体。在 HIL-SERL 的加持下，两个机械臂自主分工合作，又恢复了搬运物体的平衡。

https://x.com/jianlanluo/status/1850902348010557453

https://x.com/svlevine/status/1850934397090078948

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2024-10-30 11:45:10

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于机器人,机器,时刻,训练,两个,任务的资讯：

机器人迈向ChatGPT时刻！清华团队首次发现具身智能Sca

...in.com想象这样一个场景：你正在火锅店和朋友畅聊，一个机器人熟练地为你倒饮料、端菜，完全不需要你分心招呼服务员。这个听起来像科幻的场景，已经被清华大学交叉信息院的研究者们

2024-11-04 09:52:00

具身智能GPT-2时刻！国内公司做出全球最大端到端统一具身大

... (PI) 的一系列报道，让人们关注到具身智能大模型引发的机器人时代变革。目光转回国内，我们同样在中国公司中发现了这场变革浪潮的先行者。据机器之心了解，国内初创公司自变量机器

2024-11-08 09:48:00

机器人又拿下一种家务：10小时学会煮咖啡，仅需观看人类演示视

上周斯坦福炒虾机器人炸场之后，又火了一个煮咖啡机器人。它的厉害之处在于通过观看人类的示范视频，仅需10小时端到端训练，就能学会并完全自主搞定这一任务。当然，更准确地来说是操作咖啡

2024-01-08 13:55:00

北大推出全新机器人多模态大模型！面向通用和机器人场景的高效推

...。本工作第二作者为刘梦真，研究方向为视觉基础模型与机器人操纵。指导老师为仉尚航，北京大学计算机学院研究员、博士生导师、博雅青年学者。从事多模态大模型与具身智能研究，取得了一系

2024-06-21 09:52:00

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强20

...成系统DexMimicGen。该系统可基于少量人类演示，合成类人机器人的灵巧手运动轨迹，解决了训练数据集的获取难题，而且还提升了实验中机器人的表现。要知道，大规模、优质的机器

2024-11-23 09:44:00

AIGC+机器人=具身智能？硅谷最酷的两个男人不谋而合 A股

新的AI题材层出不穷，这次轮到“机器人+AI”融合而成的具身智能概念。“硅谷钢铁侠”马斯克和热爱黑色皮衣的“显卡教父”黄仁勋均作出积极表态，可谓不谋而合。当地时间5月16日，特

2023-05-18 19:00:00

清华全球最大双臂机器人扩散大模型RDT，懂调酒能遛狗，登顶热

...证了 RDT 大模型的诞生，它就像 “小脑” 一样负责控制机器人的运动。同行看后纷纷表示：有了十亿参数的 RDT

2024-10-21 09:55:00

GR-2登场！ByteDance Research提出机器人

最近，ByteDance Research 的第二代机器人大模型 —— GR-2，终于放出了官宣视频和技术报告。GR-2 以其卓越的泛化能力和多任务通用性

2024-10-10 09:57:00

比“狗屁工作”更可怕的，是没有工作

...牲的生命构成的巨大而且正在变得更大的贫民窟，与智能机器人和亿万富翁构成的资本主义先锋之间不断扩大的鸿沟。只需要轻轻点击一下鼠标，就把野蛮和崇高捆绑在了一起。“人工的人工智能”

2023-09-05 14:27:00

更多关于科技的资讯：

商务部：持续推进出海服务资源优质供给和高效匹配

中新经纬2月12日电 12日，商务部召开例行新闻发布会。商务部新闻发言人何亚东在会上提到，持续推进出海服务资源的优质供给和高效匹配

2026-02-12 18:24:00

“万物科普”精彩继续 “智造”妙趣点亮新春扫码阅读手机版

2月11日上午，河西区图书馆“万物科普课堂”迎来第二场精彩活动。本次“神奇‘印’记——3D打印共塑马年新章”专场，将前沿的3D打印技术与激光切割工艺深度融合

2026-02-12 14:30:00

LV、迪奥和蒂芙尼因信息泄露在韩共被罚1.7亿元

中新经纬2月12日电 (张宁)据韩联社12日报道，12日，路易威登(LV)、迪奥(DIOR)、蒂芙尼(Tiffany&

2026-02-12 14:50:00

5 厘米高精度建模！中建八局以倾斜摄影技术为雄安数字建设注入

近日，在雄安新区启动区国家能源集团雄安基地项目施工现场，一架搭载五镜头传感器的无人机平稳降落，标志着项目施工总包单位中国建筑第八工程局有限公司顺利完成本月第三次全域实景数据采集工作

2026-02-12 14:54:00

春节保洁预约“秒光”凸显家政服务市场潜力

索乙家政服务是扩大内需的重要支点。随着居民人均服务性消费支出占比已接近居民消费的“半壁江山”，家政行业也迎来战略机遇期

2026-02-12 15:00:00

AI交互中的礼貌用语如何重塑人机关系

胡欣红最近，“要不要对AI说谢谢”引发社会热议。这场讨论并非空穴来风，据媒体报道，对于AI来说，每一次“谢谢”都相当于一次指令

2026-02-12 15:00:00

春节漫游天津：逛百年历史吃遍津门赏古镇灯火扫码阅读手机

2026-02-12 15:08:00

坐标李沧面向山东——全场景智慧生活新地标盛大启幕打造青岛

鲁网2月12日讯近日，华为智能生活馆·青岛乐客城店盛大启幕。作为青岛地区首个超千平智能生活馆，该店以约1317平方米的超大体量

2026-02-12 15:28:00

岚图汽车成功完成港股上市前置审批即将登陆香港联交所

2月12日，岚图汽车宣布已获得香港联交所的原则性同意，标志着其港股上市的全部前置监管审批流程已顺利完成。这一进程仅用四个月

2026-02-12 16:20:00

高端润滑油的智造密码

2月9日，润滑油北京有限公司员工加紧节前生产，确保高质量交付客户产品。本报记者程阳摄郑德辉文2月9日，中国石化报记者来到润滑油北京有限公司

2026-02-12 11:53:00

携程、去哪儿等12家第三方火车票网络销售平台被约谈

中新经纬2月12日电据“北京市场监管”微信号12日消息，近日，北京市市场监督管理局组织携程、去哪儿、飞猪、同程、美团

2026-02-12 11:57:00

聚焦雄安新区丨“人工智能+”开拓产业发展新赛道

“人工智能+”开拓产业发展新赛道——2026年雄安新区“人工智能+”创新生态系列活动观察人工智能，是雄安新区大力发展的主导产业之一

2026-02-12 08:47:00

微评｜整治“代刷脸”乱象刻不容缓

在多个短视频平台和电商平台上，不少账号公开发布视频，称可以绕开一些平台的人脸识别验证。这些视频中，有人遮挡住手机摄像头

2026-02-12 08:58:00

从赛事到民用，舒华推动奥运科技下沉，赋能全民健康未来

当前，健康中国战略深入实施，智能健身市场需求激增，舒华体育深化"AI运动科技"定位，推动奥运技术全面渗透至各类场景，让大众共享科学健身成果

2026-02-12 09:28:00

以旧换新激活潍坊消费新引擎：一场政策引领的绿色消费革命

鲁网2月11日讯（记者王玉龙）2025年，潍坊市消费品以旧换新直接拉动消费160亿元，是2024年的4.2倍；129万人次享受到20

2026-02-12 09:56:00

头条订阅服务

强化学习训练一两个小时，自主完成任务：机器人ChatGPT时刻来了?