• 我的订阅
  • 科技

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

类别:科技 发布时间:2024-07-29 09:39:00 来源:机器之心Pro

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

具身智能是实现通用人工智能的必经之路,其核心是通过智能体与数字空间和物理世界的交互来完成复杂任务。近年来,多模态大模型和机器人技术得到了长足发展,具身智能成为全球科技和产业竞争的新焦点。然而,目前缺少一篇能够全面解析具身智能发展现状的综述。因此,鹏城实验室多智能体与具身智能研究所联合中山大学 HCP 实验室的研究人员,对具身智能的最新进展进行了全面解析,推出了多模态大模型时代的全球首篇具身智能综述。

该综述调研了近 400 篇文献,从多个维度对具身智能的研究进行了全面解析。该综述首先介绍了一些具有代表性的具身机器人和具身仿真平台,深入分析了其研究重点和局限性。接着,透彻解析了四个主要研究内容:1)具身感知,2)具身交互,3)具身智能体和 4)虚拟到现实的迁移,这些研究内容涵盖了最先进的方法、基本范式和全面的数据集。此外,该综述还探讨了数字空间和物理世界中具身智能体面临的挑战,强调其在动态数字和物理环境中主动交互的重要性。最后,该综述总结了具身智能的挑战和局限,并讨论了其未来的潜在方向。本综述希望能够为具身智能研究提供基础性参考,并推动相关技术创新。此外,该综述还在 Github 发布了具身智能 paper list,相关的论文和代码仓库将持续更新,欢迎关注。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

论文地址: https://arxiv.org/pdf/2407.06886

具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List

1. 具身智能的前世今生

具身智能的概念最初由艾伦・图灵在 1950 年建立的具身图灵测试中提出,旨在确定智能体是否能显示出不仅限于解决虚拟环境(数字空间)中抽象问题的智能(智能体是具身智能的基础,存在于数字空间和物理世界中,并以各种实体的形式具象化,这些实体不仅包括机器人,还包括其他设备。),还能应对物理世界的复杂性和不可预测性。因此,具身智能的发展被视为一条实现通用人工智能的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指令中的人类意图,积极主动探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并执行适当的操作以完成复杂任务。多模态模型的快速进展展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计,使具身模型能够全面感知复杂和动态的环境。强大的大语言模型使机器人更好地理解人类的语言指令并为具身机器人对齐视觉和语言表示提供了可行的方法。世界模型展示了显著的模拟能力和对物理定律的良好理解,使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面感知复杂环境,自然地与人类互动,并可靠地执行任务。下图展示了具身智能体的典型架构。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

具身智能体框架

在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人—— 具身智能在物理世界中的硬件方案;(2)具身仿真平台—— 高效且安全地训练具身智能体的数字空间;(3)具身感知—— 主动感知 3D 空间并综合多种感官模态;(4)具身交互—— 有效合理地与环境进行交互甚至改变环境以完成指定任务;(5)具身智能体—— 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成;(6)虚拟到现实的迁移—— 将数字空间中学习到的技能迁移泛化到物理世界中。下图展示了具身智能从数字空间到物理世界所涵盖的体系框架。本综述旨在提供具身智能的全面背景知识、研究趋势和技术见解。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

本综述整体架构

2. 具身机器人

具身智能体积极与物理环境互动,涵盖了广泛的具身形态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中,机器人作为最突出的具身形态之一,备受关注。根据不同的应用场景,机器人被设计成各种形式,以充分利用其硬件特性来完成特定任务。如下图所示,具身机器人一般可分为:(1)固定基座型机器人,如机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾难场景的应对方面显示出潜力;(4)四足机器人,以其稳定性和适应性而闻名,非常适合复杂地形的探测、救援任务和军事应用。(5)人形机器人,以其灵巧手为关键,在服务业、医疗保健和协作环境等领域广泛应用。(6)仿生机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

不同形态的具身机器人

3. 具身智能仿真平台

具身智能仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验手段,能够通过模拟潜在的危险场景来确保安全,具有在多样环境中进行测试的可扩展性,具备快速原型设计能力,能够为更广泛的研究群体提供便利,提供用于精确研究的可控环境,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,本综述将对两种仿真平台进行分析:基于底层仿真的通用平台和基于真实场景的仿真平台。

通用仿真平台

基于真实场景的仿真平台

4. 具身感知

未来视觉感知的 “北极星” 是以具身为中心的视觉推理和社会智能。如下图所示,不同于仅仅识别图像中的物体,具有具身感知能力的智能体必须在物理世界中移动并与环境互动,这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力,理解场景中的三维关系,并基于视觉信息预测和执行复杂任务。该综述从主动视觉感知、3D 视觉定位、视觉语言导航、非视觉感知(触觉传感器)等方面进行介绍。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

主动视觉感知框架

5. 具身交互

具身交互指的是智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。如下图所示,在具身问答任务中,智能体需要从第一人称视角探索环境,以收集回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境,还需决定何时停止探索以回答问题,如下图所示。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

具身问答框架

除了与人类进行问答交互外,具身交互还涉及基于人类指令执行操作,例如抓取和放置物体,从而完成智能体、人类和物体之间的交互。如图所示,具身抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型(如大语言模型和视觉语言基础模型)相结合,使智能体能够在多感官感知下执行抓取任务,包括视觉主动感知、语言理解和推理。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

语言引导的交互式抓取框架

6. 具身智能体

智能体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的应用。当这些基于多模态大模型的智能体被具身化为物理实体时,它们能够有效地将其能力从虚拟空间转移到物理世界,从而成为具身智能体。为了使具身智能体在信息丰富且复杂的现实世界中运行,它们已经被开发出强大的多模态感知、交互和规划能力。如下图所示,为了完成任务,具身智能体通常涉及以下过程:

(1)将抽象而复杂的任务分解为具体的子任务,即高层次的具身任务规划。

(2)通过有效利用具身感知和具身交互模型,或利用基础模型的策略功能,逐步实施这些子任务,这被称为低层次的具身行动规划。

值得注意的是,任务规划涉及在行动前进行思考,因此通常在数字空间中考虑。相比之下,行动规划必须考虑与环境的有效互动,并将这些信息反馈给任务规划器以调整任务规划。因此,对于具身智能体来说,将其能力从数字空间对齐并推广到物理世界至关重要。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

基于多模态大模型的具身智能体框架

7. 虚拟到现实的迁移

具身智能中的虚拟到现实的迁移(Sim-to-Real adaptation)指的是将模拟环境(数字空间)中学习到的能力或行为转移到现实世界(物理世界)中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应,具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素,下图展示了五种不同的 Sim-to-Real 范式。

全球首篇!调研近400篇文献,鹏城实验室&中大深度解析具身智能

五种虚拟到现实的迁移方案

8. 挑战与未来发展方向

尽管具身智能发展迅速,但它面临着一些挑战,并呈现出令人兴奋的未来方向:

(1)高质量机器人数据集。获取足够的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗费资源。单纯依靠模拟数据会加剧仿真到现实的差距问题。创建多样化的真实世界机器人数据集需要各个机构之间紧密且广泛的合作。此外,开发更真实和高效的模拟器对于提高模拟数据的质量至关重要。为了构建能够在机器人领域实现跨场景和跨任务应用的通用具身模型,必须构建大规模数据集,利用高质量的模拟环境数据来辅助真实世界的数据。

(2)人类示范数据的有效利用。高效利用人类演示数据包括利用人类展示的动作和行为来训练和改进机器人系统。这个过程包括收集、处理和从大规模、高质量的数据集中学习,其中人类执行机器人需要学习的任务。因此,重要的是有效利用大量非结构化、多标签和多模态的人类演示数据结合动作标签数据来训练具身模型,使其能够在相对较短的时间内学习各种任务。通过高效利用人类演示数据,机器人系统可以实现更高水平的性能和适应性,使其更能在动态环境中执行复杂任务。

(3)复杂环境认知。复杂环境认知是指具身智能体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。对于非结构化的开放环境,目前的工作通常依赖预训练的 LLM 的任务分解机制,利用广泛的常识知识进行简单任务规划,但缺乏具体场景理解。增强知识转移和在复杂环境中的泛化能力是至关重要的。一个真正多功能的机器人系统应该能够理解并执行自然语言指令,跨越各种不同和未见过的场景。这需要开发适应性强且可扩展的具身智能体架构。

(4)长程任务执行。执行单个指令通常涉及机器人执行长程任务,例如 “打扫厨房” 这样的命令,包含重新排列物品、扫地、擦桌子等活动。成功完成这些任务需要机器人能够规划并执行一系列低级别动作,且持续较长时间。尽管当前的高级任务规划器已显示出初步的成功,但由于缺乏对具身任务的调整,它们在多样化场景中往往显得不足。解决这一挑战需要开发具备强大感知能力和大量常识知识的高效规划器。

(5)因果关系发现。现有的数据驱动的具身智能体基于数据内部的相关性做出决策。然而,这种建模方法无法使模型真正理解知识、行为和环境之间的因果关系,导致策略存在偏差。这使得它们难以在现实世界环境中以可解释、稳健和可靠的方式运行。因此,具身智能体需要以世界知识为驱动,具备自主的因果推理能力。

(6)持续学习。在机器人应用中,持续学习对于在多样化环境中部署机器人学习策略至关重要,但这一领域仍未被充分探索。虽然一些最新研究已经探讨了持续学习的子主题,如增量学习、快速运动适应和人机互动学习,但这些解决方案通常针对单一任务或平台设计,尚未考虑基础模型。开放的研究问题和可行的方法包括:1) 在最新数据上进行微调时混合不同比例的先前数据分布,以缓解灾难性遗忘,2) 从先前分布或课程中开发有效的原型,用于新任务的推理学习,3) 提高在线学习算法的训练稳定性和样本效率,4) 确定将大容量模型无缝集成到控制框架中的原则性方法,可能通过分层学习或慢 - 快控制,实现实时推理。

(7)统一评估基准。尽管有许多基准用于评估低级控制策略,但它们在评估技能方面常常存在显著差异。此外,这些基准中包含的物体和场景通常受到模拟器限制。为了全面评估具身模型,需要使用逼真的模拟器涵盖多种技能的基准。在高级任务规划方面,许多基准通过问答任务评估规划能力。然而,更理想的方法是综合评估高级任务规划器和低级控制策略的执行能力,特别是在执行长时间任务和衡量成功率方面,而不仅仅依赖于对规划器的单独评估。这种综合方法能够更全面地评估具身智能系统的能力。

总之,具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动,显示了其在实现通用人工智能方面的重要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向,这对沿着促进具身智能的发展具有重要意义。

关于鹏城实验室多智能体与具身智能研究所

隶属鹏城实验室的多智能体与具身智能研究所汇聚了数十名智能科学与机器人领域顶尖青年科学家,依托鹏城云脑、中国算力网等自主可控 AI 基础设施,致力于打造多智能体协同与仿真训练平台、云端协同具身多模态大模型等通用基础平台,赋能工业互联网、社会治理与服务等重大应用需求。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-07-29 12:45:01

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

北航“粤向未来实践队”解码大湾区车路云协同创新实践
...前往了中山大学智能工程学院的广东省智能交通系统重点实验室进行参观交流。队员们了解到,实验室搭建的基于交通信息物理模型的IDPS城市交通大脑系统,能通过整合城市感知设备与公安天
2025-03-04 12:50:00
...青海师范大学省部共建藏语智能信息处理及应用国家重点实验室获悉,该实验室已初步建成600TF算力的智算平台和面向多领域多用途的大规模藏语数据资源库。青海师范大学省部共建藏语智能
2024-05-25 20:39:00
调研219篇文献,全面了解GenAI在自适应系统中的现状与研究路线图
...收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享
2024-09-27 13:42:00
人工智能助力科学发现之路
...,作为人工智能发展的新前沿,“AI for Science”正快速从实验室探索迈向科研主流,有望引领一场深刻的科研范式变革
2025-04-10 03:46:00
崖州湾国家实验室联合发布首个种业大语言模型:100道题得分是本科生4.87倍
...型的推出,或许可以给出全新的探索路径。据崖州湾国家实验室最新发布消息,崖州湾国家实验室精准设计与智造团队联合中国农业大学
2024-04-29 12:42:00
...项研究中,美国加州大学伯克利分校团队开发了一种自动实验室(A-Lab)系统。这种A-Lab根据现存科学文献训练,随后结合主动学习,可对拟定化合物创造最多5个初始合成配方。随后
2023-12-04 03:07:00
武汉纺织大学,首次捧得“优胜杯”!
...乡村振兴。省部共建纺织新材料与先进加工技术国家重点实验室项目《纤维素纳米晶涂料》获“黑科技”展示活动全国“星系级”作品(最高奖),项目受自然界中五彩斑斓生物体启发,基于纤维素
2023-11-09 18:39:00
专注提供实验室自动化解决方案,玄刃科技完成A+轮战略融资|36氪首发
...研究、合成生物、诊断检验等前沿领域。图源:玄刃科技实验室自动化的概念始于1980年代的日本,最早出现在临床检验领域,海外品牌产品相对成熟,中国企业的发展则相对较晚。近年来,伴
2024-12-02 11:59:00
...供科技支撑俞陶然本报讯(记者 俞陶然)上海人工智能实验室昨天联合崖州湾国家实验室和中国农业大学,发布了我国首个种业大语言模型“丰登”(SeedLLM)。在上海人工智能实验室研
2024-04-29 05:58:00
更多关于科技的资讯:
名创优品MINISO深耕IP战略:岭南骑楼店开业首日引爆Z世代消费热潮
2025年8月17日,名创优品MINISO LAND华南首店于广州北京路步行街正式开业。该店以百年岭南骑楼为空间载体,融合超过100个全球热门IP
2025-10-09 11:15:00
荣耀Magic8系列发布会官宣定档10月15日
10月9日,荣耀官方正式宣布,主题为“开新局・见未来”的荣耀 Magic8 系列暨 Magic OS10 发布会将于10 月15日正式举行
2025-10-09 11:30:00
局部降水量80毫米以上!10—14日烟台市将有持续连阴雨天气
齐鲁晚报·齐鲁壹点 周宣刚10月7日10时,烟台市气象局发布10—14日连阴雨天气预报和大风警报。受高空槽东移和暖湿气流输送北上的水汽影响
2025-10-09 11:31:00
权威发布, 福瑞达颐莲品牌价值评估突破120亿
2025年9月25日,在中国香料香精化妆品工业协会主办的“2025中国香妆品牌价值大会”上,福瑞达生物股份旗下颐莲品牌凭借卓越的市场表现与品牌影响力
2025-10-09 11:32:00
持续创新高!高德扫街榜上线23天用户超4亿
这个国庆黄金周,高德APP和高德扫街榜正在持续创新高——10月3日,高德扫街榜宣布:上线仅23天,累计用户超4亿。10月1日
2025-10-09 11:33:00
国庆中秋,大马再掀中餐热潮!“鱼你速度”树出海标杆!
国庆中秋双节期间,马来西亚再度掀起中餐热潮!以“鱼你在一起”为代表的中餐连锁品牌,在当地各大商圈持续引爆消费热情。“6个月
2025-10-09 11:34:00
开启商超智慧储鲜,澳柯玛新品冷柜让食材更鲜活
鲁网10月9日讯当社区团购爆单时冰柜塞不下?当生鲜进货量太大冻不透?当网红雪糕因串味被迫贱卖?针对这些让商超、饭馆等用户抓狂的痛点
2025-10-09 11:40:00
鸡排哥8天假期涨粉超40万,节前已成立工作室,10月9日休息一天
10月8日,江西景德镇鸡排哥在个人社交账号发布一则视频,向全国各地来到家乡景德镇游玩和打卡买鸡排的游客表示感谢。鸡排哥表示近期天气炎热
2025-10-09 12:09:00
大疆部分产品直降千元!消费者炸锅,官方回应
10月8日,大疆在官网提前挂出“双十一”促销信息,多款产品价格直降数百至上千元。此次降价幅度较大。从几百元到几千元不等
2025-10-09 13:45:00
单日游客最高突破6.9万人次 忠县橘若·忠州渡接住“泼天流量”
这个国庆假期,重庆忠县江畔的橘若·忠州渡结结实实地“火”出了圈,八天揽客30余万人次,游客单日最高接待量突破6.9万人次
2025-10-09 13:57:00
谷子科技“智慧票根”创新亮相2025和平精英PEL运动会
10月7日,由谷子科技集团、和平精英职业联赛(PEL)与腾讯音乐娱乐集团联合出品,腾讯音乐娱乐集团与安徽易趣网络科技有限公司承办
2025-10-09 14:01:00
KPRO肯律轻食广州市场喜迎三十店庆十店同开彰显品牌活力
近日,肯德基旗下能量轻食品牌KPRO肯律轻食在广州、佛山及惠州三地,同步新开十家门店,标志着其在广州市场门店总数突破三十家
2025-10-09 14:01:00
告别失眠困扰!2025年备受瞩目的十大助眠药综合评估与选购参考
夜深人静,却辗转反侧;闹钟响起,仍昏沉乏力——这已成为当代太多人的真实写照。世界卫生组织研究表明,持续的睡眠障碍不仅是生活质量的杀手
2025-10-09 14:03:00
布鲁可携新品类、新系列、新产品亮相WF2025,全面展现\
10月2日-3日,中国规模最大、最专业的手办模型展Wonder Festival 2025(以下简称:WF2025)在上海正式开幕
2025-10-09 14:50:00
中国电信董事长柯瑞文:云网筑基,智惠未来
10月1日,全球云网宽带产业协会(World Broadband Association,简称:WBBA)云网宽带发展大会在巴西圣保罗召开
2025-10-09 15:13:00