• 我的订阅
  • 科技

浙大校友自研跨模态模型,打造具身智能的“通用语法”

类别:科技 发布时间:2024-03-22 10:31:00 来源:DeepTech深科技

若要理解“具身智能”这一概念,不妨从“具身”一词出发。具身并非简单的“具备身体”,但其核心的确在于“身体”的概念。1945 年,法国哲学家梅洛·庞蒂(Merleau Ponty)在《知觉现象学》一书中提出“具身”这一理念。

他认为,身体经验构成人类与世界互动和理解世界的基础。“具身”意味着投入到现实之中,即参与到一个规定的环境中去,与某些筹划融为一体,并持续地介入到其中去。由于它的置身性,身体成为人类认知世界的基础。

“拥有一个身体就是拥有一个通用的装置、拥有一个涵盖所有类型的知觉展开图式。”巧合的是,也正是在这一时期,英国计算机科学家阿兰·图灵(Alan Turing)在论文《计算机器与智能》(Computing Machinery and Intelligence)中,提出了一种能借助传感器与环境互动并自行学习的人工智能,而这正是如今“具身智能”的最初构想[1]。

因此,可以将“具身智能”理解为一种将智能软件与感知硬件相结合的不同形态机器人,它们同人类一样置身于真实环境中,在与环境的互动过程中不断促进自身“进化”。

传统 AI 需要依靠内置模型对世界进行表征,再根据这些表征建构行为概念,这种模式高度依赖人工数据标注,不仅缺乏应对多变情况的灵活性,也无法理解与任务相关的未标注因素。

由于传统 AI 泛化能力的不足,开发者必须针对每一种可能的行为状态和情境细致入微地定义,并收集相应的训练数据。这一过程不可避免地会导致任务复杂度呈指数级增长,使得为每一个微小的变化进行预先训练变得极为困难甚至无法实现。

而大模型中 Transformer 架构的引入,则使模型具有高效的并行计算能力与灵活性,从而可以处理大规模数据集,并能通过微调预训练模型,快速适应不同任务场景。同时,其层次化结构能做到对复杂数据深层次的抽象和解析。

因此,Transformer 架构的引入为具身智能领域带来了范式革新,使真正智能的具身机器人成为可能。这种变革可类比于从功能手机向智能手机的演进,具身智能机器人的优势正在于它所具备的交互性与通用性,即一种在开放的场景下实现自然交互的能力。

我们先来了解一下基于大模型实现具身智能的发展历史。第一代模型主要依靠大型语言模型(Large Language Model,LLM)和视觉语言模型(Visual Language Model,VLM)来处理物理世界的交互。

但是,这类模型受限于仅能通过视觉问答形式间接与现实世界互动,缺乏对复杂环境和实时交互的理解能力。

随着技术进步,以谷歌 PaLM-E /RT2 为代表的第二代模型尝试整合 LLM 与视觉 Transformer,将自然语言与现实世界更紧密地结合起来。

不过,即便如此在构建四维世界模型、有效预测未来行为、以及在复杂交互场景中进行灵活推理等方面仍然面临挑战。

浙大校友自研跨模态模型,打造具身智能的“通用语法”

图丨谷歌 PaLM-E[2](来源:arXiv)

浙大校友自研跨模态模型,打造具身智能的“通用语法”

由功能型到智能型的转变

总的来说,由于技术水平的限制,关于具身智能的构想并未得到充分发展。直到近来大模型技术的爆发,才重新点燃了一大批研究者对于具身智能的探索热情。

在这股热潮中,陈俊波便是其中的一员。博士毕业于浙江大学计算机科学系的他,在人工智能领域积累了不少经验。特别是在与具身智能紧密相关的自动驾驶研究方向上,他曾主导开发“小蛮驴”无人驾驶物流机器人等项目。

在发现具身智能新的发展契机后,陈俊波意识到若想探索更为广阔的应用空间,需要一个新的平台。

于是,他辞去阿里达摩院自动驾驶部门负责人的职位,于 2023 年 2 月创立有鹿机器人公司。

浙大校友自研跨模态模型,打造具身智能的“通用语法”

图丨陈俊波(来源:资料图)

陈俊波和团队研发的具身智能大模型 LPLM(Large Physical Language Model)作为一个端到端的具身智能解决方案,突破了传统深度学习依赖封闭集合和人工标注数据的局限,这归功于其解码器所采用的预测未来的学习策略。

具体而言,它会从观察到的数据中,自动地推导出复杂的时间序列模式,从而理解和预测数据中隐含的动态变化。这样一来,任何一段给定的数据,都可以根据已有数据自动标注。

这种自我标注机制能够极大提升模型从未标注数据中的学习效率和质量,因为它允许模型通过自身生成的预测,来不断校正和优化理解能力和表征能力,从而实现对于真实世界动态变化的适应。

以自动驾驶为例,在遇到需要车辆会车的复杂博弈场景时,LPLM 不仅能预测其他参与者的行为意图,还能在此基础上制定出最优行动策略,比如安全左转或让行,从而确保行车安全同时提高通行效率。

此外,LPLM 还增强了对自然语言指令的理解和执行能力。谈及这项能力重要的原因,陈俊波举例说道:“为什么目前的各类 Robo-taxi 虽然可用,但依然无法取代司机?原因之一在于,当我们提供一些比较模糊的信息位置时,它无法实现对于自然语言的准确识别。”

通过引入超越原有二维 Visual Grounding 方法的 3D Grounding 机制,LPLM 能够更准确地定位物体。同时,LPLM 模型通过深度抽象和精细建模,显著提升了对物理世界复杂度的把握。

它将物理环境的信息提炼至与大型语言模型内部特征同等的高度,进行显式的逻辑映射,通过整合多模态数据,如点云、图像、声音和文字,构建出对环境的全面细致的表示。

这些不同形式的数据提供了丰富的环境信息,从三维形状和空间位置、到视觉特征、再到上下文环境指令,为模型提供了一个综合的世界视图。从而能够理解并响应非精确或模糊的指令,显著提高具身智能系统的适应性和执行效率。

浙大校友自研跨模态模型,打造具身智能的“通用语法”

图丨LPLM 算法模型架构(来源:资料图)

浙大校友自研跨模态模型,打造具身智能的“通用语法”

打造具身智能的“通用语法”

陈俊波表示,具身智能最大的特质就是能像人类一样自主认知、思考与学习,因此与人类行为类似的人形机器人,自然成为了具身智能中备受关注的方向之一,如特斯拉 Optimus、小米 CyberOne 等即为这类产品的代表。

但是,具身智能远不止人形机器人一种,尤其是在工业、物流等场景,与各类设备的结合才是其更广泛的价值所在。基于此,陈俊波和团队打造了一款通用“大脑”。

他们赋予这款大脑的,是一种智能设备领域的乔姆斯基“普遍语法”式的能力,旨在给各类形态各异的机器人提供一种普适的认知结构和行为指导规则。

但是,这种泛化并不简单,由于传感器模型、观察到的数据分布和交互能力的不同,一种机器人通过对象探索获得的隐性知识并不能直接被另一种具有不同形态的机器人利用[3]。

得益于 LPLM 具备对三维以至四维世界的理解能力,模型能够从数据中提取出许多共性信息,通过抽象、投影、转移等过程,充当一种适用于各类机器人的基础模型,这让它的通用化使用具有可能性。

目前,陈俊波和团队已经推出一款智能清洁机器人,并在杭州良渚古城遗址、上海中心大厦等标志性地点实地运行。

陈俊波表示,之所以首先选择清洁和物流机器人作为突破口,主要原因在于当前具身智能领域正处于“从无到有”的开创阶段。

如果一开始就直接推出通用智能机器人概念,许多潜在客户可能会因对该技术的不了解、使用的不确定性以及对其潜力认识不清而产生抵触。

因此,他和团队通过智能清洁的实际案例,更为直观地揭示出通用智能模型的潜在能力,从而促进该技术在更广泛领域的普及,以达成通用化的愿景。

在推出智能清洁机器人后,陈俊波计划将这一核心技术——智能“大脑”拓展至挖掘机、铲车等更多传统机械设备领域,实现更广泛的智能化改造。

但是,要想打破传统机器学习依赖人为编程与模块化集成的局限,并不能只依靠数据量的增长。

所以对于陈俊波而言,LPLM 以大规模数据驱动自我进化的潜能还有待充分挖掘。他补充称:“在具身智能赛道上,重要的不仅仅是技术本身的创新,更重要的是如何将这种智能技术以恰当的方式应用到不同的行业中。”

为此,他和团队也正在逐一破解应用场景中的具体难题。同时,以可持续的商业模式推动技术快速普及与产业化。

未来,他们将继续致力于实现物理世界的 Scaling Law,通过扩大数据采集和应用的覆盖面,形成数据增长与技术进步之间的正向循环,以具身智能技术的发展促进更多传统行业的变革。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-03-22 11:45:09

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

给机器人装上大模型大脑,「若愚科技」获超5000万天使轮融资|36氪首发
文|武静静编辑|邓咏仪36氪获悉,多模态大模型公司「若愚科技」完成超5000万天使轮融资,本轮融资由东方精工领投,昆仲跟投,源合资本担任独家融资顾问。公司称,资金将主要用于产品研
2024-03-21 05:19:00
中欧国际工商学院重庆校友会新春年会在视源股份圆满举办
...提效,也推动了教育的智能化转型。希沃教学大模型的多模态理解能力使其能看、能听、能读,适应更多教学场景。在课堂点评效果、课室3D热力图、课堂行为识别效果、语言识别效果等方面均实
2025-01-07 13:31:00
“图片生成领域的DeepSeek”!智象未来图像生成大模型全面开源 登顶全球权威榜单
...中国科大校友梅涛等人创办,目前已成长为全球领先的多模态生成式人工智能创新企业。公司自主研发的生成式视觉多模态大模型,是超百亿级别的大模型,具备强大的视觉内容生成与理解能力。其
2025-04-17 10:54:00
Coremail全面对接DeepSeek,开启办公效率新革命
...能应用DeepSeek横空出世,其凭借强大的自然语言处理与多模态能力,在代码生成、数据分析、学术研究、智能办公等领域表现卓越
2025-03-14 17:45:00
阿里CEO吴泳铭:生成式AI让世界有了一个统一的语言——Token
...为了AI发展的最大障碍。当前的数字化世界,信息以多种模态存在——自然语言、程序代码、图像、视频、音频、3D模型、数学符号……这些信息形式各自独立,彼此之间的“对话”几乎不存在
2024-09-20 09:51:00
京东要给实体产业做个GPT
...测试,都会为AI带来点滴新的进步。决战大模型:走向多模态与实体京东云今年将发布的新一代产业大模型 ——言犀大规模预训练语言模型,被视为是AI角逐产业场景的开端。京东云言犀团队
2023-05-10 03:00:00
90 后华人 CMU 校友回国创业,自研具身智能机器人
...的认知上面,还是完全空白的。进入到 3.0 时代,随着多模态模型的产生,开放词汇感知模型的进化,以及大语言模型、基础模型的革新,我们可以看到机器人开始逐步解锁更多样化的场景,
2024-03-12 23:00:00
科大讯飞入局大模型混战,刘庆峰:10月底将赶超ChatGPT
...理解、知识问答、逻辑推理、数学能力、代码能力以及多模态能力。“这将对整个人类的生产和生活方式带来巨大的颠覆,产生全新的机会。”“认知大模型成为通用人工智能的曙光,科大讯飞有信
2023-05-07 03:00:00
网易有道周枫:AI PC将是工作、学习、生活的个人全能助理
...模型具备全科知识整合能力,知识覆盖面广。通过连接多模态知识库、跨学科整合知识内容,大模型能随时满足学生的动态需求,帮助孩子培养更综合的能力。“AI PC将为产业及生态带来巨大
2023-12-26 10:10:00
更多关于科技的资讯:
潮起章丘,一城所向:章丘世茂广场盛大开业,开启城市商业新主场
鲁网2月7日讯2026年2月6日,中国济南——由章丘控股集团与世茂集团商业地产商娱公司(以下简称世茂商娱)联袂打造的章丘世茂广场盛大开业
2026-02-07 16:32:00
“人机协同”新模式进楼宇,顺丰同城×顺丰速运机器人配送落地南昌双子塔
近日,顺丰同城与顺丰速运携手推出楼宇机器人末端配送新业务,于2月5日率先在江西南昌标志性建筑之一南昌双子塔投入运营。双方聚焦商务楼宇等高层建筑的末端配送难点
2026-02-07 16:48:00
中国科大建立磁各向异性的普适理论
大皖新闻讯 2月7日,大皖新闻记者从中国科学技术大学获悉,该校牛谦教授与高阳教授团队在磁各向异性理论研究中取得突破。研究团队基于自旋轨道耦合的微扰展开以及自旋群的群表示
2026-02-07 12:48:00
厦门网讯(厦门日报记者 应洁)马年新春将至,集美区年味渐浓。2月6日,由集美区商务局主办的“2026集美欢乐购”新春消费券正式“开抢”
2026-02-07 08:49:00
老人也能轻松操作!海尔智家APP“AI语音”让服务零门槛
智能家电功能日益丰富,售后环节的复杂化却成了很多用户的“数字门槛”。在智慧家庭战略指导下,海尔智家APP推出“AI语音”功能
2026-02-07 10:07:00
海尔智家APP“3D家庭视图”将操作效率提升60%
当智能家电数量不断增加,如何高效、直观地管理成了很多用户的“甜蜜负担”。海尔智家APP在智慧家庭战略指引下,通过数字孪生技术打造“3D家庭视图”功能
2026-02-07 10:09:00
从套购到套系,海尔智家靠近用户实现双第一
1月29日,中国家用电器服务维修协会发布《2026年家电服务业及新兴市场发展趋势预测》。报告指出,全屋智能和AI技术正成为推动市场增长的重要力量
2026-02-07 10:10:00
近日,中国科学技术大学的潘建伟院士团队在量子网络领域取得重要突破,首次构建出可扩展量子中继的基本模块,并在此基础上首次将设备无关量子密钥分发的传输距离突破百公里
2026-02-07 10:52:00
大皖新闻讯 近年来,安徽首创金融支持科创企业“共同成长计划”和“贷投批量联动”模式,科技型企业贷款4年连跨7个千亿台阶
2026-02-07 08:44:00
今天,“浙江第一摩天轮”——“天目之心”将在临安天目未来谷正式开转。“天目之心”摩天轮高131.4米,寓意“一生一世”的浪漫
2026-02-07 07:28:00
纵览原创|河北首家SUPER MINISO来了!石家庄 “首店经济”再添消费新场景
记者宋瑶 见习记者杨思涵2月6日,名创优品旗下SUPER MINISO超级名创河北首店在石家庄核心商圈中山路北国商城负一层正式开业
2026-02-07 07:33:00
河北日报讯(见习记者康晓博)2月4日,“AI+机器人”领域领军企业北京极智嘉科技股份有限公司(以下简称“极智嘉”)在雄安新区举行总部揭牌仪式
2026-02-07 07:39:00
邦德激光正式入驻Dream Park全球总部基地
近日,邦德激光总部员工全部迁入位于济南市历城区春晖路3999号的Dream Park全球总部基地,标志着公司发展进入全新阶段
2026-02-06 20:50:00
2026年WGS世界政府峰会 迪拜王储乘坐百度萝卜快跑无人车参会!
“解放双手、未来已来!”在体验完萝卜快跑全无人驾驶后,迪拜王储谢赫·哈姆丹主动在海外社交媒体上发文,赞叹这次“非常丝滑”的未来出行
2026-02-06 17:08:00
三联家电章丘首店世茂店盛大开业,一站式高端家电消费新升级
鲁网2月6日讯春启新程,盛境绽放!2月6日,扎根齐鲁四十一载的山东家电零售领军品牌三联家电,携章丘区域首店正式入驻章丘世茂广场
2026-02-06 17:12:00