我的订阅
科技

我们正处于一个信息大暴发的时代，每天都能产生数以百万计的新闻资讯！

虽然有大数据推荐，但面对海量数据，通过我们的调研发现，在一个小时的时间里，您通常无法真正有效地获取您感兴趣的资讯！

头条新闻资讯订阅，旨在帮助您收集感兴趣的资讯内容，并且在第一时间通知到您。可以有效节约您获取资讯的时间，避免错过一些关键信息。

VIMA：更适合机械宝宝体质的操作系统，竟然内置LLM！

类别：科技发布时间：2023-08-03 18:00:00 来源：CSDN

作者 | 曾浩辰责编 | 袁滚滚

出品 | CSDN（ID：CSDNnews）

“机器人技术将是我们在人工智能领域征服的最后一道护城河。一个给机器人使用的GPT模型，它的应用程序接口是什么样的？”

——英伟达资深 AI 科学家 Jim Fan，师从李飞飞。

工程师们一直在试图搭建更智能、可靠的机器人，比如之前火爆全网、来自波士顿动力公司的机器狗Spot。它可以轻松上下楼梯、搬运重物、巡查街道，等等。

波士顿动力公司机器狗Spot按下把手开门通过

机器狗由一个运行着Android系统的遥控手柄控制，人们可以通过摄像头随时查看它的状态，并提供指引爬上爬下、行走翻身。这当然很棒，但当我们想给机器人传达更复杂的动作指令时，在手柄上相应的操作就繁琐了很多。能不能开发出一种更易用、直观的人机交互方法，能让我们更轻松地发送指令给机器人呢？与其在一个小屏幕上戳来戳去控制不同的机械参数，能不能直接告诉机器人具体的指令，让它去做什么呢？

近日，由李飞飞教授及来自斯坦福大学、加州理工、清华大学和英伟达的几位学者组成的团队（Yunfan Jiang，Agrim Gupta，Zichen Zhang，Guanzhi Wang，Yongqiang Dou，Yanjun Chen，Li Fei-Fei，Anima Anandkumar，Yuke Zhu，Linxi Fan）发推，分享他们全新的研究结果：VIMA（Vision-and-Language Navigation with Multi-Modal Transformers），一个使用多模态提示执行各类任务的机械体操作系统。

也就是说，在Prompt中输入文字、图片、视频，或任意的组合，VIMA就可以控制机械臂执行相应的动作。

VIMA将多模态提示用于任务规范

VIMA能做什么？场景事例

如下图，输入指令「把形状一样的物品放到绿色碗（图片）里」给VIMA。

最后来看这个例子。

我们甚至可以在prompt教给它新的视觉概念，输入指令「这是一个zup <灰色方框图片>，这是一个blicket <灰色十字图片>。将blicket放进zup里。」

机械臂系统的组成结构

VIMA主要由以下几个部分组成：Transformer编码器和解码器：用于对多模态提示进行编码和机器人臂的控制进行解码。视觉和语言模块：用于处理视觉和语言输入，并将它们转换为Transformer可以处理的令牌序列。动作执行器：用于将机器人臂的控制信号转换为物理动作，并将其发送到机器人控制器。数据集和基准：用于评估和比较不同的机器人学习方法，并提供训练和测试数据。物理仿真器：用于在虚拟环境中模拟机器人的行为，并提供快速的反馈和调试机制。

这些组件共同构成了VIMA的核心部分，使得它能够接收多模态提示并执行各种机器人任务。

在VIMA中，GPT-3模型在第一部分被用作解码器，用于生成导航指令，以指导机器人在环境中执行导航任务。具体来说，VIMA-GPT是一个仅包含解码器的架构，它通过对多模态提示进行编码，自回归地解码给定指令和交互历史的下一个动作，控制机器臂的运动。连接硬件后的VIMA成为了“一个具有体现性的AI代理：它可以感知环境并逐步在物理世界中采取行动。”Fan说到。

软硬件结合的AI系统能做什么

团队共实现了17个不同的任务，分为6大类：简单物体操作（Simple object manipulation）、视觉目标达成（Visual goal reaching）、新概念理解（Novel concept grounding）、单次视频模仿（One-shot video imitation）、视觉约束满足（Visual constraint satisfaction）、视觉推理（Visual reasoning）。

Fan在他的推文中提及：“多模态提示使得任务规范对用户来说更加容易和灵活。通过一个单一的模型，VIMA将视觉目标达成、从视频演示中进行一次性模仿、学习新概念以及满足安全约束等多种任务统一起来。而在以前的工作中，每个任务都需要不同的训练流程。”

作为一个机器人控制的框架，VIMA可以扩展成为极其强大的工具。像是一个实体的小爱同学，在学习完所有的步骤和物品之后，它可以你成为现实生活里的左膀右臂，例如：家务。告诉它你想吃西红柿炒鸡蛋，VIMA在厨房里找到材料、开火、放糖（北方同学大喜），自动化炒菜。教育。在学校的自习课替老师回答问题，并在黑板上拿粉笔写笔记，为学生提供定制练习和反馈。娱乐。投篮后每次替你捡球送水的女同学，一个VIMA机器人就能替代，甚至更体贴。

当然，上面的例子过于理想了，但并不是不可能实现。

模型结构：编码-解码转换器

结语

VIMA作为一个仍在开发中的基础模型，为智能机械体的发展方向指明了更切实的发展方向。它有可能使机器人更智能、更有用。而如此强大的工具将其所有内容全部开源：代码、预训练模型、数据集和物理仿真基准都可以免费获取和使用！代码的透明度和可重复性被提高，更多的人可以使用和改进VIMA框架，促进了合作和知识共享，这对推动机器人学习领域的发展起到了巨大的作用。

将机器人和LLM整合，相当于让机器人有了大脑！长期来说，利好智能设备的功能增强，短期来说，B站上如稚晖君的一批知名UP主，又可以整活了。

参考链接：

https://arxiv.org/abs/2210.03094

https://vimalabs.github.io

https://twitter.com/DrJimFan/status/1683517085731913729

▶ 香港高校陆续拥抱 ChatGPT；iPhone 14 被用户吐槽电池老化；Firefox 116 发布|极客头条

▶ 重磅！全球云原生技术顶会KubeCon China 2023详细议程公布！

▶ 室温超导真要来了？一文读懂来龙去脉

粉丝福利：返回搜狐，查看更多

责任编辑：

以上内容为资讯信息快照，由td.fyun.cc爬虫进行采集并收录，本站未对信息做任何修改，信息内容不代表本站立场。

快照生成时间：2023-08-03 20:45:04

本站信息快照查询为非营利公共服务，如有侵权请联系我们进行删除。

信息原文地址：

更多关于体质,宝宝,机械,系统,机器人,机器的资讯：

机器人当上“蚕娘”

...饲料；蚕宝宝住上“公寓楼”，室内温度、湿度均可调节机器人当上“蚕娘”本报记者黄仕强《工人日报》（2023年09月12日 06版）阅读提示在现代蚕桑产业仙龙基地，家蚕的“粮食

2023-09-12 04:26:00

广东首例！6个月宝宝心外手术用上“达芬奇”机器人

...女儿童医疗中心（下称“广妇儿”）心脏中心使用达芬奇机器人辅助外科手术系统（下称“达芬奇”）顺利为一位六个月大的患者完成血管环（双主动脉弓）矫治，实现广东首例小体重儿在手术机器

2023-11-09 18:15:00

鲶鱼进场，追觅闯入具身智能腹地

...苦。如今，这个需求可以在装有仿生多关节机械手的扫地机器人中得到解决了。就在上周，一年一度的中国家电及消费电子博览会如期而至，在这场国内新兴消费电子产品的嘉年华中，能闻到品牌之

2025-03-25 11:10:00

AI舌诊、机械臂SPA！看山东展区玩转中医药文化

...案的电子健康报告。展会现场还将设置知名中医与AI中医机器人双诊体验区，既能感受中医与AI人工智能同台“竞技”，又能体验传统中医智慧与现代科技的碰撞。机械按摩师上岗智慧理疗更有

2025-05-23 18:58:00

能做饭洗衣会看病下棋科普展上机器人炫出“十八般武艺”

观众正在欣赏机器人跳舞。机器人正在做汉堡。一名学生与机器人对弈。扫码观看视频机器人做家务、机器人陪你下棋、机器人问诊……4月19日至20日，由环梦科技、中科检测、云之谷科

2025-04-22 07:30:00

AI机器人炒制杭帮菜杭州首家AI机器人餐厅正式营业

“头一回见机器人炒菜，动作麻利，菜也漂亮，看着干净，味道也好吃。”近日，位于杭州市西湖区三墩镇的AI主题机器人餐厅——“二十四节气AI机器人餐厅”正式开业，60岁的桂女士尝了一口

2026-02-07 08:28:00

比好莱坞大片更接地气！这才是适合中国宝宝体质的“科幻”

...庭原本的祥和。坚信爸爸活着的莫莉，决定同她的废柴的机器人阿鲁一起探寻找到爸爸的办法。你有没有在这个世界感到过无比的孤独？有没有怀疑身边的一切是不真实的？国产科幻电影《我看见两

2023-08-03 18:43:00

携手上海天文馆发布硬核新品石头科技首创仿生机械手重构清..

...的5轴折叠仿生机械手，打破了传统清洁的局限，让扫地机器人从单一的地面清洁工具，进化为空间避障与家庭整理的全能助手。此前在宇宙探索以及工业制造起到重要作用的机械手，第一次走进家

2025-02-26 16:12:00

美的集团首席AI官唐剑：AI和智能机器人是家电行业巨大的机遇

...家居事业板块之外，我们还有工业技术板块、楼宇科技、机器人与自动化、智慧物流、智慧医疗在内新型业务板块。基于五大板块，我们在AI方向布局了五个方向，分别是家居、制造、能源、医疗

2024-05-31 13:58:00

更多关于科技的资讯：

2026年GEO优化力量崛起，犀牛GEO优化如何成为众多服务

进入2026年，互联网流量逻辑发生了根本性逆转。传统SEO（搜索引擎优化）的时代已经落幕，取而代之的是GEO（生成式引擎优化）

2026-03-04 22:55:00

能写提纲能生成稿件大皖新闻两会报道组有了智能体助手

大皖新闻讯 3月3日，大皖新闻2026年全国两会报道组抵达北京，正式开启全国两会报道工作。继2026年安徽省两会期间

2026-03-04 21:35:00

拜访、抢单、展会……开年即奔跑浙企花式“出海”迎来开门红

纽约街头灯火阑珊，义乌市芮行进出口有限公司总经理李慧丹结束了一整天密集的客户拜访与市场调研后，依旧埋头在电脑前，复盘需求反馈

2026-03-04 21:47:00

鱼跃旗下普美康半自动体外除颤器（AED）系列新品在京东健康全

3月4日，鱼跃医疗旗下普美康全新一代Heartsave H8半自动体外除颤器（AED）多款型号在京东健康平台全网首发。该系列AED设备以“小巧便携

2026-03-04 14:36:00

金仓数据库赋能浦银金租数智化转型

当数字金融成为金融业转型的必答题，金融租赁公司的数智化升级，早已不是选择题，而是生存题。在国产化浪潮席卷而来的当下，浦银金租与电科金仓的携手

2026-03-04 14:37:00

从政府赋能到市场驱动——人才发展集团进化路径与成长方向分析

鲁网3月4日讯深入剖析国内先行地区的成功案例可见，人才发展集团成长轨迹呈现清晰的演进逻辑：早期依托政府“哺育”奠定发展基础

2026-03-04 14:39:00

那拉集团二十周年庆典一场关于特色乳业未来的深度对话即将拉开

当三月的春风拂过古都西安，一场关于特色乳业未来的深度对话即将拉开帷幕。2026年3月20日，那拉集团二十周年庆典不仅是一场企业的生日宴会

2026-03-04 14:41:00

成人纸尿裤推荐品牌：专业护理视角下的市场优选指南

随着人口老龄化程度加深，成人失禁护理已成为家庭护理的重要议题。选择一款合适的成人纸尿裤，不仅关乎使用者的生理舒适，更直接影响其生活质量与尊严维护

2026-03-04 15:12:00

家庭影院电视推荐，有娃家庭的安心之选：海信激光电视星光S1纯

作为一名孩子妈，同时也是家里的“家电决策人”，我曾为客厅该买哪种百寸大屏电视纠结了整整三个月。因为我既想要画质好、声音震撼

2026-03-04 15:16:00

工行枣庄分行成功投产辖内首个全新引擎平台缴费项目

鲁网3月4日讯为积极响应总省行科技赋能创新服务、提升公共事业缴费服务能力的号召，近期，工行枣庄分行成功投产基于全新GTCG引擎的枣庄鸿阳热力缴费项目

2026-03-04 16:24:00

南方电网册亨供电局：无人机巡检保障复工复产用电安全

随着各行各业复工复产，用电需求持续攀升。近日，南方电网册亨供电局运用无人机对辖区内配电线路、杆塔设备及通道环境开展排查

2026-03-04 16:47:00

潍坊如何下好“人工智能”这盘棋？

鲁网3月4日讯（记者王玉龙）日前举行的全市工作动员大会上，“六个坚定不移”勾勒出潍坊2026全年乃至以后数年的发展路线图

2026-03-04 16:58:00

委员好声音 | 全国政协委员明东：“脑机接口”应布局专业人才

2026全国两会

2026-03-04 16:59:00

百余种岗位、全球数十个城市，美团春季校园招聘启动

3月2日，美团2026年春季校园招聘正式启动。本次招聘预计面向2026届毕业生补招至6000人，面向2027届毕业生开放超过3000个转正实习岗位

2026-03-04 16:14:00

一号芯环保开工启新程：以科技助力深圳企业高质量发展

新春启序，万象更新。随着深圳各行各业全面复工复产，健康饮水成为产业升级核心诉求。深圳市一号芯环保科技有限公司以满格状态开启2026年新征程

2026-03-04 15:16:00

头条订阅服务

VIMA：更适合机械宝宝体质的操作系统，竟然内置LLM！