• 我的订阅
  • 科技

Meta、斯坦福大学用生成式AI实现3D空间环境人机交互

类别:科技 发布时间:2023-12-12 10:04:00 来源:映维网

(映维网Nweon 2023年12月12日)斯坦福大学和Meta旗下的FAIR团队日前介绍了一种突破性的人工智能系统:仅根据文本描述就可以在虚拟人和物之间产生自然的同步运动。

这个新系统名为CHOIS(Controllable Human-Object Interaction Synthesis/可控人-物交互合成),而它采用最新的条件扩散模型技术来产生无缝和精确的交互,比如“把桌子举过头顶,走路,放下桌子”。

展望未来,以后的虚拟生物将可以像人类一样流畅地理解和响应语言命令,而系统可以从语言描述中生成连续的人机交互。

Meta、斯坦福大学用生成式AI实现3D空间环境人机交互

团队指出,在3D环境中合成人类行为对于计算机图形学、嵌入式人工智能和机器人技术等应用至关重要。尽管人类可以毫不费力地在环境中导航和执行任务,但这对机器人和虚拟人而言是十分艰巨的挑战,因为每一项任务都需要人、物和周围环境之间的精确协调。

在另一方面,语言是表达目的意图的有力工具。在语言和场景背景的指导下,合成逼真的人类和物体运动是构建先进人工智能系统的基石。

斯坦福大学和FAIR团队认为,尽管现在已有研究在探索人-场景交互问题,但它们仅限于具有静态对象的场景,忽略了日常生活中频繁发生的高度动态交互。另外,尽管业界最近在动态人-物交互建模方面取得了进展,但相关方法只关注较小的对象,或者缺乏操纵多种对象的能力。即便存在探索操纵更大尺寸的各种物体,但它们依赖于过去的交互状态序列或物体运动的完整序列,无法单独从初始状态合成物体运动和人体运动。

所以在CHOIS的研究中,团队专注于从语言和初始状态合成涉及更大尺寸的不同对象的逼真交互。

从语言描述生成连续的人机交互带来了数个挑战。首先,我们需要生成逼真和同步的物体和人体运动。在交互过程中,人的手应该与物体保持适当的接触,物体的运动应该与人的行为保持因果关系。

其次,3D场景中经常有大量的物体,限制了可行运动轨迹的空间。因此,交互合成必须适应环境的混乱,而不是在一个空场景的假设下操作。

对于CHOIS,团队重点研究了从自然语言命令合成三维环境中人-物交互的关键问题,在语言和稀疏物体路径点的指导下生成物体运动和人体运动。

运动应该与语言输入中指定的指令保持一致,同时符合由3D场景几何导出的航路点条件定义的环境约束。为了实现这一点,研究人员采用条件扩散模型来同时生成同步的物体和人体运动,条件是语言描述、初始状态和稀疏的物体路径点。

为了提高预测物体运动的准确性,在训练过程中加入了物体几何损失。另外,他们设计了在采样过程中应用的guidance term,以提高生成交互的真实感。

实验证明了学习交互合成模块在系统中的有效性,可以在给定语言描述和3D场景的情况下产生连续的逼真和情景感知交互。

通过条件扩散模型,CHOIS系统可以模拟生成详细运动序列。当给定人类和物体位置的初始状态,以及所需任务的语言描述时,CHOIS就能够生成一系列运动。

例如,如果指令是将灯移近沙发,CHOIS就会理解这个指令,并创建一个逼真的动画,令人类化身拿起灯并将其放在沙发附近。

使得CHOIS特别独特的是,它使用稀疏的对象路径点和语言描述来指导动画。路径点充当对象轨迹中关键点的标记,确保运动不仅在物理上合理,而且与语言输入概述的目标保持一致。

CHOIS的独特之处同时在于它将语言理解与物理模拟结合在一起。传统模型往往难以将语言与空间和物理动作联系起来,特别是在更长时间的交互范围内,它们必须考虑诸多因素才能保持真实性。

通过解释语言描述背后的意图和风格,然后将它们解读成一系列尊重人体和所涉及对象约束的物理运动,CHOIS可以弥合了这一差距。系统确保了接触点(如手触摸物体)可以准确地呈现出来,并且物体运动与虚拟人施加的力一致。

CHOIS系统可以对一系列的领域产生深远的影响,特别是在动画和虚拟现实领域。如果人工智能能够解释自然语言指令并生成逼真的人机交互,CHOIS可以大大减少制作复杂场景动画所需的时间和精力,而且在虚拟现实环境中,CHOIS可以带来更加身临其境的交互式体验,因为用户可以通过自然语言命令虚拟角色,并看到它们以逼真的精度执行任务。

这种高水平的交互可以将VR体验从僵硬的脚本事件转变为对用户输入做出真实响应的动态环境。

研究小组认为,他们的研究是朝着创造可以在不同3D环境中模拟连续人类行为的先进人工智能系统迈出的重要一步。它同时为进一步研究从3D场景和语言输入中合成人机交互打开了大门,并可能会在未来带来更复杂的人工智能系统。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-12 12:45:52

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

最新美国国家人工智能科学院院士介绍
...擎和广告系统提供了强大的技术支持。EmmaBrunskill,来自斯坦福大学。她的研究方向是强化学习和机器人技术,通过设计先进的算法
2024-03-24 08:39:00
本文转自:人民邮电报近日,斯坦福大学研究团队提出了一种名为DetectGPT的新方法,旨在成为首批打击高等教育中LLM生成文本的工具之一。相关研究论文已发表在预印本网站arXiv
2023-01-31 09:46:00
斯坦福AI视频生成工具免费开放!30秒时长,马斯克看了效果会沉默
...I,可加入官方DiscordHedra此次发布的基础模型Character-1由前斯坦福大学顶尖研究团队领导。首席执行官Michael Lingelbach
2024-06-21 11:01:00
生成模型真实物理引擎Genesis来了!由全球AI顶尖高校团队开发
来自卡内基梅隆大学、马里兰大学、哥伦比亚大学、斯坦福大学、麻省理工学院、清华、北大、港大等全球 AI 顶尖高校和 Nvdia 等研究机构的华人团队
2024-12-20 09:22:00
36氪首发 | 从消毒延伸至空气管理全场景,「清越科技」完成数千万元A轮融资
...期项目,孵化于美国硅谷,成立于2020年。创始团队来自斯坦福大学、伊利诺伊大学、伦敦政治经济学院等,在电化学、电催化、催化剂研究与应用等领域都有丰富的经验。此前,清越科技的首
2023-03-14 09:07:00
李飞飞初创公司完成2.3亿美元融资,目标打造3D世界模型
...。当地时间9月13日,据外媒报道,由著名计算机科学家、斯坦福大学人工智能实验室联合主任、斯坦福大学教授李飞飞联合创办的World Labs正式启动
2024-09-14 11:41:00
斯坦福大学推出detectgpt检测机器生成文本新方法
...为如此,现在需要有检测机器生成的文本的系统。最近,斯坦福大学的一个研究小组提出了一种名为DetectGPT的新方法,旨在成为打击高等教育中机器生成文本的首批工具之一。该方法基
2023-01-29 10:54:00
斯坦福团队研发新型深度学习模型,能预测碳捕集引起的地表位移
近日,美国斯坦福大学团队利用深度学习中的计算机视觉技术,打造出一款新型深度学习模型。从地下地层结构图像出发,他们成功预测了二氧化碳捕集与封存技术(CCS
2024-04-08 10:16:00
空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐
...的空间推理能力仍显不足。作者简介本项目第一作者,是斯坦福大学计算机科学硕士生刘雨浓(Yunong Liu)目前在斯坦福SVL实验室(Vision and Learning Lab)
2024-11-27 09:57:00
更多关于科技的资讯:
脱口秀演员「炸现场」,喜剧综艺「炸市场」
伴随《喜剧之王单口季》第二季(下称《喜单2》)圆满收官,一众“小人物”也终于走出心底的浪浪山:翟佳宁一语点醒内耗人:唯心主义的最高境界是唯我独尊
2025-09-14 06:43:00
日前,山西转型综改示范区入区企业潞安化工机械(集团)有限公司成功通过国家市场监督管理总局的严格审核,获颁压力容器分析设计(SAD)许可资质
2025-09-14 07:28:00
机器隆隆,一排排制作好的夹芯板整齐排列,格外亮眼。连日来,山西钢构科工有限公司围护结构智能制造车间内机器轰鸣、智能设备有序运转
2025-09-14 07:28:00
百度发债,释放何种信号?
9月8日,百度宣布计划于美国境外以离岸交易方式,发行以人民币计值的优先无担保票据;票据发行所得款项净额将用作一般公司用途
2025-09-13 09:38:00
不挤牙膏、全面堆料,iPhone 17能赢回中国用户吗?
“透视图”是36氪新推出的轻量化数据图文栏目——以数据透视趋势,以图片呈现要点。"Talk is Cheap. Show me the data
2025-09-13 14:55:00
全网高呼“小米太子你糊涂啊”,他被辞退揭开大厂的头号隐患
数日前人们讨论得有多热闹,如今的沉默就多震耳欲聋。小米辞退被外界称为“雷军接班人”的王腾一事,似乎再无下文。就连王腾以前几乎天天发的微博
2025-09-13 23:24:00
鲁网9月12日讯近日,北京国际大数据交易所专家朱大培携蘑菇车联信息科技有限公司、北京优锘科技有限公司、泰安协同软件有限公司一行来高新区调研数据要素相关工作
2025-09-13 08:51:00
德百家电澳德乐店开业盛典暨卡萨帝美食争霸赛报名火热开启
鲁网9月12日讯(记者 逯广宇 实习记者 李安琦)当智能科技邂逅舌尖美味,一场兼具创意与惊喜的盛宴即将登场!9月10日
2025-09-13 09:26:00
江苏南京:机器人“交警” “上岗”倒计时
机器人“交警” “上岗”倒计时能指挥交通,会查酒驾和巡逻,正由宁企携手国内人形机器人“领头羊”联手开发众擎机器人未来将走上大街
2025-09-13 09:57:00
济南能投集团斩获CMMI5级国际认证,软件研发实力跻身国际领先水平!
近日,济南能投集团山东和同信息科技股份有限公司(以下简称“和同信息”)成功通过全球软件能力成熟度模型集成最高等级——CMMI5级认证
2025-09-13 12:04:00
济南能源投资控股集团2025年高校毕业生业务轮训圆满收官
9月12日,济南能源投资控股集团2025年高校毕业生业务轮训工作正式落下帷幕。本次轮训为期两周,聚焦新入职大学生成长需求与能投集团人才储备目标
2025-09-13 12:11:00
数智化会员经济峰会暨数韵商城产业集群品牌盛典圆满落幕!
数智化会员经济峰会暨数韵商城产业集群品牌盛典2025年9月9日,湖南长沙星光熠熠、热潮涌动!绿之韵·数韵国际重磅打造的数智化会员经济峰会暨数韵商城产业集群品牌盛典盛大启幕
2025-09-13 15:20:00
叫叫亮相2025年服贸会 儿童数字内容领域创新成果集中亮相
2025 年 9 月 10 日至 14 日,以 “数智领航,服贸焕新” 为年度主题的中国国际服务贸易交易会(简称 “服贸会”)在北京盛大举办
2025-09-13 15:20:00
贵州酒业封坛策划公司亿加管理助力酱酒产业峰会、封坛文化节落地
项目总策划总负责人:龙亿加(龙娟)项目总督导执行人:甘霖项目服务体系督导:甘霖项目营销体系建设:胡建强项目销讲营销成交:胡建强项目营销辅导:刘进路项目品牌视觉管理:张怀宇项目仪式指导司仪:一洋从 “基础筑基” 到 “细节落地”
2025-09-13 15:21:00
当前,人工智能以颠覆性力量重塑教育生态,为人们带来高效、个性化的学习体验。聚焦国内,教育数字化已成为我国开辟教育发展新赛道
2025-09-13 15:22:00