• 我的订阅
  • 科技

Meta、斯坦福大学用生成式AI实现3D空间环境人机交互

类别:科技 发布时间:2023-12-12 10:04:00 来源:映维网

(映维网Nweon 2023年12月12日)斯坦福大学和Meta旗下的FAIR团队日前介绍了一种突破性的人工智能系统:仅根据文本描述就可以在虚拟人和物之间产生自然的同步运动。

这个新系统名为CHOIS(Controllable Human-Object Interaction Synthesis/可控人-物交互合成),而它采用最新的条件扩散模型技术来产生无缝和精确的交互,比如“把桌子举过头顶,走路,放下桌子”。

展望未来,以后的虚拟生物将可以像人类一样流畅地理解和响应语言命令,而系统可以从语言描述中生成连续的人机交互。

Meta、斯坦福大学用生成式AI实现3D空间环境人机交互

团队指出,在3D环境中合成人类行为对于计算机图形学、嵌入式人工智能和机器人技术等应用至关重要。尽管人类可以毫不费力地在环境中导航和执行任务,但这对机器人和虚拟人而言是十分艰巨的挑战,因为每一项任务都需要人、物和周围环境之间的精确协调。

在另一方面,语言是表达目的意图的有力工具。在语言和场景背景的指导下,合成逼真的人类和物体运动是构建先进人工智能系统的基石。

斯坦福大学和FAIR团队认为,尽管现在已有研究在探索人-场景交互问题,但它们仅限于具有静态对象的场景,忽略了日常生活中频繁发生的高度动态交互。另外,尽管业界最近在动态人-物交互建模方面取得了进展,但相关方法只关注较小的对象,或者缺乏操纵多种对象的能力。即便存在探索操纵更大尺寸的各种物体,但它们依赖于过去的交互状态序列或物体运动的完整序列,无法单独从初始状态合成物体运动和人体运动。

所以在CHOIS的研究中,团队专注于从语言和初始状态合成涉及更大尺寸的不同对象的逼真交互。

从语言描述生成连续的人机交互带来了数个挑战。首先,我们需要生成逼真和同步的物体和人体运动。在交互过程中,人的手应该与物体保持适当的接触,物体的运动应该与人的行为保持因果关系。

其次,3D场景中经常有大量的物体,限制了可行运动轨迹的空间。因此,交互合成必须适应环境的混乱,而不是在一个空场景的假设下操作。

对于CHOIS,团队重点研究了从自然语言命令合成三维环境中人-物交互的关键问题,在语言和稀疏物体路径点的指导下生成物体运动和人体运动。

运动应该与语言输入中指定的指令保持一致,同时符合由3D场景几何导出的航路点条件定义的环境约束。为了实现这一点,研究人员采用条件扩散模型来同时生成同步的物体和人体运动,条件是语言描述、初始状态和稀疏的物体路径点。

为了提高预测物体运动的准确性,在训练过程中加入了物体几何损失。另外,他们设计了在采样过程中应用的guidance term,以提高生成交互的真实感。

实验证明了学习交互合成模块在系统中的有效性,可以在给定语言描述和3D场景的情况下产生连续的逼真和情景感知交互。

通过条件扩散模型,CHOIS系统可以模拟生成详细运动序列。当给定人类和物体位置的初始状态,以及所需任务的语言描述时,CHOIS就能够生成一系列运动。

例如,如果指令是将灯移近沙发,CHOIS就会理解这个指令,并创建一个逼真的动画,令人类化身拿起灯并将其放在沙发附近。

使得CHOIS特别独特的是,它使用稀疏的对象路径点和语言描述来指导动画。路径点充当对象轨迹中关键点的标记,确保运动不仅在物理上合理,而且与语言输入概述的目标保持一致。

CHOIS的独特之处同时在于它将语言理解与物理模拟结合在一起。传统模型往往难以将语言与空间和物理动作联系起来,特别是在更长时间的交互范围内,它们必须考虑诸多因素才能保持真实性。

通过解释语言描述背后的意图和风格,然后将它们解读成一系列尊重人体和所涉及对象约束的物理运动,CHOIS可以弥合了这一差距。系统确保了接触点(如手触摸物体)可以准确地呈现出来,并且物体运动与虚拟人施加的力一致。

CHOIS系统可以对一系列的领域产生深远的影响,特别是在动画和虚拟现实领域。如果人工智能能够解释自然语言指令并生成逼真的人机交互,CHOIS可以大大减少制作复杂场景动画所需的时间和精力,而且在虚拟现实环境中,CHOIS可以带来更加身临其境的交互式体验,因为用户可以通过自然语言命令虚拟角色,并看到它们以逼真的精度执行任务。

这种高水平的交互可以将VR体验从僵硬的脚本事件转变为对用户输入做出真实响应的动态环境。

研究小组认为,他们的研究是朝着创造可以在不同3D环境中模拟连续人类行为的先进人工智能系统迈出的重要一步。它同时为进一步研究从3D场景和语言输入中合成人机交互打开了大门,并可能会在未来带来更复杂的人工智能系统。

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-12-12 12:45:52

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

最新美国国家人工智能科学院院士介绍
...擎和广告系统提供了强大的技术支持。EmmaBrunskill,来自斯坦福大学。她的研究方向是强化学习和机器人技术,通过设计先进的算法
2024-03-24 08:39:00
本文转自:人民邮电报近日,斯坦福大学研究团队提出了一种名为DetectGPT的新方法,旨在成为首批打击高等教育中LLM生成文本的工具之一。相关研究论文已发表在预印本网站arXiv
2023-01-31 09:46:00
斯坦福AI视频生成工具免费开放!30秒时长,马斯克看了效果会沉默
...I,可加入官方DiscordHedra此次发布的基础模型Character-1由前斯坦福大学顶尖研究团队领导。首席执行官Michael Lingelbach
2024-06-21 11:01:00
生成模型真实物理引擎Genesis来了!由全球AI顶尖高校团队开发
来自卡内基梅隆大学、马里兰大学、哥伦比亚大学、斯坦福大学、麻省理工学院、清华、北大、港大等全球 AI 顶尖高校和 Nvdia 等研究机构的华人团队
2024-12-20 09:22:00
36氪首发 | 从消毒延伸至空气管理全场景,「清越科技」完成数千万元A轮融资
...期项目,孵化于美国硅谷,成立于2020年。创始团队来自斯坦福大学、伊利诺伊大学、伦敦政治经济学院等,在电化学、电催化、催化剂研究与应用等领域都有丰富的经验。此前,清越科技的首
2023-03-14 09:07:00
李飞飞初创公司完成2.3亿美元融资,目标打造3D世界模型
...。当地时间9月13日,据外媒报道,由著名计算机科学家、斯坦福大学人工智能实验室联合主任、斯坦福大学教授李飞飞联合创办的World Labs正式启动
2024-09-14 11:41:00
斯坦福大学推出detectgpt检测机器生成文本新方法
...为如此,现在需要有检测机器生成的文本的系统。最近,斯坦福大学的一个研究小组提出了一种名为DetectGPT的新方法,旨在成为打击高等教育中机器生成文本的首批工具之一。该方法基
2023-01-29 10:54:00
斯坦福团队研发新型深度学习模型,能预测碳捕集引起的地表位移
近日,美国斯坦福大学团队利用深度学习中的计算机视觉技术,打造出一款新型深度学习模型。从地下地层结构图像出发,他们成功预测了二氧化碳捕集与封存技术(CCS
2024-04-08 10:16:00
空间智能新进展:教机器人组装家具,实现操作步骤与真实视频对齐
...的空间推理能力仍显不足。作者简介本项目第一作者,是斯坦福大学计算机科学硕士生刘雨浓(Yunong Liu)目前在斯坦福SVL实验室(Vision and Learning Lab)
2024-11-27 09:57:00
更多关于科技的资讯:
科技赋能经络养护,中昕给出的答案远不止一台设备
经络养生赛道正在经历一场静默的变革当一些消费者还停留在“经络养生就是推拿按摩”的认知时,行业的前端已经在用智能设备、数字化管理和标准化流程重新定义服务交付
2026-03-18 21:22:00
AI时代的革新者:橙啦聚焦年轻人升学就业场景
当人工智能浪潮席卷各行各业,教育领域的变革早已暗流涌动。从“千人一面”的标准化教学,到“千人千面”的个性化赋能,AI正在重新定义学习的路径
2026-03-18 21:25:00
华帝潘叶钊:品牌定力,是穿越周期的第一课
风云激荡的全球产业链大变局下,厨电行业深陷存量竞争、参数内卷的发展困局,家电企业如何破局高端化、穿越行业周期?华帝股份有限公司CMO潘叶钊的这番主题演讲和会后专访
2026-03-18 21:26:00
3月16日,在2026雄安国际医疗大健康技术应用大赛场景打造对接会现场,联城科技(河北)股份有限公司副总经理吕晓栓分享了医疗大模型赋能智能编码与医保控费解决方案
2026-03-18 18:05:00
京东集团旗下的全新欧洲线上零售品牌Joybuy自3月16日正式上线以来,迅速引爆欧洲市场。上线仅两天时间,Joybuy APP就登顶英国
2026-03-18 19:29:00
【荐书】技术之眼与伦理之困:评《技术的困境:人脸识别的应用与规制》
《技术的困境:人脸识别的应用与规制》以人脸识别这一高度现实化的技术议题为切入点,深入探讨数字社会中技术发展所引发的伦理
2026-03-18 14:14:00
定义手柄29年后,北通选择“亲手打破规则”
2024年,《黑神话:悟空》的横空出世,这款现象级作品不仅点燃了国产3A的希望,紧随其后的是市场的热烈回应,2025年
2026-03-18 14:29:00
让“中国芯”读懂“世界证”国产护照阅读器让出入境“秒通关”
随着中国免签“朋友圈”持续扩大,越来越多外国游客来华“打卡”,国人也热衷于踏出国门看世界。在机场、高铁站、酒店前台,如何让一本本不同语言的护照实现“秒速识别”
2026-03-18 14:45:00
小牛电动开启“造AI好车”新十年
海外网3月17日电(记者 刘少华)以“真科技,就要小牛”为主题的2026小牛电动科技新品发布会在北京举办。小牛电动于会上正式发布全球首款AI智能两轮电动车车机系统——小牛灵犀AIOS(NIU AIOS)
2026-03-18 14:53:00
倒计时1天|农业实战大咖压轴!教你打造高效产业闭环!
鲁网3月18日讯执笔沃土 擘画新仓。由中国农垦集团主办,临沂科技职业学院承办的现代农业核心运营与系统建设高阶研修班,启幕倒计时1天
2026-03-18 15:21:00
AI时代,“她力量”绽放
AI重塑世界,“她力量”重塑连接。3月17日,由中国美国商会主办的2026女性峰会在北京举办。中国美国商会主席James Zimmerman
2026-03-18 16:01:00
滴滴AI打车升级:一句话,叫到你想要的车
只需要一句话,无论是对车辆有个性化要求,还是对自身状态的模糊表述,AI小滴都能把它拆成可执行的服务标签,从茫茫车海里帮用户捞出那辆“对的车”
2026-03-18 16:25:00
“AI伙伴”陪伴孤独症孩子开口说话:聊城市东昌府区特殊教育中心学校探索智能助学新路径
鲁网3月18日讯在聊城市东昌府区特殊教育中心学校的教室里,以往需要特教老师反复引导、无数次重复教导的语言训练课,如今迎来了一位极富耐心的“新伙伴”
2026-03-18 16:32:00
【宅男财经|专家面对面】3月17日,宇树科技创始人王兴兴在2026亚布力论坛年会演讲时提到,虽然现在百米比赛中机器人还跑不过人类
2026-03-18 15:40:00
从“资源”到“资本”:罗庄区大数据局以数智实践解锁高质量发展新密码
鲁网3月18日讯在数字经济浪潮下,如何将海量数据转化为现实生产力?2025年,山东省临沂市罗庄区大数据局给出了有力回答
2026-03-18 11:13:00