• 我的订阅
  • 科技

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

类别:科技 发布时间:2024-12-06 09:53:00 来源:机器之心Pro

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

昨晚,世界模型向前迈出了一大步!

Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2,其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

消息发布后,好评与震惊如潮水般涌现。有人被这技术进步的速度震撼,称之为视频游戏的未来,甚至还有人看到了一切都被虚拟化的世界模型的更长远未来。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

有趣的是,Genie 2 刚一发布,DeepMind CEO 哈萨比斯宣传完之后直接邀请马斯克一起来用世界模型制作 AI 游戏,马斯克居然欣然同意了:

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

可见 AI 大佬对于自己的技术很有信心,马斯克也很重视。

Genie 2:划时代的世界模型

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

Genie 2 是一个基础世界模型(foundation world model),有能力生成无限多种可控制动作、可玩的 3D 环境,而这些 3D 环境又可用于训练和评估具身智能体。

DeepMind 表示,Genie 2 只需使用单张提示图像,就能生成可供人类或 AI 智能使用键鼠输入游玩的环境。

我们知道,在 AI 研究领域,游戏扮演着一个重要角色。游戏需要玩家参与、具有不同的难度、游戏进度也易于衡量,因此成为了安全测试和推进 AI 发展的理想环境。

事实上,自 Google DeepMind 成立以来,AI 与游戏结合的研究就一直很重要。机器之心也一直在跟进报道他们在游戏相关 AI 研究中的进展,从早期的 Atari 游戏,到吸引全世界眼球的 AlphaGo 和 AlphaStar,再到他们上半年与游戏开发者合作开发的通用智能体 —— 参阅《智能体的ChatGPT时刻!DeepMind通用AI向人类玩家进化,开始理解游戏》。

但 DeepMind 也指出,训练更通用的具身智能体有一个瓶颈:难以获得足够丰富和多样化的训练环境。

Genie 2 似乎就能填补这一空白,其能创造一个用于训练和评估智能体的无限新世界。DeepMind 表示:「我们的研究还为构建交互式体验原型设计的全新创意工作流程铺平了道路。」

与李飞飞的空间智能相比如何?

前些天,我们刚刚报道了著名学者李飞飞的创业公司 World Labs 的首个项目。从描述上看,其与 Genie 2 似乎具有一样的能力,都能基于单张图像生成可交互的 3D 场景,参阅报道《刚刚,李飞飞创业首个项目引围观:单图生成交互 3D 场景,空间智能来了》。

但这两者也存在一些区别。普林斯顿AI创新中心创始人、主任,终身教授王梦迪告诉机器之心:「飞飞的 World Labs 和 Google 的 Genie2 看上去都是从一张图片生成可以交互的三维场景,但有本质区别。Genie2 还是 video diffusion(视频扩散),每一帧的生成都是 pixel prediction(像素预测),并通过额外的用户输入的 guidance(引导)来影响下一帧的概率分布。而飞飞的 World Labs 是更进一步挖掘世界的物理本质:从图片出发,估计图片中不同景物的深度和相对关系,生成了更加物理世界的 3D 环境建模,不仅仅是可互动视频。」

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

World Labs 的单图生成 3D 场景的效果演示

从这个描述看,李飞飞的研究项目似乎更接近真正的世界模型一些。不管怎样,这些新技术的碰撞都是进步的过程,王梦迪教授也表达了这样的期待:「期待看到更多不同技术思路的进展和对决。新范式快来吧。」

Genie 2 基础世界模型的涌现能力

到目前为止,世界模型在很大程度上局限在建模范围狭窄的领域。

在上一代 Genie 1 中,DeepMind 提出了一种生成多种 2D 世界的方法。Genie 2 则是通用性方面的一次飞跃!其可生成丰富多样的 3D 世界。

Genie 2 是一个世界模型,这就意味着它可以模拟虚拟世界,包括采取任何动作(例如跳跃、游泳等)的后果。它是在大型视频数据集上训练得到的,因此,Genie 2 与其他生成模型一样具有各种大规模涌现能力,例如物体交互、复杂角色动画、物理以及建模和预测其他智能体行为的能力。

下面展示了一些人们与 Genie 2 交互的例子。对于每个示例,模型都会使用 Imagen 3(DeepMind 最先进的文生图模型)生成的单张图像作为提示。这意味着任何人都可以用文字描述他们想要的世界,选择他们最喜欢的渲染方法,然后进入这个新创建的世界并与之互动(或在其中训练或评估 AI 智能体)。

在每个步骤中,都由一个人或智能体提供键盘和鼠标操作,Genie 2 模拟下一个观察结果。Genie 2 可以生成长达一分钟的一致世界,大多数示例持续 10-20 秒。

动作控制

Genie 2 能智能地响应键盘按键对应的动作,识别角色并正确地移动它。例如,模型必须要明白,箭头键应该移动机器人而不是树木或云。

生成反事实视频帧

Genie 2 可以从同一起始帧生成不同的轨迹,这意味着可以为训练智能体来模拟反事实体验。如下两行动图所示,每个视频都从同一帧开始,但人类玩家采取了不同的行动。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

长跨度记忆

Genie 2 能够记住视野中失的部分世界,然后在它们再次可见时准确地呈现它们。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

使用新的生成内容来生成长视频

Genie 2 可以即时地生成新的合理可信内容,并在长达一分钟的时间内保持一致性的世界。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

多样性环境

Genie 2 可以创建不同的视角,例如第一人称视角、等距视角或者第三人称驾驶视角。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

3D 结构

Genie 2 学会了创建复杂的 3D 视觉场景。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

物体可供性和交互

Genie 2 能够模拟各种物体之间的交互,例如爆破气球、打开门和用枪射击炸药桶。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

角色动画

Genie 2 学会了为执行不同活动的各种角色制作动画。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

NPC

Genie 2 能够模拟其他智能体,甚至与它们进行复杂的交互。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

物理效果

Genie 2 能够建模水面效果。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

烟雾效果

Genie 2 能够建模各种烟雾效果。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

重力效果

Genie 2 能够建模各种重力效果。

照明效果

Genie 2 能够建模点式和定向照明效果。

反射效果

Genie 2 能够建模反射、绽放和彩色灯光效果。

以现实世界的图像为提示

Genie 2 还可以将现实世界的图像作为提示,比如它可以模拟风中飘动的草或流动的河水。

Genie 2 支持快速原型设计

Genie 2 可以轻松快速地为各种交互式体验制作原型,使研究人员能够快速试验新环境,从而训练和测试具身 AI 智能体。

下图用 Imagen 3 生成的不同图像作为 Genie 2 的提示图像,以模拟纸飞机、龙、鹰或降落伞飞行之间的差异,并测试 Genie 对不同化身的动画效果。

得益于 Genie 2 的分布式泛化能力,概念艺术和绘画可以转化为完全交互式的环境。这使得艺术家和设计师们能够快速制作原型,从而启动环境设计的创作,进一步加速研究。下图展示了概念艺术家制作的「研究环境概念」示例。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

在世界模型中行动的 AI 智能体

通过使用 Genie 2 快速为 AI 智能体创建丰富多样的环境,研究人员还可以生成智能体在训练期间未见过的评估任务。

下图展示了与游戏开发者合作开发的 SIMA 智能体示例,该智能体通过单个图像提示来遵循 Genie 2 合成的未见过环境的指令。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

提示词:第三人称开放世界探索游戏的截图。玩家扮演一名正在探索森林的冒险者。左边有一栋房子,门是红色的,右边有一栋房子,门是蓝色的。摄像机位于玩家正后方。照片级真实、沉浸式。

SIMA 智能体通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。下图中使用 Genie 2 生成一个有两扇门(蓝门和红门)的 3D 环境,并向 SIMA 智能体提供打开每扇门的指令。在该示例中,SIMA 通过键盘和鼠标输入控制化身,而 Genie 2 生成游戏帧。

另外还可以使用 SIMA 来帮助评估 Genie 2 的功能。下图中指示 SIMA 环顾四周并探索房屋后面,来测试 Genie 2 生成一致环境的能力。

虽然这项研究仍处于早期阶段,智能体和环境生成能力还有很大的改进空间,但谷歌相信 Genie 2 是解决安全训练具身智能体结构性问题的一大途径,同时也能提供迈向 AGI 所需的广度和通用性。

下图为 Imagen 3 生成的电脑游戏图像,提示词为「一张电脑游戏图片,展示了一个粗糙的石洞或矿井内部场景。观看者的位置是第三人称视角,位于玩家头像上方,向下看向头像。玩家头像是一个手持宝剑的骑士。骑士头像前面有 3 个石拱门,骑士可以选择穿过其中任何一扇门。穿过第一扇门和内部,我们可以看到隧道两旁长满了奇异的绿色植物和发光的花朵。在第二个门的内部和外部,有一条走廊,走廊上铆接着钉在洞穴墙壁上的带刺铁板,通向远处不祥的光芒。穿过第三扇门,我们可以看到一组粗糙的石阶,通往一个神秘的目的地。」

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

下面为根据上图生成的游戏帧。

背后的技术:扩散世界模型

作为一个自回归潜在扩散模型,Genie 2 在大型视频数据集上进行训练。在通过一个自动编码器后,视频中的潜在帧被传递到大型 transformer 动态模型中,该模型使用与大型语言模型类似的因果掩码进行训练。

在推理时,Genie 2 能够以自回归方式进行采样,逐帧采取单个动作和过去的潜在帧。谷歌使用无分类器指导(classifier-free guidance)来提高动作可控性。

本文的示例由未蒸馏的基础模型生成,以展示其多种可能性。当然也可以实时运行蒸馏版本,但输出质量会降低。

谷歌世界模型:单张图生成可玩3D世界,还要和马斯克一起做AI游戏

负责任地开发技术

谷歌表示,Genie 2 展示了基础世界模型在创建多样化 3D 环境和加速智能体研究方面的潜力。不过,鉴于该研究方向尚处于早期阶段,未来将继续提高 Genie 在通用性和一致性方面的世界生成能力。

与 SIMA 一样,谷歌的研究正在朝着更通用 AI 系统和智能体的方向发展,它们可以理解并安全地执行各种任务,从而对线上和现实世界中的人们提供帮助。

顺带一提,DeepMind 同时还发布了 AI 天气预测模型 GenCast,当然,它的天气预测表现也达到了当前最佳水平。

参考内容:

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

https://news.ycombinator.com/item?id=42317903

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2024-12-06 12:45:02

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

单张图生成可玩3D世界!谷歌虚拟世界生成器上线:还要和马斯克联手做AI游戏
...长远未来。值得一提的是,Genie 2发布后,DeepMind CEO邀请马斯克一起制作AI游戏,马斯克则回复:Cool
2024-12-05 17:39:00
马斯克评OpenAI首个视频生成模型:人类认赌服输
...生成它们的提示。”另一位X用户评论称:“gg皮克斯。”马斯克回应称:“gg人类(gg humans)。”译注:gg是网络游戏用语“good games”的缩写
2024-02-16 22:16:00
市场担忧Sora模型带来两大隐患,马斯克“坐不住”了,秀肌肉
...技惊四座”后,在AI领域一向野心勃勃的特斯拉CEO埃隆·马斯克(ElonMusk)“坐不住”了。日前,马斯克发布了特斯拉一年前模拟真实场景的自动驾驶视频,并称“特斯拉视频的生
2024-02-21 14:59:00
马斯克宣称特斯拉视频生成技术超越OpenAI
...的关注与讨论。然而,就在这股热潮中,特斯拉CEO埃隆·马斯克却在社交媒体平台X上发帖,自信地宣称特斯拉早已掌握了更为先进的视频生成技术。马斯克一向以其前瞻性的视野和大胆的言论
2024-02-21 00:33:00
马斯克说人类愿赌服输!OpenAI首个文生视频模型炸街,哪些行业又将颠覆
...去时。”有意思的是,就在Sora发布后数小时,特斯拉CEO马斯克就在X平台上接连回复多条帖子“输出”观点。有网友在评论Sora生成的60秒时尚女子在东京街头散步时称
2024-02-16 19:23:00
OpenAI在TikTok发布大量Sora生成视频
...ora风”不仅席卷整个科技圈,也在影视圈、游戏圈刷屏,马斯克、周鸿祎、贾扬清等一众科技大佬纷纷下场讨论。马斯克直言:人类要完蛋了。360创始人周鸿祎第一时间发博表示,Sora
2024-02-22 20:39:00
Sora横空出世,马斯克惊叹,网友:工作要丢了
...和模拟之后,会带来新的成果和突破。”Sora横空出世,马斯克惊叹,网友:工作要丢了2月16日凌晨,OpenAI再次扔出一枚深水炸弹
2024-02-17 21:02:00
生成式AI市场潜力巨大,九方财富喝下投顾行业“头啖汤”
...来的猪?巨头扎堆布局生成式AI生成式AI的魅力有多大?马斯克的“光速打脸”或许是一个好的证明。今年3月底,马斯克带头签署千人联名信,呼吁所有的AI实验至少暂停6个月研究比GP
2023-09-15 12:00:00
能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》
...曼才知道,这几个大牌演员共同的签约对象是——埃隆·马斯克。 汤姆·克鲁斯没有明确拒绝卡特曼,反而乐意充当中间人介绍马斯克给卡特曼认识。马斯克这边正在策划一个把一批知名演员送
2023-07-26 17:10:00
更多关于科技的资讯:
南报网讯(通讯员胡晓靓记者夏思宇)走进南京绿叶制药有限公司制冷站,冷水机组、冷冻水泵、冷却水泵、冷却塔等设备稳定运转,维持药品生产GMP车间的恒温恒湿环境
2025-10-17 08:13:00
聚焦2025中国国际数字经济博览会•现场|打卡数字展馆 体验未来生活
10月16日,2025中国国际数字经济博览会展区工作人员在调试机器人。 河北日报记者 史晟全摄借助VR设备沉浸在古城往事中
2025-10-17 08:23:00
我从事科技研发工作,出生在一个三代从商的家庭。我的祖父是一名民营企业家,在枣强县这片土地上开启了玻璃钢产业创业之路;我的父亲骑着一辆摩托车闯荡天津
2025-10-17 09:11:00
博物馆“抢票”成第一关,中轴线打卡、汉服妆造让历史游玩出沉浸新花样……音乐节、演唱会与国际顶级体育赛事一票难求,“为一场演出赴一座城”成为常态
2025-10-17 09:15:00
新闻纵深·县域特色产业新力量|借力京津,机器人产业双链融合
阅读提示唐山市高新技术产业开发区在机器人新赛道上频频发力,已形成以工业机器人为引领、特种机器人为亮点、服务机器人为特色
2025-10-17 09:19:00
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新
旭客民宿出租车广告上线,金华房东的“生意牌面”正在刷新最近在金华街头,不少人注意到一组频繁穿梭的出租车广告:“住旭客民宿
2025-10-17 09:25:00
AI EMPOWERS ALL丨神州泰岳亮相中国移动全球合作伙伴大会
碳硅共生,合创AI+时代——第13届中国移动全球合作伙伴大会于今日在广州保利世贸博览馆盛大启幕。神州泰岳作为中国移动长期重要合作伙伴
2025-10-17 09:25:00
内容觉醒·生态共创 | 2025瑞派短视频大赛职人组培训圆满落幕
金秋时节,硕果盈枝。由瑞派股份市场营销中心倾力打造的“2025年度瑞派短视频大赛职人专属赛道培训”在热烈氛围中圆满收官
2025-10-17 09:55:00
市场销售疲软,高档卷烟销售增速放缓,中低档卷烟却因消费需求旺盛出现供应紧张的问题,这是当前卷烟销售工作面临的瓶颈。受计划经济体制影响
2025-10-17 10:02:00
浪潮科技三款平台产品或升级认可
近日,山东省工业和信息化厅公布了拟入选第九批山东省首版次高端软件产品公示名单。浪潮科技研发的“焱宇行业大模型服务平台 V1
2025-10-17 10:03:00
旅服会媒体开放日:全产业链盛会引关注
16日,由中国旅行社协会、中国旅游集团主办的2025首届国际旅行服务大会暨交易展(以下简称“旅服会”)迎来媒体开放日。来自30余家主流媒体
2025-10-17 10:04:00
把听劝搬到线下!海尔智家双11邀500+达人发起智慧科技众测
今年双11,海尔智家把“听劝”从线上搬到了线下,在黄岛东方影都打造了一场规模空前的“智慧科技众测”现场,让“用户声音”与“产品研发”真正零距离对话
2025-10-17 10:07:00
微光照公信:32 名贵州师生北京研学,解码体彩阳光密码
多彩贵州网讯 10月13日,为期三天的“2025微光行动·希望工程”体彩旭日研学实践活动正式拉开帷幕。来自贵州民族大学
2025-10-17 10:15:00
“绽放杯”区域赛获佳绩,5G融合应用助力产业智变升级
10月15日,第八届“绽放杯”5G应用征集大赛山东区域赛决赛及颁奖典礼在济宁落下帷幕。本次大赛以“5G扬帆再启航,智绘齐鲁新篇章”为主题
2025-10-17 10:34:00
小米SU7事故后雷军首度发声!呼吁共同抵制网络水军、黑公关
据澎湃新闻消息,雷军在小米汽车成都事故后首次公开露面演讲。10月16日,世界智能网联汽车大会,小米CEO雷军在演讲中表示
2025-10-17 10:34:00