我们正处于一个信息大暴发的时代,每天都能产生数以百万计的新闻资讯!
虽然有大数据推荐,但面对海量数据,通过我们的调研发现,在一个小时的时间里,您通常无法真正有效地获取您感兴趣的资讯!
头条新闻资讯订阅,旨在帮助您收集感兴趣的资讯内容,并且在第一时间通知到您。可以有效节约您获取资讯的时间,避免错过一些关键信息。
10月9日消息,英国AI初创公司Wayve公布了旗下GAIA-1生成式模型的最新进展,在今年6月的时候,Wayve建立了将生成式模型用于自动驾驶的概念性验证,而在这几个月中,Wayve公司持续扩展GAIA-1,使其拥有90亿个参数,能够生成逼真的驾驶场景影片,展示自动驾驶“在各种情境的反应”,并且更好地预测未来事件。
▲图源Wayve
GAIA-1是一个可以利用不同类型的资料,包括影片、文字和动作,创建逼真驾驶场景影片的世界模型(WorldModel)。可对自动驾驶车辆的行为和场景特征进行细致的控制,且由于GAIA-1多模态的性质,能够从多种提示模式和组合中生成相关视频。
▲图源Wayve
官方提到,GAIA-1可对环境进行学习,从而提供结构性的环境理解,协助自动驾驶系统做出明智的决策。而“预测未来事件”是该模型的基本关键能力,而对未来的准确预测,可以让自动驾驶车辆预先知道即将发生的事件,从而规划对应的动作,增加汽车上路时的安全性和效率。
据悉,GAIA-1会先运用专门的编码器,将影片或文字等各种形式的输入,编码成一个共享的表示形式,进而在模型中实现统一的时序对齐和上下文理解,这种编码方法,让模型能够更好地整合和理解不同类型的输入。
▲图源Wayve
而GAIA-1的核心,是一个自回归Transformer,能够预测序列中下一组图像token,世界模型不只考虑过去的图像token,还参照文字和动作token的上下文资讯,运用这个方法所生成的图像token,不仅会在视觉上连贯,而且和预期的文字和动作指引保持一致。
在此之后,模型会启动视频解码器这个阶段被启动,主要功能是将这些图像token转换回像素空间,视频解码器作为一个扩散模型,其强大之处主要在于可保证生成的影片,具语义意义、视觉准确且时间序一致性。
▲图源Wayve
IT之家从官网得知,GAIA-1的世界模型经过64个英伟达A100GPU上长达15天的训练,包含了高达65亿个参数,而视频解码器则在32个英伟达A100GPU上训练了15天,总共拥有26亿个参数。
GAIA-1的主要价值,是在自动驾驶中引入生成式世界模型的概念,透过整合影片、文本和动作输入,展示多模态学习在创建多样化驾驶情境的潜力,而且透过整合世界模型与驾驶模型,使驾驶模型能够更好地理解自己的决策,并且泛化至真实世界的情境中,进而提升自动驾驶系统的能力。
以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。
快照生成时间:2023-10-10 18:45:06
本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。
信息原文地址: