• 我的订阅
  • 科技

meta、cmu联手推出6-dof视频表征方法

类别:科技 发布时间:2023-01-10 19:57:00 来源:浅语科技

近日,Meta和CMU的研究人员提出了一种全新的6-DoF视频表征方法,单张RTX3090即可每秒18帧实现百万像素分辨率渲染,或将给VR带来革命性的高质量体验。

最近,由Meta和卡内基梅隆大学提出的6-DoF视频表征模型——HyperReel,可能预示着一个全新的VR「杀手级」应用即将诞生!

所谓「六自由度视频」(6-DoF),简单来说就是一个超高清的4D体验式回放。

其中,用户可以完全「置身于」动态场景里面,并且可以自由地移动。而当他们任意改变自己的头部位置(3DoF)和方向(3DoF)时,与之相应的视图也会随之生成。

meta、cmu联手推出6-dof视频表征方法

论文地址:https://arxiv.org/ abs/2301.02238

与之前的工作相比,HyperReel最大的优势在于内存和计算效率,而这两点对于便携式VR头显来说都至关重要。

而且只需采用vanillaPyTorch,HyperReel就能在单张英伟达RTX3090上,以每秒18帧的速度实现百万像素分辨率的渲染。

meta、cmu联手推出6-dof视频表征方法

太长不看版:

1.提出一种可在高分辨率下实现高保真度、高帧率的渲染的光线条件采样预测网络,以及一种紧凑且内存高效的动态体积表征;

2.6-DoF视频表征方法HyperReel结合了以上两个核心部分,可以在实时渲染百万像素分辨率的同时,实现速度、质量和内存之间的理想平衡;

3.HyperReel在内存需求、渲染速度等多个方面均优于其他方法。论文介绍

体积场景表征(volumetricscenerepresentation)能够为静态场景提供逼真的视图合成,并构成了现有6-DoF视频技术的基础。

然而,驱动这些表征的体积渲染程序,需要在质量、渲染速度和内存效率方面,进行仔细的权衡。

现有的方法有一个弊端——不能同时实现实时性能、小内存占用和高质量渲染,而在极具挑战性的真实场景中,这些都是极为重要的。

meta、cmu联手推出6-dof视频表征方法

为了解决这些问题,研究人员提出了HyperReel——一种基于NeRF技术(神经辐射场)的6-DoF视频表征方法。

其中,HyperReel的两个核心部分是:

1.一个光线条件下的采样预测网络,能够在高分辨率下进行高保真、高帧率的渲染;

2.一个紧凑且内存高效的动态体积表征。

与其他方法相比,HyperReel的6-DoF视频管线不仅在视觉质量上表现极佳,而且内存需求也很小。

同时,HyperReel无需任何定制的CUDA代码,就能在百万像素分辨率下实现18帧/秒的渲染速度。

meta、cmu联手推出6-dof视频表征方法

具体来说,HypeReel通过结合样本预测网络和基于关键帧的体积表征法,从而实现了高渲染质量、速度和内存效率之间的平衡。

其中的样本预测网络,既能加速体积渲染,又能提高渲染质量,特别是对于具有挑战性的视图依赖性的场景。

meta、cmu联手推出6-dof视频表征方法

而在基于关键帧的体积表征方面,研究人员采用的是TensoRF的扩展。

这种方法可以在内存消耗与单个静态帧TensoRF大致相同的同时,凑地表征了一个完整的视频序列。

meta、cmu联手推出6-dof视频表征方法

实时演示

接下来,我们就实时演示一下,HypeReel在512x512像素分辨率下动态和静态场景的渲染效果。

值得注意的是,研究人员在Technicolor和Shiny场景中使用了更小的模型,因此渲染的帧率大于40FPS。对于其余的数据集则使用完整模型,不过HypeReel仍然能够提供实时推理。

meta、cmu联手推出6-dof视频表征方法

Technicolor

meta、cmu联手推出6-dof视频表征方法

Shiny

meta、cmu联手推出6-dof视频表征方法

Stanford

meta、cmu联手推出6-dof视频表征方法

Immersive

meta、cmu联手推出6-dof视频表征方法

DoNeRF实现方法

为了实现HeperReel,首先要考虑的问题,就是要优化静态视图合成的体积表征。

像NeRF这样的体积表征,就是对静态场景在3D空间中的每一个点的密度和外观,进行建模。

更具体地说,通过函数

meta、cmu联手推出6-dof视频表征方法

将位置x和方向

meta、cmu联手推出6-dof视频表征方法

沿着⼀条射线映射到颜色

meta、cmu联手推出6-dof视频表征方法

和密度σ(x)。

此处的可训练参数θ,可以是神经网络权重、N维数组条目,或两者的组合。

然后就可以渲染静态场景的新视图

meta、cmu联手推出6-dof视频表征方法

其中

meta、cmu联手推出6-dof视频表征方法

表征从o到

meta、cmu联手推出6-dof视频表征方法

的透射率。

在实践中,可以通过沿给定射线获取多个样本点,然后使用数值求积来计算方程式1:

meta、cmu联手推出6-dof视频表征方法

其中权重

meta、cmu联手推出6-dof视频表征方法

指定了每个样本点的颜色对输出的贡献。体积渲染的网格示例

在静态场景的HyperReel中,给定一组图像和相机姿势,而训练目标就是重建与每条光线相关的测量颜色。

大多数场景是由实体物体组成的,这些物体的表面位于3D场景体积内的一个2D流形上。在这种情况下,只有一小部分样本点会影响每条光线的渲染颜色。

因此,为了加速体积渲染,研究人员希望只对非零

meta、cmu联手推出6-dof视频表征方法

的点,查询颜色和不透明度。

如下图所示,研究人员使用前馈网络来预测一组样本位置

meta、cmu联手推出6-dof视频表征方法

。具体来说,就是使用样本预测网络

meta、cmu联手推出6-dof视频表征方法

,将射线

meta、cmu联手推出6-dof视频表征方法

映射到样本点

meta、cmu联手推出6-dof视频表征方法

,以获取体积等式2中的渲染。

这里,研究人员使用Plucker的参数化来表征光线。

meta、cmu联手推出6-dof视频表征方法

但是这其中有一个问题:给网络太多的灵活性,可能会对视图合成质量产生负面影响。例如,如果(x1,...,xn)是完全任意的点,那么渲染可能看起来不是多视图⼀致的。

为了解决这个问题,研究人员选择用样本预测网络来预测一组几何基元G1,...,Gn的参数,其中基元的参数可以根据输入射线的不同而变化。为了得到样本点,将射线与每个基元相交。

meta、cmu联手推出6-dof视频表征方法

如图a所示,给定源自相机原点o并沿方向ω传播的输入光线后,研究人员首先使用Plucker坐标,重新对光线进行参数化。

meta、cmu联手推出6-dof视频表征方法

如图b所示,一个网络

meta、cmu联手推出6-dof视频表征方法

将此射线作为输入,输出一组几何基元{

meta、cmu联手推出6-dof视频表征方法

}(如轴对齐的平面和球体)和位移矢量{

meta、cmu联手推出6-dof视频表征方法

}的参数。

meta、cmu联手推出6-dof视频表征方法

如图c所示,为了生成用于体积渲染的样本点{

meta、cmu联手推出6-dof视频表征方法

},研究人员计算了射线和几何基元之间的交点,并将位移矢量添加到结果中。预测几何基元的好处是使采样信号平滑,易于插值。

位移矢量为采样点提供了额外的灵活性,能够更好地捕捉到复杂的视线依赖的外观。

meta、cmu联手推出6-dof视频表征方法

如图d所示,最终,研究人员通过公式2进行体积渲染,产生一个像素颜色,并根据相应的观察结果,对它进行了监督训练。

meta、cmu联手推出6-dof视频表征方法

基于关键帧的动态体积

通过上述办法,就可以有效地对3D场景体积进行采样。

如何表征体积呢?在静态情况下,研究人员使用的是内存有效的张量辐射场(TensoRF)方法;在动态情况下,就将TensoRF扩展到基于关键帧的动态体积表征。

下图解释了从基于关键帧的表征中,提取动态的样本点表征的过程。

meta、cmu联手推出6-dof视频表征方法

如图1所示,首先,研究人员使用从样本预测网络输出的速度{

meta、cmu联手推出6-dof视频表征方法

},将时间

meta、cmu联手推出6-dof视频表征方法

处的样本点{

meta、cmu联手推出6-dof视频表征方法

}平移到最近的关键帧

meta、cmu联手推出6-dof视频表征方法

中。

meta、cmu联手推出6-dof视频表征方法

然后,如图2所示,研究人员查询了时空纹理的外积,产生了每个样本点的外观特征,然后通过公式10将其转换成颜色。

通过这样的过程,研究人员提取了每个样本的的不透明度。

meta、cmu联手推出6-dof视频表征方法

结果对比静态场景的比较

在此,研究人员将HyperReel与现有的静态视图合成方法(包括NeRF、InstantNGP和三种基于采样网络的方法)进行了比较。

DoNeRF数据集

DoNeRF数据集包含六个合成序列,图像分辨率为800×800像素。

如表1所示,HyperReel的方法在质量上优于所有基线,并在很大程度上提高了其他采样网络方案的性能。

同时,HyperReel是用vanillaPyTorch实现的,可在单张RTX3090GPU上以6.5FPS的速度渲染800×800像素的图像(或者用Tiny模型实现29FPS的渲染)。

此外,与R2L的88层、256个隐藏单元的深度MLP相比,研究人员提出的6层、256个隐藏单元的网络外加TensoRF体积骨干的推理速度更快

meta、cmu联手推出6-dof视频表征方法

LLFF数据集

LLFF数据集包含8个具有1008×756像素图像的真实世界序列。

如表1所示,HyperReel的方法优于DoNeRF、AdaNeRF、TermiNeRF和InstantNGP,但取得的质量比NeRF略差。

由于错误的相机校准和输入视角的稀疏性,这个数据集对显式体积表征来说是一个巨大的挑战。

meta、cmu联手推出6-dof视频表征方法

动态场景的比较

Technicolor数据集

Technicolor光场数据集包含了由时间同步的4×4摄像机装置拍摄的各种室内环境的视频,其中每个视频流中的每张图片都是2048×1088像素。

研究人员将HyperReel和Neural3DVideo在全图像分辨率下对这个数据集的五个序列(Birthday,Fabien,Painter,Theater,Trains)进行比较,每个序列有50帧长。

如表2所示,HyperReel的质量超过了Neural3DVideo,同时每个序列的训练时间仅为1.5个小时(而不是Neural3D的1000多个小时),并且渲染速度更快。

Neural3DVideo数据集

Neural3DVideo数据集包含6个室内多视图视频序列,由20台摄像机以2704×2028像素的分辨率拍摄。

如表2所示,HyperReel在这个数据集上的表现超过了所有的基线方法,包括NeRFPlayer和StreamRF等最新工作。

特别是,HyperReel在数量上超过了NeRFPlayer,渲染速度是其40倍左右;在质量上超过了StreamRF,尽管其采用Plenoxels为骨干的方法(使用定制的CUDA内核来加快推理速度)渲染速度更快。

此外,HyperReel平均每帧消耗的内存比StreamRF和NeRFPlayer都要少得多。

谷歌Immersive数据集

谷歌Immersive数据集包含了各种室内和室外环境的光场视频。

如表2所示,HyperReel在质量上比NeRFPlayer的要好1dB,同时渲染速度也更快。

meta、cmu联手推出6-dof视频表征方法

有些遗憾的是,HyperReel目前还没有达到VR所要求的渲染速度(理想情况下为72FPS,立体声)。

不过,由于该方法是在vanillaPyTorch中实现的,因此可以通过比如自定义的CUDA内核等工作,来进一步优化性能。

meta、cmu联手推出6-dof视频表征方法

作者介绍

论文一作BenjaminAttal,目前在卡内基梅隆机器人研究所攻读博士学位。研究兴趣包括虚拟现实,以及计算成像和显示。

meta、cmu联手推出6-dof视频表征方法

以上内容为资讯信息快照,由td.fyun.cc爬虫进行采集并收录,本站未对信息做任何修改,信息内容不代表本站立场。

快照生成时间:2023-01-10 22:45:06

本站信息快照查询为非营利公共服务,如有侵权请联系我们进行删除。

信息原文地址:

新研究用肠道菌群预判癌症疗效
...群的患者存活时间长。根据患者体内这两组菌群的比例,研究人员开发了一套具体到个人的评分方法。他们后续以数百名患有不同癌症的患者为对象验证该评分方法,结果显示可以预测免疫检查点抑
2024-06-24 16:59:00
迎战GPT-4V!谷歌PaLI-3视觉语言模型问世,更小、更快、更强
...模型与相似的体积大 10 倍的模型相比具有显著竞争力。研究人员使用分类目标预训练的视觉变换器(ViT)模型与对比性预训练的模型(SigLIP)进行了比较
2023-10-17 16:31:00
中国老年痴呆人数全球第一,竟是喝茶惹的祸?茶喝越多,痴呆越多
...附属第七医院的最新研究,却推翻了这个普遍的认知。 研究人员通过双样本孟德尔随机化方法,研究基因预测的茶摄入量对AD(阿尔茨海默症)和脑容量的影响。他们分别使用了三种方法进行
2024-02-17 10:36:00
...因检测法来评估,而不是单基因检测法。简单来说,就是研究人员已经找出许多和智力相关的基因(就像拼图块)。每个基因的影响就像拼图块的大小和形状。如果某个基因对智力的影响比较大,就
2025-02-10 09:06:00
记录7000多颗流星轨迹,国科大师生为流星监测“织网”
...士专业方向时,他坚持了自己热爱的方向——天文技术与方法。这个专业主要是开展天文观测、数据处理和天文仪器设备研制等研究。 在科研工作之余,李镇业坚持追“星”。他说,随着科技的
2024-03-01 09:42:00
...吸质谱仪(LDMS)配对,后者尚未应用于地外行星环境。研究人员称,新设备拥有与之前更大设备相同的优势,但在针对太空探索和现场行星材料分析方面进行了简化。由于其小巧的体积和最低
2023-01-20 02:06:00
华人团队爆火instructblip抢跑看图聊天
...劣的天气因素造成的。给我介绍下这幅画进行多轮对话 研究人员表示,正是基于强大BLIP-2,才使得InstructBLIP「看」的更好
2023-05-15 20:17:00
...分类器法)、零样本分类器法、文本水印法。“三种检测方法本质上都是利用AI检测AI,且各有优劣。”鲍光胜说。模型训练分类器法,首先要收集大量人类创作内容与AIGC,然后以此为基
2024-08-16 10:04:00
多少科研人饱受失眠之苦,就为了等“p值”小于5%这一结果?
...化,显著性检验的理论问题开始变得非常实用。一方面,研究人员可用的数据量呈爆炸式增长。快速增长的数字存储容量以及共享数据或在线进行研究的能力使全新类型的数据分析成为可能。在那段
2024-07-17 16:59:00
更多关于科技的资讯:
■陈诗诺摘要:随着健康中国战略的深入推进和数字技术的快速发展,健康险正从传统的风险补偿向健康管理服务延伸。然而,产品同质化严重
2026-01-06 04:17:00
重磅首发!有道AI答疑笔推出视频讲解,定义学习可视化新标准
近日,网易有道旗下AI原生学习硬件“有道AI答疑笔Space X”完成重要升级,正式推出国内首个高质量的AI“视频答疑”功能
2026-01-05 17:36:00
苏笑聪新书《情境的智慧》即将出版:探寻情境赋能之道
近日,情境教育理论研究及实践家、羽翼天成儿童情境教育创始人苏笑聪女士宣布,其“情境三部曲”的收官之作——《情境的智慧》即将正式出版
2026-01-05 17:36:00
"哪些中国企业创新做得不错?"——这个问题的答案,正在被一批勇于突破、持续创新的中国企业不断刷新。进入2025年,联想集团的创新势头不减
2026-01-05 17:37:00
2025年百城“盒区房”消费图景:轻悦己、品质消费、夜经济氛围拉满
中国消费者报报道(记者桑雪骐)1月5日,《2025年百城“盒区房”消费力报告》(以下简称《报告》)发布,结合2025年盒马在多地门店及入驻商圈动态
2026-01-05 18:10:00
菌安天下:百吨位自然发酵技术全球领先品牌的科技解码
在全球农业面临资源约束与环境压力的双重挑战下,以微生物技术为核心的生物农业正成为引领产业变革的关键力量。在这场绿色革命中
2026-01-05 19:23:00
中荷人寿荣获“杰出寿险公司”奖
近日,由金融界主办的“启航•2025金融年会”暨金智奖颁奖盛典在北京举行。中荷人寿保险有限公司凭借其卓越的经营管理能力
2026-01-05 19:24:00
菌安天下:铸就液体微生物菌剂全国销量第一的品质标杆品牌
在当前中国农业向绿色、可持续发展转型的宏大背景下,农资市场的竞争日益激烈,而真正的“好产品”——那些能让种植户主动复购
2026-01-05 19:27:00
中国消费者报北京讯(记者桑雪骐)空调业的“铜铝之争”由来已久,近段时间再次成为热点话题。1月4日,中国家用电器协会发出倡议
2026-01-05 18:10:00
书亦烧仙草连获双奖:交付给新茶饮行业的长期主义答卷
近日,新茶饮品牌书亦烧仙草接连将“2025食品饮料行业创新案例”与“质量金盾·服务样本”两项行业奖收入囊中。两项奖项分别指向“市场创新”与“品质体系”这两个关键维度
2026-01-05 17:06:00
惠依近日,“Slop”被《韦氏词典》列入2025年度热词,被定义为“通常由人工智能(AI)批量生成的低质量数字内容”。据专家溯源
2026-01-05 14:05:00
全面解读一嗨租车八大优势 站内取还创服务体验新高度
在租车行业,真正的竞争力,藏在看不见的后台体系里:是否统一管理?标准能否落地?出了问题谁来负责?这些问题的答案,决定了一家租车企业的服务成色
2026-01-05 14:05:00
新青年消费崛起,大窑饮品满足“理性+感性”双重决策
花钱主打“爱你老己”、倡导“隐形享受主义”……在当今消费市场中,新青年群体已成为不可忽视的力量。《2025新青年消费趋势报告》揭示
2026-01-05 14:05:00
数智赋能文旅 1314・爱购节情感IP启幕文旅融合新范式
1月4日,“2026 数字经济助力文旅融合新业态创新交流会”在京成功举办,以“提升新质消费 创新业态场景”为主题,共探“数智+文旅+情感消费”融合之道
2026-01-05 14:35:00
温医大眼视光胡亮/吕帆教授团队成功研发智能手机眨眼训练应用程序,开辟干眼症治疗新路径
近日,眼和视光疾病国家临床医学研究中心、国家眼视光工程技术研究中心、温州医科大学附属眼视光医院胡亮/吕帆教授团队的一项重要研究成果在国际高质量期刊《自然》杂志旗下《数字医学》(npj Digital Medicine)在线发表
2026-01-05 15:46:00