Singer U, Sheynin S, Polyak A, et al. Textto-4d dynamic scene generation[J]. arXiv preprint arXiv:2301.11280, 2023.

MAV3D 是 Meta AI 研究者们在今年年初提出的一种从文本描述生成三维动态场景方法。根据文本生成的动态视频可以从任意位置和角度查看,并且可以合成到 3D 环境中。1

在这里插入图片描述

本文只对文章做浅显阅读,更多参考资料如下:

一. 预备知识

MAV3D 论文直接阅读会比较困难,本节参考 [论文代码阅读]TensoRF: Tensorial Radiance Fields[论文阅读]HexPlane: A Fast Representation for Dynamic Scenes[论文代码阅读]MAKE-A-VIDEO:TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA,对需要用到的预备知识进行梳理。

1. TensoRF

TensoRF 2 是 ECCV 2022 最具影响论文,改进了神经辐射场 (NeRF) 的 MLP 表示,将其视为 4D 张量 (tensor) 场(4D 代表 NeRF 的四维输出:RGB +

σ

sigma

σ)。然后将张量分解 (factorize) 为多个紧凑的低秩张量,这样可以降低数据维度,从而减少显存的需求量,并且提高建模效率和质量。

秩 (rank):张量的秩是指其非零元素所在的维度的数量。下文出现的秩一张量 (rankone tensor) 指的就是只有一个非零元素的张量。通过将原始的 4D 张量分解为低秩张量,可以更紧凑地表示数据并且通常能够捕捉到数据中的主要特征

在这里插入图片描述

TensoRF 提供了两种张量分解方法:一种是传统的 CP 分解 3,将一个张量分解为多个一张量外积的和;另一种是文中提出的 VM 分解 (vectormatrix decomposition),将一个张量分解为向量矩阵外积的和。
在这里插入图片描述

以 VM 分解的张量辐射场 (Tensorial Radiance Field) 为例,原来的 NeRF 场景可以用一组向量叉乘矩阵的和表示,场景中的 RGB 和

σ

sigma

σ 都可以使用这组向量和矩阵计算得到。对于每个空间位置

x

bold{x}

x,从向量 / 矩阵中进行线性采样 (Linear Sampling) / 双线性采样 (Bilinear Sampling),然后进行三线性插值 (Trilinear Interpolation) 来计算张量的分量

A

(

x

)

mathcal{A}(bold{x})

A(x)。体积密度的分量值

A

σ

(

x

)

mathcal{A}_{sigma}(bold{x})

Aσ(x) 直接相加就可以得到

σ

sigma

σ;颜色的分量值

A

c

(

x

)

mathcal{A}_{c}(bold{x})

Ac(x) 连接成向量

[

A

c

m

(

x

)

]

m

⊕[mathcal{A}_{c}^m(x)]_m

[Acm(x)]m 后与外观矩阵

B

mathbf{B}

B 相乘,然后传入解码函数

S

S

S 计算 RGB 颜色

c

bold{c}

c
在这里插入图片描述

总体来说,TensoRF 将 NeRF 的隐式表示的输出表示为张量场,因此在计算

σ

sigma

σ

c

bold{c}

c 时与 NeRF 有所不同,其他优化训练的部分都是相同的。

2. HexPlane

HexPlane 4 是密歇根大学研究者们在今年年初提出的一种用于动态 3D 场景快速表示方法,其思想来源于 TensoRF。HexPlane 将 4D 时空网格这里的 4D 代表动态场景的四维输入

{

X

,

Y

,

Z

,

T

}

{X,Y,Z,T}

{X,Y,Z,T})分解为沿每对坐标(即

X

Y

XY

XY

X

Z

XZ

XZ

X

T

XT

XT

Y

Z

YZ

YZ

Y

T

YT

YT

Z

T

ZT

ZT)延伸的六个特征平面每个特征平面可以提取特征向量来表示对应坐标对的联合特征。这样就可以将 4D 场景表示为一组高效的显式函数,并保留了变量之间的关联,从而保持高质量的情况下高效地训练和渲染

在这里插入图片描述

HexPlane 渲染视图时,不再需要使用深度 MLP 计算

σ

sigma

σ

c

bold{c}

c。而是用

{

x

,

y

,

z

,

t

}

{x,y,z,t}

{x,y,z,t} 叉乘 HexPlane 的六个平面的特征向量,然后拼接得到时空点特征。拼接后的特征向量直接与

V

σ

R

F

V_{sigma}^{RF}

VσRF 相乘就可以得到

σ

sigma

σ;与

V

c

R

F

V_{c}^{RF}

VcRF 相乘后再经过微型 MLP 可以得到

c

bold{c}

c
在这里插入图片描述

3. MAV

二. 研究思路

MAV3D 不同于 text-to-video (T2V)text-to-3d 等方法,由于缺少可用的 4D 数据作为训练支撑,因此只能在预训练的模型上再做改进。MAV3D 将动态 NeRF 和预训练的 T2V(也叫 MAV,同样出自 Meta AI,是一种 2D 视频生成器结合物体周围的随机视角进行采样来实现同步视角从而达到 3D 的效果

由于缺乏训练数据,Meta AI 的研究人员想到去找一个预训练好的 2D 视频生成器,再从生成的 2D 视频中提炼出一个四维重建。但从 2D 视频中重建可变物体的形状仍然非常具有挑战性,即 非刚性运动结构 (Non-Rigid Structure from Motion, NRSfM)。不过,如果能够给定物体同步视角 (multiple simultaneous viewpoints),难题就会迎刃而解。
虽然多机位设置在真实数据中很少见,但研究者们认为现有的 2D 视频生成器能够隐式地表示任意视角下的场景,因此可以将 2D 视频生成器作为一个统计学」的多机位设置来重建可变物体几何和光度。也就是说,使用 2D 视频生成器从 随机 视角渲染图像优化 MAV3D 的场景表示,最终实现从 2D 到 3D 的视频生成。

不过直接使用视频生成器来优化动态 NeRF 无法取得令人满意的结果实现过程中还有以下几个难题需要攻克:

  1. 需要一个有效的动态三维场景的表示方法;
  2. 需要一个监督源,因为没有大规模的文本 – 4D 对可供学习
  3. 需要空间时间维度上扩展输出分辨率,因为 4D 输出需要大量的内存算力

1. 场景表示

MAV3D 的动态三维场景表示基于 NeRFs,结合了高效的静态 NeRF 和动态NeRF,将 4D 场景表示为 6 个 分辨率特征平面 (multiresolution feature plane),即 HexPlane。

2. 场景优化

为了在缺少文本 – 4D 对数据学习的情况下监督上面提出的场景表示,采用了一种由静态到动态的多阶段训练策略:先利用 文本到图像 (text-to-image, T2I) 模型,将静态的三维场景与 prompt 文本匹配;然后再用动态的方式增强三维场景模型。

模型中还引入时间感知 (temporal-aware) 的 SDS (Score Distillation Sampling 5) 损失和运动正则项,这对现实运动和具有挑战性的运动至关重要

Score Distillation Sampling:SDS 是一种从扩散模型 (diffusion model) 中优化对象的方法,使其服从扩散模型所建模的分布。SDS 从预训练的扩散模型中通过优化得到一组样本,该过程称为蒸馏采样 (distillation sampling)。

3. 分辨率扩展

文中通过一段时间感知的超分模型微调来扩展输出分辨率,具体做法是:使用 T2V 模型的超分模块中的 SDS 来获得高分辨率梯度信息,从而进行有监督的三维场景学习。这能够增加其视觉保真度,并且在推理过程中对更高分辨率输出进行采样。

4. MAV3D pipeline

在这里插入图片描述
如图所示,4D 场景由 6 个特征平面组成,绿色的 3 个是空间平面,橙色的 3 个是空间时间平面。场景优化时:

  • 第一阶段只需要优化静态场景:利用 T2I 模型的 SDS Loss 优化空间平面,将静态的三维场景与 prompt 文本匹配。静态场景用不到空间时间平面,将其置 0 即可
  • 第二阶段需要优化动态场景:利用 T2V 模型(即 MAV)的 SDS-T Loss 优化空间时间平面,渲染完整的视频;
  • 第三阶段需要超分微调:使用超分网络 MAV SR 渲染高分辨率的视频,并传入超分组件;

三. 场景表示

记 4D 场景表示为

f

θ

(

x

,

y

,

z

,

t

)

f_{theta}(x,y,z,t)

fθ(x,y,z,t),其中

θ

theta

θ 为场景参数,需要学习优化。给定相机机位的集合

{

C

t

}

t

=

1

T

{C_t}_{t=1}^{T}

{Ct}t=1T使用

f

θ

f_{theta}

fθ 渲染的图像

I

t

=

R

(

f

θ

,

t

,

C

t

)

I_t=mathcal{R}(f_{theta},t,C_t)

It=R(fθ,t,Ct),将其堆叠合成视频

V

V

V。将 prompt 文本

p

p

p 和合成视频

V

V

V 传入 T2V 模型,以计算匹配程度。然后使用 SDS 计算场景参数

θ

theta

θ梯度,从而进行更新

四. 场景优化

五. 分辨率扩展

六. 实验结果

详见 https://make-a-video3d.github.io/

在这里插入图片描述

在这里插入图片描述

七. 总结

MAV3D 最不可思议的地方在于,尽管目前可用的文本 – 4D 对非常有限,Meta AI 的研究者们依靠现有的 T2V 模型作为 NeRF 的场景先验,通过优化以创建 3D 场景表示。在优化过程中,NeRF 模型从连续的时空坐标创建场景的一系列视图,然后使用扩展模型对图像的真实感和与 prompt 文本的对齐程度进行评分,以获得更加真实的场景表示。

MAV3D 可以为视频游戏、AR、VR 生成 3D 动画资源,相信不久的将来,会有更多基于 MAV3D 的应用出现。


  1. 效果超棒!Facebook AI 提出一种从文本描述生成三维动态场景的方法! ↩︎

  2. Chen A, Xu Z, Geiger A, et al. Tensorf: Tensorial radiance fields[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 333-350. ↩︎

  3. Carroll, J.D., Chang, J.J.: Analysis of individual differences in multidimensional scaling via an n-way generalization of “eckart-young” decomposition. Psychometrika 35(3), 283–319 (1970) ↩︎

  4. Cao A, Johnson J. Hexplane: A fast representation for dynamic scenes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 130-141. ↩︎

  5. Poole, B., Jain, A., Barron, J. T., and Mildenhall, B. Dream-Fusion: Text-to-3d using 2d diffusion. arXiv, 2022. ↩︎

原文地址:https://blog.csdn.net/m0_51976564/article/details/134504755

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_14079.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注