Singer U, Sheynin S, Polyak A, et al. Text–to-4d dynamic scene generation[J]. arXiv preprint arXiv:2301.11280, 2023.
MAV3D 是 Meta AI 研究者们在今年年初提出的一种从文本描述生成三维动态场景的方法。根据文本生成的动态视频可以从任意位置和角度查看,并且可以合成到 3D 环境中。1
- 全文翻译:一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害、AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?;
- 文章总结:一行文本生成4D动态场景——Meta AI MAV3D论文解读、【论文精读】Text-To-4D Dynamic Scene Generation;
- 视频讲解:[论文阅读]Text-To-4D Dynamic Scene Generation(MAV3D);
- 疑难问答:Text-To-4D Dynamic Scene Generation | Hacker News
一. 预备知识
MAV3D 论文直接阅读会比较困难,本节参考 [论文代码阅读]TensoRF: Tensorial Radiance Fields、[论文阅读]HexPlane: A Fast Representation for Dynamic Scenes、[论文代码阅读]MAKE-A-VIDEO:TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA,对需要用到的预备知识进行梳理。
1. TensoRF
TensoRF 2 是 ECCV 2022 最具影响力论文,改进了神经辐射场 (NeRF) 的 MLP 表示,将其视为 4D 张量 (tensor) 场(4D 代表 NeRF 的四维输出:RGB +
σ
sigma
σ)。然后将张量分解 (factorize) 为多个紧凑的低秩张量,这样可以降低数据维度,从而减少显存的需求量,并且提高了建模效率和质量。
秩 (rank):张量的秩是指其非零元素所在的维度的数量。下文出现的秩一张量 (rank–one tensor) 指的就是只有一个非零元素的张量。通过将原始的 4D 张量分解为低秩张量,可以更紧凑地表示数据并且通常能够捕捉到数据中的主要特征。
TensoRF 提供了两种张量分解方法:一种是传统的 CP 分解 3,将一个张量分解为多个秩一张量外积的和;另一种是文中提出的 VM 分解 (vector–matrix decomposition),将一个张量分解为向量和矩阵外积的和。
以 VM 分解的张量辐射场 (Tensorial Radiance Field) 为例,原来的 NeRF 场景可以用一组向量叉乘矩阵的和表示,场景中的 RGB 和
σ
sigma
x,从向量 / 矩阵中进行线性采样 (Linear Sampling) / 双线性采样 (Bilinear Sampling),然后进行三线性插值 (Trilinear Interpolation) 来计算张量的分量
A
(
)
A
σ
(
)
Aσ(x) 直接相加就可以得到
σ
sigma
σ;颜色的分量值
A
(
x
)
⊕
[
A
m
(
x
)
]
m
B
S
S
S 计算 RGB 颜色
c:
总体来说,TensoRF 将 NeRF 的隐式表示的输出表示为张量场,因此在计算
σ
sigma
σ 和
c
bold{c}
c 时与 NeRF 有所不同,其他优化和训练的部分都是相同的。
2. HexPlane
HexPlane 4 是密歇根大学的研究者们在今年年初提出的一种用于动态 3D 场景的快速表示方法,其思想来源于 TensoRF。HexPlane 将 4D 时空网格(这里的 4D 代表动态场景的四维输入:
{
X
,
Y
,
Z
,
T
}
{X,Y,Z,T}
{X,Y,Z,T})分解为沿每对坐标(即
X
Y
XY
XY、
X
Z
XZ
XZ、
X
T
XT
XT、
Y
Z
YZ
YZ、
Y
T
YT
YT、
Z
T
ZT
ZT)延伸的六个特征平面,每个特征平面可以提取特征向量来表示对应坐标对的联合特征。这样就可以将 4D 场景表示为一组高效的显式函数,并保留了变量之间的关联,从而保持高质量的情况下高效地训练和渲染。
HexPlane 渲染视图时,不再需要使用深度 MLP 计算
σ
sigma
σ 和
c
bold{c}
c。而是用
{
x
,
y
,
z
,
t
}
{x,y,z,t}
{x,y,z,t} 叉乘 HexPlane 的六个平面的特征向量,然后拼接得到时空点特征。拼接后的特征向量直接与
V
σ
R
F
V_{sigma}^{RF}
VσRF 相乘就可以得到
σ
sigma
σ;与
V
c
R
F
V_{c}^{RF}
VcRF 相乘后再经过微型 MLP 可以得到
c
bold{c}
c:
3. MAV
二. 研究思路
- 近年来,提供 prompt 合成图像的生成模型发展迅速,主要分为两类:在时间上扩展以合成视频的生成模型(如《Text-to-video generation without text–video data》)和在空间上扩展以生成 3D 形状的生成模型(如《Dream-Fusion: Text-to-3d using 2d diffusion》)。但这两类生成模型的研究一直是分离的。
- 文章将两者结合,提出了一种 text-to-4D (3D+time) 的生成方法:输入自然语言描述,输出动态的 3D 场景表示,命名为 MAV3D (Make-A-Video3D)。
MAV3D 不同于 text-to-video (T2V) 和 text-to-3d 等方法,由于缺少可用的 4D 数据作为训练支撑,因此只能在预训练的模型上再做改进。MAV3D 将动态 NeRF 和预训练的 T2V(也叫 MAV,同样出自 Meta AI,是一种 2D 视频生成器)结合,对物体周围的随机视角进行采样来实现多同步视角从而达到 3D 的效果。
由于缺乏训练数据,Meta AI 的研究人员想到去找一个预训练好的 2D 视频生成器,再从生成的 2D 视频中提炼出一个四维重建。但从 2D 视频中重建可变形物体的形状仍然非常具有挑战性,即 非刚性运动结构 (Non-Rigid Structure from Motion, NRSfM)。不过,如果能够给定物体的 多同步视角 (multiple simultaneous viewpoints),难题就会迎刃而解。
虽然多机位设置在真实数据中很少见,但研究者们认为现有的 2D 视频生成器能够隐式地表示任意视角下的场景,因此可以将 2D 视频生成器作为一个「统计学」的多机位设置来重建可变形物体的几何和光度。也就是说,使用 2D 视频生成器从 随机 视角渲染图像来优化 MAV3D 的场景表示,最终实现从 2D 到 3D 的视频生成。
不过直接使用视频生成器来优化动态 NeRF 无法取得令人满意的结果,实现过程中还有以下几个难题需要攻克:
1. 场景表示
MAV3D 的动态三维场景表示基于 NeRFs,结合了高效的静态 NeRF 和动态NeRF,将 4D 场景表示为 6 个 多分辨率特征平面 (multiresolution feature plane),即 HexPlane。
2. 场景优化
为了在缺少文本 – 4D 对数据学习的情况下监督上面提出的场景表示,采用了一种由静态到动态的多阶段训练策略:先利用 文本到图像 (text-to-image, T2I) 模型,将静态的三维场景与 prompt 文本匹配;然后再用动态的方式增强三维场景模型。
模型中还引入了时间感知 (temporal-aware) 的 SDS (Score Distillation Sampling 5) 损失和运动正则项,这对现实运动和具有挑战性的运动至关重要。
Score Distillation Sampling:SDS 是一种从扩散模型 (diffusion model) 中优化对象的方法,使其服从扩散模型所建模的分布。SDS 从预训练的扩散模型中通过优化得到一组样本,该过程称为蒸馏采样 (distillation sampling)。
3. 分辨率扩展
文中通过一段时间感知的超分模型微调来扩展输出的分辨率,具体做法是:使用 T2V 模型的超分模块中的 SDS 来获得高分辨率梯度信息,从而进行有监督的三维场景学习。这能够增加其视觉保真度,并且在推理过程中对更高分辨率的输出进行采样。
4. MAV3D pipeline
如图所示,4D 场景由 6 个特征平面组成,绿色的 3 个是空间平面,橙色的 3 个是空间时间平面。场景优化时:
- 第一阶段只需要优化静态场景:利用 T2I 模型的 SDS Loss 优化空间平面,将静态的三维场景与 prompt 文本匹配。静态场景用不到空间时间平面,将其置 0 即可;
- 第二阶段需要优化动态场景:利用 T2V 模型(即 MAV)的 SDS-T Loss 优化空间时间平面,渲染完整的视频;
- 第三阶段需要超分微调:使用超分网络 MAV SR 渲染高分辨率的视频,并传入超分组件;
三. 场景表示
记 4D 场景表示为
f
θ
(
x
,
y
,
z
,
t
)
f_{theta}(x,y,z,t)
fθ(x,y,z,t),其中
θ
{
C
t
}
t
=
1
T
{C_t}_{t=1}^{T}
{Ct}t=1T,使用
f
θ
fθ 渲染的图像为
I
t
=
R
(
f
θ
,
t
,
C
t
)
I_t=mathcal{R}(f_{theta},t,C_t)
It=R(fθ,t,Ct),将其堆叠合成视频
V
V
p 和合成视频
V
V
V 传入 T2V 模型,以计算其匹配程度。然后使用 SDS 计算场景参数
θ
theta
四. 场景优化
五. 分辨率扩展
六. 实验结果
详见 https://make-a-video3d.github.io/:
七. 总结
MAV3D 最不可思议的地方在于,尽管目前可用的文本 – 4D 对非常有限,Meta AI 的研究者们依靠现有的 T2V 模型作为 NeRF 的场景先验,通过优化以创建 3D 场景表示。在优化过程中,NeRF 模型从连续的时空坐标创建场景的一系列视图,然后使用扩展模型对图像的真实感和与 prompt 文本的对齐程度进行评分,以获得更加真实的场景表示。
MAV3D 可以为视频游戏、AR、VR 生成 3D 动画资源,相信不久的将来,会有更多基于 MAV3D 的应用出现。
-
Chen A, Xu Z, Geiger A, et al. Tensorf: Tensorial radiance fields[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 333-350. ↩︎
-
Carroll, J.D., Chang, J.J.: Analysis of individual differences in multidimensional scaling via an n-way generalization of “eckart-young” decomposition. Psychometrika 35(3), 283–319 (1970) ↩︎
-
Cao A, Johnson J. Hexplane: A fast representation for dynamic scenes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 130-141. ↩︎
-
Poole, B., Jain, A., Barron, J. T., and Mildenhall, B. Dream-Fusion: Text-to-3d using 2d diffusion. arXiv, 2022. ↩︎
原文地址:https://blog.csdn.net/m0_51976564/article/details/134504755
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_14079.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!