大一统模型 Universal Instance Perception as Object Discovery and Retrieval 论文阅读笔记

本文介绍: 所有的实例感知任务旨在发现利用 queries 查询到的目标，例如类别名、语言表达式、目标标注，但这一领域被划分为多个独立的子任务。于是本文提出了一种统一的实例感知模型 UNINEXT。UNINEXT 将多个实例感知任务划分为一个统一的目标发现和检索过程，通过改变输入的 pro mots 能够弹性地感知不同类型的目标。于是有一些好处：不同任务的数据和标签词汇能够用于训练统一的模型，而且有益于那些缺乏训练数据的任务；参数有效性，能够降低冗余的计算。

⎧EncLref(expression) expression–g ui dedEncLref(concat(categories)) category–g uidedmerge(EncVref([template, prior]) a nnotation-guided

4.2 图像-Prompt 特征融合

与 Prompt 并行，整个图像穿过另一个视觉编码器

Enc

text{Enc}_text{V}

$Enc_{V}$ ，得到级联的视觉特征

F_v

$F_{v}$ ，然后采用一个提前融合模块。具体来说。一个双向的 cross-attention（Bi-XAtt）模块用于检索不同输入的信息，然后将检索到的表示添加到原始的特征上。这一过程描述为：

−

(

)

′

;

′

begin{aligned} &a mp;F_{m athrm{p2v}},F_{mathrm{v2p}}=mathrm{Bi-XAtt}(F_{v},F_{p}) \ &F_{v}^{prime}=F_{v}+F_{mathbf{p}2mathbf{v}};F_{p}^{prime}=F_{p}+F_{mathbf{v}2mathbf{p}} end{aligned}

$F_{p2v}, F_{v2p} = Bi - XAtt (F_{v}, F_{p}) F_{v}^{'} = F_{v} + F_{p 2 v}; F_{p}^{'} = F_{p} + F_{v 2 p}$ 不同于 GLIP，其采用 6 层的视觉–语言融合层和 6 层外部 BERT 层用于特征增强，本文的提前融合模块则更有效率。

4.3 目标发现和检索

在提出显著性的视觉和 prompt 表示后，下一个关键步骤则是将输入的特征转化为不同感知任务中的实例。UNINEXT 采用 Deformable-DETR 中的编码器-解码器架构。

Transformer 编码器以级联的 prompt 感知的视觉特征作为输入。然后采用 Multi-scale Deformable Self-Attention 增强目标信息。此外，添加辅助的预测头用于编码器的结尾，生成

$N$ 个初始的参考点作为解码器的输入。

Transformer 解码器以增强的多尺度特征，

$N$ 个参考点和

$N$ 个目标 queries 作为输入。本文尝试两种 query 生成策略：静态 query，不随图像或 Prompts 而改变；基于 Prompt 的动态 queries。第一种策略很容易通过

nn.Embedding(N,d)

text{nn.Embedding(N,d)}

$nn .Embedding(N,d)$ 实现，而第二种策略则可以通过池化序列维度，增强的 Prompt 特征

′

F_v^{prime}

$F_{v}^{'}$ 得到，之后重复

$N$ 次。实验部分表明静态策略通常执行的比动态策略好。原因可能是静态部分包含了更丰富的信息，同时拥有更好的训练稳定性。

在解码器的结尾，采用一组预测头来得到最终的实例预测，产生目标的 boxes 和 masks。此外，引入一个 embedding 头用于辅助 MOT、MOTS、VIS 所需要的轨迹。

接下来产生精确的目标。具体来说，给定早期融合后的 prompt embedding

′

F_p^{prime}

$F_{p}^{'}$ ，对于类别引导任务，将每个名字的 embedding 视为一个权重矩阵

∈

Winmathbb{R}^{1times d}

$W \in R^{1 \times d}$ 。此外，对于表达式引导和标注引导的任务，权重矩阵

$W$ 通过对聚合的 prompt embedding

′

F_p^{prime}

$F_{p}^{'}$ ，使用全局平均池化 global average pooling (GAP) 沿着序列维度得到。给出公式描述过程：

{

′

[

]

∈

{

−

}

4.4 训练和推理

训练

整体的训练过程包含三个连续阶段：通用的感知预训练；图像级别的共同训练；视频级别的共同训练。第一阶段，预训练 UNINEXT 在大规模目标检测数据集 Objects365 上。由于 Objects365 没有 mask 标注，于是引入 BoxInst 中提出的辅助损失用于训练 mask 分支，于是损失函数为：

mathcal{L}_{mathrm{stage}1}=mathcal{L}_{mathrm{retrieve}}+mathcal{L}_{mathrm{box}}+mathcal{L}_{mathrm{mask}}^{mathrm{boxinst}}

$L_{stage 1} = L_{re trieve} + L_{box} + L_{ma sk}^{box inst}$
然后基于第一阶段的预训练权重，在图像数据集 COCO、RefCOCO、RefCOCO+、RefCOCOg 上微调 UNINEXT。使用 Dice Loss 和 Focal Loss 进行 mask 的训练：

mathcal{L}_{mathrm{stage2}}=mathcal{L}_{mathrm{retrieve}}+mathcal{L}_{mathrm{box}}+mathcal{L}_{mathrm{mask}}

$L_{stage2} = L_{re trieve} + L_{box} + L_{mask}$
最后在视频级别的数据集上微调 UNINEXT。为防止模型遗忘之前在图像级别上学到的知识，将图像级别的数据集转化为伪视频，和其它视频数据集一起训练。总结下，第三阶段的训练数据包含：伪标签视频、SOT&VOS 数据集（GOT-10K、LaSOT、TrackingNet、Youtube-VOS），MOT&VIS 数据集（BDD100K、VIS19、OVIS)，R-VOS 数据集 Ref-Youtube-VOS。同时，一个用于 SOT&VOS 任务的指代视觉编码器和一个外部的 embedding 头用于辅助优化。于是第三阶段的损失如下：

mathcal{L}_{mathrm{stage}3}=mathcal{L}_{mathrm{retrieve}}+mathcal{L}_{mathrm{loox}}+mathcal{L}_{mathrm{mask}}+mathcal{L}_{mathrm{embed}}

$L_{stage 3} = L_{re trieve} + L_{loox} + L_{mask} + L_{embed}$

推理

对于类别引导的任务，UNINEXT 预测不同类别的实例并将其与之前的轨迹关联起来，这一过程是在线的方式。对于表达式引导和标注引导的任务，直接选择与给定 Prompt 最高匹配得分的目标作为最终的结果，无需后处理。

五、实验

5.1 实施细节

尝试不同的视觉 Backbone 作为编码器，如 ResNet-50、ConvNeXt-Large、ViT-Huge。BERT 为文本编码器，其参数在第一个阶段训练而在第二个阶段冻结。Transformer 中的编码器和解码器结构有 6 层的编码器层和 6 层的解码器层。目标 queries 的数量

900

N=900

$N = 900$ 。优化器 AdamW，权重衰减 0.05。预训练在 Objects365 上采用 32 个 A100 GPU，而在其它阶段则采用 16 块 A100（一般的小作坊就不用尝试啦）。