mask transformer相关论文阅读

本文介绍: mask transformer的一些论文阅读。

前面讲了mask-transformer对医学图像分割任务是非常适用的。本文就是总结一些近期看过的mask-transformer方面的论文。
因为不知道mask transformer是什么就看了一些论文。后来得出结论，应该就是生成mask的transformer就是mask transformer。
相关论文：
1.DETR(eccv2020):https://link.springer.com/chapter/10.1007/978-3-030-58452-8_13
2.MaX-Deeplab(CVPR 2021):https://openaccess.thecvf.com/content/CVPR2021/html/Wang_MaX-DeepLab_End-to-End_Panoptic_Segmentation_With_Mask_Transformers_CVPR_2021_paper.html
3.MaskForm(NeurIPS 2021):https://papers.nips.cc/paper/2021/file/950a4152c2b4aa3ad78bdd6b366cc179-Paper.pdf
4.Mask2Form(CVPR2022):https://ieeexplore.ieee.org/document/9878483
5.kMaX-DeepLab(ECCV2022):https://link.springer.com/chapter/10.1007/978-3-031-19818-2_17

很多这些论文都是受到DETR的启发得到的。DETR为数不多的目标检测里端到端的模型，它把目标检测看作集合预测问题，不需要人为一些先验和调参，没有了NMS，让模型训练和部署变得容易。
在这里插入图片描述
简单描述一下它训练过程就是图片经过CNN得到的特征和位置编码(给定的)相加放入到Transformer进行编码。学习全局的特征，encoder中有6个transformer block进行编码，编码得到的特征进入到decoder中。object queries是可学习的变量。object queries与得到的特征进行cross attention(特征作为key,value，object queries作为queries)，object queries也会进行self attention（以保证object queries之间相互通信，知道其他object得到的框是什么，避免冗余框）得到新的object queries。新的object queries进入FFN预测类别和box相关的参数。使用匈牙利算法选择合适的框输出。测试的时候设定置信度阈值。
DETR中使用了深监督（深监督）
DETR：对小目标检测不友好，后面分割也是改进让他有多尺度特征，能够有更好的性能。

问题：目前严重依赖于代理子任务和手工设计组件的全景分割流水线，例如框检测，非极大值抑制，事物-内容合并等。虽然这些子任务都是由领域专家来完成的，但是它们并不能全面地解决目标任务。
目的：全景分割可以使用端到端模型，不需要实例分割和语义分割相结合。
我不了解全景分割，全景分割好像之前也是很难是端到端的，MaX-DeepLab是一个端到端的模型，它简化了当前严重依赖代理子任务和手工设计组件的流水线，如盒子检测、非最大值抑制、东西合并等。下面这幅图就显示了之前全景分割方法和本文提出的方法，之前的方法依赖于代理子任务树。通过融合语义和实例分割结果，得到泛全景分割掩模。实例分割进一步分解为盒检测和基于盒的分割，而盒检测则通过锚回归和锚分类来实现。
在这里插入图片描述
我们的方法正确的分割出了狗和椅子。而基于锚点的方法因为狗和椅子的中心太相近所以导致分不出椅子和狗。基于边界框的方法由于椅子边缘有太低的置信度所以分割不出椅子。

全景分割的任务就是通过一幅图片获得很多类别标记的标签，我们的模型就是把图片分割成一组固定数量集合的类别标记的标签，预测的标签mask是软互斥的。mask的类别包含thing classes, stuff classes, 空集类别（没有物体）三种。把thing和stuff类别分割统一起来，去掉了合并操作。

类似于DETR，有没有觉得这个memory bank和object query很相似。就是它们都能够端到端，不需要NMS和合并操作原因是它们都实现给定了一个数，就出100个框，就分割100个类或者物体，这个数量大于图片中含有最大物体数，所以有一些是没有类别的，所以对损失函数入手，从训练策略入手。DETR是使用了匈牙利算法匹配预测框，这个也是使用匈牙利算法匹配的分割图分类。它提出来了PQ来衡量这个匈牙利算法中每个选择的损失，PQ就是分类得到的概率乘以分割得到的Dice值。它的损失就是动态加权的CE Loss和Dice Loss，这个是匹配的损失。
在这里插入图片描述
不匹配的损失就是空集，预测空集这个类别的CE损失。

总损失就是匹配的损失加上不匹配的损失。两者加权和。

Transformer块实现了2D像素路径CNN和1D存储器路径之间的所有四种可能类型的通信：（1）传统的存储器到像素（M2P）注意力，（2）存储器到存储器（M2M）自我注意力，（3）允许像素从存储器中读取的像素到存储器（P2M）反馈注意力，以及（4）像素到像素（P2P）自我注意，实现为轴向注意力。
还有一个很大的堆叠了很多块的decoder,为了聚合多尺度特征。
最后输出是memory经过FC后得到的类别和解码器得到的经过上采样的mask预测和memory的进行点乘获得的mask。简单来说是这样。其中为了学习不同类别之间和类别背景之间的区别，引入了对比学习的损失。感兴趣的可以看原文。
在这里插入图片描述

目的：掩码分类足够通用，可以使用完全相同的模型、损失和训练程序以统一的方式解决语义和实例级的分割任务。
这篇就简单列一下。就是把语义分割和实例分割统一用掩码分类来解决。
在这里插入图片描述
逐像素分类的语义分割对每个位置应用相同的分类损失。掩码分类预测一组二分割掩码，并为每个掩码分配一个类。
Architecture: pixel-level module, transformer module, segmentation module
为了训练掩码分类模型，预测集和真实标签集之间的匹配是需要的。由于预测集和真实标签集的大小通常不同，我们假设N≥Ngt，并用“无对象”标记填充真实标签集，以允许一对一匹配。对于语义分割，如果预测的数量N与类别标签的数量K匹配，则固定匹配是可能的。在这种情况下，第i个预测与具有类别标签i和。如果具有类标签i的区域不存在于真实标签中。在实验中，发现基于二部分匹配的分配比固定匹配显示出更好的结果。与使用边界框来计算匹配问题的预测和真实标签之间的分配成本的DETR不同，我们直接使用类和掩码预测，Lmask-cls即-第j个类的类别概率+第j个类别掩码的dice损失。除了Lmask-cls之外，大多数现有的掩码分类模型还使用辅助损失（例如，边界框损失或实例判别损失，前面MaX deeplab就是用的个体判别损失就是对比学习损失一种）。
在这里插入图片描述
分为三个部分：
Pixel-level module:编码器解码器架构，获得特征图和初始的分割预测。
Transformer module：类似于DETR object query那个decoder，query不断与特征进行交互获得全局信息，一部分用来分类，一部分作为mask embedding对初始的分割预测进行加权。
Segmentation module：queries经过分类头得到分类结果，queries与初始预测的mask进行点积得到最后的分割预测。
trick:概率掩码对的索引i有助于区分同一类的不同实例。最后，为了降低全景分割中的假阳性率，我们遵循之前的推理策略[4，24]。具体来说，我们在推理之前过滤掉低置信度预测，并去除其二进制掩码（mi>0:5）的大部分被其他预测遮挡的预测片段。