论文阅读——SEEM

互联网 1 年前 0 4

本文介绍: 其次，尽管我们使用视觉提示来统一所有非文本提示，并将它们与文本提示对齐，但它们的嵌入空间本质上仍然不同。分割模型向比较灵活的分割的趋势的转变：封闭到开放，通用到特定、on e–shot到交互式。其中，Vi su alSampler应该是根据s，即prompt，通过点采样从图像特征中提取相应的区域，然后在这个区域均匀地插值最多512点特征向量。之前的分割模型，比如SAM的分割是类别不可知的，即class-ag no s t ic，SEEM以零样本的方式为各种提示组合的掩码产生语义标签.相应的提示通过自我注意力与查询交互。

分割模型向比较灵活的分割的趋势的转变：封闭到开放，通用到特定、on e–shot到交互式。From c lo sed–set to open–vocab ulary s e g mentat ion，From generic to ref err in g seg mentat ion，From one-shot to interacti ve seg mentation。

图片提取的特征：

初始化一个可学习的查询向量Qh：

通过Text_Encoder得到文本提示Pt：Text_Enc oder（prompt_text）

通过Vi sualSampler得到，

Pm初始化None，后面结合特征和之前的mask通过MaskedCros sAtt得到：

这样就得到了

相应的提示通过自我注意力与查询交互。可学习查询可以在推理时与所有提示自由交互。

也就是说，一张图片经过一个Img_Enc oder得到特征Z；初始化一个可学习的查询Qh，并把它复制三份得到（即object, text and visual queri es）三种查询的初始化。然后文本提示用Text_Enc oder得到文本提示Pt，Pv通过VisualSampler得到。Pm初始化None，后面结合特征和之前的mask通过MaskedCros sAtt得到。

其中，VisualSampler应该是根据s，即prompt，通过点采样从图像特征中提取相应的区域，然后在这个区域均匀地插值最多512点特征向量。MaskedCros sAtt中，Mp是先前的mask, 而Z是图像特征图。通过这种方式，交叉关注仅在上一个掩码指定的区域内生效。更新后的记忆提示然后通过自我注意与其他提示交互，以传达本轮的历史信息。

得到这些查询、提示和图片特征后，他们自己可以通过注意力机制进行交互，得到，然后再预测mask M和类别 C。

在实践中，用户可以使用不同的或组合的提示类型来表达他们的意图。因此，提示的组合方法对于现实世界的应用是必不可少的。然而，在模型训练过程中，我们面临两个问题。首先，训练数据通常只涵盖单一类型的交互（例如，无、文本、视觉）。其次，尽管我们使用视觉提示来统一所有非文本提示，并将它们与文本提示对齐，但它们的嵌入空间本质上仍然不同。为了缓解这个问题，我们建议将不同类型的提示与不同的输出进行匹配。考虑到视觉提示Pv来自图像特征，而文本提示Pt来自文本编码器，我们通过将视觉提示和文本提示分别与掩码嵌入Omh或类嵌入Och 匹配来选择匹配的输出索引：

之前的分割模型，比如SAM的分割是类别不可知的，即class-ag no stic，SEEM以零样本的方式为各种提示组合的掩码产生语义标签.

损失函数：

SEEM的伪代码如下：

实验部分：

除了decoder部分，用的X-Dec oder框架。

原文地址:https://blog.csdn.net/weixin_43575791/article/details/134681812

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_11661.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

seem 分割提示

相关文章

Stable Diffusion系列（四）：提示词规则与使用

Stable Diffusion系列（四）：提示词规则与使用

互联网 11 月前 5

Mac 上终端配置

互联网 11 月前 5

二、人工智能之提示工程(Prompt Engineering)

二、人工智能之提示工程(Prompt Engineering)

互联网 11 月前 5

文献速递：人工智能医学影像分割— PSMA-PET 提升了基于深度学习的自动化CT肾脏分割技术

文献速递：人工智能医学影像分割— PSMA-PET 提升了基于深度学习的自动化CT肾脏分割技术

互联网 11 月前 0

Midjourney 提示词入门 | 提示词格式特点如何写好自己的提示词？进阶技巧

Midjourney 提示词入门 | 提示词格式特点如何写好自己的提示词？进阶技巧

互联网 11 月前 0

找不到mfc100.dll的解决方法，怎么修复mfc100.dll文件

找不到mfc100.dll的解决方法，怎么修复mfc100.dll文件

互联网 11 月前 4

JVM之GC垃圾回收

互联网 11 月前 3

行为型设计模式—中介者模式

互联网 11 月前 4

发表回复取消回复