Zero-shot RIS SOTA：Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 论文阅读笔记

互联网 1 年前 0 9

本文介绍: 本文研究 zero–shot 指代图像分割，旨在没有训练标注的情况下，识别出与指代表达式最相关的目标。之前的方法利用预训练的模型，例如 CLIP，来对齐实例级别的 m a sks。然而 CLIP 仅考虑了图文对间的全局水平上的对齐，忽视了细粒度的匹配。于是本文引入 Text Aug mented Sp atial-aware (TAS) zero–shot 指代图像分割框架，无须训练且对任意的视觉编码器鲁棒。

写在前面

好久没看到有做 Zero-shot RIS 的文章了，看到 ar xiv 上面更新了这篇，特意拿出来学习一下。

本文研究 zero–shot 指代图像分割，旨在没有训练标注的情况下，识别出与指代表达式最相关的目标。之前的方法利用预训练的模型，例如 CLIP，来对齐实例级别的 m a sks。然而 CLIP 仅考虑了图文对间的全局水平上的对齐，忽视了细粒度的匹配。于是本文引入 Text Aug mented Spatial-aware (TAS) zero–shot 指代图像分割框架，无须训练且对任意的视觉编码器鲁棒。TAS 整合了一个 mask pro posal 网络用于实例级别的 mask 提取，一个文本增强的视觉–文本匹配得分用于挖掘图文间的关联，一个空间校正器用于 mask 后处理。除了常规的视觉–文本匹配得分外，增强文本的匹配得分包含了 P-score 和 N-score。P-score 通过一个字幕模型弥补视觉–文本鸿沟；N-score 通过负短语挖掘，实现区域–文本对的细粒度对齐。大量实验表明方法的效果很好。

在这里插入图片描述

首先介绍下 ref err in g expression seg mentation 指代表达分割的定义，应用，手工标注的不易。于是本文研究 zero–shot 指代图像分割来减少成本。接下来是一些方法的介绍，主要是指出直接应用 CLIP 效果不太好。

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

shot zero 指代

相关文章

【Paper List】Multi-modal Few-shot Sentiment Analysis

【Paper List】Multi-modal Few-shot Sentiment Analysis

互联网 1 年前 1

go-zero微服务框架

互联网 1 年前 1

JVM之GC垃圾回收

互联网 1 年前 3

行为型设计模式—中介者模式

互联网 1 年前 4

设计模式（行为型模式）中介者模式

设计模式（行为型模式）中介者模式

互联网 1 年前 3

华清作业day56

互联网 1 年前 4

[软件工具]文档页数统计工具软件pdf统计页数word统计页数ppt统计页数图文打印店快速报价工具

[软件工具]文档页数统计工具软件pdf统计页数word统计页数ppt统计页数图文打印店快速报价工具

互联网 1 年前 3

【leetcode热题100】矩阵置零

【leetcode热题100】矩阵置零

互联网 1 年前 4

发表回复取消回复