本文介绍: 开放词汇检测旨在检测那些未出现在预定词汇中的目标,类似的任务视觉定位 Visual Grounding (VG)。然而当前的基础模型虽然在很多视觉语言任务上表现很好,但是在开放视觉定位 openvocabulary visual grounding (OV-VG) 上还没有拿得出手的工作。

1jOi+log(k=0N1exp(tiTok/τ)exp(tiToj/τ))其中

τ

tau

τ 为温度参数,整体损失为:

L

=

λ

g

i

o

u

L

g

i

o

u

+

λ

L

1

L

L

1

+

λ

c

t

s

L

c

t

s

mathcal{L}=lambda_{mathrm{giou}}mathcal{L}_{mathrm{giou}}+lambda_{mathrm{L1}}mathcal{L}_{mathrm{L1}}+lambda_{mathrm{cts}}mathcal{L}_{mathrm{cts}}

L=λgiouLgiou+λL1LL1+λctsLcts其中

L

g

i

o

u

mathcal{L}_mathrm{giou}

Lgiou

L

L

1

mathcal{L}_{mathrm{L1}}

LL1

L

c

t

s

mathcal{L}_{mathrm{cts}}

Lcts 分别表示 GIoU 损失、L1 损失和对比对齐损失

λ

g

i

o

u

=

L

c

t

s

=

2

lambda_{mathrm{giou}}=mathcal{L}_{mathrm{cts}}=2

λgiou=Lcts=2

λ

L

1

=

5

lambda_{mathrm{L1}}=5

λL1=5 为平衡的超参数

F、实施细节

  模型训练在 RefCOCO 数据集上,推理在 OV-VG。图像 Backbone 采用 ResNet-50 和 CLIP。输入尺寸

640

×

640

640times640

640×640,最大文本长度

256

256

256。两块 3090,AdamW 优化器,初始学习

1

×

1

0

4

1times 10^{-4}

1×104,权重衰减

1

×

1

0

5

1times10^{-5}

1×105,Batch 16,10 个 epochs。

六、实验

  
在这里插入图片描述

A、消融研究

  
在这里插入图片描述
  
在这里插入图片描述

B、数据泄露

  
在这里插入图片描述
  
在这里插入图片描述

C、数据分析错误案例

  
在这里插入图片描述
在这里插入图片描述
  

D、可视化实验

  
在这里插入图片描述
在这里插入图片描述

七、结论

  本文引入两个数据集 OV-VG 和 OV-PL,提出了一种 OV-VG 框架整合了 LGFA 和 TIQS 模块。在 OV-VG 数据集上的表现表明本文提出的方法效果很好。通过可视化实验验证了方法的理论。

写在后面

  这是篇挖坑的工作,思路还是比较简单的,后续有想“水”点论文同学可以按照此种方法操作下。当然缺点也有,这个创新点还是稍显薄弱,另外 Fig. 1 图片论文中根本没有引用,那么放上来是干啥的?图形摘要

原文地址:https://blog.csdn.net/qq_38929105/article/details/134105411

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_4323.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注