1j∈Oi+∑−log(∑k=0N−1exp(tiTok/τ)exp(tiToj/τ))其中
τ
tau
L
=
λ
i
o
u
L
g
i
o
u
+
λ
L
1
L
L
1
+
λ
t
s
L
t
s
mathcal{L}=lambda_{mathrm{giou}}mathcal{L}_{mathrm{giou}}+lambda_{mathrm{L1}}mathcal{L}_{mathrm{L1}}+lambda_{mathrm{cts}}mathcal{L}_{mathrm{cts}}
L=λgiouLgiou+λL1LL1+λctsLcts其中
L
g
i
o
u
Lgiou、
L
L
1
mathcal{L}_{mathrm{L1}}
LL1、
L
c
t
s
mathcal{L}_{mathrm{cts}}
Lcts 分别表示 GIoU 损失、L1 损失和对比对齐损失。
λ
g
i
o
u
=
L
c
t
s
=
2
lambda_{mathrm{giou}}=mathcal{L}_{mathrm{cts}}=2
λgiou=Lcts=2、
λ
L
1
=
5
lambda_{mathrm{L1}}=5
λL1=5 为平衡的超参数。
F、实施细节
模型训练在 RefCOCO 数据集上,推理在 OV-VG。图像 Backbone 采用 ResNet-50 和 CLIP。输入尺寸
640
×
640
640times640
640×640,最大文本长度
256
256
1
×
1
0
−
4
1times 10^{-4}
1×10−4,权重衰减
1
×
1
0
−
5
1times10^{-5}
1×10−5,Batch 16,10 个 epochs。
六、实验
A、消融研究
B、数据泄露
C、数据集分析及错误案例
D、可视化实验
七、结论
本文引入两个数据集 OV-VG 和 OV-PL,提出了一种 OV-VG 框架,整合了 LGFA 和 TIQS 模块。在 OV-VG 数据集上的表现表明本文提出的方法效果很好。通过可视化实验验证了方法的理论。
写在后面
这是篇挖坑的工作,思路还是比较简单的,后续有想“水”点论文的同学可以按照此种方法来操作下。当然缺点也有,这个创新点还是稍显薄弱,另外 Fig. 1 图片论文中根本没有引用,那么放上来是干啥的?图形摘要?
原文地址:https://blog.csdn.net/qq_38929105/article/details/134105411
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_4323.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!