,(3)其中
†
†表示伪逆,
h
h
h是所有样本的特征矩阵,
h
‾
k
hk和
h
‾
h分别表示第
k
k
k类和所有特征的平均值,
Σ
W
=
1
K
n
∑
k
=
1
K
∑
i
=
1
n
(
h
k
,
i
−
h
‾
k
)
(
h
k
,
i
−
h
‾
k
)
⊤
Sigma_W=frac{1}{K_n}sum_{k=1}^Ksum_{i=1}^n(h_{k,i}-overline{h}_k)(h_{k,i}-overline{h}_k)^top
ΣW=Kn1∑k=1K∑i=1n(hk,i−hk)(hk,i−hk)⊤,以及
Σ
B
=
1
K
∑
k
=
1
K
(
h
‾
k
−
h
‾
)
(
h
k
−
h
‾
)
⊤
Sigma_B=frac{1}{K}sum_{k=1}^K(overline{h}_{k}-overline{h})(h_{k}-overline{h})^top
ΣB=K1∑k=1K(hk−h)(hk−h)⊤。
3 方法
3.1 MaxLogit
一个样本的MSP得分是其最大softmax值:
max
(
Softmax
(
z
k
,
i
)
)
max(text{Softmax}(z_{k,i}))
max(Softmax(zk,i))。MaxLogit则取样本的最大logit值:
max
(
z
k
,
i
)
max(z_{k,i})
max(zk,i)。
MaxLogit在很多数据集上优于MSP。评分函数上的单调递增函数变化,例如
log
log
log和
exp
exp
exp,不会影响OOD检测性能。因此,MSP和MaxLogit唯一的差别是求和项
∑
j
=
1
K
exp
(
z
i
j
)
sum_{j=1}^Kexp(z_{ij})
∑j=1Kexp(zij)。当模型收敛后,该项主要受特征范数影响。因此,MSP和MaxLogit的主要区别集中在特征范数。这启发我们研究cosine相似性和特征范数如何影响OOD检测性能。
本文将MaxLogit解耦为两个部分:
MaxCosine
:
max
(
cos
<
h
k
,
i
,
w
j
>
)
j
=
1
K
,
(4)
tag{4} text{MaxCosine}:maxleft( cos<h_{k,i},w_j> right)_{j=1}^K,
MaxCosine:max(cos<hk,i,wj>)j=1K,(4)
MaxNorm
:
∥
h
k
,
i
∥
.
(5)
tag{5} text{MaxNorm}:| h_{k,i} |.
MaxNorm:∥hk,i∥.(5)MaxLogit得分等价于MaxCosine和MaxNorm得分的乘积。由于应用递增函数变换不会影响OOD检测的性能,因此MaxLogit可以用两个独立的部分来描述:
log
(
max
(
z
k
,
i
)
)
=
log
(
max
(
cos
<
h
k
,
i
,
w
j
>
)
)
+
log
∣
h
k
.
i
∣
+
log
∣
w
∣
log(max(z_{k,i}))=log(max(cos<h_{k,i},w_j>))+log|h_{k.i}|+log|w|
log(max(zk,i))=log(max(cos<hk,i,wj>))+log∣hk.i∣+log∣w∣,其是MaxCosine和MaxNorm的耦合项。注意对于分类器权重
w
j
w_j
wj,其在模型收敛后为常数,因此用常量|w|来代替。
基于以上结果,提出了解耦MaxLogit (DML):
DML
=
λ
MaxCosine
+
MaxNorm
,
(6)
tag{6} text{DML}=lambdatext{MaxCosine}+text{MaxNorm},
DML=λMaxCosine+MaxNorm,(6)其中
λ
lambda
λ是超参数。
3.2 改进MaxCosine和MaxNorm
尽管MaxNorm使得DML优于MaxCosine,但由于MaxNorm的性能较低,因此改进幅度很小。通过实验发现:
- Cosine分类器可以引导更好的MaxCosine、MaxNorm,以及基于logit的方法;
- 低WFC引导更好的MaxNorm,其通过Center损失获取:
L
c
e
n
t
e
r
=
∑
k
=
1
K
∑
i
=
1
n
∥
h
k
,
i
−
C
k
∥
2
,
(7)
tag{7} mathcal{L}_{center}=sum_{k=1}^Ksum_{i=1}^n|h_{k,i}-mathcal{C}_k|_2,
C
k
mathcal{C}_k
k
k
- 低CFC引导更好的MaxCosine,其通过Focal损失获取:
L
f
o
c
a
l
=
−
∑
k
=
1
K
∑
i
=
1
n
(
1
−
p
k
i
)
γ
log
(
p
k
,
i
)
,
(8)
tag{8} mathcal{L}_{focal}=-sum_{k=1}^Ksum_{i=1}^n(1-p_{k_i})^gammalog(p_{k,i}),
γ
gamma
p
k
,
i
p_{k,i}
3.3 DML+
为了进一步提升,一个健壮的方法是:
这样的方法被命名为DML+:
D
M
L
+
=
λ
MaxCosine
F
+
MaxNorm
C
,
DML+=lambdatext{MaxCosine}_F+text{MaxNorm}_C,
DML+=λMaxCosineF+MaxNormC,其中
MaxCosine
F
text{MaxCosine}_F
MaxCosineF表示使用Focal损失训练模型,
MaxNorm
C
text{MaxNorm}_C
MaxNormC表示使用Center损失训练模型,其分别被记为
M
C
F
MCF
MCF和MNC。
原文地址:https://blog.csdn.net/weixin_44575152/article/details/134524549
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.7code.cn/show_1463.html
如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除!