本文介绍: 提出了一种心机基于logit的OOD方法,解耦最大逻辑 (DML);考虑硬样本和紧凑特征空间,提出改进后的DML+;解耦最大logit (MaxLogit) 为高效的MaxCosine和保证性能的MaxNorm;

,(3)其中

dag

表示伪逆,

h

h

h是所有样本的特征矩阵,

h

k

overline{h}_k

hk

h

overline{h}

h分别表示第

k

k

k类和所有特征的平均值,

Σ

W

=

1

K

n

k

=

1

K

i

=

1

n

(

h

k

,

i

h

k

)

(

h

k

,

i

h

k

)

Sigma_W=frac{1}{K_n}sum_{k=1}^Ksum_{i=1}^n(h_{k,i}-overline{h}_k)(h_{k,i}-overline{h}_k)^top

ΣW=Kn1k=1Ki=1n(hk,ihk)(hk,ihk),以及

Σ

B

=

1

K

k

=

1

K

(

h

k

h

)

(

h

k

h

)

Sigma_B=frac{1}{K}sum_{k=1}^K(overline{h}_{k}-overline{h})(h_{k}-overline{h})^top

ΣB=K1k=1K(hkh)(hkh)

3 方法

3.1 MaxLogit

一个样本的MSP得分是其最大softmax值:

max

(

Softmax

(

z

k

,

i

)

)

max(text{Softmax}(z_{k,i}))

max(Softmax(zk,i))。MaxLogit则取样本的最大logit值:

max

(

z

k

,

i

)

max(z_{k,i})

max(zk,i)

MaxLogit在很多数据集上优于MSP。评分函数上的单调递增函数变化,例如

log

log

log

exp

exp

exp,不会影响OOD检测性能。因此,MSP和MaxLogit唯一的差别是求和项

j

=

1

K

exp

(

z

i

j

)

sum_{j=1}^Kexp(z_{ij})

j=1Kexp(zij)。当模型收敛后,该项主要受特征范数影响。因此,MSP和MaxLogit的主要区别集中在特征范数。这启发我们研究cosine相似性和特征范数如何影响OOD检测性能。

本文将MaxLogit解耦为两个部分:

MaxCosine

:

max

(

cos

<

h

k

,

i

,

w

j

&gt;

)

j

=

1

K

,

(4)

tag{4} text{MaxCosine}:maxleft( cos<h_{k,i},w_j> right)_{j=1}^K,

MaxCosine:max(cos<hk,i,wj>)j=1K,(4)

MaxNorm

:

h

k

,

i

.

(5)

tag{5} text{MaxNorm}:| h_{k,i} |.

MaxNorm:hk,i∥.(5)MaxLogit得分等价于MaxCosine和MaxNorm得分的乘积。由于应用递增函数变换不会影响OOD检测的性能,因此MaxLogit可以用两个独立的部分来描述

log

(

max

(

z

k

,

i

)

)

=

log

(

max

(

cos

<

h

k

,

i

,

w

j

>

)

)

+

log

h

k

.

i

+

log

w

log(max(z_{k,i}))=log(max(cos<h_{k,i},w_j>))+log|h_{k.i}|+log|w|

log(max(zk,i))=log(max(cos<hk,i,wj>))+loghk.i+logw,其是MaxCosine和MaxNorm的耦合项。注意对于分类器权重

w

j

w_j

wj,其在模型收敛后为常数,因此用常量|w|来代替。

基于以上结果,提出了解耦MaxLogit (DML):

DML

=

λ

MaxCosine

+

MaxNorm

,

(6)

tag{6} text{DML}=lambdatext{MaxCosine}+text{MaxNorm},

DML=λMaxCosine+MaxNorm,(6)其中

λ

lambda

λ是超参数。

3.2 改进MaxCosine和MaxNorm

尽管MaxNorm使得DML优于MaxCosine,但由于MaxNorm的性能较低,因此改进幅度很小。通过实验发现:

  1. Cosine分类可以引导更好的MaxCosine、MaxNorm,以及基于logit方法
  2. 低WFC引导更好的MaxNorm,其通过Center损失获取:

    L

    c

    e

    n

    t

    e

    r

    =

    k

    =

    1

    K

    i

    =

    1

    n

    h

    k

    ,

    i

    C

    k

    2

    ,

    (7)

    tag{7} mathcal{L}_{center}=sum_{k=1}^Ksum_{i=1}^n|h_{k,i}-mathcal{C}_k|_2,

    Lcenter=k=1Ki=1nhk,iCk2,(7)其中

    C

    k

    mathcal{C}_k

    Ck是第

    k

    k

    k类的平均特征;

  3. 低CFC引导更好的MaxCosine,其通过Focal损失获取:

    L

    f

    o

    c

    a

    l

    =

    k

    =

    1

    K

    i

    =

    1

    n

    (

    1

    p

    k

    i

    )

    γ

    log

    (

    p

    k

    ,

    i

    )

    ,

    (8)

    tag{8} mathcal{L}_{focal}=-sum_{k=1}^Ksum_{i=1}^n(1-p_{k_i})^gammalog(p_{k,i}),

    Lfocal=k=1Ki=1n(1pki)γlog(pk,i),(8)其中

    γ

    gamma

    γ是超参数,以及

    p

    k

    ,

    i

    p_{k,i}

    pk,i是sofrmax得分。

3.3 DML+

为了进一步提升,一个健壮的方法是:

  1. 利用Focal损失训练cosine模型,并获得MaxCosine;
  2. 利用Center损失训练cosine模型,并获得MaxNorm;

这样的方法被命名为DML+:

D

M

L

+

=

λ

MaxCosine

F

+

MaxNorm

C

,

DML+=lambdatext{MaxCosine}_F+text{MaxNorm}_C,

DML+=λMaxCosineF+MaxNormC,其中

MaxCosine

F

text{MaxCosine}_F

MaxCosineF表示使用Focal损失训练模型,

MaxNorm

C

text{MaxNorm}_C

MaxNormC表示使用Center损失训练模型,其分别被记为

M

C

F

MCF

MCF和MNC。

原文地址:https://blog.csdn.net/weixin_44575152/article/details/134524549

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

如若转载,请注明出处:http://www.7code.cn/show_1463.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱:suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注