本文介绍: 温度系数作用调节对困难样本关注程度:越小的温度系数关注于将本样本和最相似的困难样本分开,去得到更均匀的表示。在无监督标注的情况下,这样的伪负例其实不可避免的,首先可以想到的方式是去扩大语料库,去加大batch size,以降低batch训练采样到伪负例概率,减少它的影响可以不同的负样本想像成同极点电荷在不同距离处的受力情况,距离越近的点电荷受到的库伦斥力更大,而距离越远的点电荷受到的斥力越小。对比损失中,越近的负例受到的斥力越大,具体的表现就是对应的负梯度值越大[4]。

在这里插入图片描述

监督pair构造

其实一个batch比如有N个句子对,那么就有2N个句子,其中正例是1个,负样本应该是总样本数目2N减去样本本身,也就是2N-1;

在这里插入图片描述

有监督的pair构造

按照上图理解一个句子,有两个已经打好不同的标签句子,进行配对pair远离一样。

构造难度增加(一般采用这种策略):

在这里插入图片描述

infoNCE Loss理解

在这里插入图片描述

Q:温度常数t的作用什么
温度系数作用调节对困难样本的关注程度:越小的温度系数越关注于将本样本和最相似的困难样本分开,去得到更均匀的表示。然而困难样本往往是与本样本相似程度较高的,很多困难负样本其实潜在的正样本,过分强迫与困难样本分开会破坏学到的潜在语义结构

  • 因此,温度系数不能过小

考虑两个极端情况:
(1)温度系数趋向于0时,对比损失退化为只关注最困难的负样本的损失函数
(2)当温度系数趋向于无穷大时,对比损失对所有负样本都一视同仁,失去了困难样本关注的特性
物理角度理解

可以把不同的负样本想像成同极点电荷在不同距离处的受力情况,距离越近的点电荷受到的库伦斥力更大,而距离越远的点电荷受到的斥力越小。

构造案例

在这里插入图片描述
在这里插入图片描述


对比学习度量学习和对比学习思想是一样的,都是去拉近相似的样本,推开不相似的样本
但是对比学习是无监督或者自监督学习方法,而度量学习一般为有监督学习方法

对比学习loss

对比学习在loss设计时,为单正例多负例的形式,因为是无监督,数据充足的,也就可以找到无穷的负例,但如何构造有效正例才是重点

度量学习的loss

度量学习多为二元组三元组的形式,如常见的Triplet形式(anchor,positive,negative),Hard Negative的挖掘对最终效果有较大的影响

在无监督无标注的情况下,这样的伪负例,其实不可避免的,首先可以想到的方式是去扩大语料库,去加大batch size,以降低batch训练采样到伪负例的概率,减少它的影响。

SimCSE的缺点

从 SimCSE 的正例构建中我们可以看出来,所有的正例都是由「同一个句子」过了两次模型得到的。

解决方案

要想消除模型句子长度的敏感我们需要在构建正例的时候输入句子的长度发生改变
改变句子长度通常有 3 种方法随机删除、随机添加同义词替换,但它们均存在句意变化的风险

单/双塔

单/双塔参考链接https://zhuanlan.zhihu.com/p/585533302

关于PromptPromptBert

原文地址:https://blog.csdn.net/RandyHan/article/details/134775916

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_43672.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注