SimCSE论文阅读

互联网 1 年前 0 2

本文介绍: 温度系数的作用是调节对困难样本的关注程度：越小的温度系数越关注于将本样本和最相似的困难样本分开，去得到更均匀的表示。在无监督无标注的情况下，这样的伪负例，其实是不可避免的，首先可以想到的方式是去扩大语料库，去加大batch size，以降低batch 训练中采样到伪负例的概率，减少它的影响。可以把不同的负样本想像成同极点电荷在不同距离处的受力情况，距离越近的点电荷受到的库伦斥力更大，而距离越远的点电荷受到的斥力越小。对比损失中，越近的负例受到的斥力越大，具体的表现就是对应的负梯度值越大[4]。

在这里插入图片描述

其实一个 batch，比如有N个句子对，那么就有2N个句子，其中正例是1个，负样本应该是总样本数目2N减去样本本身，也就是2N-1；

在这里插入图片描述

构造难度增加(一般采用这种策略)：

在这里插入图片描述

在这里插入图片描述

对比学习度量学习和对比学习的思想是一样的，都是去拉近相似的样本，推开不相似的样本
但是对比学习是无监督或者自监督学习方法，而度量学习一般为有监督学习方法

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

斥力样本负例

相关文章

Python 处理小样本数据的文档分类问题

Python 处理小样本数据的文档分类问题

python 1 年前 4

【多模态大模型】GLIP：零样本学习 + 目标检测 + 视觉语言大模型

【多模态大模型】GLIP：零样本学习 + 目标检测 + 视觉语言大模型

互联网 1 年前 3

[AIGC] 讲解机器学习中的 K-均值聚类算法及其优缺点。

[AIGC] 讲解机器学习中的 K-均值聚类算法及其优缺点。

互联网 1 年前 5

聚类模型评估指标

互联网 1 年前 4

机器学习-聚类算法详解

互联网 1 年前 2

$pytorch 给定概率分布的张量，如何利用这个概率进行重复\不重复采样？$

pytorch 给定概率分布的张量，如何利用这个概率进行重复\不重复采样？

互联网 1 年前 4

JVM之GC垃圾回收

互联网 1 年前 3

行为型设计模式—中介者模式

互联网 1 年前 4

发表回复取消回复