本文介绍: 论文提出了一种token–level的自蒸馏对比学习(self–distillation contrastive learning)方法。作者并没有直接使用BERT的输出作为token embedding,而是使用点乘的方式融合了BERT的输出和word embeddings。
论文信息
论文地址:https://arxiv.org/pdf/2210.17168.pdf
Abstract
论文提出了一种token–level的自蒸馏对比学习(self–distillation contrastive learning)方法。
1. Introduction
传统方法使用BERT后,会对confusion chars进行聚类,但使用作者提出的方法,会让其变得分布更均匀。
2. Methodology
2.1 The Main Model
作者提取特征的方式:① 先用MacBERT得到hidden states,然后用word embedding和hidden states进行点乘。写成公式为:
2.2 Contrastive Loss
2.3 Implementation Details(Hyperparameters)
3. Experiments
代码实现
个人总结
值得借鉴的地方
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。