【自然语言处理】Transformer-XL 讲解

本文介绍: 语言模型 Trm 的改进

首先需要明确，Transformer-XL（XL 是 extra long 的简写）只是一个堆叠了自注意力层的 BPTT 语言模型，并不是 Transformer 原始论文中提到的编码器-解码器架构，也不是原始 Transformer 中的编码器部分或者解码器部分，根据其大致实现可以将其理解为丢弃 cross attention 模块的 Transformer 解码器。之所以名字包含“Transformer”，我认为是当时的很多学者都有一种将自注意力机制与 Transformer 画等的潜意识，更何况当时 Transformer 大火，如果名字中包含“Transformer”，多少可以蹭一下热度。

在 Trm-XL 之前，Al-Rfou 在 REF [2] 中已经提出了处理文本序列的基于自注意力的语言模型 vanilla Trm，只不过其大致思想是，在训练阶段将文本按照模型可接收的序列长度对文本进行切分，

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。