本文介绍: 语言模型 Trm 的改进
Transformer-XL
首先需要明确,Transformer-XL(XL 是 extra long 的简写)只是一个堆叠了自注意力层的 BPTT 语言模型,并不是 Transformer 原始论文中提到的编码器-解码器架构,也不是原始 Transformer 中的编码器部分或者解码器部分,根据其大致实现可以将其理解为丢弃 cross attention 模块的 Transformer 解码器。之所以名字包含“Transformer”,我认为是当时的很多学者都有一种将自注意力机制与 Transformer 画等的潜意识,更何况当时 Transformer 大火,如果名字中包含“Transformer”,多少可以蹭一下热度。
概述
在 Trm-XL 之前,Al-Rfou 在 REF [2] 中已经提出了处理文本序列的基于自注意力的语言模型 vanilla Trm,只不过其大致思想是,在训练阶段将文本按照模型可接收的序列长度对文本进行切分,
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。