【自然语言处理】Transformer-XL 讲解

互联网 10 月前 0 3

本文介绍: 语言模型 Trm 的改进

Transformer-XL

首先需要明确，Transformer-XL（XL 是 extra long 的简写）只是一个堆叠了自注意力层的 BPTT 语言模型，并不是 Transformer 原始论文中提到的编码器-解码器架构，也不是原始 Transformer 中的编码器部分或者解码器部分，根据其大致实现可以将其理解为丢弃 cross attention 模块的 Transformer 解码器。之所以名字包含“Transformer”，我认为是当时的很多学者都有一种将自注意力机制与 Transformer 画等的潜意识，更何况当时 Transformer 大火，如果名字中包含“Transformer”，多少可以蹭一下热度。

因此，下面我会常称类似的结构为“自注意力”，而不是 Transformer。

BPTT 意味着与 RNNs 类似，也存在时序计算过程，即当前”时刻“的计算依赖于前一”时刻“的计算结果。Trm-XL 的”时刻“指的是子序列。

概述

在 Trm-XL 论文中，作者将 REF [2] 中的模型视为主要对比的 baseline，并称该模型为普通 Transformer（vanilla Transformer），它也是语言模型。

在 Trm-XL 之前，Al-Rfou 在 REF [2] 中已经提出了处理文本序列的基于自注意力的语言模型 vanilla Trm，只不过其大致思想是，在训练阶段将文本按照模型可接收的序列长度对文本进行切分，

原文地址:https://blog.csdn.net/weixin_46221946/article/details/135432025

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_54783.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

transformer xl 解码器

相关文章

Transformer 自然语言处理（二）

Transformer 自然语言处理（二）

互联网 10 月前 11

深度学习（6）—Transformer

深度学习（6）—Transformer

互联网 10 月前 4

mask transformer相关论文阅读

mask transformer相关论文阅读

互联网 10 月前 5

解析GPT-3、GPT-4和ChatGPT关系-迈向自然语言处理的新高度“

解析GPT-3、GPT-4和ChatGPT关系-迈向自然语言处理的新高度“

chatgpt 10 月前 4

细数语音识别中的几个former

细数语音识别中的几个former

互联网 10 月前 1

[全连接神经网络]Transformer代餐，用MLP构建图像处理网络

[全连接神经网络]Transformer代餐，用MLP构建图像处理网络

互联网 10 月前 3

JVM之GC垃圾回收

互联网 9 月前 3

行为型设计模式—中介者模式

互联网 9 月前 4

发表回复取消回复