【深度学习】Transformer简介

本文介绍: 如下图所示，Trans former模型采用经典的encoder–decoder 结构。其中，待翻译的句子作为encoder的输入，经过encoder 编码后，再输入到decoder中；decoder除了接收 encoder的输出外，还需要当前 step之前已经得到的输出单词；整个模型的最终输出是翻译的句子中下一个单词的概率。现有方法中，encoder和decoder通常都是通过多层循环神经网络或卷积实现，而Trans former中则提出了一种新的、完全基于注意力的网络layer，用来替代现有的模块，如下图所示。

最早提出的Transformer模型[1]针对的是自然语言翻译任务。在自然语言翻译任务中，既需要理解每个单词的含义，也需要利用单词的前后顺序关系。常用的自然语言模型是循环神经网络（Recurrent Neural Network，RNN）和卷积神经网络（Con volutional Neural Network，CNN）。

其中，循环神经网络模型每次读入一个单词，并基于节点当前的隐含状态和输入的单词，更新节点的隐含状态。从上述过程来看，循环神经网络在处理一个句子的时候，只能一个单词一个单词按顺序处理，必须要处理完前边的单词才能开始处理后边的单词，因此循环神经网络的计算都是串行化的，模型训练、模型推理的时间都会比较长。

另一方面，卷积神经网络把整个句子看成一个1*D维的向量（其中D是每个单词的特征的维度），通过一维的卷积对句子进行处理。在卷积神经网络中，通过堆叠卷积层，逐渐增加每一层卷积层的感受野大小，从而实现对上下文的利用。由于卷积神经网络对句子中的每一块并不加以区分，可以并行处理句子中的每一块，因此在计算时，可以很方便地将每一层的计算过程并行化，计算效率高于循环神经网络。但是卷积神经网络模型中，为了建立两个单词之间的关联，所需的网络深度与单词在句子中的距离正相关，因此通过卷积神经网络模型学习句子中长距离的关联关系的难度很大。