RNN、Seq2Seq、Transformers：NLP 中常用的神经架构简介

本文介绍: 如果我们谈论一个单词，自注意力可以表示它与句子中的哪些其他单词有很强的关系。RNN 背后的核心思想是，它将相同的权重矩阵应用于每个输入，并生成一系列隐藏状态（我们有输入就有多少个隐藏状态），这些隐藏状态携带来自先前时间步骤的信息。为了建立输入的顺序，Tr ans form er s 向每个嵌入添加另一个向量（这称为位置编码），这有助于它们识别序列中每个输入的位置以及它们之间的距离。另一个固有的缺点在于顺序处理的本质：由于一次处理一个输入的部分（除非有 H1，否则我们无法计算 H2），因此网络的计算总体上非常慢。

我们有 11 个单词（11 个单词嵌入）作为输入，并且序列被切成标记，看起来像这样 I1, I2…..I11。

RNN 背后的核心思想是，它将相同的权重矩阵应用于每个输入，并生成一系列隐藏状态（我们有输入就有多少个隐藏状态），这些隐藏状态携带来自先前时间步骤的信息。

每个隐藏状态（Ht）都是根据前一个隐藏状态（Ht-1）和当前输入（It）计算的；正如我们所提到的，它们实际上是在每个时间步上不断修改的相同状态。

因此，处理从第一个词嵌入 ( I1 ) 与初始隐藏状态 ( H0 )一起进入模型开始；在 RNN 的第一个单元内，对I1和H0执行线性变换，添加偏差，并通过某种非线性（Si gm o id、ReLU 等）对最终值进行处理 — 这就是我们得到H1的方式。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。