本文介绍: 如果我们谈论一个单词,自注意力可以表示它与句子中的哪些其他单词有很强的关系。RNN 背后的核心思想是,它将相同的权重矩阵应用于每个输入,并生成一系列隐藏状态(我们有输入就有多少个隐藏状态),这些隐藏状态携带来自先前时间步骤的信息。为了建立输入的顺序,Transformers 向每个嵌入添加另一个向量(这称为位置编码),这有助于它们识别序列中每个输入的位置以及它们之间的距离。另一个固有的缺点在于顺序处理的本质:由于一次处理一个输入的部分(除非有 H1,否则我们无法计算 H2),因此网络的计算总体上非常慢。
循环神经网络是一类神经架构,具有很酷的特性——循环机制——这使得它们成为处理可变长度的顺序数据的自然选择。与标准神经网络不同,RNN 可以在接受新输入的同时保留前一层的信息。
这是它的工作原理
假设我们正在构建一个电子商务聊天机器人,由一个处理文本的 RNN 和一个预测其背后意图的前馈网络组成。机器人收到这条消息:“嗨!你们这件衬衫有不同颜色吗?”
我们有 11 个单词(11 个单词嵌入)作为输入,并且序列被切成标记,看起来像这样 I1, I2…..I11。
RNN 背后的核心思想是,它将相同的权重矩阵应用于每个输入,并生成一系列隐藏状态(我们有输入就有多少个隐藏状态),这些隐藏状态携带来自先前时间步骤的信息。
每个隐藏状态(Ht)都是根据前一个隐藏状态(Ht-1)和当前输入(It)计算的;正如我们所提到的,它们实际上是在每个时间步上不断修改的相同状态。
因此,处理从第一个词嵌入 ( I1 ) 与初始隐藏状态 ( H0 )一起进入模型开始;在 RNN 的第一个单元内,对I1和H0执行线性变换,添加偏差,并通过某种非线性(Sigmoid、ReLU 等)对最终值进行处理 — 这就是我们得到H1的方式。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。