本文介绍: 「吴恩达」深度学习笔记 – 长短时记忆网络LSTM

一、经典模型

widetilde{c}^{<t>} = tanh(w_{c}[a^{<t-1>},x^{<t>}]+b_{c})

  • 更新门:Gamma_{u} = sigma(w_{u}[a^{<t-1>},x^{<t>}]+b_{u})
  • 遗忘门:Gamma_{f} = sigma(w_{f}[a^{<t-1>},x^{<t>}]+b_{f})
  • 输出门:Gamma_{o} = sigma(w_{o}[a^{<t-1>},x^{<t>}]+b_{o})

c^{<t>} = Gamma_{u}*widetilde{c}^{<t>} + Gamma_{f}*widetilde{c}^{<t-1>}​

a^{<t>} = Gamma_{o} * tanh(c^{<t>})

二、窥视孔连接

c^{<t-1>} 也能影响门的值:

Gamma_{u} = sigma(w_{u}[a^{<t-1>},x^{<t>},c^{<t-1>}]+b_{u})

Gamma_{f} = sigma(w_{f}[a^{<t-1>},x^{<t>},c^{<t-1>}]+b_{f})

Gamma_{o} = sigma(w_{o}[a^{<t-1>},x^{<t>},c^{<t-1>}]+b_{o})​

三、vs GRU

GUR 相关内容见上一篇博客

GRU 是更简单的模型,只有两个门,运行快,更容易建立大的网络

LSTM 更加强大和灵活 —— 作为默认选择

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注