Transformer and Pretrain Language Models3-2

互联网 1 年前 0 4

本文介绍: 在这个变体中，w1、w2和v，分别是两个权重矩阵和一个权重向量；tanh是一个激活函数。这样的话最后也可以得到一个标量，作为前面的注意力分数。如果两个向量的维度不一样，我们就需要在中间加上一个权重矩阵，来实现他们之间的相乘，然后最后得到一个标量。它和前面的有一个比较大的不同，它使用了一层的前馈神经网络，来将两个向量变成一个标量，来得到注意力分数。此外还有许多其他的变体，可执行查找了解。

第二种变体：

如果两个向量的维度不一样，我们就需要在中间加上一个权重矩阵，来实现他们之间的相乘，然后最后得到一个标量

第三种变体：

additive attention

它和前面的有一个比较大的不同，它使用了一层的前馈神经网络，来将两个向量变成一个标量，来得到注意力分数

在这个变体中，w1、w2和v，分别是两个权重矩阵和一个权重向量；tanh是一个激活函数。这样的话最后也可以得到一个标量，作为前面的注意力分数

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

变体向量标量

相关文章

【NLP 自然语言处理(一)—词向量】

【NLP 自然语言处理(一)—词向量】

互联网 1 年前 6

开源模型应用落地-业务优化篇（四）

开源模型应用落地-业务优化篇（四）

互联网 1 年前 5

基于自适应支持向量机的matlab建模与仿真,不使用matlab的SVM工具箱函数

基于自适应支持向量机的matlab建模与仿真,不使用matlab的SVM工具箱函数

互联网 1 年前 3

线性代数速通

互联网 1 年前 4

深度学习（5）—自注意力机制

互联网 1 年前 5

标量、向量、矩阵和张量的区别？

标量、向量、矩阵和张量的区别？

互联网 1 年前 4

JVM之GC垃圾回收

互联网 1 年前 4

行为型设计模式—中介者模式

互联网 1 年前 5

发表回复取消回复