Paraformer 语音识别原理_代码007(未授权)

首页
互联网
正文

本文介绍: 模Par a form err的组成：Encode r(编码器)，Pr edi ct o r(预测器)，Sample r（采样器），De co der（解码器），loss function。

在这里插入图片描述
Paraform er(Parallel Trans form er)非自回归端到端语音系统需要解决两个问题：

准确预测输出序列长度，送入预测语音信号判断包含多少文字。如何从encoder 的输出中提取隐层表征，作为decoder的输入。

采用一个预测器（Predi ct or）来预测文字个数并通过Con t inuous int e grat e-and-fi re (CIF)机制来抽取文字对应的声学隐变量

如何增强非自回归预测内部依赖的建模能力。

基于GLM的 Sampler模块来增强模型对上下文语义的建模

Paraform err的组成：Enc o der(编码器)，Predi ct or(预测器)，Sampler（采样器），Deco der（解码器），loss function。

Enc o der(编码器)，把声学特征转变成固定维度的稠密向量.
Predi ct or(预测器)，预测文字个数 $N^{‘} N′,实现语音和文本对齐,并通过Continuous integrate-and-fire (CIF)机制来抽取文字对应的声学隐变量 E a E_a Ea。$
Sampler（采样器），通过采样，将声学特征向量与目标文字向量变换成含有语义信息的特征向量，配合双向的Deco der来增强模型对于上下文的建模能力；采用Glang cing LM增强非自回归的上下文建模能力.
Deco der（解码器），把向量转变成目标文字

在这里插入图片描述

Encoder

采用SAN-M结构，对于语音建模来说，全局建模和局部建模都极为关键，所以标准的Self-attention层增加了局部建模模块Memo ry Block，从而增加Self-attention的局部建模能力。

Deco der

离线和流式系统采用不同结构。离线识别使用双向SAN-M，流式识别采用单向的SAN-M，并结合基于SCAMA的流式注意力机制来实现。SCAMA流式注意力机制原理如上图所示，首先针对语音特征进行分chunk 操作，送入encoder建模后进入 pr edi ctor分别预测每个 chunk的输出 token 数目。Deco der在接受到token 数目和隐层表征后，来基于SCAMA流式注意力机制预测每个 chunk的输出。

Predi ctor

基于CIF来预测输出token的数目，并提取隐层表征

E_a

$E_{a}$ 作为decoder的输入。即将encoder预测输出送入函数，将每帧的预测输出转化为一个0-1之间的概率分布，连续给集合的概率得到一个域限门值 β，根据 β 输出一个token。
Cont inuous Integrate-and-Fi re(CIF)来产生声学embed d in g

E_a

$E_{a}$ 。CIF是软单调对齐，被用来做流式语音识别。CIF累积权重

alpha

$α$ 并整合隐藏表示H，直到累积的权重达到给定阈值β,这表明已经达到了声学边界.在训练过程中，将权值α按目标长度进行缩放，在训练过程中，将权值α按目标长度进行缩放，使声学嵌入的数量

E_a

$E_{a}$ 与目标嵌入的数量

E_c

$E_{c}$ 相匹配，并直接使用权值

alpha

$α$ 产生

E_a

$E_{a}$ 进行推理。因此，在训练和推理之间可能存在不匹配，导致预测器的精度下降。由于NAR模型比流模型对预测器精度更敏感，我们建议使用动态阈值β代替预定义阈值来减少不匹配。动态阈值机制表述为:

⌈

⌉

beta=frac{Sig ma_{t=1}^Talpha_t}{lceil Sigma_{t=1}^Talp ha_trceil}

$β = \frac{Σ _{t = 1}^{T} α _{t}}{⌈ Σ _{t = 1}^{T} α _{t} ⌉}$
训练的时候额外采用平均绝对就差MAE Loss来使得预测的概率和等于整个输出的token 数目。推理的时候采用门限值 β 为1，也就是累积到1的时候输出一个token，来预测整条语音的输出字数。

举例如下图，

alp ha

$α$ 从左到右，0.3+0.5+0.3=1.1>1,于是fire一个token。

0.3

∗

0.5

∗

0.2

∗

E_{alp ha 1}=0.3*H1+0.5*H2+0.2*h3

$E_{α 1} = 0.3 * H 1 + 0.5 * H 2 + 0.2 * h 3$ 。由于还剩0.1的值没有用，于是0.1用于下一个token 计算。同理，

0.1

∗

0.6

∗

0.3

∗

E_{alp ha 2}=0.1*H3+0.6*H4+0.3*H5

$E_{α 2} = 0.1 * H 3 + 0.6 * H 4 + 0.3 * H 5$ ,

0.1

∗

0.9

∗

E_{alpha 3}=0.1*H5+0.9*H6

$E_{α 3} = 0.1 * H 5 + 0.9 * H 6$ 。

0.2

∗

0.6

∗

E_{alpha 4} =0.2*H7+0.6*H8

$E_{α 4} = 0.2 * H 7 + 0.6 * H 8$ . 共fire了4次，也就是4个

E_alpha

$E_{α}$
。
在这里插入图片描述

Sampler

在这里插入图片描述

上图中展示了四种常见的建模方式：

第一个是自回归Dec oder，即当前时刻依赖前一时刻的输出；
第二个是标准的单轮迭代的非自回归端到端Dec oder，使用独立建模方式；
第三个是 MLM，它是多轮迭代非自回归常采用的方式，将某些时刻替换成mask，利用周边的token预测mask的位置，并通过多轮迭代的方式提升预测精度。
第四个是Paraformer采用的建模方式，通过GLM浏览语言模型对隐层表征和g rand truth的label进行采样，预测隐层表征对应输出的token来提升token的内部建模能力，从而减少Paraformer中的替换错误。
其中，

(

′

)

GLM(Y, Y^{‘})

$G L M (Y, Y^{^{'}})$ 表示采样器模块在

E_c

$E_{c}$ 和

E_a

$E_{a}$ 之间选择的令牌子集。

(

′

)

GLM(Y, Y^{‘})

$G L M (Y, Y^{^{'}})$ 表示目标Y内剩余未选择的令牌子集。

(

′

)

(

∣

⌈

(

′

)

⌉

)

GLM(Y,Y^{‘})=Sampler(E_s|E_a,E_c,lceil lambda d(Y,Y^{‘}) rceil)

$G L M (Y, Y^{^{'}}) = S am pl er (E_{s} ∣ E_{a}, E_{c}, ⌈ λ d (Y, Y^{^{'}})⌉)$

假设输入

(

)

(X,Y)

$(X, Y)$ ,

$X$ 表示语音，有

$T$ 帧，

$Y$ 表示文字，有

$N$ 个文字。Encoder把输入

$X$ 映射到隐藏表示

$H$ 。然后Predi ctor把隐藏表示映射为预测的文字个数

′

N^{‘}

$N^{^{'}}$ 和对应的声学向量embedding

E_a

$E_{a}$ 。输入

E_a

$E_{a}$ 和

$H$ 给Decoder，产生最后的预测

′

Y^{‘}

$Y^{^{'}}$ ，这是第一次解码，主要为了得到预测的结果并通过Sampler模块来采样，这时梯度并不回传（其实代码里是可选择的）。Sampler 采样

E_a

$E_{a}$ 和目标

E_c

$E_{c}$ 来产生

E_s

$E_{s}$ ，需要依据

′

Y^{‘}

$Y^{^{'}}$ 和

$Y$ 之间的距离。Decoder最后使用

E_s

$E_{s}$ 和

$H$ 来预测最终的结果

′

Y^{”}

$Y^{^{''}}$ ，这时才会回传梯度。最后，

′

Y^{”}

$Y^{^{''}}$ 用来采样负例并计算MWER, 通过目标长度N和预测的

′

N^{‘}

$N^{^{'}}$ 来计算MAE。
最后，

′

Y^{”}

$Y^{^{''}}$ 用来采样负例并计算MWER, 通过目标长度N和预测的

′

N^{‘}

$N^{^{'}}$ 来计算MAE（平均绝对误差）。MWER（最小化词错误率）和MAE通过CE（交叉熵）联合训练。

推断时，Sampler模块可以去掉，只使用

E_a

$E_{a}$ 和

$H$ 来预测

′

Y^{‘}

$Y^{^{'}}$ 。

loss

基于负样本采样的MWER训练准则。MAE,MWER,

https://zh uanlan.zhihu.com/p/649558283
https://zh uanlan.zhihu.com/p/637849790
https://arxiv.org/abs/2206.08317

原文地址:https://blog.csdn.net/philos ophyatmath/art icle/details/134694106

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_19611.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

主题授权提示：请在后台主题设置-主题授权-激活主题的正版授权，授权购买：RiTheme官网

显示所有内容

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

代码007普通

Encoder

Decoder

Predictor

Sampler

loss

相关文章

发表回复 取消回复

Deco der

Predi ctor

发表回复取消回复