目录

开源的语音识别项目

端到端的多说话人语音识别序列化训练方法简介

新一代 Kaldi: Two-pass 实时语音识别


开源语音识别项目

有哪些语音识别的开源项目? – 知乎

端到端的多说话人语音识别序列化训练方法简介

端到端的多说话人语音识别序列化训练方法简介 – 知乎

2.2 基于排列不变性训练Permutation Invariant Training (PIT)的多说话人语音识别
所谓排列不变性训练是在AED的基础之上,添加多个output分支(通常支持个人就有几个分支),文本序列输出序列经过排列组合,两两计算损失如图1(b所示

2.3 基于SOT的多说话人语音识别
SOT方法网络结构与AED完全相同,只有一个output分支,不同的是标签序列化方式。SOT引入一个标签speaker change<sc>,用于标记上下文中说话人的改变,如图1(c,d)所示标签生成可以简单的以说话人出现的顺序作为依据,依次序列化,碰到说话人切换添加一个<sc>特殊标签损失依然采用交叉熵。这样一个output就能输出多个说话人识别结果实现简单效果提升明显。

新一代 Kaldi: Twopass 实时语音识别

2ndpass: 使用一个流式模型。当 1stpass 检测一个 endpoint 之后,把上一个 segment 的音频送给非流式模型解码然后结果做为这个 segment 最终的结果.

Twopass 既可以结合流式模型延迟小的优点,又可以利用非流式模型识别率高的优点。

新一代 Kaldi: Two-pass 实时语音识别 – 知乎

原文地址:https://blog.csdn.net/jacke121/article/details/134633552

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任

如若转载,请注明出处:http://www.7code.cn/show_22618.html

如若内容造成侵权/违法违规/事实不符,请联系代码007邮箱suwngjj01@126.com进行投诉反馈,一经查实,立即删除

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注