语音识别学习笔记

互联网 1 年前 0 2

本文介绍: 语音识别学习笔记

开源的语音识别项目

端到端的多说话人语音识别序列化训练方法简介

新一代 Kaldi: Two-pass 实时语音识别

开源的语音识别项目

有哪些语音识别的开源项目？ – 知乎

端到端的多说话人语音识别序列化 训练 方法 简介

端到端的多说话人语音识别序列化训练方法简介 – 知乎

2.2 基于排列不变性训练Pe r mu t a ti on Invar i ant Tr a ining (PIT)的多说话人语音识别
所谓排列不变性训练是在AED的基础之上，添加多个 output 分支（通常支持几个人就有几个分支），文本序列和输出序列经过排列组合，两两计算损失，如图1（b）所示。

2.3 基于SOT的多说话人语音识别
SOT方法网络结构与AED完全相同，只有一个 output分支，不同的是标签序列化方式。SOT引入了一个新标签 speak e r change<sc&g t;，用于标记上下文中说话人的改变，如图1(c,d)所示，标签的生成可以简单的以说话人出现的顺序作为依据，依次序列化，碰到说话人切换就添加一个<sc&g t;特殊标签，损失依然采用交叉熵。这样一个 out put就能输出多个说话人识别结果，实现简单，效果提升明显。

新一代 Kaldi: Two–pass 实时语音识别

2nd–pass: 使用一个非流式模型。当 1s t–pass 检测到一个 end point 之后，把上一个 s e gm ent 的音频送给非流式模型解码，然后把结果做为这个 se gm ent 最终的结果.

Two–pass 既可以结合流式模型延迟小的优点，又可以利用非流式模型识别率高的优点。

新一代 Kaldi: Two-pass 实时语音识别 – 知乎

原文地址:https://blog.csdn.net/jacke121/a rt icle/de tails/134633552

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。

如若转载，请注明出处：http://www.7code.cn/show_22618.html

如若内容造成侵权/违法违规/事实不符，请联系代码007邮箱：suwngjj01@126.com进行投诉反馈，一经查实，立即删除！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

序列化识别语音

相关文章

从Kafka系统中读取消息数据——消费

从Kafka系统中读取消息数据——消费

互联网 12 月前 4

C#调用WechatOCR.exe实现本地OCR文字识别

C#调用WechatOCR.exe实现本地OCR文字识别

互联网 12 月前 7

【大厂AI课学习笔记】1.5 AI技术领域（2）语音识别

【大厂AI课学习笔记】1.5 AI技术领域（2）语音识别

互联网 12 月前 6

python-自动化篇-运维-语音识别

python-自动化篇-运维-语音识别

python 12 月前 3

RPC原理

互联网 12 月前 6

vulhub靶机activemq环境下的CVE-2015-5254（ActiveMQ 反序列化漏洞）

vulhub靶机activemq环境下的CVE-2015-5254（ActiveMQ 反序列化漏洞）

互联网 12 月前 2

JVM之GC垃圾回收

互联网 12 月前 3

行为型设计模式—中介者模式

互联网 12 月前 4

发表回复取消回复