语音识别原理语音识别原理与应用pdf

时间：2023-11-06

首先，我们知道声音其实是一种波。常见的mp3、wmv等格式都是压缩格式，必须转换成未压缩的纯波形文件进行处理，比如Windows PCM文件，也就是wav文件。除了文件头之外，wav文件还存储声音波形的所有点。

在开始语音识别之前，有时需要切断开头和结尾的静音，以减少对后续步骤的干扰。这种无声切割操作通常称为VAD，它需要一些信号处理技术。要分析声音，就要对声音进行分帧，也就是把声音切割成段，每段称为一帧。一般取景操作不是简单的剪切，而是利用移动窗口功能来实现，这里就不赘述了。帧之间通常有重叠。

每帧长度为25ms，每两帧之间有25-10=15ms的重叠。我们称之为帧长25ms，帧移位10ms的成帧。每帧长度为25ms，每两帧之间有25-10=15ms的重叠。我们称之为帧长25ms，帧移位10ms的成帧。

分帧后，讲话变成许多小段。但是波形在时域上几乎没有描述能力，所以必须对波形进行变换。常见的变换方法是提取MFCC特征，根据人耳的生理特点，将每一帧波形变成一个多维向量。可以简单理解为这个向量包含了这一帧语音的内容信息。这个过程被称为声学特征提取。在实践中，这一步有很多细节，声学特性并不局限于MFCC，这里就不讨论了。

此时，声音变成一个12行(假设声学特征为12维)N列的矩阵，称为观察序列，其中N为总帧数。观察顺序如下图所示。图中每一帧用一个12维向量表示，色块的色深表示向量值。

接下来，我们将介绍如何将这个矩阵转换为文本。首先要介绍两个概念：音位：一个词的发音是由音位组成的。对于英语来说，一个常用的音素集是卡内基梅隆大学设定的39个音素的集合。参见CMU发音词典。一般汉语中所有的声母和韵母都直接作为音素集。另外，中文识别分为有声调和无声调，就不详细描述了。状态：可以理解为比音位更细致的语音单位。通常，一个音位分为三种状态。

语音识别是如何工作的？其实一点都不神秘。无非是：第一步，识别框架是一种状态(难度)；第二步是将状态组合成音素；第三步，将音素组合成单词。

上一篇：如何更改支付宝支付密码如何更改支付宝收款码上显示的姓名

下一篇：返回列表

语音识别原理语音识别原理与应用pdf

相关文章

热搜文章

相关文章列表

语音识别原理 语音识别原理与应用pdf

相关文章

热搜文章

相关文章列表

语音识别原理语音识别原理与应用pdf