首页 > 百科 > 语音识别原理 语音识别原理与应用pdf

语音识别原理 语音识别原理与应用pdf

时间:

首先,我们知道声音其实是一种波。常见的mp3、wmv等格式都是压缩格式,必须转换成未压缩的纯波形文件进行处理,比如Windows PCM文件,也就是wav文件。除了文件头之外,wav文件还存储声音波形的所有点。

在开始语音识别之前,有时需要切断开头和结尾的静音,以减少对后续步骤的干扰。这种无声切割操作通常称为VAD,它需要一些信号处理技术。要分析声音,就要对声音进行分帧,也就是把声音切割成段,每段称为一帧。一般取景操作不是简单的剪切,而是利用移动窗口功能来实现,这里就不赘述了。帧之间通常有重叠。

每帧长度为25ms,每两帧之间有25-10=15ms的重叠。我们称之为帧长25ms,帧移位10ms的成帧。每帧长度为25ms,每两帧之间有25-10=15ms的重叠。我们称之为帧长25ms,帧移位10ms的成帧。

分帧后,讲话变成许多小段。但是波形在时域上几乎没有描述能力,所以必须对波形进行变换。常见的变换方法是提取MFCC特征,根据人耳的生理特点,将每一帧波形变成一个多维向量。可以简单理解为这个向量包含了这一帧语音的内容信息。这个过程被称为声学特征提取。在实践中,这一步有很多细节,声学特性并不局限于MFCC,这里就不讨论了。

此时,声音变成一个12行(假设声学特征为12维)N列的矩阵,称为观察序列,其中N为总帧数。观察顺序如下图所示。图中每一帧用一个12维向量表示,色块的色深表示向量值。

接下来,我们将介绍如何将这个矩阵转换为文本。首先要介绍两个概念:音位:一个词的发音是由音位组成的。对于英语来说,一个常用的音素集是卡内基梅隆大学设定的39个音素的集合。参见CMU发音词典。一般汉语中所有的声母和韵母都直接作为音素集。另外,中文识别分为有声调和无声调,就不详细描述了。状态:可以理解为比音位更细致的语音单位。通常,一个音位分为三种状态。

语音识别是如何工作的?其实一点都不神秘。无非是:第一步,识别框架是一种状态(难度);第二步是将状态组合成音素;第三步,将音素组合成单词。

899315

微信扫码分享