语音识别系统十篇

发布时间:2024-04-25 00:09:55

语音识别系统篇1

1语音识别系统设计的技术依据

近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。

1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。

2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。

3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。

2英语翻译器语音识别系统设计及应用

英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:

1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。

3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。

4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的n-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的Hmm拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。

3翻译器使用注意事项

语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。

4结论

语音识别系统篇2

关键词:语音识别特征提取神经网络

中图分类号:tn912文献标识码:a文章编号:1672-3791(2017)02(b)-0016-02

考勤是评价学生平时成绩的重要指标,但其准确率和真实性却往往得不到保证。在过去的点名方式中,比较为人们所熟知的有:老师喊学生名字,学生回答“到”。这是最为传统的一种,但是此种方式的弊端也显而易见――在学生达到30人及以上时,由于人数过多,老师难以准确制止学生之间相互代答的现象,导致学生“浑水摸鱼”,蒙混过关,考勤成绩不具有真实、准确性;另外,在手机的快速发展和普及下,一种app点名方式也逐渐兴起。在需要点名时打开手机app点击签到即可,点名的时间不固定,老师通过签到的情况来确定学生是否缺勤。但这其中忽略的问题则是虽然点名时间是随机的,但是出勤的同学可以用多种方式来告知缺勤的同学使其完成签到,这种情况下,考勤结果依然无法辨别。

针对上述问题,设计出一种基于神经网络的语音点名识别系统来提高点名的准确率。在课堂点名的时候,录入学生的实时语音,对输入的语音信号进行预处理,包括声音的预加重、加窗分帧处理与端点检测等。语音信号经过预处理后,再进行特征参数提取。在训练阶段,对特征参数进行一定的处理之后,为每个词条得到一个模板,保存为模板库。在识别阶段,语音信号经过相同的方法得到语音参数,生成测试模板,与参考模板进行匹配,将匹配相似度最高的参考模板作为识别结果。通过识别结果来判断是否为同一个学生回答,这样则可减少老师点名工作的繁杂度,并且可以大幅增加考勤的有效性以及准确率,来更好地达到“考勤”这一行为的预期目的。

通过实验表明,该系统具有较高的准确率。从之前的老师点名学生回答和app点名等方式对真实性的一无所知、无法预测到现如今该系统可以使考勤的准确率达到85%以上,都表明了这种基于神经网络的语音点名识别系统可以有效地减少学生代替答到的行为并提高学校考勤的准确率,使评价学生平时成绩的重要指标――考勤结果更加真实、可靠。

1具体方案

1.1模型库建立

1.1.1语音识别的预处理

语音信号的预处理是语音识别的基础与前提,包括语言的预滤波、采样、预加重、加窗分帧处理与端点检测等。

(1)预滤波、采样。

预滤波的目的是:抑制语音信号中超过f/2(f为采样频率)的分量对语音产生混叠的现象;有效地实现对50Hz电源干扰的抑制。

滤波时使用的是个带通滤波器,采样定理要求采样频率至少要是语音频率的两倍。

在滤波和采样结束后,将模拟信号转换成数字信号。

(2)预加重。

声音信号中,处于低频段的信号能量比较大,集中了语音信号的绝大多数信息量。预加重就是将语音信号在输入端对高频部分进行增大,达到提高信噪比的目的[1-2]。

(3)分帧与加窗。

分帧可以采用连续分段的方法,但是为了使帧与帧之间能够平滑过渡,保持很好的连续性,现在一般采用交叠分段的方法。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取0~1/2。

在语音信号处理中常用的窗函数是矩形窗和汉明(Hamming)窗等。由于汉明窗的旁瓣高度是最小的,而主瓣是最高的,其对抑制频谱的泄露比较有效果,汉明窗有比其他窗函数更好的低通性[3]。

1.1.2语音识别的特征参数提取

特征提取是指从说话人的语音信号中获得一组能够描述语音信号的特征参数的过程,人们发现说话人语音的个性特征在很大程度上取决于说话人的发音声道。特征参数可以是能量、共振峰值、零相交率等语音参数。因为不同的人所说出语音的各项特征参数不相同,因此,可以将特征参数作为判断两段语音是否为同一个人的重要判断依据[4]。

1.2语音识别

1.2.1人工肝神经网络简介

人工神经网络(ann)简称神经网络,使用计算机网络系统模拟生物神经网络的智能计算系统。它是基于人脑神经元的原理,模拟人脑神经元的结构和活动建立的一种识别模型,其最终目的是建成一种具有自学习能力、联想能力、识别能力的系统[5]。

1.2.2Bp神经网络

Bp算法,也称为eBa算法,也就是误差反向传播算法,系统地解决了多层神经元网络中隐单元层连接权的学习问题,并在数学上给出了完整的推导[7]。

按照神经元之间的连接方式,可将神经网络分为两大类:分层网络和互联型网络[8]。

2实验过程与讨论

程序的起始界面如图3。

在该系统中,声音文件的格式均为.wav格式,频率默认为8000。

首先在录入学生信息时采集学生的语音,一并存入数据库,通过预处理、特征提取等工作提取出每个学生的声音特征,例如速度、能量等,将这些数据存入模型库文件trainer中,提供给之后的神经网络训练使用以及作为课堂点名时的声音样本。在日常上课点名时实时采集每个学生回答同样话语的声音,经过预处理及特征提取等同样的步骤放入文件夹speaker中来与模型库中的语音样本进行比对,文件名为该学生学号。若是同一人回答,则会显示trainer**matchesspeaker**,两者文件名数字相同;若显示匹配的数字不相同,则代表可能不是同一人。

图4为一段Z音的特征参数图形。

由图4可以更加直观地看出,不同的语音所具有的特征参数波形图是不一样的,我们就可以利用这个特性来达到分辨是否为同一个人回答的目的。

3结语

语音识别、神经网络都是现在学术界的研究热点,以基于人工网络的语音识别为基础,对语音识别的过程进行了系统和深入的研究。基于语音识别的原理和过程,结合Bp神经网络的理论和特点,研究了基于mFCC的语音识别,完成了相关算法与软件的编写,结合神经网络语音识别等知识,运行出了一个简易的点名系统。可以大大减少学生代替答到的现象,塑造一个良好的课堂环境并得到可靠的考勤结果。符合科技日益发展的现代社会的需要,课堂与生活一起与时俱进。

参考文献

[1]王伟臻.基于神经网络的语音识别研究[D].浙江大学计算机学院,2008.

[2]张稳.基于神经网络的语音识别系统的实现[D].成都理工大学,2013.

[3]吴炜烨.基于神经网络语音识别算法的研究[D].中南大学,2009.

[4]雷涛.基于神经网络的语音识别研究[D].浙江工业大学,2005.

[5]施彦,韩立群.神经网络设计方法与实例分析[D].北京邮电大学,2009.

[6]余建潮,张瑞林.基于mFCC和LpCC的说话人识别[J].计算机工程与设计,2009,30(5):1189-1191.

语音识别系统篇3

关键词关键词:四旋翼无人机;android;语音控制;语音识别技术

DoiDoi:10.11907/rjdk.162849

中图分类号:tp319

文献标识码:a文章编号文章编号:16727800(2017)005005403

0引言

无人机是一种机内无人驾驶的飞行器,具有动力装置和传感器等模块,在一定范围内靠无线电遥控设备或由内置程序自主控制飞行,自出现以来就受到发烧友的热烈追捧,相关研究进展迅速[1]。android设备在移动终端市场占有率较高,为使无人机控制方式更加简便、智能化,本文在android平台设计了语音控制四旋翼无人机系统。

1系统总体设计

通过语音识别控制无人机的设计由硬件设计和软件设计两部分组成。其硬件结构由动力部分、姿态感知、控制部分、wiFi模块、气压感知装置5大部分组成[2];软件部分基于万维网联盟的语音识别语法规范1.0标准(简称SRGS1.0),采用aBnF格式的文档完成语音识别,识别结果经软件处理,匹配生成相应的控制指令,通过手机wiFi功能发送到无人机端。无人机端通过tiCC3200wiFi模块接收控制命令,在Stm32F3的控制下驱动电机完成用户的相应命令。控制器根据控制命令以及由传感器组感知的无人机实时状态数据(飞行姿态、高度、方向等),经过姿态融合算法和控制算法运算后调节电机转速,从而实现按照人的语音控制命令来控制无人机[36]。图1为系统设计原理。

2硬件设计

2.1飞控硬件模块

本设计选用市场上常用的F450四轴机架作无人机机架,选用SpRacingF3飞控板作无人机控制器,负责检测无人机姿态和加速度,控制无人机各项电机的转速,从而控制无人机姿态和运动方向、控制wiFi模块(或GSm模块或蓝牙模块)进行通信工作。SpRacingF3飞控板以Stm32F3处理器为核心,集成气压计、陀螺仪、加速度计、地磁计,可加GpS、LeD灯带、声纳等配件,使定高、定点、翻滚等飞行姿态的开发工作变得十分简便[34]。图2为飞控主控制器系统电路。

2.2无线传输模块

无人机通信模块可选择wiFi模块、GSm模块和蓝牙模块作为通信模块,与android终端通信。GSm模块通信范围广,不管android设备在哪都能进行远程控制;如果要异地控制,可选用GSm模块,但通信速率偏低;蓝牙模块成本低,功耗低,但通信范围有限,不适合本使用场景;考虑到传输视频图像数据吞吐量大,且几百米通信范围要足够使用,而wiFi模块通信速率高,所以选用wiFi模块。本系统采用tiCC3300wiFi模块,此模块功耗极低,尺寸超小,高速UaRt波特率可达到3mbps。

2.3语音识别端

语音识别方案有很多,如Le3320模块、iSD系列芯片以及pm系列芯片,虽然都具有语音识别功能,但是使用较繁琐,除此之外pC和手机端的microsoft系统集成语音识别功能虽然也可应用于本系统,但调试后发现效果不佳。相比之下安卓手机作为语音识别硬件,使用更方便,开源资料更丰富,识别效果更好,省去了繁琐的语音训练过程,更加符合本系统设计。图3为硬件设计框架。

3软件设计

语音控制系统算法如Dtw、Hmm等都很成熟,主要采用单片机或DSp加上语音识别算法实现语音控制,这种控制方式通过内部算法简化了外部电路,同时语音识别精度也较高。但要求处理器具有较强的运算分析能力,而且需要足够大的外扩存储空间。

本系统软件设计由两部分组成,分别是Stm32处理器程序和android应用程序。Stm32处理器程序是在KeiliDe开发环境下用C语言编写,运行在Stm32主控制芯片中。Stm32处理器代码还包括控制器与外设通信的代码编写。android应用程序在eclipse+aDt环境下用JaVa语言开发,编译生成的apK文件运行在安卓手机平台[56]。

android手机由wiFi模块实现和无人机通信并对其控制。首先,android应用程序向无人机发送配对请求及配对密码,Stm32通过wiFi收到配对请求并判断密码与预设值相同后,Stm32对此请求应答,android应用程序收到应答后停止发送配对请求,至此配对过程结束。配对完成后,Stm32周期性地将无人机传感器的实时数据发送给android应用程序,android应用程序监测wiFi信号并接收实时数据,根据这些数据更新用程序显示无人机状态。应用程序监测wiFi信号的同时监测语音信号,若识别出语音控制命令(包括开启、关闭、前进、后退、向左飞行、向右飞行、升高、下降),立即将控制命令发送至无人机。Stm32收到控制命令后即根据控制命令做出相应动作。

3.1SRGS1.0规范

SRGS1.0规范等同于某些编程语言的正则表达式,它定义了一个句子的集合。解码器将根据文法生成的集合,对语音输入的句子进行两个部分的搜索,分别是文档的头部和文档正文,文档头部必须出现在开头部分,指定文档版本号,与编译工具对应[7]。一个典型的头部示例如下:

#aBnF1.0UtF-8

modeSmS;meta;

#include;mount“name”;

Rootmain;

#aBnFHeaD-enD

3.2android端应用程序设计

android应用程序中监听语音命令方案:编写基于万维网联盟的语音识别语法规范1.0标准(简称SRGS1.0),采用aBnF格式文档,经编译工具处理生成匹配网络。网络作为匹配引擎输入,可由匹配引擎对用户语音输入进行匹配,启动手机内置wiFi与外部wiFi模块连接实现通信[8]。下面是安卓端语音转换成指令的部分程序:

arrayListresults=data.getStringarrayListextra(Recognizerintent.eXtRa_ReSULtS);for(inti=0;i

strRet+=results.get(i);

if(strRet.length()>0){

if(strRet.equals("向前")){

strRet="1";

}

3.3Stm32处理器端程序设计

无人机端程序一方面将飞控搭载的传感器模块数据发送给安卓手机端,另一方面通过tiCC3300模块接收安卓平台匹配后发来的飞行控制指令,将指令转化为pwm定时器,生成飞控可识别的控制指令,发送给飞行器执行模块,执行偏转舵面或改变螺旋桨转速或改变桨距,达到预期的飞行状态。程序运行中还包括各个模块的初始化及通信[910]。下面是Stm32pwm控制舵机的部分程序:

Voidio_int(VoiD)

{

RCC->apB2enR|=1

RCC->apB2enR|=1

RCC->apB2enR|=1

GpioC->CRL=0X88888888;

Gpio->CRH=0X33333333;

GpioC->oDR=oXFFFF;

}

4实验结果

随机分配3人在同一天的不同时间点进行室外试飞,对无人机进行语音控制,在不同环境下测试控制精度,得到数据如表1、表2所示(表中0表示起,1表示降,2表示向左,3表示向右,4表示悬停)。

在相对嘈杂建筑物密集的市区会影响到wiFi信号的传输以及语音信号的接收。由于wiFi信号主要采用微波频段,微波在遇到障碍物时穿透力不强,因此会影响语音信号的传输,嘈杂的室外环境也会影响语音输入的精度。测试结果显示成功率达到84%,图4为实物。

5结语

目前,绝大部分无人机采用手动操作遥控方式,购买无人机时还要另购一个航模遥控器(价格几百元不

等),本文采用基于android设备的语音控制方式大大简化了操作,只需用语言传达操控命令,通过手机端直接与无人机交互,节省了成本,使得无人机更加智能。

图4四旋翼无人机

嵌入式语音控制系统主要采用内嵌语音芯片方案,即在处理器电路焊接语音芯片,语音芯片采集语音数据,经处理器读取和分析后得到相关信息,开发难度高、工作繁琐。本文利用基于android设备的语音识别技术去控制系统,大大简化了开发过程,省去了嵌入式很多不必要的重复性工作。

参考文献参考文献:

[1]潘海珠.四旋翼无人机自适应导航控制[J].计算机仿真,2012,29(5):98102.

[2]周建军,陈趋,崔麦金.无人直升机的发展及其军事应用[J].航空科学技术,2003(1):3840.

[3]华成英,童诗白.模拟电子技术基础[m].北京:高等教育出版社,2004.

[4]莫力.protel电路设计[m].北京:国防工业出版社,2005.

[5]Speechrecognitiongrammarspecificationversion1.0,w3Crecommendation16march2004[eB/oL].https:///tR/speechgrammar/.

[6]张稀,土德银,张晨.mSp430系列单片机实用C语言程序设计[m].北京:人民邮电出版社,2005.

[7]DCRoCKeReD.augmentedBnFforsyntaxspecifications:aBnF,networkworkinggroup[eB/oL].http:///rfc/rfc2234.txt.pdf.

[8]李.疯狂android讲义[m].北京:电子工业出版社,2013.

语音识别系统篇4

关键词:语音识别;文本识别;多线程浏览器

中图分类号:tp311文献标识码:a文章编号:1009-3044(2013)21-4949-02

语音识别,也被称为自动语音识别automaticSpeechRecognition(aSR),是一门跨越多门学科的技术。早在计算机的发明之前,语音识别就被人们所提出,早期的声码器可以认为是语音识别及合成的雏形。最早的语音识别器是产生于20世纪20年代生产的“RadioRex”玩具狗,当人们呼唤该产品的名字的时候,它能够从底座上自动弹出来。而最早的基于计算机的语音识别系统是由at&t贝尔实验室开发的audrey语音识别系统,该系统的正确率达到98%。

1C#语言的语音识别及合成的接口

C#是一种安全的、稳定的、简单的、优雅的,由C和C++衍生出来的面向对象的编程语言。C#实现语音识别功能的主要接口有:isRecoContext接口、ispRecognizer接口、isRecoGrammar接口、ispVoice接口。

1)isRecoContext接口:是主要的用于语音识别的接口,能关注不同的语音识别事件,安装或者卸载识别时使用的语法文件。

2)ispRecognizer接口:一个程序拥有两种不同的语音识别引擎(iSpRecognizer)类型。一个是共享的语音识别引擎,需要建立一个采用共享语音识别引擎的识别环境(ispRecoContext),应用程序需要调用Com接口位于CoCreateinstance结构上的CLSiD_SpSharedRecoContext。然后Sapi会设立一个音频输入流,并把这个音频输入流定义为默认的Sapi音频输入流。由于它可以与其他语音识别应用程序共享其程序资源,所以在大多数场合中被推荐使用。另一个是非共享的语音识别引擎的语音识别环境,应用程序首先需要调用Com接口位于CoCreateinstance结构上的CLSiD_SpinprocRecoins-

tance。然后,应用程序必须调用ispRecognizer的Setinput方法来设立一个音频输入流。最后,应用程序通过调用ispRecognizer的CreateRecoContext方法来建立它自己的识别环境。

C#语言的语音合成的主要接口有:VoiceCommands接口,VoiceDictation接口,Voicetext,Voicetelephone接口,audioobjects接口。

1)VoiceCommandsapi。对应用程序进行控制,一般用于语音识别系统中。识别某个命令后,会调用相关接口是应用程序完成对应的功能。如果程序想实现语音控制,必须使用此组对象。

2)VoiceDictationapi。听写输入,即语音识别接口。

3)Voicetextapi。完成从文字到语音的转换,即语音合成。

4)Voicetelephoneapi。语音识别和语音合成综合运用到电话系统之上,利用此接口可以建立一个电话应答系统,甚至可以通过电话控制计算机。

5)audioobjectsapi。封装了计算机发音系统。

其中Voicetextapi,就是微软ttS引擎的接口,通过它我们可以很容易地建立功能强大的文本语音程序。

2系统设计与实现

2.1系统功能概述

根据对系统需求进行分析,本系统需要完成操作、工具、用户管理、皮肤管理和帮助功能。这些功能将分成五个功能模块。操作功能:朗读、命令识别、文本识别、生成语音文件、添加操作命令、网页浏览;工具功能:训练、开机自动运行、取消开机自动运行;用户管理:添加用户、删除用户、修改用户;皮肤管理功能:皮肤的修改功能;帮助功能:帮助文档、关于作者

2.2语音识别功能的实现

语音识别的原理就是将人发出的语音通过麦克风传到电脑的声卡,然后语音引擎对对语音信息进行采取,最后和语音库里面的信息匹配从而识别出相应的语音信息输出到电脑屏幕进行各种各样的操作。

语音识别的一个最大的难点就在于不能正确地对语音信息进行正确的识别,这里在系统开发的时候需要做两个处理工作。

第一是对语音库进行大量的语音训练,可以通过windows内置的语音识别训练系统进行训练,该功能集成与微软的Xp系统的控制面板的语音选项里面。鉴于每个人的发音都是有所差异的,使用人必须先对语音引擎进行大量持久的语音训练,这样才能不断地提高语音识别的正确率,以方便计算机正确地识别出来需要操作的动作和需要对电脑输入的文字。在进行对语音库训练的前提是要安装微软提供的语音引擎SpeechSDK5.1,在安装了该引擎之后方能对语音进行训练,可以支持中英日三种语言的使用。

第二是对语音识别的结果进行模糊处理,也就是说,在不可能实现100%的识别率的情况下,要尽可能地考虑到语音识别出来的错误信息,比如本来要识别的信息是:open,但是电脑识别出来的是opened,这时候就要“将错就错”,通过数据库将识别出来的opened告诉电脑这是一个open。如此进行常用字的多次测试,并通过微软的sqlserver2000进行海量的数据识别模糊处理,最大化地考虑到所出现的错误来更正。

2.3文本识别功能的实现

文本识别功能的实现是要借助于微软的ttS(testtoSpeech)引擎进行来实现。ttS是“文本到语音(texttoSound)”的简称,ttS语音引擎为我们提供清晰和标准的发音,所用的关键技术就是语音合成(SpeechSynthesis)。

该文本识别引擎可以支持中英日三种语言。要使用该功能是只需要进入文本识别界面并启动文本识别按钮,然后将要识别的文字通过键盘输入到编辑框里面,再单击朗读按钮,这就可以将文本信息转化为语音信息通过音响发出。

2.4多标签的语音识别浏览器功能的实现

首先是多标签浏览器功能的实现。由于C#有自带的webBrowser浏览器控件,使用其自带的方法。而对于多标签功能的实现则要使用C#的多线程的技术,也就是说支持多个线程同时不互相干扰的工作。

其次是具有语音识别功能浏览器的实现。这个过程可以参照之前所制作的语音识别制作的过程,只需要的浏览器里面添加一个开启语音识别和关闭语音识别功能的按钮即可。当单击开启语音识别功能时,系统将会提示已经开启语音识别功能,这个时候就可以使用语音识别功能进行网上冲浪;当单击关闭语音识别功能是,系统将会提示已经关闭语音识别功能,这个时候系统会系统语音识别功能已经关闭,此时的浏览器就和传统的多标签浏览器如360安全浏览器一样。

3结论

本系统主要研究了用语音控制电脑的技术,成功地利用微软新一代开发平台.netFramework开发了语音识别系统的新产品。本系统打破了传统的人机交互方式,实现的使用语音对计算机进行操作。使用微软的ttS语音引擎可以使系统具备识别中英日三种语言,并且添加了国内的捷通语音公司的语音引擎,可以识别粤语,闽南语等方言,对于文本识别的功能的实现,提高了语言学习者的学习效率,这给广大的语言学习者带来了福音。设计实现具有语音识别功能的多标签浏览器技术。主要是方便一些不会使用键盘打字的人群,使得这类人群可以通过语音控制就可以上网冲浪。

参考文献:

[1]ZHanGJinsong,takatoshiJitsuhir.anintroductiontotheChineseSpeechRecognitionFront—endoftheniCt/atRmulti-·LingualSpeechtranslationSystem[J].o'Reilly.2008.

[2]arunKrishnaraj,JosephK.t.Lee.VoiceRecognitionSoftware:effectonRadiologyReportturnaroundtimeatanacademicmedicalCenter[J].2010.

[3]wuZhiyong.CaoGuangqi.VoiceRecognitionSoftware:effectonRadiologyReportturnaroundtimeatanacademicmedicalCenter[J].2008.

[4]JingLi.thomasFangZhen91.aDialectalChineseSpeechRecognitionFramework[J].2006.

[5]国玉晶,刘刚,刘健,郭军.基于环境特征的语音识别置信度研究[J].清华大学学报,2009,49(S1).

[6]林琳,王树勋,郭纲.短语音说话人识别新方法的研究[J].系统仿真学报,2007(10).

[7]姚琳,梁春霞,张德干.基于实例推理的人机对话系统的设计与实现[J].计算机应用,2007(03)

[8]林茜,欧建林,蔡骏.基于microsoftSpeechSDK的语音关键词检出系统的设计和实现[J].心智与计算,2007,12-30:433.

[9]韩纪庆,张磊,郑铁然.网络环境下的语音识别方法[J].计算机科学,2005(01).

语音识别系统篇5

论文关键词:VC,matlab,实时语音识别,mFCC,Dtw,非特定人,meX

 

1引言

VC和matlab的混合编程共同运用于语音识别,可以借助VC实现对语音信号的采集,同时通过matlab强

大的矩阵计算功能,简便化的编程方法,实现对语音

信号的识别处理。

其中,VC主要做语音信号的采集,通过借助于微

软提供的windowsmultimediaapi开发了在线实时语

音采集程序,实现了人机在线实时交互。

2语音识别系统概述

语音信号的一般处理过程如图1所示,其中首先对语音信号进行预处理Dtw,其中预处理包括预滤波、采样和量化、加窗、端点检测、预加重等。然后是信号特征量的提取,本文对信号的特征量进行mel频率倒谱系数(mel-FrequencyCepstrumCoefficients)处理。最后通过对已经建立好的参数模板进行对比,测试的依据是失真度最小准测,如本文用到的动态时间规整:Dtw(Dynamictimewarping)。

图1语音识别过程基本流程图

3语音信号的采集

语音信号的两个过程为:对语音信号进行实时

的采集,对采集的语音信号做出识别。本文对语音信号的采集是通过VC调用microsoft的windows系统中提供了多媒体应用程序接口(multimediaapi)实现。

3.1用VC生成动态链接库供matlab调用

通过mex文件来实现VC与matlab的混合编程。mex

代表matlabexecutable。matlab中可以调用的C或

Fortran语言程序称为mex文件。mex文件是一种特殊的动态连接库函数,它能够在matLaB里像一般的m函数那样来执行。

VC编译的时候应该包含头文件mex.h。与C中的主函数main()函数一样,mex程序中的开始函数为:

voidmexFunction(intnlhs,mxarray*plhs[],intnrhs,constmxarray*prhs[])其中

nlhs指的是在调用函数时返回值的个数;

plhs[]是每个返回值(在matLaB中都是矩阵)的指针;

nrhs指的是调用函数时的参数个数;

prhs[]是每个参数的指针。

对mexFunction的参数是进行指针操作的,不能用单纯的return返回值。mex程序传送回来的整数数据要变为双精度型数据,才能为其它函数所处理。

3.2multimediaapi函数介绍

api(applicationprogramminginterface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件的以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

multimediaapi函数主要有以下几个:获取音频设备信的函数waveinGetnumDevs(),该函数用于获取当前系统中所安装的音频输入设备的数目。

查询音频设备的能力函数waveinopen(),该函数的作用是打开波形输入输入设备。

通过CaLLBaCK_FUnCtion命令来打开设备。录音缓冲区的组织waVeHDR结构,一般都是设置双缓存区对语音信号进行平稳缓冲站。开始和停止录音时用到waveinStart()和waveinStop()两个函数。

4用matlab实现语音识别过程

4.1端点检测

从背景噪声中找出语音的开始和终止点这是在很多语音处理应用中的基本问题。端点检测对于语音识别有着重要的意义。本文主要采用短时能量与短时平均过零率双门限结合的方式,来对汉语语音的起止点进行检测。短时能量和过零率分别确定两个门限,信号必须达到比较高的强度,该门限才可能被超过。且低门限被超过未必就是语音的开始,有可能是由短时间的噪声引起;高门限被超过则可以基本确定是由于语音信号引起的。

%每帧过零率

4.2特征函数的提取

语音信号完成分帧处理和端点检测后,下一步就是特征参数的提取。目前在语音识别中较为常用的特征参数是线性预测倒谱系数(LpCC,LinearpredictiveCepstrumCoefficients)和mel频率倒谱系数(mFCCDtw,mel-FrequencyCepstrumCoefficients),这两种特征参数都是将语音信号从时域变换到倒频域上。LpCC从人的发声模型角度出发,利用线性预测编码(LpC,LinearpredictiveCoding)技术求出倒谱系数,而mFCC则是构造人的听觉模型,把通过该模型(滤波器组)的语音输出为声学特征,直接通过离散傅立叶变换(DFt,DiscreteFouriertransform)进行变换。本文采用mFCC方法。mel频率倒谱系数,即mFCC为:

其中,S(m)为语音信号通过预加重、离散傅里叶变换、通过meL滤波器、并通过对数能量处理等得到的对数频谱。

4.3非特定人孤立词语音识别算法

通常,语音识别的方法可以大致分为三类,即模板匹配法、随机模型法、和概率语法分析法。这三类方法都属于统计模式识别方法。其中模板匹配法是将测试语音与参考模板的参数逐一进行比较和匹配,判决的依据是失真测度最小准测,随机模型法是使用隐马尔可夫模型(Hmm,Hiddenmarkovmodel)来对似然函数进行估计与判决,从而得到相应的识别结果。而概率语法分析法利用连续语音中的语法约束知识来对似然函数进行估计和判决,更适用于大规模连续语音识别。本文用小词汇量的Dtw方法。动态时间规整(Dtw)是采用动态规划(Dp,Dynamicprogramming)技术,将一个复杂的全局最优化问题转化为许多局部最优化问题Dtw,一步一步地进行决策。假设时间规整函数为:其中,表示时间规整函数中的第个匹配点对

这个匹配点对是由待测语音的第个特征矢量和参考模板第个特征矢量构成的,其中两者之间的距离(或失真值)称为局部匹配距离,记做,处于最优时间规整情况下两矢量的距离称为全局匹配距离,记做,表达式如下所示:

由于Dtw不断地计算两矢量的距离以寻找最优的匹配路径,所以得到的两矢量的匹配距离是累计距离最小的规整函数,这就保证了它们之间存在最大的声学相似特性。

5结束语

在本语音识别系统中,设定采样率为11025Hz,帧数为300帧,帧长为240点,则最长的语音段长度不会超过300*240/11025=6.5秒。采样样本为男女各5个人的数码语音资料,实验表明,系统达到了较好的实时性和较高的识别率。由于matlab功能强大,在处理中可直接利用许多现成的函数,编程方便,结果可视化也容易实现。

参考文献

[1]杨熙,苏娟,赵鹏.matLaB环境下的语音识别系统[J].电声技术,2007,31(2):51-53.

[2]龙银东,刘宇红,敬岚,等.在matLaB环境下实现的语音识别[J]

语音识别系统篇6

2、进入控制面板后,将查看的类别设置为大图标或者小图标,语音识别功能就会显现出来。

3、在所有控制面板项的最下方选择语音识别功能,会进入语音识别功能设置的页面。

4、启动语音识别,启动的步骤按照电脑的提示走即可。

语音识别系统篇7

【关键词】语音识别技术;语言实验室

语音识别技术是使用计算机能识别和理解的语言,把语音信号转变为相应的文本或命令的过程。语音识别是一门涉及到语音语言学、信号处理、模式识别、人工智能的多学科交叉技术,也是2000年至2010年间信息技术领域十大重要的科技发展技术之一。随着语音识别技术的发展,在传统的数字化语言实验室中其可以作为一种新的外语辅助教学的手段,完善现有的数字化语音室的功能。

一、语音识别技术

语音识别技术是一种让计算机能够听懂人的语音命令的技术。对使用者来说,这种人机交互的途径是最自然的一种方式。早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的at&tBell实验室研发的audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(Lp)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的高潮,Hmm模型和人工神经元网络(ann)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,apple的Siri系统,微软的phoneQuery(电话语音识别)引擎等。近二三十年来,语音识别在交通、军事、工业、医学等诸多方面,特别是在计算机、通信与电子系统、信息处理、自动控制等领域中有着非常广泛的应用。目前,语音识别技术产品在人机交互应用中己经占到越来越大的比例。例如,在声控应用中,计算机可识别输入的语音内容,并根据内容来执行相应的动作,这包括了声控语音拨号系统、声控智能玩具、医疗服务、宾馆服务、家庭服务、股票查询服务和工业控制等。也可用于基于微型机的办公、教学、娱乐等智能多媒体软件,如语言学习、教学软件、语音玩具、语音书籍等。语音识别技术作为语音控制的主体,在应用领域中正成为一个具有竞争力的技术。

语音识别的开发平台现已逐步成熟,在windows下有微软的Sapi语音识别开发平台,在Unix/Linux下有iBm的ViaVoice和开源的Xvoice开发平台。它们都是相当优秀音识别开发系统,提供了良好的开发接口,使语音识别应用程序开发能够不需要对现有系统做大规模的修改,以较少投入、较短周期、以组件方式加入到当前的语言实验室中。

二、语音识别技术在语言实验室中的应用

1.有声图书

可以将一些由外籍专家录制的有声图书加入到语言实验室的资料库中。标准的美式或英式发音,结合文本,逐字逐句的朗读,让学生可以在阅读英语图书的同时聆听到原汁原味的英语。所有图书都支持自动播放,可以一次听完整本书,学生也可以选择单独播放某个句子,并鼓励学生模仿标准的语音语调朗读图书。从而对学生的阅读、听力、口语进行全方位的提高。

2.口述作文

影响语音识别系统辅助学生口述作文的最为关键技术是识别率和纠错能力,从某种意义上说,只要这两个关键的技术得到了提高,则其辅助写作的有效性就会得到较大提高。近几年,随着多媒体技术和人工智能技术的进步,不仅语音识别系统的识别率得到很大提高,而且多语言的语音识别产品也大为丰富。目前国际商业机器(iBm)公司推出的语音识别软件具有非特定人,无限词汇量,连续语音识别,高识别率,专业文章智能分析、理解等强大的语音功能。该软件通过对个人话语进行测试与分析来适应说话者,适应后的语音识别正确率可以达到95%以上。与过去相比,其识别率提高了很多,已经完全可以接受。语音识别系统除了识别率目前已有很大提高,其智能纠错能力也大为提高。一是纠错的操作更加方便和容易,目前的语音识别系统,可以有三种纠错方式:①通过键盘输入方式;②系统智化地产生错误词的相近词列出,供修改者选择;③还可以通过重读来纠错。二是通过纠错,可让语音识别系统更进一步地熟悉说话者的声音,而非常有效地提高系统识别率。随着信息技术的迅速发展,今后的语音识别系统必将是功能更加强大,智能化程度更高,兼容性更强,抗噪音能力更强的系统,其辅助口述作文的有效性也会更强。

3.英语口语纠正系统

语音识别技术的应用使得软件可以具有发音评测的功能,能够帮助学习者及时发现和纠正发音的错误,避免重复错误形成习惯,从而极大提高了学习者的学习效率。英语口语学习中语音识别技术遇到的难点主要有:①语音识别选取基元的问题。一般地,欲识别的词汇量比较多时,所用基元应该越小越好;②端点检测。语音信号的端点检测是语音识别的关键。据研究表明,即便是在安静的环境下,语音识别系统也会有一半以上的识别错误源自端点检测器。提高端点检测技术的关键所在是寻找稳定的语音参数;③找出反映发音质量的性能指标。主要是对发音段(指一段发音的语速、韵律、语调以及重音等)的研究;④对给定的发音进行错误检测和纠正,寻找合理的评分机制。

由于语音识别在理论与技术方面的复杂性,现有的口语纠正软件仍有很大限制范围,但随着语音技术的发展相信其在外语语言学习中的应用会越来越广泛。

三、结束语

语音识别技术作为一种逐渐成熟的计算机技术,是计算机辅助外语教学中的一种重要虚拟现实手段。而人机交互是数字语音室的一个发展方向,也是外语网络教学的核心内容。所以,语音识别技术会是未来语言实验室的建设中的一个重要方向。

参考文献:

[1]夏晴.aRS和ttS技术在外语口语教学中的应用研究[J].外语电化教学,2006(2)

[2]周英.语音识别技术发展趋势的分析[J].计算机光盘软件与应用,2012(19)

[3]孔菊芳.基于语音识别技术的英语学习网站分析[J].哈尔滨职业技术学院学报,2012(5)

语音识别系统篇8

关键词:语音识别;信息技术;发展趋势

中图分类号:tp391.42文献标识码:a文章编号:1007-9599 (2012) 19-0000-02

近年来,随着科学技术的进步,语音识别技术的发展,通过语言操纵机器的梦想正在逐步变为现实。语音识别是语音信号处理的一个重要的研究方向,经过50多年的积累研究,尤其是近20年来,语音识别技术取得了显著进步,并且广泛应用于商业,比如苹果的siri系统。本文从语音识别的发展历史、发展方向来着重分析未来语音识别技术的发展趋势。

1语音识别技术的发展历史

1.1语音识别技术在国际的发展

早在三四十年前,美国的一些大学和实验室就开始了语音识别技术的研究,50年代的at& t Bell实验室研发的audry系统第一个实现了可识别十个英文数字。60和70年代,提出了线性预测分析技术(Lp)等相关理论并深入研究,创造出可以实现特定人孤立语音识别系统;80年代和90年代是语音识别技术应用研究方向的高潮,Hmm模型和人工神经元网络(ann)的成功应用,使得语音识别系统的性能比以往更优异;伴随着多媒体时代的来临,微软,apple等著名公司都研发出相当成功的商业应用语音识别系统,比如,apple的Siri系统,微软的phone Query (电话语音识别)引擎等。

1.2语音识别技术在国内的发展

我国的语音识别研究工作虽然起步较晚,但由于国家的重视,研究工作进展顺利,相关研究紧跟国际水平。由于中国有不可忽视的庞大市场,国外对中国的语音识别技术也非常重视,汉语语音语义的特殊性也使得中文语音识别技术的研究更具有挑战。但是,国内研究机构在进行理论研究的同时,应注重语音识别系统在商业中的应用,加快从实验室演示系统到商品的转化。

现如今,许多用户已经能享受到语音识别技术带来的方便,比如智能手机的语音操作等。但是,这与实现真正的人机交流还有相当遥远的距离。目前,计算机对用户语音的识别程度不高,人机交互上还存在一定的问题,语音识别技术还有很长的一段路要走,必须取得突破性的进展,才能做到更好的商业应用,这也是未来语音识别技术的发展方向。

2语音识别技术的技术实现及困难

语音识别技术的实现方式是声音通过转换装置进入机器,而机器配有“语音辨识”程序,程序将得到的声音样本与数据库存储的样本进行比对,输出最匹配的结果,转化为机器语言,进而执行命令。真正建立辨识率高的语音辨识程序组,是非常困难而专业的,专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并具有较高辨识度。

2.1 语音识别的技术实现方式

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,其中,最基础的就是语音识别单元的选取。

(1)语音识别单元的选取。语音识别研究的基础是选择语音识别单元。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种语音识别单元由具体研究任务的类型决定:

单词(句)单元在中小词汇语音识别系统中应用广泛,但由于模型库过于庞大,模型匹配算法复杂,实时性不强,所以不适合大词汇系统;

音节单元主要应用于汉语语音识别,因为汉语是单音节结构的语言,虽然有大约1300个音节,但无调音节共408个,相对较少,所以音节单元在中、大词汇量的汉语语音识别系统上是可行的。

音素单元之前曾广泛应用于英语语音识别,也越来越多的应用于中、大词汇量汉语语音识别系统中。原因在于汉语音节仅由22个声母和28个韵母构成,把声母细化,虽然增加了模型数量,但是提高了易混淆音节的区分能力

(2)特征参数提取技术。特征提取就是对语音信号进行分析处理,把丰富的语音信息中的冗余信息去除,获得对语音识别有用的信息。这是一个对语音信号进行信息压缩的过程,目前经常采用的特征参数提取技术是线性预测(Lp)分析技术。基于Lp技术提取的倒谱参数再加上mel参数和基于感知线性预测(pLp)分析提取的感知线性预测倒谱对人耳处理声音的模拟,进一步提高了语音识别系统的性能。

(3)模式匹配及模型训练技术。早期的语音识别应用的模式匹配和模型训练技术是动态时间归正技术(Dtw),它在孤立词语音识别中获得了良好性能,但是由于对大词汇量以及连续语音识别的不准确,目前已经被隐马尔可夫模型(Hmm)和人工神经元网络(ann)所取代。

2.2语音识别遇到的困难

目前,语音识别研究工作进展缓慢,困难具体表现在:

(一)语音识别系统对环境敏感,采集到的语音训练系统只能应用于与之对应的环境,而且当用户输入错误时不能正确响应,应用起来相对困难;(二)必须采取新的新号处理方法来处理人在高噪声环境下的发音变化的问题;(三)语言模型、语法及词法模型在中、大词汇量连续语音识别中无法正确、合理的运用,需要有效地利用语言学、心理学及生理学等方面的研究成果;现阶段的科学技术对人类生理学诸如听觉系统分析理解功能、大脑神经系统的控制功能等还不够,更无法应用于语音识别;语音识别系统从实验室演示系统向商品的转化过程中还有许多具体细节技术问题需要解决。

3语音识别技术的发展趋势

3.1进一步提高可靠性

目前语音识别系统很难做到排除各种声学环境因素的影响,而人类语言在日常生活中的随意性和不确定性给语音识别系统造成极大的识别困难。所以,要应用现代技术智能化语音识别系统,以达到更好的识别效果;

3.2增加词汇量

目前语音识别系统使用的声学模型和语音模型过于局限,需要通过改进系统建模方法、提高搜索算法的效率来做到词汇量无限制和多重语言混合,减少词汇量对语音识别系统的限制;

3.3微型化并降低成本

语音识别系统在商业上的用途相当广泛,利用先进的微电子技术,将具有先进功能和性能的语音识别应用系统固化到更加微小的芯片或模块上,可以缩减成本,更方便的推广和使用。语音识别系统和微电子芯片技术的发展将引领信息技术革命到一个新的台阶。语音识别系统使人沟通更加自由,使人可以方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势。

4结束语

21世纪,信息和网络飞速发展,信息和网络的时代已经来临,人与人之间的距离随着internet和移动电话网的连接和普及变得越来越近,信息资源扩散的越来越迅速,人与机器的交互显得尤为重要。语音识别技术的研究和应用可以让人无论何时何地都可以通过语音交互的方式实现任何事,可以使人更方便的享受更多的社会信息资源和现代化服务,所以,如何将这一技术可靠的、低成本的应用于商业和日常生活,是语音识别技术的发展方向和趋势。

参考文献:

[1]刘钰.语音识别技术概述[J].计算机光盘软件与应用,2010:14-17.

[2]盛青.语音自动识别技术及其软件实时实现[J].西北工业大学,2001:45-47.

[3]廖锎.浅析语音识别技术的发展及趋势[J].科技传播,2010:34-36.

[4]陈方,高升.语音识别技术及发展.Cio时代论坛,2009:67.

语音识别系统篇9

语言是人与人之间在日常交往中最直接也是最强大的工具,然而我们并不满足于人与人之间的对话,而是通过语音识别技术来实现人机对话,语音识别技术的终极目标就是能够让人类与计算机进行自由地交谈。随着语音识别技术的逐渐成熟及近些年来已经取得的进步,英文数字语音识别在其发展的20多年间已达到了很高的

识别率,汉语数字语音识别也经过多年研究在pC平台和实验室条件下达到了高性能[1],但中英文混合连续数字语音识别还有待进一步研究,张晴晴[2]等人研究的中英双语混合语音识别的识别率为16.8%,远低于理想中的识别率。为使识别效果达到可实用的水平,本系统首先从基本的中英文数字语音识别出发,从而为相应的登录注册系统做出一些尝试。

本文研究的中英文连续数字语音识别,包含中文0-10和英文zero-ten的数字语音识别,其中包括对语音信号的预处理、特征参数提取、中英文声学模型与语言模型的训练及模版匹配等,适合于研究数字语音登录系统,比如用户用中英文任何语言念学号或是身份证号就能登陆,免去书写的麻烦,同时也对后续研究中英文混合连续语音识别奠定了基础。

语音识别原理

根据对说话人说话方式的要求,语音识别可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统;根据对说话人的依赖程度,语音识别可以分为特定人和非特定人语音识别系统[3];根据词汇量大小,又可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量的语音识别系统。不同的语音识别系统,其目的和功能各不相同,但它们所采用的基本框架大体一致,语音识别基本流程如图1。

语音识别的过程,其本质就是模式匹配的过程。语音信号经过预处理、语音信号的特征提取、声学模型的训练与模式匹配后,经过处理输出识别结果。其中:

1)预处理是对输入的原始语音信号进行处理,滤除掉其中不重要的信息和背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。

2)特征提取主要负责计算语音的

图1语音识别基本流程图

声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数,从而用于后续处理。因mel频率倒谱系数(mFCC)具有良好的抗噪性和鲁棒性,故本文采用mFCC提取特征参数。

3)训练阶段是用户通过输入若干次训练语音后,经预处理和特征提取后得到特征矢量参数,建立或修改训练语音的参考模式库。

4)识别阶段是将输入的语音提取特征矢量参数与参考模式库中的模式进行匹配,得出最终的识别结果。

HtK搭建识别系统

HtK(HmmtoolKit)是英国剑桥大学工程系(CUeD)开发出来的一套用于处理隐马尔科夫模型(Hmm)的实验工具包,广泛用于语音识别研究当中,它由模型库和工具组成,这些都是由C源代码的形式组成[4]。基于HtK搭建中英文数字语音登陆系统体系结构如图2。

其步骤可总结如下:

1)数据准备,训练数据和测试数据都要通过HCopy得到所需要的声学特征,典型的声学特征有mel频率倒谱系数mFCC、感知线性预测plp等;

2)定义一个原始模型拓扑结构,设置参数,然后使用HCompV对所有训练数据进行初始化,从而求出全局Hmm模型的均值与方差;

3)使用HeRest进行迭代训练,也就是模型参数训练,它可以完成嵌入式Hmm模型参数的计算。训练时,HeRest顺次加载每个训练文件,实际上是先载入观察序列,然后使用对应的标注文件计算前后向概率,在累加器上进行更新,当所有的训练文件处理完毕后,就通过B-w算法更新模型参数;

4)为了改善模型,使用Hmm编辑器HHed建立上下文的绑定状态三音素模型[4],由于一个音素发音会由于上下文音素的不同而产生不同的发音,也就是协同发音,故使用三音素捆绑和训练,可以有效解决协同发音的问题。为使结果更准确,绑定后还需使用HeRest进行重估。

5)在得到识别网络、字典和声学模型的基础上,调用HVite识别器进行识别,识别结果保存在mLF

仿真实验与结果分析

1)数据

语音识别机理就是用训练数据与测试数据的声学模型进行匹配,另外还需要数据的标注文本,以及语音集合和字典,其中包含中文0-10和英文zero-ten的所有数字或单词。

数据均为电话信道数据,采样率为8kHz,16bit/s。语音特征提取为36维的mFCC,由12维的mFCC以及他们的一阶二阶差分组成[6]。标准中文训练数据有100句,测试数据有20句(一男一女各10句);标准英文训练数据有8440句,测试数据有422句(一男一女各211句),另外还有中英文混合测试数据442句。这两个数据集的具体信息见表1和表2。

2)任务语法的定义

任务语法根据HtK要求,以正则表达式形式进行定义,并存储在文件gram里,其中英文语法结构为:

$digit=LinG|Yi|eR|San|Si|wU|LiU|Qi|Ba|JiU|SHi;

$digit=ZeRo|one|two|tHRee|FoUR|FiVe|SiX|SeVen|eiGHt|nine|ten;

(StaRt($digit)[$digit][$digit][$digit][$digit][$digit][$digit][$digit]enD)

其中“|”表示可以相互替代的符号,圆括号“()”表示必须选择的符号,方括号“[]”表示可以选择的符号。以上语法表示将随机产生

利用全局均值和方差来创建统一初始化单音素模型的高斯参数,然后再修补亚音素模型,最后重新校准训练数据。

利用单音素得到三音素并重估参数,绑定三音素的状态以使输出分布更加稳健,最终生成三音素级标注文本。

最后验证测试数据,查看识别结果[7]。

仿真实验

本系统设计是使用aurora2数据库的Clean-training训练数据进行声学模型实验,测试数据中共有8540句话。分别将subway环境中的clean音频数据testm、teste和testB作为测试音频数据。声学模型在各测试机中的识别率见表3。

通过上面的实验可以得知,中英文模型获得了较高的识别率,但与单纯中文或英文相比还有些差距,还有待日后改进。

语音识别系统篇10

【关键词】互动式语音应答自动语音识别技术自然语言理解

1智能语音简介

智能语音主要包括两大部分,一部分为语音识别(aSR:automaticSpeechRecognition)是将人类自然语音转换为可供计算机识别的文本信息的过程。语音识别引擎可智能识别客户语言并与其他应用系统进行匹配,是人机交互的重要接口,而另一重要组成部分为智能语义分析,是指针对文字进行概括分析的一种技术。通过对文字的分析,提取核心的关键内容,并针对此内容提供延伸阅读,精准反馈等。

2智能语音产品

考虑到智能语音产品的基础是语言,同时伴随着国内信息产业国产化呼声越来越高,因此笔者着重调研了国产智能语音产品,认为智能语音产品主要有以下特点及不足之处:

2.1特点

语音识别:适应不同人群、不同信道、不同终端、不同噪声环境,适应多种业务,覆盖呼叫中心、音乐搜索、通讯助理、综合信息查询等众多典型应用;

智能导航:不需要开发复杂的语法就能够进行大词汇量的语音识别应用;语音自助服务更加自然开放,例如可以这样提问“请问有什么可以帮您的?”;识别系统可以处理更加复杂的用户回答,有效减少反复询问用户的过程

优秀的识别性能:优化识别引擎,新的识别引擎提供更高的性能,更低的资源开销;在线自适应功能,能够根据用户的语音实时对识别参数进行自动调整,持续提高识别效果

语法快速编译:完善的集成开发支持与定制优化方案;可视化语法编辑器,实现语法的高效编辑,方便的语法调试器,集成语法编译、优化、分析工具;支持汉字和拼音两种语法编写形式,语法开发灵活高效;智能检错机制,可以有效定位语法文件的逻辑错误,极大的方便用户的业务开发

系统模型自适应:系统在使用过程中,随着拨打量的不断增加,系统对自身的主要模型进行自使用、如声学模型,信道模型,噪声模型等,从而提升系统的整体识别率。

个性化自适应:能够根据特定用户的语音对特定人员进行效果优化,提升特定用户的识别率,从而实现个性化的语音识别服务

2.2不足

语音识别成功率:由于中国地大物博,各个地区的语言发音各不相同,因此智能语音的识别在很大程度上被各地方言所困扰,影响客户使用感受;

语义理解:程序化的语言和人的自然语言表达在很大程度上还是会有差异的,因此语义的识别只有在不断的积累和学习的过程中才能满足日益提升的客户要求。

3智能语音在银行客户服务领域的应用

3.1支持全业务智能导航,提升自助服务水平

提高自动服务使用率,按键式iVR繁琐、复杂,用户难以使用,自助语音服务呼叫量高度集中在有限业务上;

智能呼叫导航实现菜单扁平化,支持全业务,分流人工服务的压力,提高自动服务完成率;

按键式iVR以流程为中心,需用户适应企业预设的语音菜单,而深奥的菜单名称往往使用户迷茫呼叫导航真正以客户为中心,客户以自然语言表达需求,系统自动进行识别与理解;

3.2提高自动服务直达率

按键式iVR在用户具有清晰、明确的需求时,仍需按照固定的菜单提示和步骤进行操作,效率低下;智能呼叫导航直接将用户路由至所需的业务流程,高效便捷,降低自动服务放弃率:

在用户未能将需求完整表达出来时,智能呼叫导航可向用户提供可能的选项,引导用户选择所需的服务。

4银行智能语音系统建设

银行智能语音系统建设需要从智能语音系统本身及其与周边系统集成两个方面入手,缺一不可。

4.1智能语音系统逻辑架构

智能语音识别系统的应用逻辑架构可分为数据层、服务层和应用层三层架构,如图1。

应用展现层又可分为应用管理模块和多渠道接入模块:对于本系统来说,其应用功能模块主要有后台管理、系统监测和报表、参数管理三部分组成。渠道接入模块本次对接的系统可以是客户服务的电话银行系统。

服务层包含两大核心功能:语音识别技术和语义理解技术。语音识别技术包含:用户语音检测、语音分类、模型匹配、聚类/自适应功能,通过对用户语音描述内容的识别,将用户诉求初步转写成文字。自然语言理解技术包含:语义匹配、句法分析、场景理解、多轮会话功能,自然语言理解技术负责将语音识别后的用户文字内容,通过上述技术最终将用户诉求定位到具体的iVR菜单节点,并将节点号返回给接入系统。

数据层为整个智能语音识别系统提供数据输入,其数据主要存储在相关数据库表结构中,主要包括:业务节点数据、行业词库、同义词库、敏感词库、用户数据及系统配置数据、还有报表展示数据等内容。

4.2智能语音系统应用功能模块

智能语音识别系统可以分为应用管理、语音识别和语义识别模板

4.2.1应用管理模块可以分为

(1)后台管理。智能语音识别系统的后台管理模块为业务管理人员及维护人员提供了iVR业务节点的维护功能,管理员或维护人员通过可视化界面进行iVR菜单节点的领域设置,业务子类、业务条目、专用词和同义词管理,修改iVR菜单节点的用户扩展问等。业务节点变更后于后台执行“同步到引擎”操作可以实现业务节点修改的实时生效。

(2)系统监控&报表。提供任意时间段内的访问会话数和提问数统计、问题分布统计和问题准确率统计,系统提供实时的系统运行状态监控,动态显示每个自然语音理解引擎的状态和流量。

(3)参数管理。系统所有的工作参数都可以在应用管理模块中进行设置和调整,包括:系统部署的文件系统和数据库配置,模块间通信协议和实体约束参数等。

4.2.2语音识别模块

智能语音识别模块可以支持命令词表识别、关键词语识别、及联系语音识别。该模块通过语音检测接收到用户语音描述的起始点,通过语音分类、模型匹配、自适应算法等功能,对用户语音信息进行初步转写。

4.2.3语义理解模块

通过语音识别传入的用户请求的转写文本,将会传送给自然语言理解引擎进行语义分析,判断出提问的意图后在iVR业务领域库中查找最合适的答案,当智能语音系统无法识别时,系统将引导客户转人工或再次进行描述。

4.3智能语音系统集成

智能语音系统在客户服务系统建设中属于旁路系统,现阶段其主要的交互对象为客户服务系统的电话银行系统,因此其主要的整合工作是与电话银行系统完成,大致处理业务流程为:

客户呼入客户服务电话后,由话务接入系统负责接入,用户话务被转接至电话银行系统(简称iVR),用户在iVR中通过语音菜单选择需要办理的业务:(1)如客户在iVR中选择转人工座席,则话务会被转接至话务处理系统进行排队;(2)如客户选择自助方式办理业务,则当用户在iVR中通过按键选择相应的业务后,iVR会通过客户服务业务处理系统发送相关交易至后台处理;交易结果再由业务处理系统返回iVR并语音播报给客户。

5结束语

相信伴随着人工智能在信息领域的愈来愈深入的使用和发展,未来智能语音识别将会有更大的使用空间,未来客户和电话银行聊天完成业务将不再是一个梦想,而将会实实在在得发生在我们生活中,银行的自助客户服务将会更高效更友善。