欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
硕士论文
当前位置:首页 > 硕士论文
相关向量机在语音识别中的应用研究
来源:一起赢论文网     日期:2013-08-05     浏览数:3919     【 字体:

摘要:语音识别是人机交互的基础,是现代社会朝着智能化方向发展的关键技术之一,具有重要的理论研究价值和广泛的应用前景。虽然国内外学者在这方面做了大量的研究工作,但在实用方面的难度仍然比较大,还是有很多问题需要进一步研究。
  相关向量机是一种基于稀疏贝叶斯模型的机器学习算法,对高维数、非线性的小样本问题具有很好的分类能力和泛化能力。与支持向量机相比,相关向量机的核函数可以不满足Mercer条件,模型更稀疏,而且还可以得到概率型输出。本文主要研究了相关向量机算法,并将相关向量机应用到了语音识别当中。
  本文首先详细地介绍了语音识别的基本原理,按照语音识别系统的组成结构分析了每一个部分。然后对相关向量机的理论进行了研究,介绍了相关向量机的回归和分类过程。通过实验仿真分析,对相关向量机和支持向量机的分类能力进行了比较,实验表明相关向量机比支持向量机更稀疏,测试速度更快。接着,研究了不同核函数参数对相关向量机分类能力的影响。论文最后在MATLAB平台上进行了仿真实验,主要实现了预处理、端点检测和特征参数提取,然后利用一对多的分类方法进行相关向量机的分类器构造,识别结果与隐马尔可夫模型进行比较,表明了相关向量机应用在语音识别中是可行的,且具有很好的推广能力。
  关键词:语音识别,相关向量机,支持向量机

目 录

1.绪论

1.1 课题研究背景 ..................................................... 1

1.2 国内外语音识别的发展历史与现状 ................................... 2

1.3 语音识别面临的问题 ............................................... 3

1.4 相关向量机的研究现状 ............................................. 4

1.5 本文的组织结构 ................................................... 5

2.语音识别的基本原理

2.1 语音信号的数学模型 ............................................... 6

2.2 语音识别的基本原理 ............................................... 8

2.3 语音信号的预处理 ................................................. 8

2.3.1 预加重...................................................... 9

2.3.2 分帧加窗.................................................... 9

2.3.3 端点检测................................................... 11

2.4 语音识别的特征提取 .............................................. 14

2.4.1 线性预测系数(LPC........................................ 14

2.4.2 线性预测倒谱系数(LPCC................................... 16

2.4.3 美尔频率倒谱系数(MFCC)..................................... 16

2.5 模型训练及模式匹配 .............................................. 18

2.5.1 动态时间规整(DTW)技术.................................... 18

2.5.2 隐马尔可夫模型(HMM...................................... 19

2.5.3 人工神经网络(ANN........................................ 19

2.5.4 支持向量机(SVM.......................................... 20

2.6 语音识别的判决准则 .............................................. 20

2.7 本章小结 ........................................................ 21

3.相关向量机原理3.1 前言 ............................................................ 22

3.2 贝叶斯学习理论 .................................................. 22

3.3 相关向量机模型 .................................................. 24

3.3.1 相关向量机回归 ............................................. 24

3.3.2 相关向量机分类 ............................................. 28

3.4 核函数 .......................................................... 30

3.5 多类分类问题..................................................... 31

3.6 RVM 回归实验分析................................................. 33

3.7 RVM 分类实验分析................................................. 37

3.7.1 核函数的选择问题........................................... 37

3.7.2 核参数对 RVM 分类的影响..................................... 41

3.8 本章小结 ........................................................ 42

4.基于 RVM 的语音识别系统设计及实验

4.1 语音识别系统总体设计 ............................................ 43

4.2 建立语音样本库 .................................................. 44

4.3 系统模块设计 .................................................... 45

4.3.1 语音信号观测模块........................................... 45

4.3.2 语音信号预处理............................................. 46

4.3.3 MFCC 参数提取 .............................................. 50

4.3.4 RVM 的训练与测试 ........................................... 50

4.4 实验结果及分析 .................................................. 52

4.5 本章小结 ........................................................ 53

5.总结和展望

5.1 本文总结 ........................................................ 54

5.2 本文的不足之处和改进方向 ........................................ 54

参考文献

第 1 章 绪 论
1.1 课题研究背景
  随着计算机技术突飞猛进的发展,计算机技术对人类生活的影响越来越大,计算机已经渗透到人们生活的方方面面,人们也越来越习惯于用计算机来完成各种事务。因此,计算机和人之间的交互方式怎么样更安全方便成了现代计算机科学中非常重要和迫切的研究课题之一。语言是人与人之间进行交流的一种最自然、最直接、最方便的方式。所以,语音通信就是人与机器之间最方便最直接的沟通方式。语音识别就是指让电脑能听懂人说的话,明白人所要表达的意思,能准确识别出语音的内容,从而具有人类“听”的能力,并根据说话人的意思做出准确的反应,执行说话人的各种意图。近几十年来,语音识别技术已在很多方面得到了应用,如在工业、交通、医学、军事、民用等方面,特别是在信息处理、自动控制、通信与电子系统等领域中有着广泛应用[1]。语音识别技术的研究对象是语音信号,它的涉及面非常广,是一门交叉学科,它涉及到语言学、声学、计算机技术、信号处理、数理统计、人工智能化等众多学科,也是模式识别领域的一个重要分支。目前,随着语音识别技术的不断成熟,一些语音识别系统已经开始进入实用化的阶段,也出现了很多成功的语音识别产品,如手机的语音拨号系统、智能玩具、汽车导航等等。可见,语音识别是一项具有巨大经济效益和社会效益的现代信息技术。语音识别的目标是让机器能听懂人类口述的语言,语音识别中的汉语数字语音识别,具有更为重要的意义,在众多场合的实用化都会给人们带来极大的便利。数字语音识别的任务是识别“0”到“9”等十个非特定人汉语数字语音。信用卡号码、电话语音拨号、个人身份证号码、电子密码等都具有数字化特征,因此,数字语音识别成为语音识别中极其重要的一项任务。经过几十年的发展,语音识别技术已经显示出了巨大的应用前景,它对人类日常生活的产生了革命性的影响。语音识别技术在人们日常生活中的各个领域内都发挥了非常2重要的作用,并且下一代操作系统和各种应用程序的用户界面都可能会采用语音交互的方式。因此,在不久的将来,语音识别技术的应用领域将会更加广泛,各种与语音识别有关的产品功能将更加智能化。但是,语音识别中还有很多问题需要克服,目前的大多数语音识别系统识别率还不是非常高,要想实现一个完全能理解人类语音的语音识别系统还需要不断的努力,我们只能朝着改进语音识别系统的方向一步一步地前进[2]。
  1.2 国内外语音识别的发展历史与现状
  20 世纪 50 年代,很多学者开始了对语音识别的研究,当时世界上第一个语音识别系统—AUDRY 系统[3]被贝尔实验室研制出来,这个语音识别系统可以识别出十个英文数字,而且识别率很高,达到了 98%,由此语音识别技术开始进入了不断发展的时期。
  20 世纪 60 年代末、70 年代初,动态时间规整(Dynamic Time Warping,DTW)算法和线性预测(Linear Prediction,LP)技术在语音信号处理中得到了成功地应用,顺利地克服了语音特征参数序列不定长匹配的问题,DTW 对后来语音识别技术的发展起到了深远的影响,由于技术所限,这个时期的研究主要还是孤立词的语音识别系统。在 20 世纪 80 年代初,学者们开始重点研究连续词语音识别系统,当时提出了很多关于连接词语音识别和关键词识别的算法。这时期,基于统计模型的隐马尔可夫模型被提出,并受到大家的关注。
  随后来自 CMU 的 J.K.Baker 等人把隐马尔可夫模型(HiddenMarkov Model,HMM)成功应用到语音识别领域,隐马尔可夫模型现在还是语音识别的主流方法。进入 90 年代之后,由于语音识别技术水平越来越高,再加上多媒体技术的发展,这个时期的语音识别系统开始由实验室走向了实际应用。很多著名的大公司如 IBM、Microsoft、L&H 等都大力研究和开发汉语语音识别系统,并且投资在逐年增加。目前,比较有影响力的语音识别系统有 CMU 大学的 SPHINX 系统、Microsoft 的 VoiceExpress、IBM 的 ViaVoice 和 Dragon 系统公司的 NaturallySpeaking。
  我国的语音识别研究工作起步于七十年代,略晚于国外,但是近年来的发展非常迅速,获得了很多突出的成果,并且也开始逐步走向实用。国家863《智能计算机主题》专家组在1987年决定为语音识别技术立项,随后国内的很多大学和科研院所都相继加入3到了语音识别技术的研究中来,包括有:清华大学、中科院声学所、中科院自动化所、北京邮电大学、中国科学技术大学、西北工业大学和复旦大学等等。
  在1998年的863测试评比中,来自清华大学王作英教授研究的汉语连续语音识别系统达到了国内先进水平,其识别率达到了90%以上。另外在小词汇量的汉语语音识别研究和应用方面,清华大学的刘润生教授已推出了基于非特定人汉语数码语音识别的语音拨号电话机,并且他带领的课题组还在从事语音识别专用芯片的设计研究[4]。目前,国内的中科信利公司研发的嵌入式语音识别引擎具有很高的识别率,在200 词的情况下识别率不低于 95%,在2000 词的情况下识别率不低 于 90%,而且能满足实时性要求。语音识别技术目前还不是十分成熟,仍然处在一个高速发展的阶段。要想研究出一台能听的懂任何人的任何语言的机器还需要很多的工作要做,系统的识别速度、词汇量的大小、语言的类型等都达不到实际应用的要求。因此,语音识别技术还需要更加深入的研究。
  1.3 语音识别面临的问题
  目前语音识别技术是高科技领域的一个热门研究方向,语音识别技术也开始从实验室的理论研究逐渐地走向实际产品的开发。随着计算机技术和电子技术水平的不断发展,语音识别技术的发展也越来越快,更多的语音识别产品会让我们的生活变得更方便和快捷,在当前语音识别已经取得了一定的经济效益和社会效益。语音识别技术研究迄今已经有60多年的历史了,语音识别产品也是层出不穷,但是与最终的目标还是有一定的差距,还是有很多的问题存在,主要的表现有:
  适应性差。实际上环境对语音识别系统的影响是非常大的,也许在安静的实验室或者某个特殊环境下语音识别系统的识别率很高,但是在不同的环境下就不会得到理想的效果,应用性就会下降。
  2)发音的长度和强度不同。我们每个人对于同一个发音往往是不同的,这样就可能会导致在识别的时候出现模板不匹配的结果,最后出现识别错误的现象。汉语中同一个人如果在不同的情况下可能对同一个字的发音强度是不同的,如在紧急情况下,发音的强度可能是很大,而在安静的情况下,发音强度相对较弱。
  3)方言的问题。全世界有多达近百种的官方语言,而每种语言又包括了很多种的方言,同种语言的语音识别系统在不同的方言环境下系统性能相差很大。
  4)端点检测的问题。实验表明,端点检测对语音识别的影响是非常大的,所以需要研究更加准确和稳健性更强的端点检测方法。
  5)语言学、心理学和生理学的研究成果如何用于语音识别中还需要进一步的研究。
  1.4 相关向量机的研究现状
  相关向量机(Relevance Vector Machine,RVM)是Michael E.Tipping于2001年提出的一种基于贝叶斯框架下的稀疏概率模型,可以用来进行分类预测。RVM在先验参数结构下基于主动相关决策理论(Automatic Relevance Determination,ARD)来移除不相关的点,从而获得稀疏化的模型[5]。RVM与SVM的共同之处是他们都借助核函数把低维空间中的线性不可分问题转变成高维空间中的线性划分问题,而且RVM和SVM都是针对有限样本的情况。RVM与SVM不同之处是:RVM可以得到概率式的预测;不需要设置误差参数C;相关向量数目比SVM中的支持向量数目少;RVM的核函数不需要满足Mercer条件,选择的范围更大。由于RVM具有这些优点,RVM已经广泛地应用到各种领域当中,比如图像处理[6]、视觉跟踪[7]、人脸识别和检测[8][9]、文本分类[10][11]等。国内对相关向量机的研究起步较晚,而且很少对算法的理论进行研究和改进,大多数都是停留在相关向量机的应用层面上,主要的应用有:(1)RVM在车型识别中的应用研究[12],(2)基于RVM的手写体数字识别[13],(3)基于贝叶斯学习的关联相关向量机及其在软测量中的应用[14],(4)基于相关向量机的电力负荷中期预测[15]。RVM虽然在一定程度上弥补了支持向量机的缺陷,但是RVM在学习过程中也存在一些不足之处,主要是RVM在训练过程中,计算量非常大,内存消耗很大,所以目前RVM只用于处理少量样本的情况[16]。目前已有一些算法对这个问题进行了改进,如MichaelE.Tipping在2003年提出的一种快速的边际似然算法[17]和Zheng Rong Yang在2006年提出的一种解决大规模数据集的快速算法[18],他们都提高了算法的运算性能和运算速度,但是相关向量机的计算复杂度仍然是今后重点研究的方向,我们相信RVM具有巨大的研究和应用价值,值得我们进一步深入研究。
  1.5 本文的组织结构
  本文的主要内容和结构安排如下:
  :说明了课题的研究背景和意义,并介绍了语音识别技术和相关向量机的国内外发展现状。
  第二章:详细介绍了语音识别的基本原理和相关技术。
  第三章:主要研究了相关向量机的基本理论和相关向量机回归和分类过程,并与支持向量机进行了比较,然后研究了核函数和核函数的参数对相关向量机分类的影响。
  第四章:设计了基于 RVM 的汉语数字语音识别系统,介绍了系统了各个模块,通过仿真实验证明了 RVM 用于语音识别的可行性。
  第五章:对全文进行总结,并指出了本文的不足之处和改进方向。
  第 2 章 语音识别的基本原理
  2.1 语音信号的数学模型
  语音是由于人的肺部进行收缩压迫使得体内气流从支气管通过声门声道而引起的振荡产生的。在发音的时候,唇、舌以及小舌的位置决定了声道各处的截面积大小。声道激励方式的不同可以产生不同的声音,这里共有三种激励方式:第一种激励是准周期性的空气脉冲,它由气流经过声门时声带张力使得声带发生低频的张弛振荡而产生的,空气脉冲激励的结果是产生浊音;当声道中的某一处位置的面积很小时,体内的气流正好快速通过此处,此时便产生了一种类似于噪声的激励,这种激励方式产生了摩擦音或者清音;如果声道某一处开始时是完全闭合的,此时气压不断增加,然后又突然打开,此时产生的声音便是爆破音。按照语音信号的产生机理,语音信号的数学模型可以由三部分组成:激励模型、声道模型和辐射模型,如图 2.1 所示[1]。图 2.1 语音信号的数学模型语音信号可以被看成是激励源信号 UnG激励线性系统 H z后而产生的输出,其中 H z为声道响应 V z和辐射模型 R z级联而成,即:周期脉冲发生器声 门 脉 冲模型 G(z)随机噪声发生器基音频率0FvAuA声道模型v(z)浊音/清音开关声道参数辐射模型R(z)输出语音应该指出,语音信号的这种模型是“短时”的模型,“短时性”是语音信号很重要的一个特点。语音信号有时可能会表现出周期信号的特性,而在另一个很短的时刻内它会表现出某种随机噪声的特征,另外也可能是二者的混合。也就是说在不同的短时段内语音信号的特征是不一样的,是会不断变化的,但是这种变化是缓慢的,例如元音在10~20ms 内的参数可以假定不变。由于惯性作用,人的声道形状的变化是具有一定规律的,语音信号的特征会在一段短时段内保持相对稳定,所以,在进行语音信号的分析和8得分处理时,我们会选取某个“短时”来进行相关的分析,而这段短时间一般会取为 10-30ms。
  2.2 语音识别的基本原理
  大部分语音识别系统都采用的是模式匹配的原理[19],典型的语音识别系统的结构框图如图 2.2 所示,一个完整的语音识别系统通常由 5 个模块组成:预处理模块、特征提取模块、模型建立模块、模式匹配模块和判决模块。图 2.2 语音识别系统结构框图语音识别技术在实际的应用时一般会分为两个步骤[20]:第一阶段是系统学习和训练的过程。首先,会有一组用来训练的语音,这些语音数据都是针对某个语音识别系统而精心准备的。开始要对这些语音进行预处理和特征提取,然后根据系统参数的初始值,对参数进行不断调整,获得该系统的识别方法所要求的语音特征参数。最后把这些参数保存起来,形成参考模型库。第二个阶段就是系统识别和测试的过程。第二阶段就是在待识别语音经预处理、特征提取后,把得到的语音信号的特征参数与第一阶段中的参考模型做对比,按照某一判决规则得到系统的识别结果。
  2.3 语音信号的预处理
  语音信号的预处理是语音信号正确识别的前提和基础,预处理可以使语音信号中的有效信号量进行提升,使得特征参数更方便地被提取出,同时也减少了语音信号中噪声干扰的影响,提高系统的识别性能。在实际地语音信号处理过程中,预处理过程主要有预加重、分帧加窗和端点检测等[21]。预处理 特征提取建 立 参 考模型模式匹配 判决规则识别结果训练识别语音输入9
  2.3.1 预加重由于受到声门激励和口鼻辐射等的影响,语音信号功率谱在 800HZ 以上的高频端会按 6dB/倍频程跌落,所以对于语音信号来说,高频部分的成分太少,这样导致我们很难直接计算出高频部分的频谱,很明显低频部分频谱的计算相对更容易些,因此要在预处理中进行预加重[22]。事实上,预加重的主要目的就是对语音信号的高频部分进行一定的提升,使它的频谱变得平坦一些,这样会使得后面的声道参数分析和频谱分析更容易。通常我们用预加重滤波器来实现高频提升,它一般是一个一阶的数字滤波器,其公式为:1()1H Z  z(2.9)式中: 为预加重系数,且 0 .9  1.0,典型值为 0.94。
  2.3.2 分帧加窗语音信号是一种非常典型的非平稳信号,它的特性会随着时间的改变而不断变化,但是我们通常认为语音信号在一段短时间(一般为 10~30ms)内的频谱特性和物理特征参数是基本不变的,这就是语音信号的短时平稳性。因此,我们可以把语音信号分隔为一个个短段语音(帧),以便于进行短时分析和语音特征参数的计算。分帧的方法可以是连续的,也可以是交叠分段的,但通常我们会用交叠分段的方法,因为这样可以保持相邻两帧的连续性。帧和帧之间的重叠部分一般取为帧长的二分之一或者是三分之一,重叠部分也可以称为帧移。第 K 帧:第 K+2 帧:帧移 帧长图 2.3 帧移和帧长的关系图第 K+1 帧:10加窗处理是指用一个有限长的窗函数截取语音信号,通常使用的窗函数有两种:(1)矩形窗由图 2.4 可知,这两种窗函数都具有低通特性,矩形窗的主瓣宽度小,所以它的频率分辨率高,而矩形窗的旁瓣高度相对来说较高,这样会导致泄漏现象的发生。汉明窗的旁瓣高度是低,它可以很好的防止泄漏现象的发生,另外汉明窗还具有较好的低通特性。因此在语音信号的窗函数选择上,汉明窗是最佳的选择。11
  2.3.3 端点检测在语音识别系统中,采集到的语音信号中总是会自然地加入一些静音段,而这些静音段通常都会很容易受到外界环境中的噪声污染,由此这些静音段的能量就不为零,如果不能采取准确的端点检测方法,把噪声干扰去除,就会导致整个语音识别系统的识别率下降,性能降低。正因如此,端点检测是语音识别过程中一项必不可少的工作。只有把语音信号的起点和终点正确地检测出,才能得到一段语音信号中真正有用的语音信息,减少了系统的运算量和存储量,同时也可以提高系统的识别率。尤其是对于孤立词语音识别系统,必须准确地判定出每个单字的起点和终点。端点检测中最常用的两个参数是语音信号的短时平均能量和短时平均过零率。(1)短时平均能量语音信号的短时能量反映的是语音信号的幅度或能量随着时间而缓慢变化的规律。由于在发清音时声带是不振动的,发浊音时声带才振动,因此一般浊音段的能量要比清音段的能量大许多,并且语音信号的短时能量开始时逐渐变大,在结束时将会逐渐消失。n 时刻语音信号 x n的短时平均能量定义为:          nmmnNnExmwnmxmwnm122(2.13)其中,N 代表窗长, w n是某种窗函数。端点检测过程中的短时平均能量参数作用为:1)区分清音段和浊音段。浊音部分的短时能量大,清音部分的短时能量小,根据语音信号中短时能量值的变化情况,可大致找出浊音段和清音段的时刻。2)区分有无语音。在没有语音信号的静音段中,噪声的能量值相对较小,而在语音信号段中短时能量值迅速增大为一个数值,语音信号的起始点可由此判别出来。(2)短时平均过零率离散时间语音信号在相邻样本点中出现了符号相异的现象称为过零,对于连续语音信号来说,时域波形每次经过时间轴时叫过零。过零率就是指在单位时间内发生过零现象的总次数。每一帧的语音信号中经过零值的频率被称为短时平均过零率,语音信号12 x m的短时平均过零率nZ 的定义如下:              xnxnwnZxmxmwnmnsgnsgn1*sgnsgn1(2.14)式中: 021wnN其它0  nN1(2.15)  11sgn xn  00xnxn(2.16)在式(2.15)中,2N1代表窗口的幅度,意思是对该窗口内的过零率取平均。端点检测过程中的短时平均过零率参数作用是:1)区分清音和浊音。由声学原理可知,清音的过零率比浊音高,因此可以根据过零率大小来区分清浊音[23]。2)从背景噪声中找出语音信号的起始点。利用短时平均能量和短时平均过零率可以组成双门限端点检测算法,其具体流程为:首先,在开始进行端点检测之前,需要分别为这两个参数设定两个高低门限。其中低门限的数值一般比较小,很容易被超过,只是用来确定语音信号可能的起始点。高门限的数值比低门限的大很多,高门限需要在语音信号达到一定强度时才可能被超过。事实上语音信号中混入的各种噪声也有可能超过低门限,因此我们不能因为低门限被超过了就确定这个时刻为语音的开始,语音信号真正的开始要看高门限是否被超过了。语音识别中端点检测的过程通常包括四个阶段:静音段、过渡段、语音段和结束。如果短时能量或者过零率在静音段内超越了设置的低门限,那么先标注出语音信号的起始点,然后可以进入过渡段。由于超越低门限的数值是不能确定出语音段的真正起始点的,所以还需要继续计算后面帧的短时能量和过零率。在过渡段内,假如高门限被任意的一个参数超过了,则代表着进入了真正的语音段。如果这两个参数在某时刻又都降到低门限以下,则状态变为静音。虽然一些噪声也可能会使短时能量或短时过零率计算出的值很高,但是一般噪声的持续时间不会很长。此时我们可以继续计算后四帧的短时能量或过零率,如果有某一值13高于设定值,则可以确定是语音信号;否则该段语音会被确定为噪音,然后继续测试后面的数据。双门限端点检测的流程图如图 2.5 所示。图 2.5 双门限端点检测的流程图下图是语音“你好”的端点检测结果:开始端点检测能量或过零率超越低门限?语音可能开始,进入过渡段能量或过零率超越高门限?确定进入语音段,标记起点两个参数都降低到低门限下?后四帧有一个参数值低于门限值检测到语音端点,进一步处理扫描下一帧数据扫描下一帧数据扫描下一帧数据放弃这段语音,继续端点检测NoYesNoYesNoYesNoYes

[返回]
上一篇:基于 B/S 模式的人力资源管理系统的设计与实现
下一篇:支持向量机在大规模数据中的应用研究