基于深度信念网络的语音情感识别的研究 |
来源:一起赢论文网 日期:2015-04-20 浏览数:4201 【 字体: 大 中 小 大 中 小 大 中 小 】 |
摘 要 针对语音情感识别中的特征提取的问题, 提出了一种新的特征提取方式, 利用深度神经网络( D NN ) 中的深度信念网络( D B N s ) 自动提取语音信号中情感特征. 通过训练一个5层的深度信念网络提取语音情感特征, 把连续多帧的语音并在一起, 构成一个高维的特征, 把深度信念网络训练完的特征作为非线性支持向量机(S VM ) 分类器的输入端, 最终建立一个语音情感识别多分类器系统. 其识别率为8 6. 5%比传统的基于提取句子的时间构造、 振幅构造、 基频构造等特征的方法提高7%. 关键词 语音情感识别; 特征提取; 深度信念网络; 支持向量机 随着互联网、 电子商务以及物联网等技术的深入发展, 海量的结构化和非结构化数据己经充斥在人们日常生活的每个角落, 并且每天还在以惊人的速度进行爆炸式的增长 . 语音识别作为“ 大数据” 涉及的七大领域之一, 其能够从海量的音频数据来源中准确地识别特定语音, 使大数据真正做到精准到位的服务.语音情感识别技术是通过计算机对语音信号进行情感特征提取, 并且对得到的语音情感特征参数与情感变化进行比较和分析, 最终得出语音与情感的规律, 并根据规律来判断语音情感状态的一种过程. 语音情感识别是当前人工智能、 人工心理学等多学科交叉的新兴领域, 也是信号处理及模式识别领域的一个研究热点. 该研究在智能人机交互、 人机交互教学、 娱乐业、 安全领域等都得到了广泛的应用 [1 ] . 语音情感处理和识别系统大致包括3个环节,即语音信号采集、 特征提取和情感识别. 系统框架如图1所示.其中特征提取的好坏直接影响着语音情感识别的正确率. 在特征提取的过程中, 通常以整个情感语句为单位对语音信号进行特征提取, 提取内容为情感语音的4个方面, 即时间构造、 振幅构造、 基频构造和共振峰构造等声学特征, 接着在这4个方面与无情感语句对比, 得出情感信号的分布规律, 最后通过这些规律进行分类. 但在当下数据来源异常庞大的情况下, 传统的特征提取方式显然无法满足需求 [2 ] .深度神经网络已经在语音识别、 图像识别等领域取得前所未有的成功 [3 ] , 但是至今没有研究对把深度神经网络应用于语音情感处理中. 由此本文提出一种自动从语句中提取情感特征的实现方法, 我们利用深度神经网络 ( D NN ) 中的深度信念网 络( D B N s )[ 4 ] 训练了一个5层的深度网络来提取语音的情感特征. 把连续多帧的语音情感特征合并, 构成一个高维的特征, 采用支持向量机(S VM ) 分类器对情感语音进行分类. 我们对比了传统的其他特征提取方法, 发现利用此方法进行特征提取后, 语音情感识别系统的识别率达到8 6. 5% , 比原有的方法提高了7%. 1 语音情感中的特征提取情感可以通过语音来表达, 因为语音中包含可以体现情感的特征参数 [5 ] . 我们可以通过提取和观测这些特征参数的变化来观测对应语音情感的变化. 关键得从语音信号中提取这些可以体现语音情感的特征参数. 语音情感特征提取的好坏直接影响了语音情感识别的正确率 [6 ] . 同时, 因为语音信号中不仅包含情感特征信息还有说话人自身的重要信息, 所以研究如何提取、 提取何种语音情感特征参数有着其重要性 . 1. 1 结构化生成数据情感语音库在语音情感特征提取之前, 首先需要输入具有情感的语音信号. 情感语音数据库是语音情感识别的基础, 其为语音情感识别提供训练及测试的标准语音 .目前已有大量的文献研究这方面内容 [7 ] , 本文针对汉语语音情感进行识别 . 为建立尽可能完善的语音数据采样库, 所挑选实验语音语句需要遵守以下原则 [8 ] :1 )选择的语句必须不包含某一方面的情感倾向, 保证录制语句时不会影响实验者的判断.2 )所选语句有相对的情感自由度, 即所选的语句可以表达不同的情感, 不只是单一的情感, 不然无法比较同一情感语句在不同情感状态下的情感语音参数 [9 ] .根据以上原则以及考虑到数据样本所需的数量, 本文不自行录制语音库, 选取某呼叫中心的录音语音数据库. 该数据库是由1 0 0个男生、8 0个女生录制完成, 其中包含了7种基本情感, 即悲伤、 愤怒、惊奇、 恐惧、 喜悦、 厌恶和平静. 即该情感库由2 1 0 0句情感语句组成, 并且都录制成标准格式的 WAV文件. 预处理之后上述语音的采样率均为1 6 0 0 0H z ,量化精度为1 6 b i t . 1. 2 传统的情感特征提取传统的情感特征提取是在分析和比较各种情感特征参数的基础上, 选定情感分辨率较高的情感特征, 并对其进行提取. 通常从时间构造、 振幅构造、基频构造等信号特征方面具体分析语音中的情感特征 [1 0 ] . 1 )时间构造语音的时间构造指的是情感语音发音时间上的差别, 表达不同情感时语音的时间构造有所不同. 主要从两方面来分析和比较: 一是持续发音时间长度,二是平均发音速率 .赵力等研究 [2 ] 表明, 在持续发音的时间长度和发音速率上, 不同情感的发音时间不同. 与平静时的发音时间长度相比, 高兴、 愤怒、 惊奇的发音时长明显缩短. 但是与平静发音时长相比悲伤发音时长有所延长. 与平静发音速率相比, 悲伤的发音速率比较慢, 而高兴、 愤怒、 惊奇发音速率相对较快.综上所述, 如果我们提取语音中的时间构造特征参数, 很容易从其他情感状态中区分出悲伤 . 当然也可以通过设定一定的时间阈值来区分高兴、 愤怒、惊奇等语音. 但是很明显, 仅仅利用语音的时间构造不足以识别语音的情感状态.2 )振幅构造语音信号的振幅构造和语音情感状态也有着很直接的关联. 当说话者处于生气或者高兴时, 语音的音量通常比较高, 当说话者情绪悲伤或者低落时, 发音的音量通常比较低. 因此分析语音情感特征中振幅构造特征是较为有意义的.图2为情感语音和平静语音的振幅比较, 用平均振幅差表示. 由图2可知, 高兴、 愤怒、 惊奇3种情感语音的振幅与平静语音信号相比将振幅较大, 而悲伤语音的振幅减小.3 )基频构造B a n z i g e r和S c h e r e r提出 [1 1 ] , 对于同一句话, 如果表达的情感不同, 基频曲线也是不同的, 除此之外, 基频的均值和方差等也不一样. 当说话人处于高兴状态时, 其基频变化曲线一般是向上弯曲. 而当说话人处于悲伤状态时, 基频变化曲线向下弯曲. 图3为不同情感的基音方差的变化曲线:对比平静情感状态下, 高兴、 惊奇、 愤怒的语音信号的特征变化量比较大 . 由此分析同一语句在不同情感状态下的语音信号的基频变化曲线, 可以比较得出不同的情感语音拥有的基频构造特征. 2 深度信念网络深度神经网络(d e e p n e t s , D N ) 源于人工神经网络 [1 2 ] . 从字面上理解深度神经网络就是深层次的神经网络. 2 0 0 6年, 多伦多大学的 H i n t o n等人在文献[1 3 ] 提 出了 一 种 深 度 信念 网 络 结 构 (d e e p b e l i e fn e t s , D B N s ) . 自此, 深度神经网络和深度学习成为人工智能领域最受关注的研究热点. 他明确指出了无监督学习在各层训练的有效性, 指出各层可在前一层训练结果输出的基础上, 再次进行无监督训练.与传统神经网络相比, 深度神经网络具有多层非线性映射的深层结构, 可以完成复杂的函数逼近 [1 4 ] .深度信念网络 D B N s是深度神经网络 D NN 的一种, 自 2 0 0 6年 H i n t o n 首次提出深度信念网络D B N s后, 深度信念网络已经在语音识别、 图像识别等领域取得前所未有的成功. 2 0 1 0年, 微软研究院的 D e n g L i博士与 H i t o n合作发现深度神经网络可显著提高语音识别的精度. 但是至今没有研究对把深度信念网络应用于语音情感识别中. 在本文在研究过程中发现深度信念网络 D B N s在语音情感识别的过程中有着很大的优势, 故选取深度信念网络来自动提取语音中的情感特征.一个典型的深度信念网络就是一个高度复杂的有向 无 环 图, 它 是 由 一 系 列 的 限 制 玻 尔 兹 曼 机( R BM ) 堆叠组成. 训练深度信念网络需要通过自下而上的逐层训练这些限制玻尔兹曼机来实现. 因为限制玻尔兹曼机可以采用分层对比散度算法进行快速训练, 所以通过训练限制玻尔兹曼机可以避免从整体上训练深度信念网络的高度复杂性, 简化为逐个训练限制玻尔兹曼机的过程. 大量研究证明,深度信念网络可以解决传统反向传播算法训练多层神经网络收敛速度慢, 容易陷入局部最优等问题. 2. 1 限制玻尔兹曼机图 4 R BM 模块深度信念网络是由限制玻尔兹曼机有规律的堆叠形成的, 限制玻尔兹曼机也是一种典型神经网 [4 ] .限制玻尔兹曼机是由可见层与隐含层相互连接构成的, 但该网络中没有可见层 - 可见层、 隐含层 - 隐含层,这种层内之间的相互连接. 如图4所示. 训练 R BM时采用的是无监督贪心逐层方式, 即训练时, 可见层的特征值映射给隐含层, 可见层通过隐含层进行重建, 这种新的可见层再次映射特征值给隐含层, 获得了新的隐含层. 其主要目的是为了获得生成性的权值. 可见, 玻尔兹曼机的主要特点为: 它的本层的激活特征输入到下一层 R BM 作为训练数据, 所以其学习速度很快.文献[1 5 ] 这是一个逐层高效的学习策略理论, 证明过程可详细参见文献[1 6 ] .如图5所示, 深度信念网络由低到高的限制玻尔兹曼机堆叠而成. 利用高斯 - 伯努利限制玻尔兹曼机和伯努利 - 伯努利限制玻尔兹曼机连接, 下一层的输出作为上层的输入.图5是深度信念网络结构的示意图, 其中层数和每层的单元数都是举例说明, 在实际实验中隐藏层的单元数量不一定是相同的.在伯努利限制玻尔兹曼机中, 可见层和隐含层的单元都是二进制的:V ∈ { 0 , 1 }D和 h ∈ { 0 , 1 }K .D和 K 分别表示可见层和隐含层的单元序号. 在高斯玻尔兹曼机中, 可见层单元是一个实际的数字:V ∈RD .V 和 h 的联合概率表示为P ( v , h ) =1Z e x p(- E ( v , h ) ) ,(1 )这里,Z 是一个归一化常数, E ( v , h ) 是一个能量方程. 对于伯努利玻尔兹曼机, 能量方程为E ( v , h ) =- ∑Di =1 ∑Kj =1 Wi jv i h j - ∑Di =1b i v i - ∑Kj =1a j h j ,这里, Wi j表示为不直接连接的可见层节点 v i 和隐含层节点 h j 的质量, a 和 b 分别是隐含单元和可见单元的偏置. 对于高斯玻尔兹曼机, 能量公式为E ( v , h ) =∑Di =1(v i - b i )22-∑Di =1 ∑Kj =1 Wi jv i h j - ∑Kj =1a j h j .(2 ) 深度信念网络 D B N s 通过把连续多帧的情感语音信号特征合成, 形成一个高维特征向量, 充分地描述了情感语音特征之间的相关性 [1 7 ] . 同时 D B N s利用这些构成的高维特征来模拟. 而且 D B N s抽取语音信息过程其与人脑的处理语音的过程很相似, 其利用限制摩尔兹曼机对情感信息逐级地进行特征抽取, 最终形成最适合模式识别的高维特征. D B N s在实际应用中能与传统的语音情感识别技术融洽的结合( 如支持向量机) , 使得语音情感识别系统的准确率得到提高. 2. 2 D B N s模型训练本文利用 T h e a n o来训练深度信念网络 D B N s .T h e a n o是一个 P y r h o n的数学符号编译工具包, 它是机器学习问题中一个极其有力的工具, 因为它结合了简单的 P y t h o n 和 C编译的力量, 使建立深度学习模型更加容易.D B N s首先在P r e - t r a i n e d阶段以一种无监督的方式训练 [1 8 ] . 本文使用 4 0% 的语音资料作训练、6 0%的语音资料作测试. 我们利用相同的训练集对其进行微调, 同时采用验证集去验证样本, 通过验证样本偏差的降落趋势来决议何时结束训练. 监督步骤采用逐层递减的方式进行. 我们尝试大约采用1 0 0种不同的 h y p e r - p a r a m e t e r s的组合, 在框架层面上选择错误率最小的模型. 被选择的 D B N 模型如表1所示: 3 支持向量机分类器 支持向量机 S VM 是 2 0世纪9 0年代提出的,S VM 是建立在统计学理论和结构风险最小化原则之上的一种机器学习的方法. 其原理是将低维输入特征向量映射到高维特征向量空间中, 从而解决非线性可分的问题. 其在模式分类等领域有着广泛的应用 [1 9 ] .利 用 S VM 处 理 分 类 问 题 时, 有 一 对 多( ON E - T O - A L L ) 和一对一( ON E - T O - ON E ) 种解决方案. 在前期的研究过程中我们发现, 一对一的分类方式准确性更高, 故本文采用一对一的分类方式对4种情感( 惊奇、 高兴、 愤怒、 悲伤) 进行分类.一对一方式是对任意两种情感构建超平面, 故需要训练个子分类器. 整个训练过程一共需要 c24 个S VM 子分类器, 即6个. 每一个子分类器由惊奇、 高兴、 愤怒、 悲伤4种情感特征中的任意两种训练而成. 即高兴 - 愤怒、 高兴 - 悲伤、 高兴 - 惊奇、 愤怒 - 悲伤愤怒 - 惊奇、 悲伤 - 惊奇. 而在识别过程中, 未知情感语音信号输入已经利用上述原则训练好的各个子分类器进行识别,6个子分类器都对输入其中的情感语音进行判别, 最终把权值最高( 票数最多) 的情感作为待识别语音信号的情感状态. 图6为基于S VM的情识别系统框图: 4 实验与分析 我们的实验选取通过了有效性测评的某呼叫中心的录音语音数据库. 该数据库是由1 0 0个男生、8 0个女生录制完成, 其中包含7种基本情感, 即悲伤、愤怒、 惊奇、 恐惧、 高兴、 厌恶和平静. 我们选取其中4种: 高兴、 悲伤、 惊奇、 愤怒, 每种情感录有2 0 0句参照脚本. 上述语音的采样率均为1 6 0 0 0H z , 量化精度为1 6 b.所有输入的情感语音都要进行预处理, 本文对输入的语音信号进行预加重和加窗处理, 我们选取了窗长为5的中值滤波器对去噪后的情感语音信号进行平滑处理.本文使用4 0%的语音资料作训练、6 0%的语音资料作测试. 利用深度信念网络提取语音特征而建立语音情感识别模型为本文的实验组, 对照组是在输入相同情感语音情况下, 通过提取传统语音特征参数来构建语音情感识别模型 . 最后对比和分析实验数据. 4. 1 基于深度信念网络提取特征参数本文通过训练一个5层的深度信念网络提取语音情感特征, 把连续多帧的语音并在一起, 构成一个高维的特征, 在本实验中, 我们把 D B N s的隐藏层输出作为特征预训练独立的线性回归模型 . 训练完的特征作为非线性 S VM 的输入端, 最终建立一个语音情感识别的多分类器模型. 实验结果如表2所示:表2基于深度信念网络的S VM 情感识别结果训练 ? 识别 愤怒 高兴 悲伤 惊奇愤怒 0. 9 1 3 0. 0 2 1 0. 0 2 1 0. 0 2 8高兴0. 0 3 1 0. 8 4 5 0. 0 4 1 0. 1 2 2悲伤 0. 0 2 9 0. 0 2 0 0. 8 8 3 0. 0 6 1惊奇 0. 0 4 7 0. 1 2 4 0. 0 3 5 0. 8 1 9由表2可知, 愤怒和悲伤的识别率较高达到9 1. 3%和8 8. 3% , 总体识别率为8 6. 5%. 由于高兴和惊奇两者在发音时有许多相似的生理特征, 容易混淆, 故识别率较低. 4. 2 基于传统方法提取本文的对照组为提取传统的情感特征参数: 时间构造、 振幅构造、 基频构造. 提取完后也输入到S VM 分类其器中进行语音情感识别. 最后比较实验组与对照组的差别. 实验结果如表3所示:表3基于提取传统情感特征参数的S VM 情感识别结果训练 ? 识别 愤怒 高兴 悲伤 惊奇愤怒0. 8 6 1 0. 0 3 2 0. 0 2 3 0. 0 8 8高兴 0. 0 3 9 0. 7 4 2 0. 0 3 4 0. 1 8 2悲伤0. 0 4 7 0. 0 3 4 0. 8 4 8 0. 0 7 1惊奇 0. 0 5 3 0. 1 7 4 0. 0 3 7 0. 7 2 9由表3可知, 基于传统情感特征参数的 S VM系统的总体识别率为7 9. 5%.从表4可以看出, 利用深度信念网络提取语音情感特征和直接提取传统情感特征参数这两种方法相比, 愤怒、 高兴、 悲伤、 惊奇这4种情感类型的识别率都得到了提高. 平均提高7% , 其中高兴这一情感提高1 0%.表 4 两种方法的识别结果比较方法 ? 识别 愤怒 高兴 悲伤 惊奇 平均D B N s 0. 9 1 3 0. 8 4 5 0. 8 8 3 0. 8 1 9 0. 8 6 5传统 0. 8 6 1 0. 7 4 2 0. 8 4 8 0. 7 2 9 0. 7 9 5 5 结束语 本文提出了利用深度神经网络 D NN 中的深度信念网络 D B N s来自动提取情感语音信号中的情感特征参数. 利用深度信念网络和支持向量机结合, 提出了一种基于 D B N s和 S VM 的多分类器模型. 该模型在实际训练过程中复杂度小, 最后的识别结果比人为的选取传统情感特征参数直接提取的结果高出7%, 明显的提升了情感语音识别的识别率. 但是训练 D B N s特征提取模型需要1 3 6 h , 在训练时长上不如其他的特征提取方式.以后的工作重点我们将研究如何通过训练海量的数据来提高语音情感识别的识别率. 参 考 文 献[ 1 ] 詹永照,曹鹏 . 语音情感特征提取和识别的研究与实现 . 江苏大学学报( 自然科学版) , 2 0 0 5 , 2 6 ( 1 ) : 7 2 - 7 5[ 2 ] 赵力,将春晖,邹采荣,等 . 语音信号中的情感特征分析和识别的研究.电子学报, 2 0 0 4 , 3 2 ( 4 ) : 6 0 6 - 6 0 9[ 3 ] L e e H , E k a n a d h a m C ,N g A Y. S p a r s e d e e p b e l i e f n e t m o d e lf o r v i s u a l a r e a v 2? ? P r o c o f t h e 2 2 n d A n n u a l C o n f o n N e u r a lI n f o r m a t i o n P r o c e s s i n g S y s t e m s ( N I P S ) .C a m b r i d g e : M I T ,2 0 0 8 : 2 9 - 3 5[ 4 ] K r i z h e v s k y A , S u t s k e v e r I , H i n t o n G E. I m a g e n e tc l a s s i f i c a t i o n w i t h d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k s ? ? P r o co f t h e 2 6 t h A n n u a l C o n f o n N e u r a l I n f o r m a t i o n P r o c e s s i n gS y s t e m s ( N I P S ) .A l a m i t o s , C A : I E E E , 2 0 1 2 : 1 1 0 6 - 1 1 1 4[ 5 ] 赵力,等 . 语音信号中的情感特征分析和识别研究 . 通信学报, 2 0 0 0 , 2 1 (1 0 ) : 1 8 - 2 4[ 6 ] N e w T L , F o o S W , S i l v a C D. S p e e c h e m o t i o n r e c o g n i t i o nu s i n g h i d d e n M a r k o v m o d e l s . S p e e c h C o mm u n i c a t i o n, 2 0 0 3 ,4 1 ( 4 ) : 6 0 3 - 6 2 3[ 7 ] 谢波,等 . 普通话情感语音数据库及其韵律特征的统计分析 . 第一届中国情感计算与智能交互学术会议( A C l l 0 3 ) 论文集 . 2 0 0 3 : 2 2 1 - 2 2 5[ 8 ] 赵力,钱向民,邹采荣,等 . 从语音信号中提取情感特征的研究 . 数据采集与处理, 2 0 0 0 , 1 5 ( 1 ) : 1 2 0 - 1 2 3[ 9 ] 郭鹏娟,蒋冬梅 . 基于基频特征的情感语音识别研究 . 计算机应用研究, 2 0 0 7 , 2 4 (1 0 ) : 1 0 1 - 1 0 3[ 1 0 ] 郭鹏娟 . 语音情感特征提取方法和情感识别研究 . 西安:西北工业大学, 2 0 0 7[ 1 1 ] B a n z i g e r T , S c h e r e r K R. T h e r o l e o f i n t o n a t i o n i n e m o t i o n a le x p r e s s i o n s . S p e e c h C o mm u n i c a t i o n , 2 0 0 5 , 4 6 ( 3 ? 4 ) : 2 5 2 -2 6 7[ 1 2 ] 孙志军,薛磊,许阳明,等 . 深度学习研究综述 . 计算机应用研究, 2 0 1 2 , 2 9 (8 ) : 2 8 0 6 - 2 8 1 0[ 1 3 ] H i n t o n G , O s i n d e r o S , T e h Y. A f a s t l e a r n i n g a l g o r i t h m f o rd e e p b e l i e f n e t s .N e u r a l C o m p u t a t i o n , 2 0 0 6 , 1 8 ( 7 ) : 1 5 2 7 -1 5 5 4[ 1 4 ] 孙志军,薛磊,许阳明,等.深度学习研究综述.计算机应用研究, 2 0 1 2 , 2 9 (8 ) : 2 8 0 6 - 2 8 1 0[ 1 5 ] 张春霞,姬楠楠,王冠伟.受限波尔兹曼机简介.中国科技论文在线, 2 0 1 1 , 2 2 (6 ) : 5 7 - 6 1[ 1 6 ] 任蕊,苗振江.基于 P S O L A 算法的情感语音合成.系统仿真学报, 2 0 0 8 , 2 0 : 4 2 3- 4 2 6[ 1 7 ] 余凯,贾磊,陈雨强,等.深度学习的昨天、 今天和明天.计算机研究与发展, 2 0 1 3 , 5 0 ( 9 ) : 1 7 9 9 - 1 8 0 4[ 1 8 ] B e n g i o Y , L a m b l i n P , P o p o v i c i D , e t a l .G r e e d y l a y e r - w i s et r a i n i n g o f d e e p n e t w o r k s? ? P r o c o f i n A d- v a n c e s i n N e u r a lI n f o r m a t i o n P r o c e s s i n g S y s t e m s 1 9. C a m b r i d g e : M I T , 2 0 0 7 :1 5 3 - 1 6 0[ 1 9 ] 朱菊霞,吴小培,吕钊 . 基于 S VM 的语音情感识别算法 . 计算机系统应用, 2 0 1 1 , 2 0 (5 ) : 8 7 - 9 1 |
[返回] |