标签同步解码算法及其在语音识别中的应用 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

标签同步解码算法及其在语音识别中的应用

来源：一起赢论文网日期：2019-09-29 浏览数：1789 【字体：大中小】

ｉ　ｂｅａｍ　ｓｅａｒｃｈ　ｗｈｏｓｅ　ａｌｇｏｒｉｔｈｍ　ｃｏｍｐｌｅｘｉｔｙ　ｉｓ　ｌｉｎｅａｒ　ｗｉｔｈ　ｔｈｅ　ｌｅｎｇｔｈ　ｏｆ　ｔｈｅ　ａｃｏｕｓｔｉｃ　ｗａｖｅｓ．Ｄｅｓｐｉｔｅ　ｔｈｅ　ｗｉｄｅ　ａｄｏｐｔｉｏｎ，ｔｈｅ　ａｐｐｒｏａｃｈ　ｈａｓ　ｓｅｖｅｒａｌ　ｗｅａｋｎｅｓｓ．（１）Ｉｔ　ｉｓ　ａｎ　ｅｑｕａｌ　ｉｎｔｅｒｖａｌ　ｓｅａｒｃｈａｌｇｏｒｉｔｈｍ　ａｎｄ　ｉｎｅｆｆｉｃｉｅｎｔ　ｔｏ　ｄｅａｌ　ｗｉｔｈ　ｔｈｅ　ｖａｒｉａｂｌｅ　ｌｅｎｇｔｈ　ｉｎ　ｔｈｅ　ｆｅａｔｕｒｅ　ｓｅｑｕｅｎｃｅ．（２）Ａｓ　ｔｈｅｓｅｑｕｅｎｃｅ　ｉｓ　ｄｅｃｏｍｐｏｓｅｄ　ｔｏ　ｆｒａｍｅ　ｌｅｖｅｌ　ａｓ　ｔｈｅ　ｆｅａｔｕｒｅ　ｓｅｑｕｅｎｃｅ，ｔｈｅ　ｍｏｄｅｌ　ｇｒａｎｕｌａｒｉｔｙ　ｉｓ　ｓｍａｌｌ　ａｎｄｔｈｅ　ｓｅａｒｃｈ　ｓｐａｃｅ　ｉｓ　ｌａｒｇｅ，ｅ．ｇ．，Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ　ｓｔａｔｅｓ　ｏｆ　ｄｉｆｆｅｒｅｎｔ　ｈｉｓｔｏｒｉｅｓ．（３）Ｇｒｅｅｄｙｂｅａｍ　ｐｒｕｎｉｎｇ　ｉｓ　ｃｏｎｄｕｃｔｅｄ　ａｔ　ｅａｃｈ　ｆｒａｍｅ，ｗｈｉｃｈ　ｉｓ　ｕｓｕａｌｌｙ　ｈａｒｄ　ｔｏ　ｂａｌａｎｃｅ　ｓｅａｒｃｈ　ｅｆｆｉｃｉｅｎｃｙ　ａｎｄｓｅａｒｃｈ　ｅｒｒｏｒｓ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｂａｓｅｄ　ｏｎ　ｄｅｅｐ　ｌｅａｒｎｉｎｇ　ｂａｓｅｄ　ｃｏｎｆｕｓｉｏｎ　ｂｌａｎｋ　ｓｙｍｂｏｌ　ｍｏｄｅｌｉｎｇ，ｗｅｓｙｓｔｅｍａｔｉｃａｌｌｙ　ｐｒｏｐｏｓｅ　ｌａｂｅｌ　ｓｙｎｃｈｒｏｎｏｕｓ　ｄｅｃｏｄｉｎｇ（ＬＳＤ）ｔｏ　ｔｒａｎｓｆｏｒｍ　ｔｈｅ　ｓｅａｒｃｈ　ｐｒｏｃｅｓｓ　ｆｒｏｍｆｒａｍｅ　ｌｅｖｅｌ　ｔｏ　ｌａｂｅｌ　ｌｅｖｅｌ　ａｎｄ　ｏｂｔａｉｎ　ｓｉｇｎｉｆｉｃａｎｔ　ｓｐｅｅｄｕｐｓ．Ｗｅ　ｐｒｏｐｏｓｅ　ｔｏ　ｔｒａｎｓｆｏｒｍ　ｔｈｅ　ｓｅａｒｃｈｐｒｏｃｅｓｓ　ａｂｏｖｅ　ｆｒｏｍ　ｆｒａｍｅ　ｌｅｖｅｌ　ｔｏ　ｌａｂｅｌ　ｌｅｖｅｌ　ｗｈｏｓｅ　ｃｏｍｐｌｅｘｉｔｙ　ｉｓ　ｌｉｎｅａｒ　ｗｉｔｈ　ｔｈｅ　ｌｅｎｇｔｈ　ｏｆ　ｌｉｎｇｕｉｓｔｉｃｗｏｒｄｓ．Ｎａｍｅｌｙ，ｗｅ　ｕｔｉｌｉｚｅ　ｅｆｆｅｃｔｉｖｅ　ｂｌａｎｋ　ｓｔｒｕｃｔｕｒｅ　ａｎｄ　ａｐｐｌｙ　ｅｆｆｉｃｉｅｎｔ　ｐｏｓｔ－ｐｒｏｃｅｓｓｉｎｇ　ｏｆ　ｂｌａｎｋｄｕｒｉｎｇ　ｉｎｆｅｒｅｎｃｅ　ｂｅｆｏｒｅ　ｄｏｉｎｇ　Ｖｉｔｅｒｂｉ　ｓｅａｒｃｈ．Ｔｈｅ　ｐｏｓｔ－ｐｒｏｃｅｓｓｉｎｇ　ｉｓ　ａｐｐｌｉｅｄ　ｏｎ　ｔｈｅ　ｆｒａｍｅ　ｌｅｖｅｌａｃｏｕｓｔｉｃ　ｍｏｄｅｌ　ｏｕｔｐｕｔｓ：（１）Ｄｅｃｉｄｅ　ｗｈｅｔｈｅｒ　ｔｈｅｒｅ　ｉｓ　ａ　ｌａｂｅｌ　ｏｕｔｐｕｔ　ａｔ　ｔｈｅ　ｃｕｒｒｅｎｔ　ｆｒａｍｅ．（２）Ｉｆ　ｓｏ，ｃｏｎｄｕｃｔ　ｔｈｅ　ｓｅａｒｃｈ　ｐｒｏｃｅｓｓ．Ｉｆ　ｎｏｔ，ｄｉｓｃａｒｄ　ｔｈｅ　ｌａｂｅｌ　ｏｕｔｐｕｔ．Ｔｈｕｓ　ｔｈｅ　ｐｏｓｔ－ｐｒｏｃｅｓｓｉｎｇ　ｃａｎ　ｂｅｖｉｅｗｅｄ　ａｓ　ｔｈｅ　ａｐｐｒｏｘｉｍａｔｉｏｎ　ｏｆ　ｔｈｅ　ｐｒｏｂａｂｉｌｉｔｙ　ｃａｌｃｕｌａｔｉｏｎ　ｏｆ　ｅａｃｈ　ｏｕｔｐｕｔ　ｌａｂｅｌ．Ｔｈｅ　ａｄｖａｎｔａｇｅ　ｏｆｔｈｉｓ　ｍｅｔｈｏｄ　ｉｓ　ｔｈｅ　ｓｍａｌｌｅｒ　ｓｅａｒｃｈ　ｓｐａｃｅ　ｖｅｒｓｕｓ　ｔｈｅ　ｔｒａｄｉｔｉｏｎａｌ　ｍｅｔｈｏｄｓ．Ｔｈｅ　ｓｅａｒｃｈ　ｐｒｏｃｅｓｓ　ｃａｎ　ｂｅｇｒｅａｔｌｙ　ｓｐｅｅｄ　ｕｐ．Ｍｏｒｅｏｖｅｒ，ｔｈｅ　ｐｒｏｐｏｓｅｄ　ｆｒａｍｅｗｏｒｋ　ｃａｎ　ｂｅ　ａｐｐｌｉｅｄ　ｔｏ　ｂｏｔｈ　ｇｅｎｅｒａｔｉｖｅ　ａｎｄｄｉｓｃｒｉｍｉｎａｔｉｖｅ　ｓｅｑｕｅｎｃｅ　ｍｏｄｅｌｓ．Ｉｎ　ｃｏｎｔｒａｓｔ　ｔｏ　ｐｈｏｎｅ　ｓｙｎｃｈｒｏｎｏｕｓ　ｄｅｃｏｄｉｎｇ　ｗｅ　ｐｒｅｖｉｏｕｓｌｙ　ｐｒｏｐｏｓｅｄ，ｔｈｅ　ｍａｊｏｒ　ｃｏｎｔｒｉｂｕｔｉｏｎｓ　ａｒｅ：（１）Ｐｒｏｐｏｓｅ　ａ　ｇｅｎｅｒａｌ　ｄｅｃｏｄｉｎｇ　ｆｒａｍｅｗｏｒｋ　ａｎｄ　ｃｏｒｒｅｓｐｏｎｄｉｎｇａｌｇｏｒｉｔｈｍｓ　ｆｏｒ　ｓｅｑｕｅｎｃｅ　ｌａｂｅｌｉｎｇ　ｕｓｉｎｇ　ｖａｒｉｏｕｓ　ｓｅｑｕｅｎｃｅ　ｍｏｄｅｌｓ．（２）Ｒｏｌｅ　ｏｆ　ｂｌａｎｋ　ｉｓ　ｉｎｖｅｓｔｉｇａｔｅｄａｎｄ　ｔｈｅ　ｇｅｎｅｒａｌ　ｐｒｉｎｃｉｐｌｅ　ｔｏ　ｍａｋｅ　ｕｓｅ　ｏｆ　ｉｔ　ｉｎ　ａｃｃｅｌｅｒａｔｉｏｎ　ｉｓ　ｄｉｓｃｕｓｓｅｄ．Ｔｈｅ　ｐｒｏｐｏｓｅｄ　ｆｒａｍｅｗｏｒｋｃａｎ　ｂｅ　ｕｎｉｆｏｒｍｌｙ　ａｐｐｌｉｅｄ　ｉｎ　ｂｏｔｈ　Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ（ＨＭＭ）ａｎｄ　Ｃｏｎｎｅｃｔｉｏｎｉｓｔ　ＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ（ＣＴＣ）ｂａｓｅｄ　ａｃｏｕｓｔｉｃ　ｍｏｄｅｌｓ．Ｅｘｐｅｒｉｍｅｎｔｓ　ｉｎ　ｔｈｅ　ｓｗｉｔｃｈｂｏａｒｄ　ｃｏｒｐｕｓ　ｓｈｏｗ　２－４ｔｉｍｅｓ　ｓｐｅｅｄ－ｕｐｓ　ｆｏｒ　ａｌｌ　ａｂｏｖｅ　ｍｏｄｅｌｓ　ｗｉｔｈｏｕｔ　ｐｅｒｆｏｒｍａｎｃｅ　ｄｅｔｅｒｉｏｒａｔｉｏｎ．Ｓｙｓｔｅｍａｔｉｃ　ｉｎｖｅｓｔｉｇａｔｉｏｎｓｏｆ　ｔｈｅ　ｓｅａｒｃｈ　ｓｐａｃｅ，ｈｙｐｏｔｈｅｓｉｓ　ｐｒｕｎｉｎｇ，ｔｒａｎｓｉｔｉｏｎ　ｍｏｄｅｌ　ａｎｄ　ｆｒａｍｅ　ｒａｔｅ　ｒｅｄｕｃｔｉｏｎ　ｉｎ　ｔｈｅ　ｐｒｏｐｏｓｅｄｆｒａｍｅｗｏｒｋ　ａｒｅ　ｃｏｎｄｕｃｔｅｄ．Ｋｅｙｗｏｒｄｓ　ａｕｔｏｍａｔｉｃ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ；ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　ｍｏｄｅｌ；ｃｏｎｎｅｃｔｉｏｎｉｓｔ　ｔｅｍｐｏｒａｌ　ｃｌａｓｓｉｆｉｃａｔｉｏｎ；ｆｒａｍｅ　ｓｙｎｃｈｒｏｎｏｕｓ　ｄｅｃｏｄｉｎｇ；ｌａｂｅｌ　ｓｙｎｃｈｒｏｎｏｕｓ　ｄｅｃｏｄｉｎｇ；ｖａｒｉａｂｌｅ　ｆｒａｍｅ　ｒａｔｅ；ｈｙｐｏｔｈｅｓｉｓ　ｐｒｕｎｉｎｇ１　引　言序列标注问题是指一类将给定的数据序列转化为标签序列的任务［１］，如自动语音识别（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ，ＡＳＲ）和手写体识别等．区别于传统模式识别问题的是，序列标注任务中，给定样本的各数据点不符合独立同分布（ｉｎｄｅｐｅｎｄｅｎｔ　ａｎｄｉｄｅｎｔｉｃａｌｌｙ　ｄｉｓｔｒｉｂｕｔｅｄ，ｉ．ｉ．ｄ）假设．该类问题的一个显著特点在于，特征向量序列具有可变长性，如ＡＳＲ中，由说话人语速变化所导致的语音信号时长的不同．为了对上述时序特征进行建模，人们提出了序列模型．根据其建模过程，序列模型可以分为以下两类：（１）生成式序列模型（Ｇｅｎｅｒａｔｉｖｅ　Ｓｅｑｕｅｎｃｅ　Ｍｏｄｅｌｓ，ＧＳＭ），如隐马尔可夫模型（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ，ＨＭＭ）；（２）判别式序列模型（Ｄｉｓｃｒｉｍｉｎａｔｉｖｅ　ＳｅｑｕｅｎｃｅＭｏｄｅｌｓ，ＤＳＭ），如连接时序模型（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ，ＣＴＣ）等．对于ＧＳＭ，在序列鉴别性训练时，需要在序列层面使用贝叶斯定理，从条件似然度推导出序列后验概率；而ＤＳＭ则可以直接推导和优化序列后验概率．通常来说，出于以下原因，ＧＳＭ和ＤＳＭ被分解为帧层面的训练准则：（１）为了更加高效地发挥帧层面分类器的建模效果，如混合高斯模型（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅ　Ｍｏｄｅｌ，ＧＭＭ）［２］和深度神经网络（ＤｅｅｐＮｅｕｒａｌ　Ｎｅｔｗｏｒｋ，ＤＮＮ）［３］；（２）为了减轻模型的稀疏性，以及通过将简单模型分解为多个组分来增强模型的泛化能力，例如ＡＳＲ中将模型分解为声学模型、字典和语言模型等；（３）未经序列分解的模型需２１５１计　　算　　机　　学　　报２０１９年得到整个序列信息再进行后续处理，这将给解码过程造成严重的运行延时．本文提出的序列标注方法即是基于这样的模型［４－６］①．在推理阶段，为了找到与输入特征最为匹配的标签序列，搜索过程需要将声学模型，语言模型和字典等结合起来．这一过程是通过在每帧使用基于束剪枝的维特比算法来实现的［７］，称为帧同步解码（Ｆｒａｍｅ　Ｓｙｎｃｈｒｏｎｏｕｓ　Ｄｅｃｏｄｉｎｇ，ＦＳＤ）．在该框架中，我们将特征帧的数量和语句长度的比值定义为特征速率，将标签输出数量与语句长度的比值定义为标注速率，将解码的帧数与语句长度的比值定义为解码速率．那么，在帧同步解码中，上述三个速率均相等．帧同步解码虽然已被广泛使用，但仍存在一些缺点：（１）这是一个等间隔搜索算法，在处理可变长序列时较为低效；（２）由于序列被分解为帧来作为特征序列，模型的粒度变小，导致搜索空间很大．如ＡＳＲ中，词语历史、音素序列以及ＨＭＭ状态之间的关联性通常以加权有限状态机（Ｗｅｉｇｈｔｅｄ　Ｆｉｎｉｔｅ－Ｓｔａｔｅ　Ｔｒａｎｓｄｕｃｅｒ，ＷＦＳＴ）进行表示（通常称为ＨＣＬＧ［８］搜索空间）．由于由多个庞大知识源共同组成，因此组成该搜索空间的状态机最终将达到百亿条边；（３）在每帧进行贪心束剪枝通常很难兼顾搜索效率和搜索误差．近来，神经网络的发展使得更强的上下文和历史建模效果成为可能［９－１０］．同时，更多的标注数据也进一步缓解了模型的稀疏性和泛化问题．这些进展使得研究人员们有可能在更大的模型粒度上从帧到整个序列层面上［５，１１－１４］进行序列分解，如Ｓｏｌｔａｕ等人报道的一个基于单词粒度深度学习的声学模型［１２］，在１２５Ｋ小时标注数据上的表现优于较小粒度的模型．在这些研究中，标注速率小于特征速率，但解码速率仍然等于特征速率．本文提出将特征层面的搜索过程改变为标签层面，即搜索空间是由不同历史的标签组成的，使得解码速率等于标注速率，从而小于特征速率．具体来说，在标签推理阶段，对帧层面声学模型的输出增加一步后处理过程：（１）判断当前帧是否存在标签输出；（２）若有，执行搜索过程；若无，则丢弃标签输出．因此该后处理过程可被看作是每个输出标签概率计算的近似．与传统方法相比，该方法的优势是搜索空间更小，且搜索过程被大大加速．在之前的工作中，本文作者曾提出了音素同步解码［１５］，与之相比，本文的主要贡献和创新点是：（１）提出了一个可被用于不同序列模型中序列标注任务的通用解码框架和相应算法；（２）研究并讨论了ｂｌａｎｋ单元的作用以及在该加速框架中ｂｌａｎｋ的设计原则；（３）同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响，并在所有情况下取得一致性加速．本文第２节将首先对语音识别解码算法的研究现状进行简要介绍和分析，其中２．１节，作者将对序列标注问题进行简要综述，并对比两种序列模型———ＧＳＭ和ＤＳＭ；２．２节中将介绍传统逐帧同步解码的推理框架．接着，在第３节和第４节，本文将提出标签同步解码算法并对其应用进行介绍；第５节将给出实验和分析结果的描述；最后第６节为本文结论．２　语音识别解码算法研究现状分析２．１　序列标注与序列模型２．１．１　序列标注序列标注包括所有将数据特征序列转化为标签序列的任务［１］，本节以ＡＳＲ为例进行简要介绍．在训练阶段，一组带有已知标签的输入特征被提供给系统进行模型构建；而测试阶段则基于特征序列和其他知识源，如语言模型和字典，进行模型推理．序列标注问题与传统模式识别的区别在于以下两个方面：（１）序列内数据的相关性．无论是特征序列，还是标签序列，序列中各数据点均不符合独立同分布（ｉ．ｉ．ｄ．）假设．ＡＳＲ中，特征序列是由声道的连续运动而产生的．而标签序列则受到句法和语法规则、字典以及语言模型的约束．因此，特征和标签均为强相关序列．（２）标签与特征序列之间的相关性．ＡＳＲ中，特征和标签之间的对齐方式是未知的，标签序列总是短于特征序列，即其主要问题在于由语速变化等导致的特征序列的可变长性．这就要求序列模型能够同时确定输出标签的位置和内容．２．１．２　序列模型：ＧＳＭ与ＤＳＭ为了对上述序列相关性这一特征进行建模，人们提出了序列模型．根据其建模过程，序列模型可被分为生成式序列模型（ＧＳＭ）和判别式序列模型（ＤＳＭ）．７期陈哲怀等：标签同步解码算法及其在语音识别中的应用３１５１①最近提出的编码器－解码器模型（ｅｎｃｏｄｅｒ－ｄｅｃｏｄｅｒ）［４－５］则是直接在序列层面进行处理，而不进行序列分解，因此不在本文讨论之列．本文的一些初步扩展工作可参见文献［６］．序列模型是通过计算给定标签序列时特征序列的概率ｐ（ｘ｜ｌ）来定义的．该模型通过贝叶斯方法引入人类发声物理过程的先验知识，来提供时序和长度约束．ＨＭＭ因其作为生成式序列模型来表征人类语音声学特征的能力，而成为ＡＳＲ的流行建模方法．在神经网络－隐马尔可夫模型（ＮｅｕｒａｌＮｅｔｗｏｒｋ－Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ，ＮＮ－ＨＭＭ）混合系统中，ＨＭＭｓ用来对语音信号的动态变化进行建模，而观测概率则通过神经网络来进行估计．　ｐ（ｘ｜ｌ）＝∑π∈A （ｌ）ｐ（ｘ｜π）＝∑π∏Ｔｔ＝１ｐ（ｘ｜πｔ）Ｐ（πｔ｜πｔ－１）＝∑π∏Ｔｔ＝１ｐ（πｔ｜ｘ）Ｐ（πｔ｜πｔ－１）Ｐ（πｔ）ｐ（ｘ）∑π∏Ｔｔ＝１ｐ（πｔ｜ｘ）Ｐ（πｔ｜πｔ－１）Ｐ（πｔ）（１）其中ｌ是生成式序列模型的标签序列，如上下文相关（Ｃｏｎｔｅｘｔ　Ｄｅｐｅｎｄｅｎｔ，ＣＤ）的音素序列．π 是ＨＭＭ状态序列，πｔ是第ｔ帧对应的ＨＭＭ状态，π（ｌ）ｓ是指第ｌ个ＨＭＭ模型的第ｓ个ＨＭＭ状态．Ｐ（πｔ｜πｔ－１）是ＨＭＭ状态转移概率，Ｐ（πｔ）是πｔ的状态先验概率．A 是指从标签序列ｌ到其相应ＨＭＭ状态序列π 的映射函数，如下所示．A ：Ｌ｛π（１）１，…，π（１）５，…，π（｜Ｌ｜）５｝（２）Ｌ是标签序列ｌ的各个单元的集合．其中每个标签序列单元对应一个ＨＭＭ模型，而每个ＨＭＭ模型对应五个ＨＭＭ状态，如图１（ａ）中所示．状态后验概率ｐ（πｔ｜ｘ）可通过神经网络进行估计得出．而判别式序列模型则是直接计算给定特征序列ｘ时输出标签序列ｌ的后验概率ｐ（ｌ｜ｘ）．其中，连接时序模型（ＣＴＣ）用于解决未分割序列数据的标注问题，它通过引入ｂｌａｎｋ标签单元，实现对输入序列任意一点的一对一输出标签预测．ｐ（ｌ｜ｘ）＝∑π∈B （ｌ）ｐ（π｜ｘ）＝∑π∏Ｔｔ＝１ｐ（πｔ｜ｘ）（３）其中B 为如下所定义的一对多映射：B ：Ｌ　Ｌ∪｛ｂｌａｎｋ｝（４）B 决定了标签序列ｌ以及ｌ对应的模型单元序列π 的集合．如图１（ｂ）所示，通过在序列ｌ的每个标签单元ｌ之间插入一个可选的自循环ｂｌａｎｋ单元进行映射．ｐ（πｔ｜ｘ）则可使用以特征序列ｘ为输入的循环神经网络（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ，ＲＮＮ）或长短时记忆神经网络（Ｌｏｎｇ　Ｓｈｏｒｔ　Ｔｅｒｍ　Ｍｅｍｏｒｙ，ＬＳＴＭ）［１６］等估计得到．图１　ＨＭＭ、ＣＴＣ和本文提出的方法中隐藏状态的拓扑结构示意图（在后三种结构中，其名称中Ｂ指ｂｌａｎｋＨＭＭ状态，Ｐ指标签输出ＨＭＭ状态．每个大圆圈代表一个由神经网络建模发射概率的ＨＭＭ状态．其中，点划线圆圈表示输出标签建模，每个均分配一个特定的模型单元，如（ｂ）ＣＴＣ中的ｌ．虚线圆圈表示ｂｌａｎｋ建模，但它们并不完全相同，如（ｂ）ＣＴＣ中的〈ｂ〉是使用公共的ｂｌａｎｋ建模；但（ｃ）中的ｑ２，每个输出标签有独立的ｂｌａｎｋ建模，本文５．２节（３）中详细比较了不同ｂｌａｎｋ的粒度和拓扑结构所带来的区别．其他实线小圆圈，如（ｃ）中ｑ０、ｑ３，（ｄ）中ｑ０、ｑ３，（ｅ）中ｑ０、ｑ４，代表非发射状态．自循环状态转移表示该状态接受当前状态的重复输出．本文５．２节（３）中对这些拓扑结构进行了详细比较）通常，如本文引言中所述，为了有效利用帧级分类器如ＧＭＭ［２］和神经网络［３］的建模效果，减轻建模的稀疏性和增强泛化能力，避免未经分解的模型因处理整个序列而导致的运行延时等问题，ＧＳＭ和ＤＳＭ都被分解为帧层面上的训练，本文接下来便对传统的帧同步解码进行介绍．２．２　帧同步解码在模型推理阶段，为了找到与输入特征最为匹配的标签序列，搜索过程需要将前述序列模型与其它知识源，即字典、语言模型等融合起来．即解码标签序列是由前述各分解序列所共同决定的．该搜索过程是通过在每帧上使用基于束剪枝的维特比算法进行的［７］，即帧同步解码（ＦＳＤ）．ＦＳＤ框架中，解码速率等于标注速率，标注速率等于特征速率．２．２．１　公式推导在大词汇量连续语音识别（Ｌａｒｇｅ　Ｖｏｃａｂｕｌａｒｙ４１５１计　　算　　机　　学　　报２０１９年期：２０１８－０９－１６；在线出版日期：２０１９－０３－２１．本课题得到国家重点研发计划“智能机器人”重点专项（２０１７ＹＦＢ１３０２４００）、国家自然科学基金项目（Ｕ１７３６２０２）、江苏省基础研究计划（ＢＥ２０１６０７８）资助．陈哲怀，博士研究生，主要研究方向为语音识别、语音合成和深度学习等．Ｅ－ｍａｉｌ：ｃｈｅｎｚｈｅｈｕａｉ＠ｓｊｔｕ．ｅｄｕ．ｃｎ．郑文露，博士，研究助理，主要研究方向为语音识别．游永彬，硕士，研究助理，主要研究方向为语音识别．钱彦旻（通信作者），博士，副教授，中国计算机学会（ＣＣＦ）会员，主要研究方向为语音识别、语音理解及机器学习等．Ｅ－ｍａｉｌ：ｙａｎｍｉｎｑｉａｎ＠ｓｊｔｕ．ｅｄｕ．ｃｎ．俞　凯（通信作者），博士，教授，中国计算机学会（ＣＣＦ）会员，主要研究领域为认知型对话系统、语音合成、识别、理解及机器学习等．Ｅ－ｍａｉｌ：ｋａｉ．ｙｕ＠ｓｊｔｕ．ｅｄｕ．ｃｎ．标签同步解码算法及其在语音识别中的应用陈哲怀１），２）　郑文露３）　游永彬４）　钱彦旻１），２）　俞　凯１），２）１）（上海交通大学智能交互与认知工程上海高校重点实验室　上海　２００２４０）２）（上海交通大学计算机科学与工程系智能语音实验室　上海　２００２４０）３）（上海交通大学苏州人工智能研究院　江苏苏州　２１５０００）４）（苏州思必驰信息科技有限公司　江苏苏州　２１５０００）摘　要　自动语音识别（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ，ＡＳＲ）等序列标注任务的一个显著特点是其对相邻帧的时序序列关联性建模．用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ，ＨＭＭ）和连接时序模型（Ｃｏｎｎｅｃｔｉｏｎｉｓｔ　Ｔｅｍｐｏｒａｌ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ，ＣＴＣ）．针对这些模型，当前主流的推理方法是帧层面的维特比束搜索算法，该算法复杂度很高，限制了语音识别的广泛应用．深度学习的发展使得更强的上下文和历史建模成为可能．通过引入ｂｌａｎｋ单元，端到端建模系统能够直接预测标签在给定特征下的后验概率．该文系统地提出了一系列方法，通过使用高效的ｂｌａｎｋ结构和后处理方法，使得搜索解码过程从逐帧同步变为标签同步．该系列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证．结果表明，在Ｓｗｉｔｃｈｂｏａｒｄ数据集上，不损失性能的前提下，实验取得了２～４倍的加速．该文同时研究了搜索空间、候选序列剪枝、转移模型、降帧率等对加速比的影响，并在所有情况下取得一致性加速．关键词　自动语音识别；隐马尔可夫模型；连接时序模型；逐帧同步解码；标签同步解码；可变帧率；剪枝中图法分类号ＴＰ１８　　　ＤＯＩ号１０．１１８９７／ＳＰ．Ｊ．１０１６．２０１９．０１５１１Ｌａｂｅｌ　Ｓｙｎｃｈｒｏｎｏｕｓ　Ｄｅｃｏｄｉｎｇ　ｆｏｒ　Ｓｐｅｅｃｈ　ＲｅｃｏｇｎｉｔｉｏｎＣＨＥＮ　Ｚｈｅ－Ｈｕａｉ　１），２）　ＺＨＥＮＧ　Ｗｅｎ－Ｌｕ３）　ＹＯＵ　Ｙｏｎｇ－Ｂｉｎ４）　ＱＩＡＮ　Ｙａｎ－Ｍｉｎ１），２）　ＹＵ　Ｋａｉ　１），２）１）（Ｋｅｙ　Ｌａｂｏｒａｔｏｒｙ　ｏｆ　Ｓｈａｎｇｈａｉ　Ｅｄｕｃａｔｉｏｎ　Ｃｏｍｍｉｓｓｉｏｎ　ｆｏｒ　Ｉｎｔｅｌｌｉｇｅｎｔ　Ｉｎｔｅｒａｃｔｉｏｎ　ａｎｄ　Ｃｏｇｎｉｔｉｖｅ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｓｈａｎｇｈａｉ　２００２４０）２）（ＳｐｅｅｃｈＬａｂ，Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｓｈａｎｇｈａｉ　Ｊｉａｏ　Ｔｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ　２００２４０）３）（Ｓｕｚｈｏｕ　Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ａｒｔｉｆｉｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，Ｓｈａｎｇｈａｉ　Ｊｉａｏ　Ｔｏｎｇ　Ｕｎｉｖｅｒｓｉｔｙ，Ｓｕｚｈｏｕ，Ｊｉａｎｇｓｕ　２１５０００）４）（ＡＩＳｐｅｅｃｈ　Ｌｔｄ．，Ｓｕｚｈｏｕ，Ｊｉａｎｇｓｕ　２１５０００）Ａｂｓｔｒａｃｔ　Ａ　ｕｎｉｑｕｅ　ｐｈｅｎｏｍｅｎｏｎ　ｉｎ　ｈｕｍａｎ　ｓｐｅｅｃｈ　ｉｓ　ｔｈｅ　ｖａｒｉａｂｌｅ　ｌｅｎｇｔｈｓ　ｉｎ　ａｃｏｕｓｔｉｃ　ｗａｖｅｓ　ａｎｄｌｉｎｇｕｉｓｔｉｃ　ｗｏｒｄｓ．Ｈｅｎｃｅ　ａｕｔｏｍａｔｉｃ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ（ＡＳＲ）ｒｅｑｕｉｒｅｓ　ｂｏｔｈ　ｐａｔｔｅｒｎ　ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄ　ｓｔａｔｅ　ａｌｉｇｎｍｅｎｔ　ｍｏｄｅｌｉｎｇ　ｂｅｔｗｅｅｎ　ｉｎｐｕｔ　ａｎｄ　ｏｕｔｐｕｔ　ｓｅｑｕｅｎｃｅｓ，ｃａｌｌｅｄ　ｓｅｑｕｅｎｃｅ　ｐｒｅｄｉｃｔｉｏｎｐｒｏｂｌｅｍ．Ｉｎ　ｔｈｅ　ｉｎｆｅｒｅｎｃｅ　ｓｔａｇｅ，ａ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｚｅｒ　ｉｓ　ｔｏ　ｆｉｎｄ　ａ　ｓｅｑｕｅｎｃｅ　ｏｆ　ｌａｂｅｌｓ　ｗｈｏｓｅｃｏｒｒｅｓｐｏｎｄｉｎｇ　ａｃｏｕｓｔｉｃ　ａｎｄ　ｌａｎｇｕａｇｅ　ｍｏｄｅｌｓ　ｂｅｓｔ　ｍａｔｃｈ　ｔｈｅ　ｉｎｐｕｔ　ｆｅａｔｕｒｅ，ｃａｌｌｅｄ　ｄｅｃｏｄｉｎｇ，ｗｈｉｃｈｄｅｔｅｒｍｉｎｅｓ　ｔｈｅ　ｒｅｃｏｇｎｉｔｉｏｎ　ｓｐｅｅｄ　ａｎｄ　ｐｒｅｃｉｓｉｏｎ　ｉｎ　ｒｅａｌ　ａｐｐｌｉｃａｔｉｏｎ．Ｔｈｅ　ｍｏｓｔ　ｒｅｃｅｎｔ　ｍｉｌｅｓｔｏｎｅ　ｏｆＡＳＲ　ｉｓ　ｔｈｅ　ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　ｄｅｅｐ　ｎｅｕｒａｌ　ｎｅｔｗｏｒｋｓ（ＤＮＮ）ｉｎ　ａｃｏｕｓｔｉｃ　ａｎｄ　ｌａｎｇｕａｇｅ　ｍｏｄｅｌｉｎｇ．Ｈｏｗｅｖｅｒ，ｔｈｏｓｅ　ｓｕｃｃｅｓｓｆｕｌ　ａｐｐｌｉｃａｔｉｏｎｓ　ａｒｅ　ｓｔｉｌｌ　ｂａｓｅｄ　ｏｎ　ｔｈｅ　ｔｒａｄｉｔｉｏｎａｌ　ｆｏｒｍｕｌａｔｉｏｎ　ｏｆ　ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ　ａｎｄ　ｔｈｅ　ｉｎｆｅｒｅｎｃｅ　ｓｔａｇｅ　ｉｓ　ｕｎｃｈａｎｇｅｄ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｗｅ　ａｉｍ　ｔｏ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｄｅｃｏｄｉｎｇａｌｇｏｒｉｔｈｍ　ｉｎ　ｔｈｅ　ｉｎｆｅｒｅｎｃｅ　ｓｔａｇｅ．Ｔｈｅ　ｄｏｍｉｎａｎｔ　ｄｅｃｏｄｉｎｇ　ｍｅｔｈｏｄ　ｎｏｗａｄａｙｓ　ｉｓ　ｆｒａｍｅ　ｓｙｎｃｈｒｏｎｏｕｓｏｎａｌ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ，ＬＶＣＳＲ）中，解码算法的目标是找到最佳的词序列．通过应用字典和语言模型将词序列映射到标签序列，解码公式可推导如下：ｗ＊＝ａｒｇ　ｍａｘｗ｛Ｐ（ｗ）ｐ（ｘ｜ｗ）｝＝ａｒｇ　ｍａｘｗ｛Ｐ（ｗ）ｐ（ｘ｜ｌｗ）｝（５）其中，ｗ是词序列，ｗ＊是最佳词序列．ｌｗ表示ｗ通过映射得到的标签序列，如ＮＮ－ＨＭＭ系统中的上下文相关音素．以ＣＴＣ为例：ｗ＊＝ａｒｇ　ｍａｘｗＰ（ｌｗ｜ｘ）Ｐ（ｗ）Ｐ（ｌｗ｛｝）（６）＝ａｒｇ　ｍａｘｗＰ（ｗ）ｍａｘｌｗＰ（ｌｗ｜ｘ）Ｐ（ｌｗ｛｝）（７）这里以单音素的ＣＴＣ为例（ＣＴＣ标签集合包括音素标签和ｂｌａｎｋ符号）．Ｐ（ｌｗ）是音素序列的先验概率．对于某个特定的ＣＴＣ标签序列，其前向概率可定义并近似为［１７］Ｐ（ｌ｜ｘ）＝∑π∈B （ｌ）∏Ｔｔ＝１ｙｔπｔ ｍａｘπ∈B （ｌ）∏Ｔｔ＝１ｙｔπｔ（８）其中，B 的定义见式（４）．因此，式（７）可进一步被推导为如下的帧同步维特比束搜索（ｆｒａｍｅ　ｓｙｎｃｈｒｏｎｏｕｓ　Ｖｉｔｅｒｂｉ　ｂｅａｍ　ｓｅａｒｃｈ）．这里，整体优化搜索空间———ＷＦＳＴ，在每一帧都需要被遍历．ｗ＊ａｒｇ　ｍａｘｗＰ（ｗ）ｍａｘπ∈B （ｌ）１Ｐ（ｌｗ）∏Ｔｔ＝１ｙｔπ｛｝ｔ（９）２．２．２　解码复杂度分析在ＦＳＤ框架中，特征速率定义为特征帧的数量除以语句的长度，标注速率定义为标签输出数量除以语句的长度，而解码速率定义为ＷＦＳＴ解码的帧数除以语句的长度．在帧同步解码框架中，这三个速率均相等．也就是说，∏Ｔｔ＝１ｙｔπｔ与帧ｔ有关，而最大迭代次数则与序列可能的对齐方式和词汇量的大小有关．因此，解码复杂度 C 可表示为C∝Ｔ· Ｌ′ · Ｗ（１０）其中Ｔ是语句中帧的数量，Ｌ′ 是模型单元的集合，Ｗ为词汇量．尽管被广泛使用，ＦＳＤ方法仍有一些缺点：（１）它是一个等间隔搜索算法，处理变长特征序列较为低效；（２）当序列被分解为帧层面作为特征序列时，模型粒度较小，导致搜索空间很大；（３）在每帧均进行贪心束剪枝，很难平衡搜索效率和搜索误差．因此，本文通过将特征层面的搜索过程改变为标签层面，提出了基于端到端建模的标签同步推理方法，接下来本文将对该框架及其应用进行详细介绍．３　基于端到端建模的标签同步推理本部分，作者提出将搜索过程从特征层面改为标签层面，称为标签同步解码（Ｌａｂｅｌ　ＳｙｎｃｈｒｏｎｏｕｓＤｅｃｏｄｉｎｇ，ＬＳＤ）．接下来该部分将分别对ＤＳＭ和ＧＳＭ中的ＬＳＤ进行公式推导，具体实现方案及一些解码加速的经验方案将在下一节中进行讨论．在测试阶段，根据上文式（５）给出的ＡＳＲ解码，下面分别对ＤＳＭ和ＧＳＭ中的ＬＳＤ给出公式推导过程．３．１　ＤＳＭ的标签同步解码在基于音素的ＣＴＣ模型中，从式（５）可以推导出式（７）．而根据ＣＴＣ中输出标签之间的条件独立性假设，Ｐ（ｌ｜ｘ）可以如下获得：Ｐ（ｌ｜ｘ）＝∏ｌ∈ｌＰ（ｌ｜ｘ）（１１）因此在标签级别上，维特比搜索如下所示：ｗ＊＝ａｒｇ　ｍａｘｗＰ（ｗ）ｍａｘｌｗ∏ｌ∈ｌｗＰ（ｌ｜ｘ）Ｐ（ｌｗ烅烄烆烍烌烎）（１２）在Ｐ（ｌ｜ｘ）的计算中，本文提出在帧级神经网络的输出上进行一步后处理．其中公共ｂｌａｎｋ帧的集合定义如下：Ｕ＝｛ｕ：ｙｕｂｌａｎｋ＞T ｝（１３）其中ｙｕｂｌａｎｋ是神经网络在第ｕ帧输出ｂｌａｎｋ单元的概率．在ＣＴＣ模型中的ｓｏｆｔｍａｘ层，如果ｂｌａｎｋ单元的声学得分足够大且接近常数１，则可以认为所有竞争路径共享相同跨度的ｂｌａｎｋ帧．因此，忽略这些帧的分数并不会影响解码中的声学得分排序．Ｐ（ｌ｜ｘ）＝∑π∈B （ｌ）∏πＰ（π｜ｘ）∑π∈B （ｌ）∏π∈Ｕｙｕｂｌ∏πＵｙｕｐｌ（１４）由于∏π∈Ｕｙｕｂｌ１，式（１４）可被推导为式（１５）：Ｐ（ｌ｜ｘ）∑π∈B （ｌ）∏πＵｙｕｐｌ（１５）３．２　ＧＳＭ的标签同步解码在ＧＳＭ中，相邻ＨＭＭ之间的输出标签也是条件独立的：Ｐ（ｘ｜ｌ）＝∏ｌＰ（ｘ｜ｌ）（１６）类似地，在标签级别上进行的维特比搜索如下所示．ｗ＊＝ａｒｇ　ｍａｘｗＰ（ｗ）ｍａｘｌｗ∏ｌ∈ｌｗＰ（ｘ｜ｌ｛）｝（１７）７期陈哲怀等：标签同步解码算法及其在语音识别中的应用５１５１中，Ｐ（ｘ｜ｌ）的计算如下所示：Ｐ（ｘ｜ｌ）＝∑π：π∈Ｌ′，A （π１：Ｔ）＝ｌ∏Ｔｔ＝１Ｐ（ｘ｜πｔ）Ｐ（πｔ｜πｔ－１）＝∑π：π∈Ｌ′，A （π１：Ｔ）＝ｌ∏Ｔｔ＝１Ｐ（πｔ｜ｘ）Ｐ（ｘ）Ｐ（πｔ｜πｔ－１）Ｐ（πｔ）∑π：π∈Ｌ′，A （π１：Ｔ）＝ｌ∏Ｔｔ＝１Ｐ（πｔ｜ｘ）Ｐ（πｔ｜πｔ－１）Ｐ（πｔ）（１８）最近，研究人员们提出了一些新的ＨＭＭ拓扑结构［１８－１９］，它们具有与式（４）中ＣＴＣ的B 函数类似的一对多映射．以文献［１８］为例，每个ＣＤ音素由两个状态建模，如图１（ｃ）所示，且转移概率设置为常数值０．５，因此在式（１８）中可被省略．具体来说，其中一个状态模拟ｂｌａｎｋ建模，如图１（ｂ）中的〈ｂ〉，另外一个状态则模拟输出标签单元，如图中的ｌ．不同之处在于文献［１８］中的每个ＣＤ音素都保留了自己的ｂｌａｎｋ版本．因此ＨＭＭ中的状态由标签输出状态或者与ＣＴＣ类似的ｂｌａｎｋ状态组成．虽然在我们的实验中，这些模型的输出分布比ＣＴＣ中的更平滑，但ＤＳＭ中提出的式（１３）和（１４）可以被扩展到ＧＳＭ．这里，本文提出对神经网络的输出Ｐ（πｔ｜ｘ）进行后处理，其中πｔ是帧ｔ的推理模型单元．由于这些模型中的模拟ｂｌａｎｋ状态，式（１７）中的维特比束搜索不必包括候选标签输出序列的所有帧．因此，给出某一帧的模型推理分布时，是否从维特比搜索中排除某帧的判决如下：Ｕ＝ｕ：∑ｌ∈Ｌ（ｙｕｂｌ－ｙｕｐｌ）＞T｛　｝（１９）其中ｙｕｐｌ是帧ｕ处标签输出状态ｌ的神经网络输出，ｙｕｂｌ是对应的ｂｌａｎｋ状态的输出．在第ｕ帧是否有标签输出，是由所有ｂｌａｎｋ状态与标签输出状态的概率差异的总和决定的．T 是在开发集中得到的阈值．因此，Ｐ（ｘ｜ｌ）的计算可以根据 π∈Ｕ与否分为如下两部分：Ｐ（ｘ｜ｌ）∑π：π∈Ｌ′，A （π１：Ｔ）＝ｌ∏πＵｙｕｂｌＰ（ｂｌ｜ｘ）Ｐ（ｂｌ）∏π∈ＵｙｕｐｌＰ（ｐｌ｜ｘ）Ｐ（ｐｌ烅烄烆烍烌烎）（２０）公式中第一部分是标签输出状态．这种情况下，每个标签输出均在ＷＦＳＴ中进行维特比搜索．另外一部分为ｂｌａｎｋ，假设没有标签输出．但不同于ＣＴＣ，不同标签输出保留自己的ｂｌａｎｋ状态版本．即使是ｂｌａｎｋ帧，也可能包含不同的输出标签信息．因此，∏πＵｙｕｂｌＰ（ｂｌ｜ｘ）Ｐ（ｂｌ）的分数不能被丢弃．本文４．２节将提出一种高效的算法对这一项进行计算．这里所提出的后处理可以被视为输出标签概率Ｐ（π｜ｘ）的近似，从而使得维特比束搜索得以在标签级别上进行．３．３　ＦＳＤ和ＬＳＤ的对比本文提出将特征层面的搜索过程改变为标签层面，即搜索空间是由不同历史的标签组成的，使得解码速率等于标注速率，从而小于特征速率．具体来说，本文所提出的ＬＳＤ的解码复杂度如下：C∝（Ｔ－Ｕ）· Ｌ′ · Ｗ（２１）其中空白帧的数量Ｕ总是接近于Ｔ．对比式（１０）和式（２１），可以发现ＦＳＤ得到了很大的加速．ＦＳＤ和ＬＳＤ的主要区别总结如下：（１）不同的信息率．在ＦＳＤ中，声学信息和语言信息均在每帧进行处理，使得二者的处理速率和声学特征的帧率相同．而在ＬＳＤ中，声学信息是以声学特征的帧率进行处理的，而语言信息则按声学模型推理的标注速率进行处理．声学信息和语言信息处理的不同速率去除了大量的搜索冗余．（２）可调整的搜索间隔．在ＦＳＤ框架下，ＷＦＳＴ网络是以等间隔方式遍历的（虽然带有跳帧的深度神经网络在解码［２０］时是以更长的间隔遍历语言搜索空间，但其间隔仍然是相等的）．而在ＬＳＤ中，搜索间隔可通过灵活的自我调整（在不造成性能下降的前提下）来去除ｂｌａｎｋ帧带来的语言搜索空间搜索冗余，大大提升了解码效率．４　标签同步解码算法及其应用４．１　模　型本文将图１（ｄ）～（ｅ）所示的几种改进的ＨＭＭ拓扑结构应用在了ＧＳＭ中．具体来说，在图１（ｃ）中，每个ＣＤ音素都有独立的ｂｌａｎｋ状态，称为ＣＤ音素ｂｌａｎｋ（ＣＤ　ｐｈｏｎｅ　ｂｌａｎｋ）．为减少模型单元的数量并进一步加快算法速度，将中心音素相同的ｂｌａｎｋ状态绑定在一起，称为音素级ｂｌａｎｋ（ｐｈｏｎｅｂｌａｎｋ）；最后如果绑定所有的ｂｌａｎｋ状态则称作全局ｂｌａｎｋ（ｇｌｏｂａｌ　ｂｌａｎｋ）．此外，鉴于标签延迟带来的性能改进［１１］，图１（ｄ）中提出ＨＭＭ－ＰＢ模型的延迟标签变种，即ＨＭＭ－ＢＰ．也就是说，模型在确定性标签输出之前输出混淆输出ｂｌａｎｋ．另外，作为对ＣＴＣ的完整模拟，图１（ｅ）中提出了ＨＭＭ－ＢＰＢ，允许在标签输出前后都存在ｂｌａｎｋ．我们的初步实验结果表明，这两种类型的ｂｌａｎｋ展现出了不同的功能．因此没有将它们绑定在一起．而输出标签单元后面的６１５１计　　算　　机　　学　　报２０１９年所有ｂｌａｎｋ则都被绑定在了一起，以减少所需的模型单元数量．４．２　算　法ＤＳＭ的标签同步解码算法如算法１所示．Ｓ和Ｅ是预编译的ＷＦＳＴ网络的起始和结束节点．Ｑ指有效令牌，Ｂ＾指解码路径，Ｔ是总帧数．ＮＮＰｒｏｐａｇａｔｅ（ｔ）是每帧的声学模型推理过程．ｉｓＢｌａｎｋＦｒａｍｅ（Ｆ）用于检测每帧是否为ｂｌａｎｋ．ＶｉｔｅｒｂｉＢｅａｍＳｅａｒｃｈ（Ｆ，Ｑ）是ＦＳＤ中的标准维特比搜索算法，但在ＬＳＤ中仅在标签级别执行．ｆｉｎａＴｒａｎｓｉｔｉｏｎ（Ｅ，Ｓ，Ｑ）用于搜索ＷＦＳＴ的终止节点［２１］．算法１．　ＤＳＭ的标签同步维特比束搜索算法．输入：起始节点，结束节点，令牌队列，时间帧输出：识别结果１．ＰＲＯＣＥＤＵＲＥ　ＬＳＤ　ｆｏｒ　ＤＳＭ（Ｓ，Ｅ，Ｑ，Ｔ）２．Ｑ←Ｓ／＊起始节点初始化＊／３．ＦＯＲ　ｅａｃｈ　ｔ∈ ［１，Ｔ］ＤＯ／＊逐帧神经网络前向传播＊／４．　Ｆ←ＮＮＰｒｏｐａｇａｔｅ（ｔ）５．　ＩＦ！ｉｓＢｌａｎｋＦｒａｍｅ（Ｆ）ＴＨＥＮ／＊逐音素解码＊／６．　　Ｑ←ＶｉｔｅｒｂｉＢｅａｍＳｅａｒｃｈ（Ｆ，Ｑ）７．Ｂ＾←ｆｉｎａｌＴｒａｎｓｉｔｉｏｎ（Ｅ，Ｓ，Ｑ）／＊到达结束节点＊／８．ｂａｃｋｔｒａｃｅ（Ｂ＾）用于ＧＳＭ的标签同步解码算法如算法２所示．与算法１相比，在每个ｂｌａｎｋ帧中，输出序列可以包含不同的ｂｌａｎｋ单元．因此对相邻的ｂｌａｎｋ帧计算∏πＵｙｕｂｌＰ（ｂｌ｜ｘ）Ｐ（ｂｌ｜ｘ）．在非ｂｌａｎｋ帧中，首先将各个ｂｌａｎｋ单元各自累积得到的概率得分分别添加到当前帧的所有候选序列分数中，之后再进行维特比搜索算法．算法２．　ＧＳＭ的标签同步维特比束搜索算法．输入：起始节点，结束节点，令牌队列，时间帧输出：识别结果１．ＰＲＯＣＥＤＵＲＥ　ＬＳＤ　ｆｏｒ　ＧＳＭ（Ｓ，Ｅ，Ｑ，Ｔ）２．Ｑ←Ｓ／＊起始节点初始化＊／３．ＦＯＲ　ｅａｃｈ　ｔ∈［１，Ｔ］ＤＯ／＊逐帧神经网络前向传播＊／４．　Ｆ←ＮＮＰｒｏｐａｇａｔｅ（ｔ）５．　ＩＦ！ｉｓＢｌａｎｋＦｒａｍｅ（Ｆ）ＴＨＥＮ／＊逐音素解码＊／６．　　Ｆ←ａｄｄＡｃｃｕｍｕｌａｔｅｄＢｌａｎｋＳｃｏｒｅ（Ｖ，Ｆ）７．　　ｒｅｓｅｔ（Ｖ）８．　　Ｑ←ＶｉｔｅｒｂｉＢｅａｍＳｅａｒｃｈ（Ｆ，Ｑ）９．　ＥＬＳＥ／＊积累ｂｌａｎｋ得分＊／１０．　　Ｖ ←ａｃｃｕｍｕｌａｔｅＢｌａｎｋＳｃｏｒｅ（Ｖ，Ｆ）１１．Ｂ＾←ｆｉｎａｌＴｒａｎｓｉｔｉｏｎ（Ｅ，Ｓ，Ｑ）／＊到达结束节点＊／１２．ｂａｃｋｔｒａｃｅ（Ｂ＾）４．３　剪　枝在维特比搜索中，本文除了使用传统的束剪枝算法［７］和直方图剪枝算法［２２］（自适应束剪枝［２３］）之外，提出了另外两种剪枝方法．在ＬＳＤ中，ｂｌａｎｋ帧占总帧数的百分比与加速比成正比，而ｂｌａｎｋ帧可通过式（１３）和（１９）进行判定．作为束剪枝算法的变体，这里提出了基于ｂｌａｎｋ帧阈值T 的剪枝算法，称为ｂｌａｎｋ剪枝．当阈值T 固定时，推理分布的尖峰属性决定了加速比，而尖峰属性显示了神经网络输出分布的置信度．在神经网络的模型训练阶段，本文又提出了基于假设剪枝的熵剪枝算法．在文献［２４］中，作者通过惩罚确定的输出分布来防止过拟合和提高神经网络的泛化能力．受这项工作的启发，我们在ＬＳＤ框架中对输出分布的熵进行了控制，作为候选序列的剪枝方法．具体来说，在模型训练中将输出分布的熵添加到负对数似然 L （θ）中，公式如下：L （θ）＝－（ｐθ（π｜ｘ）－βＨ（ｐθ（π｜ｘ）））（２２）其中Ｈ（·）是输出分布（ｐθ（π｜ｘ）的熵，β是正比例因子．与文献［２４］不同的是，基于熵剪枝算法的训练目的是最小化模型的原有训练准则以及输出分布的熵．而通常情况下，基于熵剪枝算法是基于一个已经训练好的模型对参数进行微调．在使用新的准则训练之后，ＬＳＤ框架可在少量性能损失的情况下得以加速．在接下来的实验部分，本文将详细比较这四种剪枝方法．５　实验及分析本文实验使用３００小时的英语Ｓｗｉｔｃｈｂｏａｒｄ数据集作为训练数据［２５］，使用ＮＩＳＴ　２０００ＣＴＳ作为测试集，对ＮＩＳＴ　２０００ＣＴＳ测试集所包含的ｓｗｉｔｃｈｂｏａｒｄ（称为ｓｗｂ）和ｃａｌｌ－ｈｏｍｅ（称为ｃａｌｌｈｍ）两个子集分别进行了评估．在所有实验中使用的是经过工程优化的标准ＷＦＳＴ解码器；实验过程中没有生成词图，也没有使用语言模型重打分［２６］技术．解码过程中使用在Ｓｗｉｔｃｈｂｏａｒｄ和Ｆｉｓｈｅｒ转录文本上训练的插值的４阶语言模型；在ＤＳＭ算法验证中，默认使用了经过剪枝的３阶语言模型；在ＧＳＭ算法验证中，默认使用４阶语言模型，使得结果与文献［１８］具有可比性．解码使用的机器配置为Ｉｎｔｅｌ（Ｒ）Ｘｅｏｎ（Ｒ）ＣＰＵ　Ｅ５－２６９０ｖ２＠３．００ＧＨｚ．本文５．１节的ＤＳＭ实验中，使用具有１．２Ｍ参数的小型ＣＴＣ模型，使得其适用于嵌入式设备，与文献［２７］可比；使用４０维的对数滤波器组特征，特７期陈哲怀等：标签同步解码算法及其在语音识别中的应用７１５１

[返回]

上一篇：车载自组网中基于信任管理的安全组播协议设计
下一篇：基于热核共生矩阵的SAR图像纹理目标识别