欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
EI期刊论文
当前位置:首页 > EI期刊论文
基于统计模型及 S VM 的低速率语音编码
来源:一起赢论文网     日期:2015-04-27     浏览数:3058     【 字体:

 摘   要  Q I M ( Q u a n t i z a t i o n  I n d e x  M o d u l a t i o n , 量化索引调制) 隐写在标量或矢量量化时嵌入机密信息, 可在语音压缩编码过程中进行高隐蔽性的信息隐藏, 文中试图对该种隐写进行检测 . 文中发现该种隐写将导致压缩语音流中的音素分布特性发生改变, 提出了音素向量空间模型和音素状态转移模型对音素分布特性进行了量化表示. 基于所得量化特征并结合 S VM ( S u p p o r t  V e c t o r  M a c h i n e , 支持向量机) 构建了隐写检测器 . 针对典型的低速率语音编码标准 G. 7 2 9 以及 G. 7 2 3 . 1 的实验表明, 文中方法性能远优于现有检测方法, 实现了对 Q I M 隐写的快速准确检测 .

关键词  Q I M 隐写; 隐写检测; 低速率语音编码器; 音素分布特性
    1  引   言
    V o I P ( V o i c e  o v e r  I P ) 是非常流行的流媒体通信服务, 在全球范围内得到了广泛应用, 彻底变革了语音通信市场格局 . 由 V o I P 带来的语音数据流具有量大且实时瞬态等特征, 非常适合作为信息隐藏载体, 这使 V o I P 很可能被用于在 I P 网络中进行隐蔽通信 [1 ] .当前在语音中进行信息隐藏的方法可大致分为以下几类: (1 ) 针对脉冲编码调制语音数据的最低有效位替换或匹配方法 [2 ] ; (2 ) 变换域方法,该方法先将载体数据变换到变换域, 然后通过在变换域修改一些参数实现机密信息的嵌入, 常用的变换包括倒谱变换 [3 ] 、 离散余弦变换 [ 4 ] 、 离散小波变换 [ 5 ]等;( 3 )基 于 量 化 索 引 调 制 (Q u a n t i z a t i o n  I n d e xM o d u l a t i o n , Q I M ) 的方法, 该方法由 C h e n等人[ 6 ]提出, 适用于包含矢量量化的数字音频、 图像和视频编码, 可用于在 压缩编码过程 中进 行信息 隐 藏;(4 ) 一些针对特定压缩语音标准的信息隐藏方法,例如, 最近文献[7 ] 提出了一种在 G. 7 2 3 . 1 码流的静音帧中嵌入机密信息的方法 .Q I M 隐写的基本思想是将量化码本分组. 假设原量化码书为 C , 将其分为 C 1 和 C 2 两部分, 满足C 1 ∩ C 2 = 且 C 1 ∪ C 2 = C , C 1 和 C 2 分别代表比特“0 ” 和“ 1 ” ; 当嵌入 0 时仅在分组码书 C 1 中选取最佳量化值, 嵌入1时则仅在分组码书 C 2 中选取最佳量化值. 接收方根据所接收的量化结果中的索引值是属于 C 1 和 C 2 来恢复机密信息比特. 显然, 这种方法实现简单, 不增加计算量.为了减少带宽消耗, V o I P一般在发送端对语音进行低速率压缩编码然后传输. 
    因此, 上述几类语音信息隐藏方法中第 3 种方法最适合用于在 V o I P 建立隐蔽信道, 因为第 1 类方法嵌入后的秘密信息在进行压缩编码时将丢失, 第 2 类方法的运算复杂度较高不适合在语音实时编码时使用, 而第4类方法仅适用于G . 7 2 3 . 1 . 文献[8 ] 针对低速率语音编码提出了一种改进的基于 Q I M 的信息隐藏方法, 它的主要贡献在于可以保证原码书划分后每个码字和它最邻近码字属于不同的分组, 从而使得嵌入机密消息后局部附加量化失真的极大值相对其它划分方式取得极小, 减小了隐写带来的语音失真, 提高了隐蔽性. 这使对其进行隐写分析非常困难, 是当前在低速率压缩语音流中进行信息隐藏最先进的方法之一. 为此本文将以文献[8 ]提出的 Q I M 信息隐藏的方法作为隐写检测目标.当前 Q I M 信息隐藏方法的隐写分析已有一些研究, 但这些研究主要针对图像作为载体时的 Q I M隐写展开 [9 - 1 2 ]. 文献[9 ] 发现进行 Q I M 信息隐藏会对载体图像的局部相关性引入相当强的扰动, 通过引入 G a mm a分布对这种扰动进行建模并结合预先确定的似然率参数实现 Q I M 嵌入的检测. 文献[1 0 ]观察到使用 Q I M 嵌入机密信息会增加量化图像的不规则性( 随机性) , 通过引入“ 近似熵” 对载体和载密图像的这种不规则性进行量化分析实现 Q I M 嵌入的检测; 文献[1 1 ] 的方法与此类似, 所不同的是该文使用基于核密度估计( K e r n e l  D e n s i t y E s t i m a t e ,K D E ) 的方法对上述局部不规则性进行衡量. 文献[ 1 2 ]发现 Q I M 嵌入扰乱了图像像素及 D C T 系数直方图, 构造了直方图变化与机密消息长度之间的估计公式, 实现了图像中 Q I M 嵌入率的估计 . 显然, 这些方法都利用了 Q I M 嵌入所引起的某一维度图像统计特征的显著变化进行隐写分析, 因此对于语音流的 Q I M 嵌入检测其难点也在于寻找并确定Q I M 嵌入后所引起的显著变化特征 . 此外, 一些盲检测方法也可用于对 Q I M 隐写进行检测, 例如文献[1 3 ] 给出了一种基于 M e l 倒谱频率系数( MF C C ) 统计特征的音频信息隐藏盲检测方法. 该方法对于最低有效位隐写具有较好的检测效果, 但对于 Q I M 隐写其检测效果并不理想, 其原因主要是压缩编码使语音产生很大的失真, 直接从解码后语音采样值提取特征其实已经很难反映原始语音所蕴含的特征信息 . 鉴于此, 本文针对低速率语音编码中的 Q I M 隐写给出了一种无需解码直接在压缩域提取特征的方法, 在此基础上构建了基于机器学习理论的隐写检测器.
    2  压缩域隐写检测特征提取
    2. 1  基本思想V o I P 所使用的低速率语音编码标准主要是G. 7 2 9和 G. 7 2 3 . 1 , 这两种低速率语音编码器都使用了线性预测编码( L P C ) 方法, 编码过程的核心步骤是对语音信号进行 L P C分析以获得声道系统函数. 通常声道系统函数可由式(1 ) 表示,H ( z ) =1A ( z ) =11- ∑pi =1a i z -i(1 )其中 a 1 , a 2 , …, ap 为语音信号的 p 阶 L P C预测系数. 语音信 号 x ( n ) 可 视 为 激 励 信 号 通 过 滤 波 器H ( z ) 获得, 例如一般语音中的浊音可视为周期性脉冲激励得到( 如图1的元音“o ” ) , 而清音则由白噪声激励得到( 如图1的清音“s h ” ) . 不同音素发音时一般具有不同的声道形态, 据此可以推知, 不同的音素发音时其声道系统函数也不同, 所以在理想情况下应该对每个音素对应的语音片段分别进行 L P C分析, 每个音素的L P C预测系数刻画了该音素的量化发音特性. 获得L P C预测系数后的步骤是对其进行矢量量化, 假设获得的量化矢量索引为 I , 则对于音素 P 必有一个 I 与之对应, 用符号 P ! I 表示这种关系并称 I 为 P 的量化特征索引.音素在语言学中被称为音标, 它是构成语言的基本单元, 这些离散的基本单元根据一定的音素和文法规则或多或少地连缀成词语 [1 4 ] , 如图 1 中的单词“s h o p ” 的发音由 3 个音素构成; 词语按照一定的句法形式构成完整的语言系统 . 语言系统是存在某些统计规律的, 例如, 据统计英语中使用次数最多的字母是“e ” , 那么映射到语音上可以认为音素“ e ” 的出现次数也最多; 其次, 英语中字母之间的组合排列方式是存在一定规律的, 如“q ” 的后面大多数时候跟着“ u ” , 那么映射到语音上可以认为音素之间的组合排列也存在一定的规律. 换句话说, 一段语音中的各音素的出现是不均衡的, 其次不同音素的出现存在相关性. 称上述特性为语音中的音素分布特性. 假设某段语音对应的音素序列为 S = P 1 P 2 … P n -1 P n ,根据 P ! I ,它将有一个与之对应的量化特征索引序列:S * = I 1 I 2 … I n -1 I n , 如图1所示. 文献[ 8 ] 给出的信息隐藏方法是在获得 L P C 系数的量化索引 I时进行 Q I M 隐写的. 显然, 进行 Q I M 隐写势必使序列 S * 的某些量化索引值发生变化, 例如对于音素P k , 设其原量化索引为 I m , 进行 Q I M 隐写后可能变为 I m +1 , S * 中索引的改变将导致 S 中音素 P k 发生相应的改变, 如变为 P k +1 . 音素的改变将使 S 中的音素分布特性发生变化 . 因此, 如能够有效量化 S中音素的分布特性, 则通过比较 Q I M 隐写前后该特征的变化即可实现隐写检测 .
    2. 2  音素分布特性的量化统计模型为便于设计量化统计模型, 我们首先给出本文中音素这一概念的形式化描述. 本文将音素 P 用三元组(p , s , t ) 表示, 其中 p 为音素的语言学符号即音标,s 为音标 p 的发音是具有一定时长的语音小片段,t 为 s 的时长 . 根据语音学理论, 音素 P 为语音的基本组成单位, 且特定语言所包含的音素是有限的, 如英语包含 4 0 个音素 [1 4 ] , 本文假设有一种虚拟语言 L , 它包含有限个音素, 这些因素构成集合:B = { P 1 , P 2 , …, P n -1 , P n } . 基于上述假设, 属于虚拟语言 L 的一段语音 S 可以根据 B 中的音素分解为多个小片段, 即可将 S 切分为多个按时序排列的语音分片 S = f 1 f 2 … f m -1 f m , 分片 f k 实质上是音素 P l 的发音, 即存在 f k = sl ( k ∈ [ 1 , m ] , l ∈ [ 1 , n ] ) , 据此可将语音片段 S 表示为音素序列: S = P k P l … P x P y ( k , l ,x , y ∈ [ 1 , n ] ) . 显然, 属于虚拟语言 L 的任意一段语音都可由上文方法获得其对应的音素序列.如将音素 P 视为一个单词, 那么相应的可将语音片段 S 视为一个文档. 据此, 借鉴自然语言处理中的文档量化表示模型: 文档向量空间模型, 我们可用音素向量空间模型( P h o n e m e  V e c t o r  S p a c e  M o d e l ,P V S M ) 作 为 音 素 序 列 的 量 化 表 示 模 型, 如 图 2所示.音素向量空间量化表示模型的正规定义如下.定义1.   虚 拟 语 言 L 的 音 素 集 合 B ={ P 1 ,P 2 , …, P n -1 , P n } , 称 P i ∈ B 为音素词汇( P h o n e m eW o r d ) , 称 B 为语言 L 的音素词典, 属于虚拟语言 L的语音片段所包含的音素都在 B中.定义 2.   虚拟语言 L 的一段语音 S , 通过查找音素词典, 可切分为按时序排列的 N 个音素, 称上述过程为基于音素的语音分帧.定义 3.   设语音片段 S 分帧后所得的音素序列为 S = P k P l … P x P y ; 根据音素 词典 B = { P 1 ,P 2 , …, P n -1 , P n }可 构 造 如 下 n 维 向 量: V ={ W 1 ,W 2 , …, W n -1 , W n } 对音素序列 S 进行量化表示, 称 W i 为音素词汇 P i 的权重( 它是与 P i 在音素序列 S 中的分布相关的变量, 其取值依据预先设定的计算规则求取) , 称向量 V 对应的 n 维空间为音素向量空间, 音素序列 S 可用该空间中的一个点表示; 称上述定义构成的语音片段量化表示方法为音素向量空间量化表示模型, 称 V 为 S 的音素向量.本文音素 P i ( 1 i  n ) 的权重 W i 的计算规则如式(2 ) 所示,W i = C o u n t ( P i ) / S u m ( S )
    (2 )其中 C o u n t ( P i ) 表示音素词汇 P i 在音素序列 S =P k P l … P x P y 的出现次数, S u m ( S ) 表示 S 所包含的音素词汇总数 . 据此, 我们可计算出任一语音片段的音素向量 V , 它是一个 n 维向量 .如前文所述, 音素在音素序列中的分布存在不均衡性和相关性, 显然音素向量并没有体现音素分布的相关性特性. 为此, 还必须设计相关性特性的量化统计模型. 根据语音产生模型, 发音的基本单位为音素, 发音过程实际上就是不断变换声道形态的过程, 可将该过程视为离散时间随机过程{x ( i ) , i >0 } ,x ( i ) 表示音素发音时的声道形态, 由于不同的声道形态对应不同的音素, 因此可用音素来代表声道形态即取 x ( i ) = Pik , Pik 表示第 i 个时刻的声道正在发音素 P k ( P k ∈ B ) 的音. 据此, 可将音素序列 S =P1k P2l … PN -1x PNy 视为声道状态转移序列. 根据语言学的统计规律, 一般认为某个音素的出现仅与其前一个音素存在较大关联, 鉴于此, 本文假设下一个音素的出现仅与当前音素有关, 即存在以下关系:P r ( P N / P1 P2 … P N -1 )= P r ( P N / P N -1 ) 
    ( 3 )据此可证, 随机状态序列 S = P1k P2l … PN -1x PNy为一阶马尔可夫链, 即音素序列可视为声道( 音素)状态转移一阶马尔可夫链 . 显然, 声道状态集合即音素集合 B = { P 1 , P 2 , …, P n -1 , P n } . 根据上述性质,声道状态转移概率可用条件概率表示如下:a i , j = P r ( P i / P j ) , 1 i , j  n 且 ∑Mj =1a i , j =1 
   ( 4 )它表征了音素序列中各音素出现的相关性, 可作为音素相关性的量化统计特征 . 在实际计算时直接计算式(4 ) 的条件概率较为困难, 一般将其转化为联合概率进行计算, 即根据条件概率公式将式(4 ) 转化为式(5 ) :a i , j = P r ( P i / P j ) = P r(P i , P j )P r ( P j ), Pi , P j ∈ B(5 )进行各音素间相关性的计算. 以 ai , j ( 1 i , j  n ) 作为元素可获得一个 n × n 维的矩阵 M , 称该矩阵为音素状态转移矩阵. 显然, 它量化不同音素出现的相关性 .综上, 我们得到了音素分布不均衡性的量化表示( 即音素向量 V ) 以及音素分布相关性的量化表示( 即音素状态转移矩阵 M ) . 这两个不同角度量化特征必须进行融合, 方能全面量化音素分布特性. 由于V 和 M 的维度不同, 我们首先对 M 进行降维操作, 将其降为 n 维以便于和 V 进行融合 . 对 M 降维后得到n 维向量 V * = { R 1 , R 2 , …, R n -1 , R n } , 其中 R j ( 1j  n ) 的取值方法如下:R j =m a x { a 1 , j , a 2 , j , …, a n -1 , j , a n , j }(6 )将 V * 与 V 进行融合, 获得融合向量 H = { ( W 1 , R 1 ) ,( W 2 ,R 2 ) , …, ( W n -1 , R n -1 ) , ( W n , R n ) } 作为音素分布特性的量化特征向量, 下文称该向量为音素分布特征向量 ( P h o n e m e  D i s t r i b u t i o n  F e a t u r e  V e c t o r ,P D F V ) .
    2. 3  分帧方法及音素集合的确定上面, 我们已经给出了音素分布特征的量化统计模型, 但是要计算该量化特征, 还必须针对不同的低 速 率 编 码 标 准 确 定 音 素 集 合 以 及 分 帧 方 法.G . 7 2 9和 G . 7 2 3 . 1是I TU 为 V o I P应用定义的低速率语音编码标准, 因此, 本文给出这两种编码器的音素集合和分帧方法, 其它低速率编码器可类推.语音中每个音素的持续时间是不等长的, 例如浊音“ o ” 可能持续5 0m s以上, 浊爆破音“b ” 则可能仅持续1 0m s , 而且随着发音人及语速的不同其持续时长更是千变万化. 因此, 音素的持续时长是很难事先确定的, 这导致将一段语音进行基于音素的分帧甚为困难. 但是, 本文利用低速率语音编码器都是对语音进行分帧处理这一事实解决这一问题. 例如,G . 7 2 9以1 0m s为单位对语音进行分帧并对每帧计算一次L P C预测系数( 即估计一次声道发音参数) ,这意味着 G . 7 2 9认为在1 0m s的短时内声道的形态是稳定的; 假设不同的声道形态对应不同音素发音,那么可以认为 G . 7 2 9中每帧对应一个音素或者是一个音素的一部分. 根据对实际语音的统计, 英语中音素的持续时长均值远大于1 0m s , 这印证了上述结论的正确性. 为此以1 0m s为界限, 本文将时长不超过1 0m s的音素称为 α 类, 反之为 β 类. 作为一种近似, 对于 α 类音素其时长设为 G . 7 2 9的帧长 l, 对于 β 类音素设其时长为 n × l ( n >1) 即β 类音素包含多个 G . 7 2 9帧. 我们发现 β 类音素发音时的信号波形一般具有周期性特征, 例如图1中的音素“o ” 包含了4个明显的周期, 此时一个周期的信号已可反映声道特征, 因此对于 β 类音素在 G . 7 2 9中可视为对其声道参数进行了多次重复估计. 鉴于此, 本文认为对于 β 类音素, 可分成 n 个帧分别进行 L P C 分析 . 综合上述分析, 本文认为每个 G . 7 2 9 帧可近似地跟一个音素对应( 对于 β 类音素, 可能连续几个帧图 3  进行 Q I M 隐写对融合特征向量造成的扰动都对应相同的音素) , 据此, 对 G . 7 2 9 压缩语音流直接以其原有的帧结构进行分帧即可 . 由于 G . 7 2 9 对每个帧的 L P C 预测系数采用分级矢量量化, 每个音素 P 的量化特征索引 I = ( i1 ,i2 ,i3 ) , 其中 i 1 有1 2 8种取值,i2 和 i 3 都有3 2种取值, 因此, 索引 I 共有1 2 8×3 2×3 2=1 3 1 0 7 2 种取值, 这意味着音素集合包含了 1 3 1   0 7 2个音素. 音素集合太大, 在音素序列的长度较小时不易凸显其统计特性( 例如, 设音素序列的长度为 1 0 0 , 此时音素集合中 9 9% 以上的音素都将不在音素序列中出现, 这将导致量化统计特征中很多元素的值为 0 ) , 因此必须对量化特征索引I 进行降维. 由于, 一级矢量 i1 与所有的 L P C 系数的量化有关其重要性超过了 i2 和 i 3 , 而且Q I M 隐写是在3个分裂矢量量化时分别进行的, 因此本文近似地取 I = i1 , 即取 i 1 作为 G . 7 2 9的音素集合B 中元素 P 的量化特征索引, 据此可得 B = { i11 , i12 , …,i11 2 7 , i11 2 8 } . 所以, 对于 G . 7 2 9其音素向量 V 与音素状态转移向量 V * 都是1 2 8维向量, 而融合向量 H 为2 5 6维向量. 对于 G . 7 2 3 . 1 , 基于类似的分析, 仍可基于其压缩语音流的原始帧结构进行分帧并近似地取其第1个分裂矢量作为音素的量化特征索引, 此时其音素集合 B = { i11 , i12 , …, i12 5 5 , i12 5 6 } , 对应的音素向量 V 与音素状态转移向量 V * 都是2 5 6维向量,而融合向量 H 为5 1 2维向量.确定音素集合及分帧方法后, 对于给定的压缩语音片段可方便地计算其融合特征向量 H . 图 3 给出了 Q I M 隐写对融合特征向量扰动情况的分析结果. 其中, 图3 ( a ) 是一段长度为1 0 s的 G. 7 2 9压缩语音流片段及其使用文献[8 ] 的方法进行 Q I M 隐写后的融合特征向量 H 对比图, 从该图可以看出隐写前后融合特征向量重合的点极少, 这说明隐写前后融合特征向量的变化幅度较大 . 为了量化分析隐写对融合特征向量的扰动程度, 本文引入向量变化率( V e c t o r  V a r i a t i o n  R a t e , VVR ) 对向量的改变进行衡量 . 设对某个压缩语音流片段, 其在隐写前后计算所得的融合特征向量为 H 1 和 H 2 , V V R 定义为 H 1中取值发生变化的子向量的比例, 定义如下:V V R = ∑Ni =1τ i∑Ni =1μi(7 )其中 N 为融合特征向量维数,μi 和 τ i 定义如下:μi =1 , a i ≠00 , {否则, τi =1 , a i ≠0 且 a i ≠ b i0 , {否则(8 )其中 ai 和 b i 分别为 H 1 和 H 2 中第 i 维子向量的取值.显然,V V R 的值越大, 隐写对融合特征向量的扰动幅度越大. 将V V R 的值域分为1 0个区间: d i =[i ×0 . 1 , ( i +1 ) ×0 . 1 ) , 其中 i 取值为0~9 ; 本文对实验部分所涉及的2 6 7 4个不同语音片段使用 G . 7 2 9及 G . 7 2 3 . 1分别计算了其 V V R 值, 图3 ( b ) 统计了计算所得 V V R 值属于区间 di 的语音文件数量. 从图3(b ) 可以看出对于 G . 7 2 9和 G . 7 2 3 . 1 , 文件对应的向量变化率值都超过0 . 5 , 这意味着至少有一半以上的融合特征向量中的子向量在隐写前后的取值发生了改变; 对于 G . 7 2 9 , 所有文件的 V V R 均值为0 . 8 6 ,对于 G . 7 2 3 . 1该值为0 . 6 8. 因此可以认为本文所提取的特征对隐写是非常敏感的— — —隐写将导致该特征发生显著性变化. 这对隐写检测非常有利.
    3  基于机器学习的隐写检测
    假设有一个未知是否存在 Q I M 隐写的压缩语音片段 S , 隐写检测的目标即判定 S 是否存在 Q I M隐写. 假设通过对 S 进行处理所抽取的可用于隐写检测的特征向量为 t , 则隐写检测过程可用式( 9 ) 表示:y = f ( t ) , y ∈ { +1 , -1 }(9 )其中函数 f 为隐写检测器其输出结果即为检测结果, 若 y =+1 , 表示 S 不存在隐写, 否则存在隐写.显然函数 f 是一个二值分类器, 隐写检测过程实质上是分类过程: 假设 y =+1 时 S 属于未隐写类( 称为 c o v e r类) ,y =-1时 S 属于隐写类( 称为s t e g o类) , 则隐写检测就是将未知类别 的 样本 S 分为c o v e r 类或 s t e g o 类 . 对于分类问题, 基于机器学习的分类方法是当前主流, 本文也采用这种方法 . 对于未知类别的压缩语音片段, 本文基于机器学习的隐写检测过程如图 4 所示 . 显然, 隐写检测的关键是确定特征向量 t 和分类器 f .图 4  压缩语音片段隐写检测过程在文献[1 3 ] 中, 特征向量的提取必须首先对压缩语音片段进行解码, 其后基于解码获得的语音数据计算基于 MF C C的统计特征向量, 这种特征提取方法需要进行解码操作, 甚为耗时. 上一节中我们介绍了本文的特征提取方法, 该方法不需要对压缩语音进行解码, 直接在压缩域抽取特征向量, 计算速度较快. 为此, 本文将上节给出的音素分布特性量化向量 H 作为特征向量 t .关于分类器的设计, 现有研究中, 不同的对象分类识别系统有不同的训练方法, 这些方法大致可分为两大类: 判别法(d i s c r i m i n a t i v e  a p p r o a c h ) 和生成法(g e n e r a t i v e  a p p r o a c h ) . 判别法可以灵活地选择用来识别的特征, 检测速度也较快, 为此本文采用基于判别法的分类器 . 在判别型分类器中, 由于支持向量机( S u p p o r t  V e c t o r  M a c h i n e ,S VM ) 较适合小样本训练的情况, 本文考虑到训练时间和训练样本量, 使用支持向量机作为分类器. S VM 分类器是一种监督学习分类器, 它是通过使用某些已标注类别的样本进行训练获得的. 对于特征向量 t , 分类器 f 的训练和预测步骤如下:(1 ) 获取尽可能多的c o v e r类别低速率压缩编码语音片段, 并使用 Q I M 嵌入方法( 分组码本使用文献[8 ] 算法进行优化划分) 进行隐写以获得 c o v e r类别中每个样本对应的 s t e g o 样本, 并做好标注;(2 ) 抽取上一步骤所获得的两类样本的特征向量 t , 标记每个向量的类别;(3 ) 训练分类器: 使用上一步骤获得已标记类别的特征向量集合训练分类器, 获得分类器 f ;(4 ) 使用分类器 f 对未知类别样本进行隐写检测: 对于未知类别样本首先抽取特征向量 t, 将t 作为分类器 f 的输入, 分类器输出即为隐写检测结果 . L I B S VM 是一个优秀的 S VM 工具, 本文基于L I B S VM 进行分类器的训练和预测.
    4  实验及讨论
    本文选择 G . 7 2 9 和 G . 7 2 3 . 1 作为实验测试所用的低速率语音编码器, 并采用文献[8 ] 给出的方法作为隐写算法 . 本文针对两种编码器分别进行了本文隐写检测方法的性能测试, 并与文献[1 3 ] 给出的隐写检测方法进行了比较 .为了阐明算法具有较好的普适性, 本文选择不同发音人的多个语音片段组成语音样本库 . 所用语音片段样本包含 4 个种类, 分别是中文男声( C h i n e s e  M a n ,CM ) , 包含5 0 0个语音片段; 中文女声( C h i n e s e  W o m a n ,CW ) , 包含5 3 2个语音片段; 英文男声( E n g l i s h  M a n ,EM ) , 包含8 1 8个语音片段;英文女声( E n g l i s h W o m a n ,EW ) , 包含8 2 4个语音片段. 语音片段总计2 6 7 4个. 每个语音片段的时长为1 0 s , 采样率为8 0 0 0H z, 对每个采样点用1 6 b i t进行量化, 用 P CM 格式存储 .我们称没有进行信息隐藏的压缩语音片段为未隐写类( C类) , 否则称其为隐写类(S类) . 不同类别发音人的语音片段编码所得的 C 类及其对应的 S类压缩语音流片段构成进行分类器进行训练和预测时的数据集. 由于本文已将隐写检测问题转化为分类问题, 因此本文采用式(1 0 ) 定义的分类准确率P r e c i s i o n 对检测算法的性能的进行评估:P r e c i s i o n = λ^ +θ^λ + θ(1 0 )其中 λ 和 θ 是数据集中的 C 类和 S 类样本的个数,λ^和 θ  ^ 则是被分类器准确判定类别的 C 类和 S 类样本的个数.
    4. 1  低速率语音编码器Q I M 隐写检测结果对语音样本库中CM 中的每个 P CM 格式存储的语音片段使用 G . 7 2 9编码器进行压缩编码, 获得没有进行信息隐藏的5 0 0个 G . 7 2 9压缩语音流片段, 由于 G . 7 2 9的帧长为1 0m s , 因此每个片段包含1 0 0 0 个 G . 7 2 9 帧, 这些压缩语音片段组成未隐写类别( C类) 样本. 使用文献[8 ] 介绍的 C NV 算法方法对 G . 7 2 9 进行矢量量化时的 3 个分裂矢量码本进行优化划分, 获得进行 Q I M 嵌入的分组码本 . 再次对每个 P CM 格式的语音样本进行基于 G . 7 2 9 标准的编码压缩, 并且, 在对每个帧的 L P C系数进行矢量量化时使用 Q I M 机制嵌入机密信息, 获得包含隐藏信息的 5 0 0个 G . 7 2 9压缩语音流片段, 这些压缩语音片段组成隐写类别(S 类) 样本 . C 类及其对应的 S类压缩语音流片段构成进行分类器训练和预测时的CM 数据集 . 同理可得 CW 、 EM 和 EW 数据集 . 这4个数据集的所有样本构成混合( H y b r i d) 数据集.因此, 本文在 5 个不同的数据集上评估了算法性能 .用类似的方法获得使用 G. 7 2 3 . 1 作为低速率语音编码器时, 进行检测算法性能评估的数据集 .由于每个语音片段的长度为 1 0 s , G. 7 2 3 . 1 的帧长为3 0m s , 因此每个 G . 7 2 3 . 1 压缩语音片段包含3 3 3个帧.对上述的每个数据集, 选择 7 5% 的 C 类样本及其对应的 S 类样本, 组成该种类分类器的训练样本库, 剩余的2 5%样本组成测试样本库用于评估训练所得分类器的分类准确性. 表1给出了测试结果,表1中列P D F V 是使用本文方法获得的隐写检测结果, 列 MF C C是使用文献[1 3 ] 的方法获得的隐写检测结果. 从测试结果看本文方法在5个测试数据集上均优于文献[1 3 ] 的方法, 在语音片段时长为0 s时, 对于两种低速率语音编码标准, 本文方法检测准确 率 均 超 过 9 8% , 而 文 献 [ 1 3 ] 的 方 法 对 于G . 7 2 3 . 1基本上无法有效检测: 对5个数据集检测准确率均低于 6 0%.表 1  语音片段时长为 1 0 s 时的测试结果数据集名使用 G . 7 2 9 的结果/ %P D F V  MF C C使用 G. 7 2 3 . 1 的结果/ %P D F V  MF C CCM   1 0 0 . 0 0 9 4 . 0 0   9 8 . 4 0 4 9 . 6 0CW   1 0 0 . 0 0 8 8 . 7 2   9 6 . 8 0 5 2 . 2 6EM   1 0 0 . 0 0 8 0 . 0 0   9 8 . 2 2 5 4 . 6 3EW   1 0 0 . 0 0 7 7 . 4 3   9 7 . 8 7 5 6 . 5 5H y b r i d   9 9 . 9 8 8 6 . 7 0   9 8 . 6 2 5 2 . 7 6上面获得的测试结果所用的语音片段的时长为1 0 s . 本文面向的是 V o I P 中低速率编码的压缩语音流的隐写检测; V o I P 中的语音流是实时流, 进行隐写检测前必须进行流的存储 . 为了达到较快检测以及减少存储的数据量, 显然达到可以接受的隐写检测准确率时, 我们希望所需要存储的语音流时长越短越好. 为此, 我们在下文对语音片段时长与隐写检测的性能进行了评估 .
    4. 2  压缩语音流时长对隐写检测结果的影响为了评估语音片段时长对隐写检测结果的影响, 首先根据不同的低速率编码器的帧长, 对数据集中的 1 0s 长 度 的 语 音 片 段 进 行 截 短 处 理 . 对 于G . 7 2 9 , 由于其帧长为1 0m s , 1 0 s长度的语音片段总共包含了 1 0 0 0 帧, 截取前 N ( 0< N 1 0 0 0 ) 个帧编码所需的采样值, 构成时长为0 . 0 1× N s的新的CM 、 CW 、 EM 、 EW 和 H y b r i d数据集. 对这些新的数据集进行分类器的训练并测试分类准确性. 表2给出了不同语音片段时长时( N 取不同值) 的检测结果.为了更直观地比较两种方法的性能, 图5给出了5个数据集的平均检测准确率与语音片段时长的关系图. 从该图可以看出, 随着语音片段时长的增加, 隐写检测准确率也随之提升; 本文方法在任一时长下其检测准确率均优于文献[1 3 ] 的方法; 在语音片段时长为0 . 4 0 s时本文方法已能够达到有效检测( 检测准确率已经超过9 0% ) , 而此时文献[ 1 3 ] 的方法仍不超过 7 0%. 因此, 对于 G. 7 2 9 , 在语音片段时长较小时本文方法性能远优于文献[1 3 ] ; 在语音片段时长较大时( 超过4 . 8 s ) , 本文达到1 0 0%的隐写检测准确率, 这一点是文献[1 3 ] 无法达到的.由于 G. 7 2 3 . 1 的帧长为 3 0m s , 1 0 s 长度的语音片段总共包含了 3 3 3 帧, 仍截取前 N ( 0< N 3 3 3 )个帧编码所需的采样值, 构成时长为0 . 0 3× Ns的新的 CM 、 CW 、 EM 、 EW 和 H y b r i d数据集. 对这些新的数据集进行分类器的训练并测试分类准确性.表 3 给出了不同语音片段时长时( N 取不同值) 的检测结果. 为了更好地比较两种方法的性能, 图6给出了 5 个数据集的平均检测准确率与语音片段时长的关系图 . 从该图可以看出, 随着语音片段时长的增加, 本文方法的隐写检测准确率也随之提升, 但是文献[1 3 ] 的方法其检测准确率一直低于6 0% ( 可以认为无法对隐写作出检测) . 其原因可能是 G. 7 2 3 . 1每3 0m s的采样值采用文献[8 ] 的 Q I M 隐写方法仅嵌入3 b i t 秘密信息, 嵌入率太低导致解码后的语音采样值序列并不因隐写而产生较大的改变, 这使基于采样值序列统计的特征对隐写不够敏感, 从而导致检测率低. 但是本文方法是压缩域方法, 不考察解码后的语音数据, 因此仍能获得较好的隐写检测准确率: 在语音片段时长较大超过 6 s 时, 本文方法检测准确率超过 9 0%.根据上述实验, 本文方法对于两种典型的低速率语音编码器中的 Q I M 隐写均能有效检测, 检测性能远优于时域特征抽取方法 .
    5  总   结
   本文对在低速率语音编码过程中的 Q I M 隐写给出了高效的检测方法. 本文发现一段语音中的音素其分布存在不均衡性和相关性, 据此本文提出了一种基于压缩域的隐写检测特征抽取方法, 并结合支持向量机构建了隐写检测分类器. 与基于时域的特征抽取方法相比, 本文方法不仅具有较高的检测准确率, 而且节省了压缩语音的解码时间, 实现了对压缩语音流的快速隐写检测 . 本文方法借鉴了文档的向量空间表示方法及其分类模型, 正是利用这些方法所蕴含的深刻思想建立了本文的隐写检测算法 . 本文方法为隐写检测提供了一种新的思路 .
参 考 文 献[ 1 ] M a z u r c z y k W , L u b a c z  J . S t e g a n o g r a p h y   o f  V o I P  s t r e a m s / /r o c e e d i n g s  o f  t h e  3 r d  I n t e r n a t i o n a l  S y m p o s i u m  o n  I n f o r m a -t i o n  S e c u r i t y .M o n t e r r e y , M e x i c o , 2 0 0 8 : 1 0 0 1 - 1 0 1 8[ 2 ] H u a n g   Y , X i a o  B , X i a o  H. I m p l e m e n t a t i o n  o f  c o v e r t  c o m -m u n i c a t i o n  b a s e d  o n  s t e g a n o g r a p h y / / P r o c e e d i n g s  o f  t h e  4 t hI n t e r n a t i o n a l  C o n f e r e n c e  o n  I n t e l l i g e n t  I n f o r m a t i o n  H i d i n ga n d  M u l t i m e d i a  S i g n a l  P r o c e s s i n g .H a r b i n , C h i n a , 2 0 0 8 :1 5 1 2 - 1 5 1 5[ 3 ] L i  X , Y u  H H. T r a n s p a r e n t  a n d  r o b u s t  a u d i o  d a t a  h i d i n g   i nc e p s t r u m  d o m a i n / / P r o c e e d i n g s  o f  t h e  I E E E  I n t e r n a t i o n a lC o n f e r e n c e  o n  M u l t i m e d i a  a n d  E x p o .N e w Y o r k , U S A ,2 0 0 0 : 3 9 7 - 4 0 0[ 4 ] W a n g   C  T , C h e n  T  S , C h a o  W H. A  n e w  a u d i o  w a t e r m a r k -i n g b a s e d  o n  m o d i f i e d  d i s c r e t e  c o s i n e  t r a n s f o r m  o f  MP E G /A u d i o  L a y e r  I I I / / P r o c e e d i n g s  o f  t h e  I E E E  I n t e r n a t i o n a l  C o n -f e r e n c e  o n  N e t w o r k i n g , S e n s i n g   a n d  C o n t r o l . T a i p e i , C h i n a ,2 0 0 4 : 2 6 5 - 2 7 7[ 5 ] Wu  S , H u a n g   J , H u a n g   D , e t  a l .E f f c i e n t l y   s e l f- s y n c h r o -n i z e d  a u d i o  w a t e r m a r k i n g   f o r  a s s u r e d  a u d i o  d a t a  t r a n s m i s -s i o n. I E E E  T r a n s a c t i o n s  o n  B r o a d c a s t i n g , 2 0 0 5 , 5 1 ( 1 ) :6 9 - 7 6[ 6 ] C h e n  B , W o r n e l l  G W.Q u a n t i z a t i o n  i n d e x  m o d u l a t i o n : Ac l a s s  o f  p r o v a b l y  g o o d  m e t h o d s  f o r  d i g i t a l  w a t e r m a r k i n g   a n di n f o r m a t i o n  e m b e d d i n g . I E E E  T r a n s a c t i o n s  o n  I n f o r m a t i o nT h e o r y , 2 0 0 1 , 4 7 ( 4 ) : 1 4 2 3 - 1 4 4 3[ 7 ] H u a n g   Y , T a n g   S , Y u a n  J . S t e g a n o g r a p h y   i n  i n a c t i v e  f r a m e so f  V o I P  s t r e a m s  e n c o d e d  b y   s o u r c e  c o d e c . I E E E  T r a n s a c t i o n so n  I n f o r m a t i o n  F o r e n s i c s  a n d  S e c u r i t y , 2 0 1 1 , 6 ( 2 ) : 2 9 6 - 3 0 6[ 8 ] X i a o  B o , H u a n g   Y o n g f e n g , T a n g   S h a n y u.A n  a p p r o a c h  t oi n f o r m a t i o n  h i d i n g   i n  l o w  b i t - r a t e  s p e e c h  s t r e a m/ / P r o c e e d i n g so f  t h e  I E E E  G l o b a l  C o mm u n i c a t i o n s  C o n f e r e n c e . N e w  O r l e a n s ,U S A , 2 0 0 8 : 1 9 4 0 - 1 9 4 4[ 9 ] M a l i k  H. S t a t i s t i c a l  m o d e l i n g   o f  f o o t p r i n t s  o f  Q I M  s t e g a n o g -r a p h y / / P r o c e e d i n g s  o f  t h e  2 0 1 0I E E E  I n t e r n a t i o n a l  C o n f e r-e n c e  o n  M u l t i m e d i a  a n d  E x p o ( I CME  2 0 1 0 ) .S i n g a p o r e ,2 0 1 0 : 1 4 8 7 - 1 4 9 2[ 1 0 ] M a l i k  H , S u b b a l a k s h m i  K  P , C h a n d r a m o u l i  R. N o n p a r a m e t r i cs t e g a n a l y s i s  o f  Q I M  d a t a  h i d i n g   u s i n g   a p p r o x i m a t e  e n t r o p y .I E E E  T r a n s a c t i o n s  o n  I n f o r m a t i o n  F o r e n s i c s  a n d  S e c u r i t y ,2 0 1 2 , 7 ( 2 ) : 4 1 8 - 4 3 1[ 1 1 ] M a l i k  H.S t e g a n a l y s i s  o f  Q I M  s t e g a n o g r a p h y   u s i n g   i r r e g u -l a r i t y   m e a s u r e/ / P r o c e e d i n g s  o f  t h e  1 0 t h  A CM W o r k s h o p   o nM u l t i m e d i a  a n d  S e c u r i t y . O x f o r d , UK , 2 0 0 8 : 1 4 9 - 1 5 8[ 1 2 ] Wu  Q i n x i a , L i  W e i p i n g , Y u  X i a o  Y i . R e v i s i t  s t e g a n a l y s i s  o nQ I M - b a s e d  d a t a  h i d i n g / / P r o c e e d i n g s  o f  t h e  5 t h  I n t e r n a t i o n a lC o n f e r e n c e  o n  I n t e l l i g e n t  I n f o r m a t i o n  H i d i n g   a n d  M u l t i m e d i aS i g n a l  P r o c e s s i n g .K y o t o , J a p a n , 2 0 0 9 : 9 2 9 - 9 3 2[ 1 3 ] L i u  Q i n g z h o n g , S u n g   A n d r e w H , Q i a o  M e n g y u.T e m p o r a ld e r i v a t i v e - b a s e d  s p e c t r u m  a n d  m e l - c e p s t r u m  a u d i o  s t e g a n a l y s i s .I E E E  T r a n s a c t i o n s  o n  I n f o r m a t i o n  F o r e n s i c s  a n d  S e c u r i t y ,2 0 0 9 , 4 ( 3 ) : 3 5 9 - 3 6 8[ 1 4 ] Q u a t i e r i  F  T h o m a s .D i s c r e t e - T i m e  S p e e c h  S i g n a l  P r o c e s s i n g :P r i n c i p l e s  a n d  P r a c t i c e .N J , U S A : P r e n t i c e  H a l l  P T R , 2 0 0 2
 
[返回]
上一篇:基于旋转模式的移动设备佩戴位置识别方法
下一篇:融合显著信息的层次特征学习图像分类