基于深度学习的作曲家分类问题 |
来源:一起赢论文网 日期:2015-04-22 浏览数:4579 【 字体: 大 中 小 大 中 小 大 中 小 】 |
摘 要 在音乐信息检索领域, 作曲家分类是一个十分重要的问题, 这一问题的目标是通过音频数据来识别相应的作曲家信息. 传统的分类算法都是通过提取复杂的特征来进行分类的, 而深层神经网络在特征学习上具有比较强的能力, 因此提出用深层神经网络来解决这一问题. 为了结合不同深层神经网络模型的优点, 设计了一种混合模型, 该模型基于深度置信网络(d e e p b e l i e f n e t w o r k , D B N ) 和级联去噪自编码器(s t a c k e d d e n o i s i n g a u t o e n c o d e r , S D A ) , 可以较好地解决作曲家分类问题. 实验表明, 该模型取得了 7 6. 2 6% 的正确率, 这一结果比单纯用某一种模型搭建的深层神经网络以及支持向量机要好 . 和图像数据类似, 人脑在提取音乐特征也是分层的, 每一层对信号的处理不一样, 因此混合模型在解决作曲家分类问题上具有一定的优势. 关键词 作曲家分类; 深层神经网络; 混合模型; 特征学习; 过学习
随着声音采集技术和互联网技术的快速发展,每天都会产生大量的音频数据上传到网络, 因此, 基于音频数据的音乐信息检索技术成为一个重要的研究课题. 音乐信息检索领域关注的问题包括海量音频数据分析 [1 ] 、 基于音频的风格? 作曲家分类[ 2 - 3 ]、 基于音频的乐器检测与识别 [4 - 5 ] 、 音频情感分类 [ 6 ] 等等. 本文关注基于音频的作曲家分类问题.不同的作曲家风格差异, 用户可能只对某一些特定的作曲家感兴趣, 而对其他作曲家的作品不感兴趣, 这一需求促使研究人员对作曲家分类问题进行了大量研究 [7 - 8 ] . L i u等人 [ 7 ] 提出了通过马尔可夫链对作曲家进行分类的算法. 他们针对乐谱数据建立了一个马尔可夫模型, 从而识别不同的作曲家, 由于乐谱数据有限, 他们只用到了莫扎特和海顿的所有弦乐, 数据量比较小, 而且也不易推广到音频数据上. K a l i a k a t s o s等人 [8 ] 针对7位著名的作曲家, 包括巴赫、 贝多芬、 布朗姆斯、 肖邦、 韩德尔、 海顿和莫扎特, 总共3 5 0首作品来进行分析. 他们针对 m i d i数据提取 D o d e c a p h o n i c T r a c e V e c t o r这一特征, 并基于此特征采用概率神经网络来计算相关矩阵, 最终利用前向神经网络对作曲家进行识别. 这一工作中用到的网络结构比较简单, 但是取得了比较好的效果.以上两项工作是针对乐谱数据或者 m i d i数据的, m i d i数据和乐谱数据之间可以相互转换. 然而,网上流传的数据以音频数据为主, m i d i数据和乐谱数据都非常少. 近年来, 研究人员更关注基于音频数据的作曲家分类问题.
一年一度的音乐信息检索比赛( m u s i c i n f o r m a t i o n r e t r i e v a l e v a l u a t i o n e x c h a n g e,M I R E X ) 也十分关注这一问题, 每年都有基于音频的作曲家分类问题.自 2 0 0 5 年起, M I R E X对于音乐信息检索领域的发展起到了十分大的促进作用. 通过定义音乐信息领域公认的比较重要的问题以及提供具有一定参考意义的测试系统, M I R E X 的主办方— — —国际音乐 信 息 检 索 评 估 实 验 室 (I n t e r n a t i o n a l M u s i cI n f o r m a t i o n R e t r i e v a l S y s t e m s E v a l u a t i o n L a b o r a t o r y ,I M I R S E L ) — — —帮助研究人员逐步提高自己的系统来解决这些问题 [3 , 9 ] .作曲家分类是 M I R E X定义的4个分类问题之一. 2 0 1 2年 L i m 等 人 [1 0 ] 提 出 了 一 种 基 于 音 色 特征和频谱节奏特征来识别作曲家. 具体来说, 他们提取了梅尔倒谱系数, 去相关滤波器( d e c o r r e l a t e df i l t e r b a n k s ) 和基于音程的频谱散度( o c t a v e - b a s e ds p e c t r a l c o n t r a s t ) 作为音色特征, 同时, 提取包括平均值、 方差、 最大值、 最小值在内的统计特征和模态特征作为频谱节奏特征. 模态特征包括模态频谱平整度( m o d u l a t i o n s p e c t r a l f l a t n e s s ? c r e s t m e a s u r e s ,MS FM ? MS CM )[ 1 1 ] 、模 态 频 谱 散 度 (m o d u l a t i o ns p e c t r a l c o n t r a s t ? v a l l e y , MS C ? MS V )[ 1 2 ] 以 及基于特征的模态频谱平整度和模态频谱散度(f e a t u r e -b a s e d M S F M ? M S C M , f e a t u r e - b a s e d M S V ? M S C )[ 1 3 ] .在对特征进行了仔细筛选之后, 他们用径向核函数的支持向量机进行分类.
在 M I R E X 2 0 1 2 的比赛中, 他们取得了6 9. 7 0%的正确率, 排在所有队伍中的第1名.另外一个由 Wu等人 [1 4 ] 发现, 通过对不同层级的音乐特征进行组合也可以较好地识别作曲家. 与提取 G a b o r特征的过程相似, 他们对音频数据也提取多尺度的特征, 然后通过一定的算法对这些特征进行筛选, 最后用支持向量机进行分类. 他们获得了6 5. 4 4%的正确率, 排名第3.以上2个课题组对音频数据特征的研究积累很深, 但是他们对于解决同一问题( 作曲家分类) 所需要的特征有哪些仍然有不同的认识. 所以其实我们并不是确切地知道应该由哪些特征来获取作曲家信息. 因此, 我们认为可以利用深度学习技术在特征学习上的优势来解决这一问题, 得到更好的分类系统.同时, 深层神经网络也避免了大量人工设计特征的工作, 使训练分类系统更加智能化. 通过 Wu等人的工作可以看出, 作曲家信息是一个多尺度多层次的综合信息, 这一点启发我们设计一个混合的深层神经网络模型来解决作曲家分类问题.深层神经网路以及深度学习技术在音乐信息检索领域有一些应用. H u m p h r e y 等人[ 1 5 ] 曾发现如果结构合理, 深层神经网络可以得到一个对音频数据更好的表达 . 在他们的工作中, H u m p h r e y 将深层网络学到的表示与托内斯特征( T o n n e t z ) 和梅尔倒谱系数进行比较, 发现深层网络学到的表示在风格分类等问题上有更好的性能.
音乐的产生过程是层次化的, 即音高、 强度的组合构成旋律, 而旋律的组合构成音乐的小节、 语句、段落、 章节乃至整首音乐作品. 作曲家在进行创作时每一个层次的创作模式是不一样的, 因此用不同模块构成一个混合的深层神经网络, 使得每一层的初值是通过不同的方式预训练得到的可以在一定程度上还原作曲家的创作过程, 从而得到更好的分类效果. 小波滤波器在音乐信息检索领域的成功应用 [1 6 ]也在一定程度上支持了我们用深层神经网络从音频数据中提取长时特征.本文中我们提出一种混合的深层神经网络. 网络的前两层是采用去噪自编码器来进行预训练的,中间两层是通过受限玻尔兹曼机来进行预训练的,最后用逻辑斯特层来进行分类. 结束预训练之后, 用反向传播算法对整个5层模型进行微调. 实验表明,混合 模 型 比 单 纯 的 模 型 性 能 好, 也 比 R B F 核 的S VM 性能更好.
1 深度学习背景
深层结构具有很强的特征学习能力, 在图像识别 [1 7 - 1 9 ] 、 语音识别 [ 2 0 - 2 1 ] 以及音乐信息检索 [ 2 2 - 2 3 ] 等领域取得了广泛的应用. 通过设计结构合理的深层神经网络, 我们可以从原始数据中提取出表达能力非常强的特征, 并用于解决各种分类和检索问题 [2 4 ] .尤其是在不清楚到底需要提取哪些特征时, 可以通过合理设计深层网络的结构来提取性能较好的特征. 比如 K r i z h e v s k y 等人[ 2 5 ] 在解决2 0 1 2年大规模图像识别挑战(i m a g e l a r g e s c a l e v i s u a l r e c o g n i t i o nc h a l l e n g e 2 0 1 2 , I L S VR C 2 0 1 2 ) 时所设计的深层神经网络, 结构比较合理, 同时引入了很多限制表达能力防止过学习的技术, 因此得到了比较好的结果 .S a x e等人 [2 6 ] 甚至提出, 只要网络结构合理, 网络参数用随机值都能得到较好的结果.深层神经网络是通过基础模块来搭建的. 这些基础模块包括卷积神经网络(c o n v o l u t i o n a l n e u r a ln e t w o r k , C N N ) , 受限玻尔兹曼机( r e s t r i c t e d B o l t z m a n nm a c h i n e , R B M ) 、 自编码器( a u t o - e n c o d e r , A E ) 及其变型. 卷积神经网络通过参数绑定的方法, 大量减少了需要训练的参数, 因此训练速度得到大幅提高 [2 7 ] .在文献[2 8 ] 中, L e c u n等人提出了一个5层的卷积神经网络来对手写字符进行识别, 取得了非常好的结果, 他们的网络是由卷积神经网络和全连接神经网络构成, 前者用于提取特征, 后者用于分类. 他们观察发现卷积神经网络的输出和数字十分相似, 为之后的全连接网络进行分类提供了非常好的特征.前文提到的 K r i z h e v s k y 等人在I L S VR C 2 0 1 2中用到的也是卷积神经网络, 他们取得了当年比赛的冠军, 比第2名的识别率提高了1 0%以上.
与卷积神经网络不同, 受限玻尔兹曼机和自编码器的快速学习源自于两阶段的训练方法. 通过不同的模型对深层网络进行逐层的预训练以得到性能较好的权值, 然后将这一权值作为初值用反向传播算法对神经网络进行微调, 减少了反向传播算法的运行时间, 从而缩短了整体的训练时间. 对于深度置信网络而言, 其基本模块为受限玻尔兹曼机 [2 9 ] ,H i n t o n等人 [3 0 ] 针对受限玻尔兹曼机提出了一个快速的学习算法, 即对比散度算法. 利用对比散度算法对受限玻尔兹曼机进行快速预训练, 然后用反向传播算法对受限玻尔兹曼机堆叠而成的深度置信网络进行微调, H i n t o n成功地在手写字符数据集上训练了一个9层的深层网络来对手写字符进行重构, 获得了非常小的重构误差.自编码器及其变型的预训练过程与受限玻尔兹曼机不同. 整体来说, 自编码器及其变型是在学习输入数据的某种表示 [3 1 ] .
自编码器是用同一个矩阵对输入数据进行编码和解码, 通过最小化解码数据和原始数据的误差来学习这个矩阵, 从而达到学习样本表示的目的. 编码和解码的过程都用到了非线性环节. 自编码器有很多个变种, 本文采用去噪自编码器作为网络的一种基本模型. 去噪自编码器是由V i n c e n t[ 3 2 ] 最早提出的, 他通过级联这一基本模型来提取音乐特征, 取得了很好的效果. 去噪自编码器是通过随机将输入数据中的某些元素设置为0或者设置为随机值来污染输入数据, 之后将污染的输入数据送到网络中进行编码和解码, 要求网络能恢复出没有被污染的数据 . 这一技术可以提高模型的抽象能力, 得到对原始数据更一般的表达. 后来, X i e等人 [3 3 ] 将这一基本结构应用到图像的识别与去噪中, 取得了很好的效果.深层神经网络在语音识别领域应用十分广泛.在文献[3 4 ] 中, D e n g 等人分析了深层神经网络训练的两个阶段( 即预训练和微调) 在语音识别问题中的重要作用 . 他们利用深层神经网络来提取特征, 之后用隐马尔可夫模型来识别语音. 在这一模型框架下,他们对网络的层数、 网络节点个数、 预训练数据集大小、 预训练过程迭代次数、 微调数据集大小、 微调迭代次数、 有无预训练过程进行了分析比较 . 得出的结论是在有预训练过程的情况下, 网络越深效果越好;网络节点数、 预训练数据集的大小以及预训练过程的迭代次数对最终的结果影响不大; 微调数据集的大小和微调过程迭代次数对识别率的作用很明显.D e n g 等人的工作让研究人员对深度学习的各个环节有了一个直观的了解.在文献 [ 3 5 ] 中,D e n g 等 人 借鉴 H i n t o n 在文献[2 9 ] 中的思路, 利用一个深层神经网络来实验语音信号的重构, 他们的实验表明, 该模型比已有的模型重构的误差更小.深层神经网络在音乐信息检索领域也有所应用, 但目前仍然处于探索过程中, 学者并没有发现类似于图像和语音中的那种突破性的成果.2 0 0 9年, L e e等人 [2 2 ] 提出了卷积深度置信网络用于解决风格和演奏家的分类. 他们在受限玻尔兹曼机中引入了卷积操作构成卷积受限玻尔兹曼机,并级联行程卷积深度置信网络. 和深度置信网络类似, 他们也采用两阶段的训练方法, 即首先进行预训练得到初始权重, 然后用反向传播算法进行微调. 实验表明, 通过这一网络结构提取出的特征与原始数据和梅尔倒谱系数相比有更强的表达能力. H a m e l等人 [3 6 ] 利用深度置信网络来解决乐器分类问题. 他们将深度置信网络与多层感知机、 支持向量机进行了比较, 发现深度置信网络不光在独奏乐器识别中表现优于其他2种模型, 在合奏乐器识别中也表现得很好. 之后, H a m e l[ 2 3 ] 又提出用3层深度置信网络来解决风格分类问题, 用到的是标准的 T z a n e t a k i s数据集进行测试. 他们的模型识别率为8 4 . 3% , 优于梅尔倒谱系数的7 9%. 2 0 1 1年, D i e l e m a n等人 [3 7 ]针对百万音乐数据库( m i l l i o n s o n g d a t a b a s e[ 1 ] ) 中的音色和音高特征设计了一个卷积神经网络来识别演奏家、 风格以及音高. 他们发现, 这一模型的性能比朴素贝叶斯和逻辑斯特回归的性能要好, 而且他们同时发现经过预训练的卷积神经网络性能更好 .深层神经网络在构造时非常强调模型的混合 .D e n g在文献[3 8 ] 中分析了这一特性, 比如深度置信网络就是由受限玻尔兹曼机通过堆叠混合得到 . 同样, 自编码器也可以作为构成深层神经网络的基本单元, 我们的工作便是受到这一观点的启发, 提出一种新的混合模式, 从而取得更好的效果.
2 模 型
2. 1 混合模型如B e n g i o之前在文献[3 1 ] 中提出的, 我们的大脑在处理原始输入数据时总是逐步提取更抽象的概念. 因此我们用2种不同的基础模块来搭建我们的模型, 即去噪自编码器和受限玻尔兹曼机. 在组建不同层时采用不同的模块. 我们搭建了一个5层的深层神经网络, 前两层用去噪自编码实现, 中间两层用受限玻尔兹曼机来实现, 最后用逻辑斯特层作为分类层. 我们将这一模型命名为S D A 2 _ D B N 2 , 其网络结构如图1所示:我们提出的模型试图模拟人脑处理音频信号的过程. 后面我们会解释, 去噪自编码器擅长对数据进行扩充, 而受限玻尔兹曼机擅长对数据进行投影. 这一区别启发我们采用混合网络结构来实现我们的分类系统.我们根据每一层的类型对网络进行逐层的预训练, 即当遇到受限玻尔兹曼机时就采取对比散度算法的一种变型 [3 9 ] 来进行预训练; 遇到去噪自编码器时就采取 V i n c e n t在文献[3 2 ] 中提出的算法进行预训练. 通过这种方式我们的网络可以很好地对原始数据进行扩充和投影, 以获得更好的初始权重. 在微调阶段, 我们采用反向传播算法对整个网络进行微调 . 为了得到更快的训练算法, 我们用逻辑斯特层作为网络的分类部分, 当然, 我们也可以用更复杂模型, 比如支持向量机来做最终的分类器, 这需要花更多的时间来训练, 而且并不能保证得到更好的结果.
2. 2 数据扩充为了实现数据扩充的功能, 我们用2层去噪自编码器来搭建底层网络 .自编码器采取的是最小化原始输入和重构输入的误差来进行学习的, 式(1 ) 表示了自编码器是在解决如下的优化问题:m i nWs i g m ( W T s i g m ( W x ) ) - x 2 ,(1 )其中,s i g m 表示s i g m o i d函数, W 表示一个 m × n 的矩阵. 我们有如下定理:定理1.重构误差为0的一个必要条件是 m 比输入数据张成的空间的维数要大.从式(1 ) 可以看出, 编码过程是将原始数据 x 投影到一个特征空间, 投影方式为 y = s i g m ( W x ) , 而解码过程是将特征空间里的数据 y 投影到原始空间上,投影方式为 x- =s i g m ( W T y ) . 而最终要优化的就是x 和 x-之间的误差. 由于s i g m o i d函数是一个一一映射, 所以一旦 m 小于输入数据张成的空间的维数, W 的表达能力将不足以表示出所有的样本, 因此重构误差不可能是0.从定理1可知, 自编码器具有保持原始数据的可恢复性的作用, 对于初级特征提取( 即网络的第1层) 而言, 这一点非常重要. 受到 k e r n e l S VM 将原始数据投影到高维空间的启发, 对于第1层而言, 将数据映射到一个高维空间可以增加数据的可分性.而在这个投影过程中可恢复性可以保证投影结果的相对稳定, 相反, 受限玻尔兹曼机投影的结果依赖于隐节点的概率分布. 因此我们以自编码器为模型来构建第1层网络.研究表明, 在某些应用中自编码器模型的抽象能力不够强, 特征表达能力较弱, 为了解决这一问题, 学者们引入了去噪自编码器模型 [3 2 ] . 我们也考虑采取去噪自编码器来构建第1层网络. 去噪自编码器优化的问题为m i nWs i g m ( W T s i g m ( W x^ ) ) - x2 ,(2 )其中 x ^ 表示污染后的数据. 去噪自编码器随机将输入 x 中的部分元素设置为0. 这一做法可以使网络提取到更具有表达能力的特征. 定理1对于去噪自编码器而言仍然是有效的. 实验表明, 采取去噪自编码器搭建网络的第1层可以取得很好的结果.受到大脑对图像处理过程的启发, 第1层即 V 1层比较忠于原始的输入数据, 而第2层( V 2层) 就开始提取更抽象的概念, 因此我们在设计第2层时对第 1 层的输出进行了压缩 . 事实上, 通过实验我们发现, 这一层节点的多少对最终的结果并没有很大的影响, 综合考虑训练时间和系统的性能, 我们取了一个折中的值.
2. 3 数据投影为了发挥深度置信网络的表达能力, 我们用两层受限玻尔兹曼机对去噪自编码器的输出进行投影.如前所述, 深度置信网络是通过对受限玻尔兹曼机进行级联得到的, 而受限玻尔兹曼机是一种能量模型. 定义可见变量和隐变量之间的概率关系由式(3 ) 所示:P ( v , h ) = 1Z e x p( - hT W v -bTv - cTh ) ,(3 )其中,v 和 h 分别表示可见变量和隐变量, Z 是归一化因子. 可以看出, 隐变量关于可见变量是条件独立的.P ( h | v ) =e x p ( - hT W v - c Th - bTv )∑h^e x p ( - h^ T W v - c Th^ - b Tv )=e x p ( - hT (W v + c ) )∑h^e x p ( - h^ T (W v + c ) )=∏ie x p ( - h i ( W v + c ) )∑h^ie x p ( - h^i ( W v + c ) )= ∏iP ( h i | v ) .同理可证, 可见变量在隐变量已知的条件下也是条件独立的. 这些条件独立性使得对受限玻尔兹曼机进行吉布斯采样变得非常容易. 受限玻尔兹曼机解决的优化问题如式(4 ) 所示:m a xW , b , c l nP ( V )∑v ∈ Vl n P ( v ) ,(4 )其中,V 表示所有数据构成的集合. 通过简单的推导可以得到更新参数更新公式为W n e w = W o l d + ε ( 〈 h xT 〉d a t a - 〈 h xT 〉m o d e l ) ,bn e w =bo l d +ε ( 〈 h 〉 d a t a - 〈 h 〉 m o d e l ) ,cn e w =co l d +ε ( 〈 v 〉 d a t a - 〈 v 〉 m o d e l ) ,其中, 〈 • 〉d a t a 表示•在数据上的平均值, 〈 •〉 m o d e l 表示•在模型上的期望值. 而期望值无法求得, 因为在学习过程中, 我们并不知道归一化因子是多少, 只能通过吉布 斯 采 样得 到 足 够多的样本, 然后求平均值 .H i n t o n[ 3 0 ] 提 出 的对比 散度算法 将 〈 •〉m o d e l 替 换 成〈 • 〉r e c , 其中〈 •〉 r e c 表示•在运行了若干次吉布斯采样( 甚至1次) 之后得到的数据上的平均值. 这使得每次权值更新时只用运行少量几次吉布斯采样过程从而加速了训练过程. H i n t o n之后 T i e l e m a n[ 3 9 ] 提出了保持对比散度算法可以进一步提高对比散度算法对理论算法的近似程度, 我们的程序中采用的是保持对比散度算法.由于受限玻尔兹曼机的预训练过程与维度无关, 所以可以利用这一模型对数据进行有效的投影.这也是我们采取这一个模型进行数据投影的原因.
2. 4 模型微调我们用反向传播算法对最终的模型进行微调.由于反向传播算法是一种基于梯度的优化算法, 而神经网络中的非线性环节使得这一算法很容易陷入局部极小值. 然而, 如果初始值比较合理, 局部极小值的性能也会非常好. 在我们的模型中, 由于预训练过程找到了一个较为合理的初始值, 因此用反向传播算法对参数进行微调之后效果比较好.
3 实验分析
3. 1 数据组成与实验准备因为版权的问题,I M I R S E L无法公开 M I R E X中用到的测试数据, 根据公开的信息, 数据集包含1 1位作曲家的作品, 分别是巴赫、 贝多芬、 布朗姆斯、 肖邦、 德沃夏克、 韩德尔、 海顿、 门德尔松、 莫扎特、 舒伯特和韦瓦第. 每位作曲家包含2 5 2个音频文件作为训练集, 每个音频文件时长3 0s , 采样率为2 2 . 0 5KH z .我们从互联网上抓取了这1 1位作曲家的作品,包括协奏曲、 变奏曲、 交响乐、 钢琴曲、 小提琴曲、 弦乐曲等. 一些典型的作品如表1所示.抓取之后, 我们将作品切割成每段3 0 s的音频文件, 每两段音频文件之间没有交集. 对于每位作曲家, 我们得到了约3 6 0段音频文件. 为了完成实验,我们将这些音频文件分为3部分:2 5 0段作为训练集,5 0段作为验证集, 剩下的作为测试集. 由于对于作品而言, 乐章是相对独立的单元, 因此我们在划分3个集合时保证不同集合的数据来自于不同的乐章.在音乐信息检索领域, 梅尔倒谱系数是一个非常重要的特征. 然而 V i n c e n t提出了一种改进的特征即梅尔多频系数 [4 0 ] (M e l - P h o n C o e f f i c i e n t s , MP C ) .MP C的提取方式和梅尔倒谱系数类似, 只是最后一步不作离散余弦变换, 而是将这一结果作为输出. 他发现 MP C在级联去噪自编码器对音频数据进行分析的过程中效果很好, 本文也将这一特征作为原始的输入特征 .具体来说, 对于每1段3 0 s的音频文件, 我们分为每3秒1帧, 相邻两帧之间有5 0 %的重合, 对于每1帧, 我们提取 MP C特征, 然后将逐帧的 MP C特征送到网络中来训练网络, 预测时我们将预测数据也切割成帧, 用网络对每1帧进行分类, 最终采取投票的方式来决定这段音乐出自哪位作曲家的作品.
3. 2 实 现我们用 P y t h o n语言写的 T h e a n o库来实现我们的系统. 同时用n V I D I A T e s l a C 2 0 7 5显卡来进行并行计算. 参数如表2所示:原始数据是5 9 2维的, 所以输入层节点数为5 9 2. 第1层将原始数据隐射到3倍维度的空间, 因此第1隐层节点数为1 7 7 6. 之后我们依次通过5 0 0 ,5 0 0和3 0 0对数据进行压缩, 最后用逻辑斯特层输出作曲家的类别(1 1类) . 预训练受限玻尔兹曼机时, 每次更新参数我们都运行1次吉布斯采样, 即对比散度的步数为1. 预训练去噪自编码器时我们随机将2 0%的元素设置为0. 预训练时, 每1层的迭代次数为2 0次, 微调时反向传播算法迭代的次数上限为2 0 0次, 同时反向传播时的权值约束系数均为0 . 1.
3. 3 实验结果整体来说我们提出的模型有比较好的效果. 在测试集上的整体错误率为7 6. 2 6% , 每一类的错误率如表3所示:我们也将本文的模型和其他模型进行了比较.除了S D A 2 _ D B N 2之外, 我们还实现了8种模型, 分别是:1 ) S D A 2 , 由2层去噪自编码器和1层逻辑斯特层组成;2 ) D B N 2 , 由2层受限玻尔兹曼机和1层逻辑斯特层组成;3 ) S D A 3 , 由3层去噪自编码器和1层逻辑斯特层组成;4 ) D B N 3 , 由3层受限玻尔兹曼机和1层逻辑斯特层组成;5 ) S D A 4 , 由4层去噪自编码器和1层逻辑斯特层组成;6 ) D B N 4 , 由4层受限玻尔兹曼机和1层逻辑斯特层组成;7 ) S D A 2 _ D B N 2 _ N , 和我们提出的模型结构相同, 但是没有预训练过程;8 ) R B F _ S VM , 径向核的支持向量机模型.不同模型的参数以及准确率如表4所示. 我们发现层数深的模型比层数浅的模型效果好( 分类正确率 S D A 4 优 于 S D A 3 优 于 S D A 2 , D B N 4 优 于D B N 3优于 D B N 2 ) , 混合模型比单纯模型效果好( 分类 正 确 率 S D A 2 _ D B N 2 优 于 S D A 4 , S D A 2 _D B N 2优于 D B N 4 ) . 作为对比, 我们列出了 R B F _S VM 的分类正确率, 我们提出的模型在这一问题上的表现优于 R B F _ S VM.在实验中我们发现各模型均存在过学习的现象, 我们通过在微调时引入1范数和2范数约束来限制模型的表达能力.我们发现, 当第1层的节点数是输入样本维数的3倍时, 深层网络的性能比较好. 我们比较了第1层节点数不同时网络的性能, 如图2所示:根据L e e[ 1 7 ] 的观点, 第1层主要着眼于底层的特征提取, 而底层特征的表达能力决定了上层特征的表达能力. 实验表明, 第1层节点过多会导致表达能力过强, 从而产生过学习现象, 效果反而会不好.为了观察每一层输出的特性, 我们将测试数据每一层输出用线性降维(l i n e a r d i s c r i m i n a n t a n a l y s i s ,L D A ) 的方法投影到2维平面上. L D A 方法是在最大化类间离散度的同时最小化类内离散度. 在图3中, 我们展示了每一层的输出. 从图3 ( e ) 可以看出,门德尔松样本、 肖邦样本以及韩德尔样本和其他各类基本分离, 因此这3类的正确率比较高, 如表3所示. 从图3 ( a ) 到图3 ( e ) 可以看出数据逐渐分开的规律. 我们对每一层的输出用支持向量机模型进行分类测试, 发现在最后一层的分类正确率最高,为7 3. 7 3% , 比在原始数据上的正确率(7 3. 1 0% )略高.
4 结 论
本文提出了一种混合的深层神经网络来解决基于音频的作曲家分类问题. 这一模型试图模拟人脑处理音频信号的过程. 我们将去噪自编码器的扩展能力和受限玻尔兹曼机的迁移能力结合起来提出了一种适用于作曲家分类的模型.我们将提出的模型和其他的模型进行了比较,通过实验发现如果层数更少的模型表达能力不足,而层数更多的模型会产生过学习现象. 单纯模型的性能也没有混合模型好.通过实验我们发现了一个经验结论, 即第1层的节点数为输入维数的3倍左右效果会比较好, 这一结论为之后的工作提供了一定的指导.
参 考 文 献[ 1 ] B e r t i n - M a h i e u x T , E l l i s D P W , Wh i t m a n B , e t a l .T h em i l l i o n s o n g d a t a s e t [ C ] ? ? P r o c o f t h e 1 2 t h I n t S o c i e t y f o rM u s i c I n f o r m a t i o n R e t r i e v a l ( I S M I R 2 0 1 1 ) .M i a m i , F L :U n i v e r s i t y o f M i a m i , 2 0 1 1 : 5 9 1 - 5 9 6[ 2 ] T z a n e t a k i s G , C o o k P.M u s i c a l g e n r e c l a s s i f i c a t i o n o f a u d i os i g n a l s [ J ] . I E E E t r a n s o n S p e e c h a n d A u d i o P r o c e s s i n g ,2 0 0 2 , 1 0 ( 5 ) : 2 9 3 - 3 0 2[ 3 ] D o w n i e J S , E h m a n n A F ,B a y M , e t a l .T h e m u s i ci n f o r m a t i o n r e t r i e v a l e v a l u a t i o n e x c h a n g e : S o m e o b s e r v a t i o n sa n d i n s i g h t s [ G ] ? ? A d v a n c e s i n M u s i c I n f o r m a t i o n R e t r i e v a l .B e r l i n : S p r i n g e r , 2 0 1 0 : 9 3 - 1 1 5[ 4 ]D e n g J D , S i mm e r m a c h e r C , C r a n e f i e l d S.A s t u d y o nf e a t u r e a n a l y s i s f o r m u s i c a l i n s t r u m e n t c l a s s i f i c a t i o n [ J ] .I E E E T r a n s o n S y s t e m s , M a n , a n d C y b e r n e t i c s , P a r t B :C y b e r n e t i c s , 2 0 0 8 , 3 8 ( 2 ) : 4 2 9 - 4 3 8[ 5 ] L i t t l e D , P a r d o B.L e a r n i n g m u s i c a l i n s t r u m e n t s f r o mm i x t u r e s o f a u d i o w i t h w e a k l a b e l s [ C ] ? ? P r o c o f t h e 9 t h I n tC o n f o n M u s i c I n f o r m a t i o n R e t r i e v a l ( I S M I R 2 0 0 8 ) .P h i l a d e l p h i a P A : D r e x e l U n i v e r s i t y , 2 0 0 8 : 1 2 7 - 1 3 2[ 6 ] S o n g Y a d i n g , D i x o n S , P e a r c e M.E v a l u a t i o n o f m u s i c a lf e a t u r e s f o r e m o t i o n c l a s s i f i c a t i o n [ C ] ? ? P r o c o f t h e 1 3 t h I n tC o n f o n M u s i c I n f o r m a t i o n R e t r i e v a l ( I S M I R 2 0 1 2 ) . P o r t o ,P o r t u g a l : F E U P E d i e s , 2 0 1 2 : 5 2 3 - 5 2 8[ 7 ] L i u Y W , S e l f r i d g e - F i e l d E.M o d e l i n g m u s i c a s m a r k o vc h a i n s : C o m p o s e r i d e n t i f i c a t i o n [ E B ? O L ] . ( 2 0 0 2 - 0 6 - 1 1 )[ 2 0 1 4 - 0 4 - 3 0 ] . h t t p :? ? e s f . c c a r h . o r g ? 2 5 4 ? 2 5 4 _ L i t e r a t u r e P a c k 1 ?C o m p o s e r I D _ L i u. p d f[ 8 ] K a l i a k a t s o s - P a p a k o s t a s M A , E p i t r o p a k i s M G , V r a h a t i s MN.M u s i c a l c o m p o s e r i d e n t i f i c a t i o n t h r o u g h p r o b a b i l i s t i c a n df e e d f o r w a r d n e u r a l n e t w o r k s[ G ] ? ? A p p l i c a t i o n s o fE v o l u t i o n a r y C o m p u t a t i o n. B e r l i n : S p r i n g e r, 2 0 1 0 : 4 1 1 - 4 2 0[ 9 ] D o w n i e J S.T h e m u s i c i n f o r m a t i o n r e t r i e v a l e v a l u a t i o ne x c h a n g e ( 2 0 0 5 - 2 0 0 7 ) : A w i n d o w i n t o m u s i c i n f o r m a t i o nr e t r i e v a l r e s e a r c h [ J ] .A c o u s t i c a l S c i e n c e a n d T e c h n o l o g y ,2 0 0 8 : 2 9 ( 4 ) : 2 4 7 - 2 5 5[ 1 0 ] L i m S C , B y u n K , L e e J S , e t a l . M u s i c g e n r e ? m o o dc l a s s i f i c a t i o n : M I R E X 2 0 1 2 [ O L ] . [ 2 0 1 4 - 0 4 - 3 0 ] .h t t p : ? ?c i t e s e e r x. i s t . p s u. e d u ? v i e w d o c ? d o w n l o a d ? d o i =1 0. 1. 1. 2 9 7.3 4 6 2& r e p =r e p 1& t y p e =p d f[ 1 1 ]J a n g D , Y o o C D.M u s i c i n f o r m a t i o n r e t r i e v a l u s i n g n o v e lf e a t u r e s a n d a w e i g h t e d v o t i n g m e t h o d [ C ] ? ? P r o c o f t h e 1 8 t hI E E E I n t S y m p o n I n d u s t r i a l E l e c t r o n i c s .P i s c a t a w a y , N J:I E E E , 2 0 0 9 : 1 3 4 1 - 1 3 4 6[ 1 2 ] L e e C H , S h i h J L , Y u K M , e t a l .A u t o m a t i c m u s i c g e n r ec l a s s i f i c a t i o n u s i n g m o d u l a t i o n s p e c t r a l c o n t r a s t f e a t u r e [C ]? ? P r o c o f t h e 1 4 t h I E E E I n t C o n f o n M u l t i m e d i a & E x p o .P i s c a t a w a y , N J : I E E E , 2 0 0 7 : 2 0 4 - 2 0 7[ 1 3 ] L i m S C ,J a n g S J , L e e S P , e t a l .M u s i c g e n r e ? m o o dc l a s s i f i c a t i o n u s i n g a f e a t u r e - b a s e d m o d u l a t i o n s p e c t r u m [C ]? ? P r o c o f t h e 1 s t I n t C o n f o n M o b i l e I T C o n v e r g e n c e( I CM I C ) . P i s c a t a w a y , N J : I E E E , 2 0 1 1 : 1 3 3 - 1 3 6[ 1 4 ] Wu M J ,J a n g J S R. M I R E X s u b m i s s i o n s - c o m b i n i n ga c o u s t i c a n d m u l t i - l e v e l v i s u a l f e a t u r e s f o r m u s i c g e n r ec l a s s i f i c a t i o n [ O L ] . [ 2 0 1 4 - 0 4 - 3 0 ] .h t t p : ? ? www. m u s i c - i r .o r g ? m i r e x ? a b s t r a c t s ? 2 0 1 2 ? W J 2. p d f[ 1 5 ] H u m p h r e y E J , B e l l o J P , L e C u n Y.M o v i n g b e y o n d f e a t u r ed e s i g n :D e e p a r c h i t e c t u r e s a n d a u t o m a t i c f e a t u r e l e a r n i n g i nm u s i c i n f o r m a t i c s [ C ] ? ? P r o c o f t h e 1 3 t h I n t C o n f o n M u s i cI n f o r m a t i o n R e t r i e v a l ( I S M I R 2 0 1 2 ) .P o r t o , P o r t u g a l :F E U P E d i e s , 2 0 1 2 : 4 0 3 - 4 0 8[ 1 6 ] A n d é n J , M a l l a t S. M u l t i s c a l e s c a t t e r i n g f o r a u d i oc l a s s i f i c a t i o n [ C ] ? ? P r o c o f t h e 1 2 t h I n t C o n f o n M u s i cI n f o r m a t i o n R e t r i e v a l ( I S M I R 2 0 1 1 ) . M i a m i , F L :U n i v e r s i t y o f M i a m i , 2 0 1 1 : 6 5 7 - 6 6 2[ 1 7 ] L e e H , E k a n a d h a m C ,N g A Y. S p a r s e d e e p b e l i e f n e t m o d e lf o r v i s u a l a r e a v 2 [ C ] ? ? P r o c o f t h e 1 9 t h A d v a n c e s i n N e u r a lI n f o r m a t i o n P r o c e s s i n g S y s t e m s . R o s t r e v o r , I r e l a n d : C u r r a nA s s o c i a t e s , 2 0 0 7 : 8 7 3 - 8 8 0[ 1 8 ] L e Q V.B u i l d i n g h i g h - l e v e l f e a t u r e s u s i n g l a r g e s c a l eu n s u p e r v i s e d l e a r n i n g [ C ] ? ? P r o c o f t h e 3 8 t h I E E E I n t C o n fo n A c o u s t i c s , S p e e c h a n d S i g n a l P r o c e s s i n g ( I C A S S P ) .P i s c a t a w a y , N J : I E E E , 2 0 1 3 , 8 5 9 5 - 8 5 9 8[ 1 9 ] O s a d c h y M , C u n Y L , M i l l e r M L. S y n e r g i s t i c f a c e d e t e c t i o na n d p o s e e s t i m a t i o n w i t h e n e r g y - b a s e d m o d e l s [ J ] .T h eJ o u r n a l o f M a c h i n e L e a r n i n g R e s e a r c h , 2 0 0 7 , 8 : 1 1 9 7 - 1 2 1 5[ 2 0 ] S e i d e F , L i G , Y u D.C o n v e r s a t i o n a l s p e e c h t r a n s c r i p t i o nu s i n g c o n t e x t _d e p e n d e n t d e e p n e u r a l n e t w o r k s [ C ] ? ? P r o c o ft h e 1 2 t h I n t S p e e c h C o mm u n i c a t i o n A s s o c i a t i o n A n n u a lC o n f .N e w Y o r k : C u r r a n A s s o c i a t e s , 2 0 1 1 : 4 3 7 - 4 4 0[ 2 1 ] H i n t o n G , D e n g L , Y u D , e t a l .D e e p n e u r a l n e t w o r k s f o ra c o u s t i c m o d e l i n g i n s p e e c h r e c o g n i t i o n : T h e s h a r e d v i e w s o ff o u r r e s e a r c h g r o u p s [ J ] . S i g n a l P r o c e s s i n g M a g a z i n e , 2 0 1 2 :2 9 ( 6 ) : 8 2 - 9 7[ 2 2 ] L e e H , P h a m P T , L a r g m a n Y , e t a l .U n s u p e r v i s e d f e a t u r el e a r n i n g f o r a u d i o c l a s s i f i c a t i o n u s i n g c o n v o l u t i o n a l d e e pb e l i e f n e t w o r k s [ C ] ? ? P r o c o f A d v a n c e s i n N e u r a l I n f o r m a t i o nP r o c e s s i n g S y s t e m s . R o s t r e v o r , I r e l a n d : C u r r a n A s s o c i a t e s,2 0 0 9 : 1 0 9 6 - 1 1 0 4[ 2 3 ] H a m e l P , E c k D.L e a r n i n g f e a t u r e s f r o m m u s i c a u d i o w i t hd e e p b e l i e f n e t w o r k s [ O L ] . [ 2 0 1 4 - 0 4 - 3 0 ] . h t t p : ? ? i s m i r 2 0 1 0.i s m i r . n e t ? p r o c e e d i n g s ? i s m i r 2 0 1 0 - 5 8. p d f ? o r i g i n=p u b l i c a t i o n _d e t a i l[ 2 4 ] H u m p h r e y E J , C h o T , B e l l o J P. L e a r n i n g a r o b u s t t o n n e t z _s p a c e t r a n s f o r m f o r a u t o m a t i c c h o r d r e c o g n i t i o n [ C ] ? ? P r o c o ft h e 3 7 t h I E E E I n t C o n f o n A c o u s t i c s , S p e e c h a n d S i g n a lP r o c e s s i n g ( I C A S S P ) .P i s c a t a w a y , N J : I E E E , 2 0 1 2 : 4 5 3 -4 5 6[ 2 5 ] K r i z h e v s k y A , S u t s k e v e r I , H i n t o n G E.I m a g e N e tc l a s s i f i c a t i o n w i t h d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k s [C ] ? ?P r o c o f A d v a n c e s i n N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s .R o s t r e v o r , I r e l a n d : C u r r a n A s s o c i a t e s , 2 0 1 2 : 1 1 0 6 - 1 1 1 4[ 2 6 ] S a x e A , K o h P W , C h e n Z , e t a l .O n r a n d o m w e i g h t s a n du n s u p e r v i s e d f e a t u r e l e a r n i n g [ C ] ? ? P r o c o f t h e 2 8 t h I n t C o n fo n M a c h i n e L e a r n i n g ( I CML - 1 1 ) .N e w Y o r k : A CM , 2 0 1 1 :1 0 8 9 - 1 0 9 6[ 2 7 ] L e c u n Y , B e n g i o Y.C o n v o l u t i o n a l n e t w o r k s f o r i m a g e s ,s p e e c h , a n d t i m e s e r i e s [ O L ] . [ 2 0 1 4 - 0 4 - 3 0 ] . h t t p : ? ? www.i r o . u m o n t r e a l . c a ? l a b s ? n e u r o ? p o i n t e u r s ? h a n d b o o k - c o n v o . p d f[ 2 8 ] L e c u n Y , B o t t o u L , B e n g i o Y , e t a l . G r a d i e n t - b a s e d l e a r n i n ga p p l i e d t o d o c u m e n t r e c o g n i t i o n [ J ] .P r o c o f t h e I E E E ,1 9 9 8 , 8 6 ( 1 1 ) : 2 2 7 8 - 2 3 2 4[ 2 9 ] H i n t o n G E , S a l a k h u t d i n o v R R. R e d u c i n g t h ed i m e n s i o n a l i t y o f d a t a w i t h n e u r a l n e t w o r k s [J ] .S c i e n c e ,2 0 0 6 , 3 1 3 ( 5 7 8 6 ) : 5 0 4 - 5 0 7[ 3 0 ] H i n t o n G E , O s i n d e r o S , T e h Y W. A f a s t l e a r n i n ga l g o r i t h m f o r d e e p b e l i e f n e t s [ J ] .N e u r a l C o m p u t a t i o n ,2 0 0 6 : 1 8 ( 7 ) : 1 5 2 7 - 1 5 5 4[ 3 1 ] B e n g i o Y. L e a r n i n g d e e p a r c h i t e c t u r e s f o r A I [ J ] .F o u n d a t i o n s a n d T r e n d s i n M a c h i n e L e a r n i n g , 2 0 0 9 , 2 ( 1 ) :1 - 1 2 7[ 3 2 ] V i n c e n t P , L a r o c h e l l e H , B e n g i o Y , e t a l .E x t r a c t i n g a n dc o m p o s i n g r o b u s t f e a t u r e s w i t h d e n o i s i n g a u t o - e n c o d e r s [ C ]? ? P r o c o f t h e 2 5 t h I n t C o n f o n M a c h i n e L e a r n i n g . N e w Y o r k :A CM 2 0 0 8 : 1 0 9 6 - 1 1 0 3[ 3 3 ] X i e J u n y u a n , X u L i n l i , C h e n E n h o n g . I m a g e d e n o i s i n g a n di n p a i n t i n g w i t h d e e p n e u r a l n e t w o r k s [C ] ? ? P r o c o f A d v a n c e si n N e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s . R o s t r e v o r ,I r e l a n d : C u r r a n A s s o c i a t e s , 2 0 1 2 : 3 5 0 - 3 5 8[ 3 4 ] Y u D , D e n g L , D a h l G. R o l e s o f p r e t r a i n i n g a n d f i n e _ t u n i n gi n c o n t e x t _ d e p e n d e n t d b n _ h mm s f o r r e a l _ w o r l d s p e e c hr e c o g n i t i o n [ O L ] . [ 2 0 1 4 - 0 4 - 3 0 ] h t t p : ? ? www. m s r - w a y p o i n t .c o m ? p u b s ? 1 4 3 6 1 9 ? d b n 4 a s r - n i p s 2 0 1 0. p d f[ 3 5 ] D e n g L i , S e l t z e r M L , Y u D o n g , e t a l .B i n a r y c o d i n g o fs p e e c h s p e c t r o g r a m s u s i n g a d e e p a u t o - e n c o d e r [ C ] ? ? P r o c o fI n t S p e e c h C o mm u n i c a t i o n A s s o c i a t i o n A n n u a l C o n f .N e wY o r k : C u r r a n A s s o c i a t e s , 2 0 1 0 : 1 6 9 2 - 1 6 9 5[ 3 6 ] H a m e l P , W o o d S , E c k D.A u t o m a t i c i d e n t i f i c a t i o n o fi n s t r u m e n t c l a s s e s i n p o l y p h o n i c a n d p o l y - i n s t r u m e n t a u d i o[ O L ] . [ 2 0 1 4 - 0 4 - 3 0 ] . h t t p :? ? c i t e s e e r x. i s t . p s u. e d u ? v i e w d o c ?d o w n l o a d ? d o i =1 0. 1. 1. 3 8 7. 8 6 5& r e p =r e p 1& t y p e =p d f[ 3 7 ] D i e l e m a n S , B r a k e l P , S c h r a u w e n B.A u d i o - b a s e d m u s i cc l a s s i f i c a t i o n w i t h a p r e t r a i n e d c o n v o l u t i o n a l n e t w o r k [ C ] ? ?P r o c o f 1 2 t h I n t S o c i e t y f o r M u s i c I n f o r m a t i o n R e t r i e v a l C o n f( I S M I R - 2 0 1 1 ) .M i a m i F L : U n i v e r s i t y o f M i a m i , 2 0 1 1 : 6 6 9 -6 7 4[ 3 8 ] D e n g L i .A t u t o r i a l s u r v e y o f a r c h i t e c t u r e s , a l g o r i t h m s , a n da p p l i c a t i o n s f o r d e e p l e a r n i n g [ J ] .A P S I P A T r a n s o n S i g n a la n d I n f o r m a t i o n P r o c e s s i n g , 2 0 1 4 ( 3 ) : 1 4 - 4 3[ 3 9 ] T i e l e m a n T.T r a i n i n g r e s t r i c t e d b o l t z m a n n m a c h i n e s u s i n ga p p r o x i m a t i o n s t o t h e l i k e l i h o o d g r a d i e n t [ C ] ? ? P r o c o f t h e2 5 t h I n t C o n f o n M a c h i n e L e a r n i n g .N e w Y o r k : A CM ,2 0 0 8 : 1 0 6 4 - 1 0 7 1[ 4 0 ] V i n c e n t P , L a r o c h e l l e H , L a j o i e I , e t a l . S t a c k e d d e n o i s i n ga u t o e n c o d e r s : L e a r n i n g u s e f u l r e p r e s e n t a t i o n s i n a d e e pn e t w o r k w i t h a l o c a l d e n o i s i n g c r i t e r i o n [ J ] .T h e J o u r n a l o fM a c h i n e L e a r n i n g R e s e a r c h , 2 0 1 0 , 1 1 : 3 3 7 1 - 3 4 0 8
|
[返回] |