融合显著信息的层次特征学习图像分类 |
来源:一起赢论文网 日期:2015-04-26 浏览数:3985 【 字体: 大 中 小 大 中 小 大 中 小 】 |
摘 要 高效的图像特征表示是计算机视觉的基础 . 基于图像的视觉显著性机制及深度学习模型的思想, 提出一种融合图像显著性的层次稀疏特征表示用于图像分类. 这种层次特征学习每一层都由3个部分组成: 稀疏编码、 显著性最大值汇聚(s a l i e n c y m a x p o o l i n g ) 和对比度归一化. 通过在图像层次稀疏表示中引入图像显著信息, 加强了图像特征的语义信息, 得到图像显著特征表示. 相比于手工指定特征, 该模型采用无监督数据驱动的方式直接从图像中学习到有效的图像特征描述 . 最后采用支持向量机(s u p p o r t v e c t o r m a c h i n e , S VM ) 分类器进行监督学习, 实现对图像进行分类. 在2个常用的标准图像数据集( C a l t e c h 1 0 1 和 C a l t e c h 2 5 6 ) 上进行的实验结果表明, 结合图像显著性信息的层次特征表示, 相比于基于局部特征的单层稀疏表示在分类性能上有了显著提升. 关键词 特征学习; 层次稀疏表示; 图像显著性; 图像分类; 显著性最大值汇聚
图像分类是计算机视觉和人工智能领域中重要且应用广泛的研究方向之一, 如在目标识别 [1 ] 、 物体检测 [2 ] 、 地理图像分析 [ 3 ] 以及场景识别 [ 4 ] 等方面都有应用. 其研究目标是根据图像中所具有的某种属性将其划分到预先定义的不同类别中. 由于在图像内容中包含着大量复杂且难以描述的信息, 要使得计算机能够像人类一样容易进行分类还是有很大困难的.图像表示是图像分类的基础, 为了更好地表征图像, 实现计算机自动分类, 对图像提取一个好的特征描述至关重要. 由于图像数据是一个高维的信号,其在不同的尺度、 视图、 光照条件和场景下变化非常剧烈. 如何提取一个鲁棒的特征描述来应对这些变化是一个困难且重要的研究方向.
目前图像分类比较有代表性的方法就是采用手工指定的局部特征,如S I F T ,HO G等, 然后应用词包模型(b a g - o f - w o r d s,B OW )[ 5 ] 来形成对图像的全局描述. 传统的词包模型由4部分构成: 局部特征提取、 视觉码本构建、 特征编码( 或称向量量化) 和特征统计. 该模型将图像视为一系列无序的局部特征的集合, 并量化表示成离散的视觉单词, 然后统计出整幅图像中所有视觉单词的频率直方图描述, 作为最终的图像表示.在传统的词包模型中, 由于视觉单词具有一定的判别性和代表性, 使其具有较好的鲁棒性, 并对噪声的干扰具有一定的抑制作用. 但该模型并没有考虑到图像中局部特征之间的空间位置关系, 这明显制约了其描述能力. 为了解决这一问题, L a z e b n i k等人 [6 ] 借鉴金字塔匹配核的思想, 提出了空间金字塔匹配模型(s p a t i a l p y r a m i d m a t c h i n g , S PM ) , 改善了词包模型的这一缺点, 大大提升了词包模型的描述能力 .除了对图像空间位置信息的考虑外, 在词包模型中最为重要的部分— — —特征量化编码— — —对分类性能也有着重要影响, 但也存在着一些不足 . 在特征量化编码中, 传统的词包模型使用了基于最近邻匹配的硬向量量化, 即将每一个局部特征投影到一个视觉单词上.
但是当一个局部特征与多个视觉单词具有相似性时会产生较大的量化误差. 因此, G e m e r t等人 [4 ] 提出了采用软量化(s o f t a s s i g n m e n t ) 的编码思想来解决这一问题, 即将待量化的局部特征表示成 K 个近邻字典的自适应加权线性组合. 随着稀疏表达理论在视觉领域的广泛应用, Y a n g 等人 [7 ] 又提出了用稀疏编码(s p a r s e c o d i n g ) 代替软量化编码以及W a n g 等人[ 8 ] 提出的局部线性编码(l o c a l i t y c o n s t r a i n tl i n e a r c o d i n g , L L C ) 模型等. 相比于硬向量量化, 这些方法能够显著地减少量化误差.虽然局部特征结合单层稀疏编码模型的引入将词包模型的性能提升到一个全新的高度, 但该模型仍然有进一步提升的潜力.
由于单层的稀疏编码在很大程度上依赖于手工设计的底层特征, 而手工设计特征非常困难, 费时而且需要启发式, 能否选取好的特征在很大程度上是依靠经验和运气. 因此余凯等人 [9 ] 提出了直接从图像像素学习到任务相关的特征描述的层次稀疏编码(h i e r a r c h i c a l s p a r s e c o d i n g ,H S C ) 方法, 其获得的性能可以与基于手工特征的单层稀疏编码相媲美.近年来, 基于层次化特征学习的深度学习模型在计算机视觉、 语音识别和自然语言处理等方面都得到了广泛的应用, 也获得不错的性能.深度学习模型的基本思想就是通过构建具有多个层次的学习模型来学习到更有用的特征表示, 从而来提升分类或预测的准确性. 其主要有2个优点:首先, 不需要手工设计特征, 它是自动直接从数据中提取特征; 其次, 实验表明这种层次模型更能够提取到图像中最本质的特征表示 [1 0 ] .从信息理论角度来说, 一幅图像中的信息包含先验信息和新颖信息( 即变化信息) 两个部分 [1 1 ] .人类的视觉对变化信息更为敏感, 可以通过图像的显著图有效地提取图像中的变化信息并摒除冗余信息 [3 ] .图像的稀疏表示一般都是通过一组超完备的字典来计算得到. 正因为使用了超完备字典, 使得图像稀疏表示不可避免地对一些噪声和变化敏感( 如平移或旋转) . 为了尽量减少这些因素的影响, 特征汇聚函数(p o o l i n g f u n c t i o n ) 可以用来描述图像在局部区域的稀疏编码的统计特征 . 同时, 我们发现在图像的表示中, 图像中不相关的部分如背景、 非目标物体, 在特征表示中都有很大的稀疏系数表示, 从而使稀疏表示中包含更多非本质的视觉信息. 视觉显著性模拟了生物视觉的注意机制, 图像中最鲜明的特征一定是图像中最显著的区域 [3 ] .
图像的显著性区域在一定程度上可以有效地使目标在图像背景中更加突出. 因此本文提出在特征汇聚阶段加入图像显著性信息, 使图像特征表达更加具有判别性.F i g . 1 H i e r a r c h i c a l f e a t u r e l e a r n i n g .图1层次特征学习框架受到最近的深度学习模型以及图像所具有的视觉显著性方面的启发, 本文提出了一种融合图像显著性的层次稀疏特征表示, 该表示的每一层由3个主要模块组成: 稀疏编码、 显著性最大值汇聚(s a l i e n c ym a x p o o l i n g ) 和对比度归一化. 这种层次特征学习模型能够更好地提取到图像最显著的特征表达且对自然图像具有普遍适用性, 可以有效地提高自然图像的分类性能. 通过将该模型应用于分类任务中, 在C a l t e c h 1 0 1[ 1 2 ] ,C a l t e c h 2 5 6[ 1 3 ] 标准图像数据集上进行实验. 实验结果表明: 结合图像显著性的层次稀疏表示方法的分类准确率与其他方法相比有更进一步的提升.
1 相关工作
近年来, 很多关于视觉识别的工作中都集中使用无监督学习和有监督学习相结合的层次结构来学习图像丰富的特征描述. 其中稀疏编码一直以来都是一个很受欢迎的图像建模方法. 在基于 S I F T 局部特征或原始图像块上进行稀疏编码进而用于人脸识别、 图像分割和一般的目标识别都有着很好的表现. 随着深度学习的兴起, 基于层次结构的特征学习方法 也 有 很 大 进 展, 如 H S C[ 9 ] 、 层 次 匹 配 追 踪(h i e r a r c h i c a l m a t c h i n g p u r s u i t , HMP )[ 1 4 ] 、 深度信念网络(d e e p b e l i e f n e t w o r k s , D B N )[ 1 5 ] , 深度卷积网络(d e e p c o n v o l u t i o n a l n e t w o r k s , D C N )[ 1 6 ]等.深度学习方法也有监督学习与无监督学习之分 . 不同的学习框架下建立的学习模型是不同的 . 一类是 H i n t o n等人 [1 5 ] 首次提出的D B N , 采用逐层无监督训练限制性玻尔兹曼机( R BM ) 来逐层学习得到图像的层次特征表达. 为了处理大尺寸的图像数据, L e e等人 [1 7 ] 提出了卷积深度信念网络(c o n v o l u -t i o n a l d e e p b e l i e f n e t w o r k s, C D B N ) , 在隐层和可见层之间加入了局部接受域和共享权值. 但是这类深度结构的生成模型的训练一直都是一个很难有效解决的问题. 另一类深度模型是通过定义一组编码器和解码器, 以重构误差为限制来形成对数据的特征描述. 如 L e等人 [1 8 ] 使用深度自动编码机(d e e pa u t o e n c o d e r , D A E ) 从大量无标签图像数据中建立一个高层的特征检测子, 如人脸和猫脸检测子. 还有一类如 K r i z h e v s k y 等人[ 1 6 ] 提出的深度卷积神经网络 (d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k s ) , 其 在I m a g e N e t 2 0 1 2上取得了非常显著的效果, 并证明了该模型在大数据图像集上的潜力.图像显著性作为图像中重要的视觉特征信息,体现了人眼对图像的某些区域的重视程度. 为了将这种显著性信息引入特征表达中, 我们可以在编码阶段有效地引入这部分信息. 对此 Y a n g 等人[ 1 9 ] 提出 的 H S S L ( h i e r a r c h i c a l , s p a r s i t y , s a l i e n c y a n dl o c a l i t y ) 结构就是通过结合图像显著性和层次特征学习模型来学习得到图像稀疏性、 显著性和局部性的特征描述. 本文在此基础上进行了一些改进:1) 提出使用批正交匹配追踪(b a t c h o r t h o g o n a l m a t c h i n gp u r s u i t , B OMP ) 来有效提升模型的编码效率;2 ) 对特征汇聚后的编码进行对比度归一化操作, 有效地减少特征编码对噪声的影响.
2 融合图像显著性的层次特征
学习本文采用的层次特征学习框架如图1所示. 在每一层中主要由3个模块组成: 稀疏编码(s p a r s ec o d i n g ) 、 显著性最大值汇聚(s a l i e n c y m a x p o o l i n g )和对比度归一化(c o n t r a s t n o r m a l i z a t i o n ) .下面分别介绍其中最主要的几个方面.
2. 1 字典学习稀疏编码的核心思想就是通过学习一个字典,使得数据能够用一组稀疏的、 线性的组合来更好地逼近.A h a r o n等人 [2 0 ] 提出的 K- S V D 算法是一种简单且有效的字典学习算法. 给定一组 h 维的观测值Y = [ y 1 , …, y n ] ∈Rh × n ( 在本文中指代图像块) , 通过K - S V D算法学习得到一个字典 D = [ d 1 , …, d m ] ∈Rh × m ( 其中 di 为一个字典元素) 和一个稀疏编码矩阵 X = [ x 1 , …, xn ] ∈Rm × n , 其目标是最小化式(1 ) 这个重构误差:m i nD , XY - D X 2F s . t . i , x i 0 ≤ K ,(1 )其中, 符号 •F 表示 F r o b e n i u s范数; x i 表示 X 的第 i 列;• 0 表示0范数, 用于统计稀疏编码 xi 中的非零元素个数; K 表示稀疏程度, 用于限定稀疏编码中非零元素的个数.式(1 ) 是一个优化问题, 可以通过交替优化的方式来求解. 即将式(1 ) 分解为如下的2个阶段进行问题求解.第1阶段. 先固定字典 D 后就变成求解稀疏表示 X 的问题, 式( 1 ) 就可以解耦成以下 n 个简单的子问题形式:m i nxiy i - D x i2F s . t . x i 0 ≤ K .(2 )由于式(2 ) 是一个非凸优化问题, 可以近似地采用 正 交 匹 配 寻 踪 ( o r t h o g o n a l m a t c h i n g p u r s u i t ,OMP )[ 2 1 ] 来求解( 这部分将在2. 2节讨论).第2 阶 段. 通 过 奇 异 值 分 解 ( s i n g u l a r v a l u ed e c o m p o s i t i o n , S V D ) 对字典 D 与其相关的稀疏系数进行同时更新. 对于给定 k , 式( 1 ) 可以重写为Y - D X 2F = Y - ∑j ≠ kd j xk - d k xk2F =E k - d k xk2F ,(3 )其中,xj 表示 X的第 j 行; E k 是第 k 个残余矩阵 . 最优的 dj 和 xk 就可以通过对矩阵 E k 进行奇异值分解来获得 . 当稀疏程度 K 设置为1时, 其对应的稀疏编码矩阵就变成0 ? 1的二元矩阵, K - S V D就完全变成 K - m e a n s 算法 .
2. 2 正交匹配寻踪编码受到人类视觉皮层神经元响应的稀疏性启发,O l s h a u s e n 等人[ 2 2 ] 提出用稀疏表示对自然图像进行更为有效的表达 . 当字典 D 学习完成后, 我们就可以用学习到的字典 D 对所有图像进行稀疏表示, 即对式(2 ) 进行优化求解 . 在本文中我们使用正交匹配寻踪算法来进行求解. 由于我们要对大量的图像块用同样的字典进行稀疏编码, 所以为了提高效率,我们使用了文献[2 3 ] 中的B OMP算法来进行求解.使用基于批正交匹配寻踪的编码方法相比于文献[1 9 ] 中的方法在编码效率上有显著的提升. 其算法描述如下:算法1. B OMP算法 [2 3 ] .输入:字典 D 、 观测值 Y 以及稀疏程度 K ;输出:稀疏编码 X , 满足 Y ≈ D X ;初始化: I= , α0 = D Ty , G = DT D ,X =0.① F o r k =1 : K② 选择新的过滤项: k-=a r g m a xk| α k | ;③ I = I ∪ k-;④ 更新稀疏编码项: x I = G-1I I α0I ( 其中 G I I 是矩阵 G 以 I 为行下标、 以 I 为列下标的子矩阵)⑤ 更新 α : α = α0 - GI x I ;⑥ E n d
2. 3 显著性加权最大值汇聚图像经过稀疏编码的特征表示后, 我们再通过特征汇聚函数来描述图像在局部区域的稀疏编码的统计特征. 在许多文献中提到的几个汇聚函数( 如平均值、 熵和最大值) 中, 最大值汇聚被证明是最具有稳健的统计特征的 [7 ] . 结合图像的显著性图, 我们使用一个显著性加权最大值汇聚函数(s a l i e n c y - w e i g h t e dm a x p o o l i n g ) 来指导汇聚. 通过图像的显著性图加权调整汇聚函数向着目标可能出现的区域发展. 通过使用自底向上的显著性信息来指导汇聚, 就可以得到对图像更好的稀疏特征表示.本文采取基于文献[2 ] 中的方法提取图像的显著图, 图2所示为C a l t e c h 1 0 1中的几个显著图实例.显著图加权最大值汇聚的具体步骤如下:首先, 我们将图像基于分组网格划分成 M 个不相交的子窗口 Ωl = ∪Mm =1Δ m , 相应地, 该图像的稀疏编码被分成 M 个子集{ xlΔ m } m =1 , 2 , …, M . 同时为了加入图像空间位置信息, 该分区操作可以在不同尺度 l 上进行. 在本文中我们在不同的子窗口 Δ m 中使用最大值汇聚函数 [1 2 ] . 在空间尺度 l 上最大值汇聚函数( m a x p o o l i n g f u n c t i o n ) 定义为F ( xlΔ ) = [ m a xj ∈ l |xjΔ 1 | , …, m a xj ∈ l |xjΔ m | ] ,(4 )其中,| • | 表示逐点取绝对值.然后, 我们在图像区域 Ωl上计算图像显著性图wl , 由此基于显著性加权的最大值汇聚函数表示如下:P ( xlΔ ) =m a x ( | xlΔ m |. wl ).(5 )F i g . 4 S a l i e n c y m a p a p p l y t o i m a g e s .图4图像显著性加权应用于图像编码汇聚对于每一个汇聚区域, 我们计算其汇聚稀疏编码 Zlm = P ( xlΔ m ) . 最后通过将不同尺度上的特征级联起来 形 成 全 局 特 征 描 述: F ( P ) = [F ( P11 ) , …,F ( PV 11) , …,F ( PV ll) ] , 其中 V l 表示在尺度 l 上的区域个数. 如图3 ( b ) 展示了在图像区域中的显著性加权最大值汇聚过程. 其中红色标记的区域代表图像显著性部分, 尽管在这些区域稀疏编码不是最大的,但可以通过显著性加权汇聚提升这部分的稀疏编码为了更直观地描述显著性加权最大值汇聚在特征选取阶段所起的作用, 我们选取一张带复杂背景的蝴蝶图像, 由于背景中所含与目标不相关的信息较多, 会导致编码信息有所偏差, 而通过显著性最大值汇聚可以有效地提升目标在图像中的判别地位,剔除不相关的背景信息, 如图4所示:
2. 4 对比度归一化在自然图像中, 由于受到光照和前后背景对比度局部变化的影响, 图像稀疏编码的大小变化范围非常广. 因此对稀疏表示采取有效的对比度归一化操作可以有助于提升识别性能. 在本文中我们测试比较了两种正则化方案:L 1 正则化和 L 2 正则化, 通过实验表明 L 2 正则化比 L 1 正则化的效果好. 对于图像稀疏表示 P , L 2 正则化的形式如下:F ( P ) =F ( P )F ( P ) 2 + 槡 ε, (6 )其中,ε 是一个很小的正数. 通过实验比较不同的 ε值, 我们发现在第1层中最好的 ε 值是0 . 1.
2. 5 构建层次学习模型与深度学习模型思想一致, 我们的模型第2层的输入建立在第1层的输出之上. 整个模型的训练以一种贪婪的、 逐层的方式完成: 一旦底层训练完成, 其输出就作为下一层的输入. 以同样的方式可以叠加多层以构成层次特征提取. 与一般的层次模型相同, 我们不能确定该层次模型的最佳叠加层数, 但通过实验比较发现该层次模型的最优层次是两层.第1层: 通过预处理得到1 4 1×1 4 1维图像. 我们从训练样本的每一幅图像中随机提取2 0 0个6×6大小的图像块, 训练一个7 5大小的字典, 稀疏系数 K 设置为5. 字典训练完成后, 对每一幅图像使用B OMP算法计算得到1 3 6×1 3 6的7 5维特征图,然后在4×4不重叠的区域进行最大值汇聚, 得到3 4×3 4的7 5维特征图. 这里要注意的是, 我们在这一层并没有使用显著图加权, 原因是由于图像划分区域非常小, 使得显著性信息不能够显著地影响汇聚过程.第2层: 我们从第1层中随机选取1 0万个特征训练含有1 0 0 0个大小的字典. 稀疏系数 K 设置为1 0. 这样我们就可以得到3 4×3 4个1 0 0 0维特征向量. 下一步我们就采用文献[2 ] 中的方法计算3 4×3 4大小的显著图. 在显著图上分别进行1×1 , 2×2和4×4尺度空间上的最大值汇聚, 最后进行对比度归一化操作, 级联形成图像的最终描述. 整体流程图如图5所示:
3 实验设计与结果分
析为了验证本文提出模型的有效性, 我们在2个常用的标准图像数据集上进行实验验证: C a l t e c h1 0 1 和 C a l t e c h 2 5 6.实验所用计 算机配 置: I n t e l?X e o n?处 理器,8G B内存. 实验所运行的软件环境是在 W i n d o w s 7操作 系 统 下 安 装 的 M a t l a b R 2 0 1 3 a . 分 类 器 采 用台湾大学林智仁博士等人 [2 4 ] 开发的 S VM 软件包L I B L I N E AR.
3. 1 C a l t e c h 1 0 1C a l t e c h 1 0 1数据集中总共有9 1 4 4张图像, 有动物、 花、 车辆等共1 0 1个类别和1个背景类, 每类都有3 1~8 0 0张图像, 且大多数图像都在3 0 0×3 0 0像素大小左右. 依据文献[2 5 ] 的标准实验设置, 我们在每类中选取3 0张图像作为训练图像, 剩余的作为测试图像.我们采用文献[6 ] 中的设置对C a l t e c h 1 0 1中的图像进行预处理. 首先将输入图像都归一化到[0 , 1 ]之间, 并将每一幅图像转换为灰度图像. 为了减少运算量, 在保持图像纵横比不变的条件下, 采用双三次插值使图像大小最大不超过1 4 9像素. 然后将每幅图像在9×9的领域内进行局部归一化. 最后对每一幅图像进行0填充至1 4 1×1 4 1像素大小. 在后面实验中, 我们将使用同样的操作预处理图像. 各层的实验参数设置如2. 5节所述.通过多组实验, 我们将本文方法与最新的一些方法进行了比较, 如表1所示:由于本文侧重于图像的特征学习, 所以为了使模型对比实验更具有说服力, 本文中所比较的方法都是基于S VM 分类器. 从表1可看出, 本文方法明显优于其他一些深度学习方法: 如 C D B N[ 1 7 ] 、 去卷积网络(d e c o n v o l u t i o n a l n e t w o r k s , D N )[ 2 6 ] 、H S C[ 9 ]以及 HMP[ 1 4 ] . 相比于基于局部特征的单层稀疏编码, 如软编码(s o f t t h r e s h o l d c o d i n g , S I F T+T )[ 2 7 ] 、L L C[ 8 ] 等, 本文方法也有显著优势. 同时我们还比较了一些具有代表性的核方法, 如S PM[ 6 ] 以及梯度核描述子( K D E S - G )[ 2 8 ] , 也显示出了我们方法的巨大优势.
3. 2 C a l t e c h 2 5 6为了进一步评估本文方法对图像类数目和每个类中的图像数量的可扩展性, 我们在C a l t e c h 2 5 6上进行了实验. C a l t e c h 2 5 6数据集中总共有3 0 6 0 7张图像, 包含2 5 6个类别和一个背景类. 每一个类中至少有8 0张图像. 相比于 C a l t e c h 1 0 1数据集, C a l t e c h2 5 6具有更多的类别, 更多不同的光照、 姿势、 背景和目标大小等因素的影响, 对算法提出了进一步的挑战. 依据文献[7 ] 的设置, 我们的训练集从每类取1 5张图像逐渐增加到6 0张, 其余的作为测试集. 其他结构参数设置与C a l t e c h 1 0 1实验中一样, 唯一的区别就是在第2层中训练了2 0 0 0个大小的字典, 以适应更多的类别和图像. 表2是各算法在 C a l t e c h 2 5 6上的实验比较结果.从表2可以看出, 本文方法在类别数目和数量增加的情况下仍然具有很好的性能, 相比于之前的一些实验结果有了较大的提升. 比如在每类1 5个样本的情况下与 C R BM 方法相比有了近3. 6%的提升, 但是随着训练样本增加到6 0个, 之间的差距拉到近6. 4%. 这表明:1 ) 对于拥有大量图像类和数量的大规模的分类任务来说, 丰富的特征描述是非常重要的;2 ) 本文方法能够提取到图像中有效的特征表示.
3. 3 影响因素分析为了对本文模型提供一个全面的分析, 下面将从图像块大小、 字典大小、 显著性加权最大值汇聚以及对比度归一化等几个方面来评估模型的有效性.
3. 3. 1 图像块大小图像经过划分后形成的图像块中包含着图像的结构信息, 对图像特征提取有着重要的影响, 因此选取多大的图像块是我们需要考虑的问题. 通过对比实验发现第1层图像块取6×6大小时, 识别准确率最高, 能达到7 9. 8% , 因此我们在后续实验中图像块大小固定为6×6. 图6所示为 C a l t e c h 1 0 1在不同图像块大小下的平均准确率:
3. 3. 2 字典大小从直观上来理解, 如果字典个数太少, 会导致字典的编码能力减弱, 从而造成对图像的描述能力减弱, 反之, 如果字典个数过多, 又会产生过多的冗余信息, 使得同一类的图像都难以匹配. 因此, 选取合适的一个字典大小来描述图像至关重要. 在我们的实验中, 第1层中选取了7 5大小的字典, 正如图7所示, 第1层字典大小在7 5附近能够达到最优的平均准确率, 因此本文在两个 C a l t e c h实验中第1层均采用7 5大小的字典.
3. 3. 3 显著性加权最大值汇聚一般的最大值汇聚( m a x p o o l i n g ) 方法由于对局部空间变化有着更强的鲁棒性 [7 ] , 使其在许多模型中被使用, 且取得了不错的效果, 但相比于采用显著性加权的最大化汇聚, 通过在 C a l t e c h实验中比较发现, 采用显著性加权的最大值汇聚对分类效果有更进一步的提升. 图8 ( a ) ( b ) 所示为在 C a l t e c h1 0 1和 C a l t e c h 2 5 6上采用普通的最大值汇聚和显著性加权最大值汇聚的实验比较. 结果发现, 显著性加权最大值汇聚方法有更好的表现.
3. 3. 4 对比度归一化我们通过实验测试该模型有无对比度归一化后, 发现对比度归一化操作能有效提升模型的识别能力, 提升近3%. 归一化操作能有效提升特征对光照和前后背景变化的不变性, 在特征学习中很有用.实验对比结果如表3所示:
3. 3. 5 特征提取时间在本模型中特征提取和编码是最耗时的, 本文在特征稀疏编码阶段使用B OMP算法, 有效地提升了编码的效率, 通过比较不同算法在一幅3 0 0×3 0 0的图像上的运行时间可以看出, 采用B OMP的效率远远高于 H S S L[ 1 9 ] 和其他深度模型, 如表4所示:
4 总 结
本文结合图像显著性信息和深度学习模型思想, 提出了一种基于图像显著性加权的层次稀疏表示用于图像分类, 采用批正交匹配追踪算法提升编码效率, 通过在层次提取特征过程中加入图像显著性先验信息, 使得提取到对图像具有判别性能更好的本质特征描述, 同时我们的图像特征表示是直接对图像数据进行提取, 不需要手工设计特征描述子,对自然图像具有普遍适用性. 与现有的基于局部特征的单层稀疏编码和其他层次特征学习方法相比,该方法在分类性能和效率上都有进一步的提升. 这里还有一个问题就是, 当图像中不存在显著性目标或目标对象很大时, 如场景识别, 该方法就表现的不是很好, 这也是我们今后研究的一个重点方向.
参 考 文 献[ 1 ] J a r r e t t K , K a v u k c u o g l u K , R a n z a t o M , e t a l .Wh a t i s t h eb e s t m u l t i - s t a g e a r c h i t e c t u r e f o r o b j e c t r e c o g n i t i o n ?[ C ] ? ?P r o c o f t h e 1 2 t h I E E E I n t C o n f o n C o m p u t e r V i s i o n.P i s c a t a w a y , N J : I E E E , 2 0 0 9 : 2 1 4 6 - 2 1 5 3[ 2 ] A c h a n t a R , H e m a m i S , E s t r a d a F , e t a l .F r e q u e n c y - t u n e ds a l i e n t r e g i o n d e t e c t i o n [ C ] ? ? P r o c o f t h e 2 2 n d I E E E I n t C o n fo n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.P i s c a t a w a y ,N J : I E E E , 2 0 0 9 : 1 5 9 7 - 1 6 0 4[ 3 ] H a n B i n g , Y a n g C h e n , G a o X i n b o . A u r o r a i m a g ec l a s s i f i c a t i o n b a s e d o n L D A c o m b i n i n g w i t h s a l i e n c yi n f o r m a t i o n [ J ] . J o u r n a l o f S o f t w a r e , 2 0 1 3 , 2 4 ( 1 1 ) : 2 7 5 8 -2 7 6 6 ( i n C h i n e s e )( 韩冰,杨辰,高新波 . 融合显著信息的 L D A 极光图像分类[ J ] . 软件学报, 2 0 1 3 , 2 4 ( 1 1 ) : 2 7 5 8 - 2 7 6 6 )[ 4 ] G e m e r t J C , G e u s e b r o e k J M , V e e n m a n C J , e t a l .K e r n e lc o d e b o o k s f o r s c e n e c a t e g o r i z a t i o n [ C ] ? ? P r o c o f t h e 1 0 t hE u r o p e a n C o n f o n C o m p u t e r V i s i o n.N e w Y o r k : A CM ,2 0 0 8 : 6 9 6 - 7 0 9[ 5 ] C s u r k a G , D a n c e C R , F a n L i x i n , e t a l . V i s u a lc a t e g o r i z a t i o n w i t h b a g s o f k e y p o i n t s [ C ] ? ? P r o c o f t h e 8 t hE u r o p e a n C o n f o n C o m p u t e r V i s i o n. B e r l i n : S p r i n g e r , 2 0 0 4 :1 - 2 2[ 6 ] L a z e b n i k S , S c h m i d C , P o n c e J .B e y o n d b a g s o f f e a t u r e s :S p a t i a l p y r a m i d m a t c h i n g f o r r e c o g n i z i n g n a t u r a l s c e n ec a t e g o r i e s [ C ] ? ? P r o c o f t h e 1 9 t h C o m p u t e r S o c i e t y C o n f o nC o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n. P i s c a t a w a y , N J :I E E E , 2 0 0 6 : 2 1 6 9 - 2 1 7 8[ 7 ]Y a n g J i a n c h a o , Y u K a i , G o n g Y i h o n g , e t a l .L i n e a r s p a t i a lp y r a m i d m a t c h i n g u s i n g s p a r s e c o d i n g f o r i m a g e c l a s s i f i c a t i o n[ C ] ? ? P r o c o f t h e 2 2 n d C o m p u t e r S o c i e t y C o n f o n C o m p u t e rV i s i o n a n d P a t t e r n R e c o g n i t i o n.P i s c a t a w a y , N J : I E E E ,2 0 0 9 : 1 7 9 4 - 1 8 0 1[ 8 ] W a n g J i n j u n ,Y a n g J i a n c h a o , Y u K a i , e t a l .L o c a l i t y -c o n s t r a i n e d l i n e a r c o d i n g f o r i m a g e c l a s s i f i c a t i o n [ C ] ? ? P r o c o ft h e 2 3 r d I E E E C o n f o n C o m p u t e r V i s i o n a n d P a t t e r nR e c o g n i t i o n. P i s c a t a w a y , N J : I E E E , 2 0 1 0 : 3 3 6 0 - 3 3 6 7[ 9 ] Y u K a i , L i n Y u a n q i n g , L a f f e r t y J . L e a r n i n g i m a g er e p r e s e n t a t i o n s f r o m t h e p i x e l l e v e l v i a h i e r a r c h i c a l s p a r s ec o d i n g [ C ] ? ? P r o c o f t h e 2 4 t h I E E E C o n f o n C o m p u t e r V i s i o na n d P a t t e r n R e c o g n i t i o n.P i s c a t a w a y , N J : I E E E , 2 0 1 1 :1 7 1 3 - 1 7 2 0[ 1 0 ] Y u K a i , J i a L e i , C h e n Y u q i a n g , e t a l .D e e p l e a r n i n g :Y e s t e r d a y , t o d a y a n d t o m o r r o w [ J ] .J o u r n a l o f C o m p u t e rR e s e a r c h a n d D e v e l o p m e n t , 2 0 1 3 , 5 0 ( 9 ) : 1 7 9 9 - 1 8 0 4 ( i nC h i n e s e )( 余凯,贾磊,陈雨强,等 . 深度学习的昨天、 今天和明天[ J ] .计算机研究与发展, 2 0 1 3 , 5 0 ( 9 ) : 1 7 9 9 - 1 8 0 4 )[ 1 1 ] H o u X i a o d i , Z h a n g L i q i n g .S a l i e n c y d e t e c t i o n : A s p e c t r a lr e s i d u a l a p p r o a c h [ C ] ? ? P r o c o f t h e 2 0 t h I E E E C o n f o nC o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n. P i s c a t a w a y , N J :I E E E , 2 0 0 7 : 1 - 8[ 1 2 ] L i F e i f e i , F e r g u s R , P e r o n a P.L e a r n i n g g e n e r a t i v e v i s u a lm o d e l s f r o m f e w t r a i n i n g e x a m p l e s : A n i n c r e m e n t a l b a y e s i a na p p r o a c h t e s t e d o n 1 0 1 o b j e c t c a t e g o r i e s [ J ] .C o m p u t e rV i s i o n a n d I m a g e U n d e r s t a n d i n g , 2 0 0 7 , 1 0 6 ( 1 ) : 5 9 - 7 0[ 1 3 ] G r i f f i n G , H o l u b A , P e r o n a P.C a l t e c h - 2 5 6o b j e c t c a t e g o r yd a t a s e t [ R ? O L ] .C a l i f o r n i a , U S A : C a l i f o r n i a I n s t i t u t e o fT e c h n o l o g y , 2 0 0 7 [ 2 0 1 4 - 0 2 - 1 5 ] .h t t p : ? ? r e s o l v e r . c a l t e c h.e d u ? C a l t e c h AUTHO R S : C N S - T R - 2 0 0 7 - 0 0 1[ 1 4 ] B o L i f e n g , R e n X i a o f e n g , F o x D.H i e r a r c h i c a l m a t c h i n gp u r s u i t f o r i m a g e c l a s s i f i c a t i o n : A r c h i t e c t u r e a n d f a s ta l g o r i t h m s [ C ] ? ? P r o c o f t h e 2 5 t h C o n f o f A d v a n c e s i n N e u r a lI n f o r m a t i o n P r o c e s s i n g S y s t e m s . R o s t r e v o r , I r e l a n d : C u r r a nA s s o c i a t e s , I n c , 2 0 1 1 : 2 1 1 5 - 2 1 2 3[ 1 5 ] H i n t o n G E , O s i n d e r o S , T e h Y W. A f a s t l e a r n i n ga l g o r i t h m f o r d e e p b e l i e f n e t s [ J ] .N e u r a l C o m p u t a t i o n ,2 0 0 6 , 1 8 ( 7 ) : 1 5 2 7 - 1 5 5 4[ 1 6 ] K r i z h e v s k y A , S u t s k e v e r I , H i n t o n G E. I m a g e n e tc l a s s i f i c a t i o n w i t h d e e p c o n v o l u t i o n a l n e u r a l n e t w o r k s [C ] ? ?P r o c o f t h e 2 6 t h C o n f o f A d v a n c e s i n N e u r a l I n f o r m a t i o nP r o c e s s i n g S y s t e m s . R o s t r e v o r , I r e l a n d : C u r r a n A s s o c i a t e s,I n c , 2 0 1 2 : 1 0 9 7 - 1 1 0 5[ 1 7 ] L e e H , G r o s s e R , R a n g a n a t h R , e t a l .C o n v o l u t i o n a l d e e pb e l i e f n e t w o r k s f o r s c a l a b l e u n s u p e r v i s e d l e a r n i n g o fh i e r a r c h i c a l r e p r e s e n t a t i o n s [ C ] ? ? P r o c o f t h e 2 6 t h A n n u a l I n tC o n f o n M a c h i n e L e a r n i n g .P i s c a t a w a y , N J : I E E E , 2 0 0 9 :6 0 9 - 6 1 6[ 1 8 ] L e Q V , R a n z a t o M , M o n g a R , e t a l .B u i l d i n g h i g h - l e v e lf e a t u r e s u s i n g l a r g e s c a l e u n s u p e r v i s e d l e a r n i n g [C ] ? ? P r o c o ft h e 2 0 1 3I E E E I n t C o n f o n A c o u s t i c s , S p e e c h a n d S i g n a lP r o c e s s i n g . P i s c a t a w a y , N J : I E E E , 2 0 1 3 : 8 5 9 5 - 8 5 9 8[ 1 9 ]Y a n g J i m e i , Y a n g M H. L e a r n i n g h i e r a r c h i c a l i m a g er e p r e s e n t a t i o n w i t h s p a r s i t y , s a l i e n c y a n d l o c a l i t y [ C ] ? ? P r o co f t h e 2 0 1 1C o n f o f t h e B r i t i s h M a c h i n e V i s i o n.M a n c h e s t e r ,UK : BMVA P r e s s , 2 0 1 1 : 1 - 1 1[ 2 0 ] A h a r o n M , E l a d M , B r u c k s t e i n A.K - S V D : A n a l g o r i t h mf o r d e s i g n i n g o v e r c o m p l e t e d i c t i o n a r i e s f o r s p a r s er e p r e s e n t a t i o n [ J ] . I E E E T r a n s o n S i g n a l P r o c e s s i n g , 2 0 0 6 ,5 4 ( 1 1 ) : 4 3 1 1 - 4 3 2 2[ 2 1 ] P a t i Y C , R e z a i i f a r R , K r i s h n a p r a s a d P S.O r t h o g o n a lm a t c h i n g p u r s u i t : R e c u r s i v e f u n c t i o n a p p r o x i m a t i o n w i t ha p p l i c a t i o n s t o w a v e l e t d e c o m p o s i t i o n [ C ] ? ? P r o c o f t h e 2 7 t hA s i l o m a r C o n f o n S i g n a l s , S y s t e m s a n d C o m p u t e r s .P i s c a t a w a y , N J : I E E E , 1 9 9 3 : 4 0 - 4 4[ 2 2 ] O l s h a u s e n B A , F i e l d t D J . S p a r s e c o d i n g w i t h a no v e r c o m p l e t e b a s i s s e t : A s t r a t e g y e m p l o y e d b y V 1 ?[ J ] .V i s u a l R e s e a r c h , 1 9 9 7 , 3 7 ( 3 3 ) : 3 3 1 1 - 3 3 2 5[ 2 3 ] R u b i n s t e i n R , Z i b u l e v s k y M , E l a d M. E f f i c i e n ti m p l e m e n t a t i o n o f t h e K - S V D a l g o r i t h m u s i n g b a t c ho r t h o g o n a l m a t c h i n g p u r s u i t [ R ] . H a i f a , I s r a e l : I s r a e lI n s t i t u t e o f T e c h n o l o g y , 2 0 0 8[ 2 4 ] F a n R E , C h a n g K W , H s i e h C J , e t a l .L I B L I N E A R : Al i b r a r y f o r l a r g e l i n e a r c l a s s i f i c a t i o n [J ] . J o u r n a l o f M a c h i n eL e a r n i n g R e s e a r c h , 2 0 0 8 , 9 (1 ) : 1 8 7 1 - 1 8 7 4[ 2 5 ] G r a u m a n K , D a r r e l l T. T h e p y r a m i d m a t c h k e r n e l :D i s c r i m i n a t i v e c l a s s i f i c a t i o n w i t h s e t s o f i m a g e f e a t u r e s [ C ] ? ? P r o c o f t h e 1 0 t h I E E E I n t C o n f o n C o m p u t e r V i s i o n.P i s c a t a w a y , N J : I E E E , 2 0 0 5 : 1 5 5 0 - 5 4 9 9[ 2 6 ] Z e i l e r M D , K r i s h n a n D , T a y l o r G W , e t a l . D e c o n v o l u t i o n a ln e t w o r k s [ C ] ? ? P r o c o f t h e 2 3 r d I E E E C o n f o n C o m p u t e rV i s i o n a n d P a t t e r n R e c o g n i t i o n.P i s c a t a w a y , N J : I E E E ,2 0 1 0 : 2 5 2 8 - 2 5 3 5[ 2 7 ] C o a t e s A ,N g A. T h e I m p o r t a n c e o f e n c o d i n g v e r s u s t r a i n i n gw i t h s p a r s e c o d i n g a n d v e c t o r q u a n t i z a t i o n [C ] ? ? P r o c o f t h e2 8 t h I n t C o n f o n M a c h i n e L e a r n i n g .N e w Y o r k : A CM ,2 0 1 1 : 9 2 1 - 9 2 8[ 2 8 ] B o L i e f e n g , R e n X i a o f e n g , F o x D.K e r n e l d e s c r i p t o r s f o rv i s u a l r e c o g n i t i o n [ C ] ? ? P r o c o f t h e 2 4 t h C o n f o f A d v a n c e s i nN e u r a l I n f o r m a t i o n P r o c e s s i n g S y s t e m s . R o s t r e v o r , I r e l a n d :C u r r a n A s s o c i a t e s , I n c , 2 0 1 0 : 2 4 4 - 2 5 2[ 2 9 ] B o u r e a u Y , B a c h F , L e C u n Y , e t a l .L e a r n i n g m i d - l e v e lf e a t u r e s f o r r e c o g n i t i o n [ C ] ? ? P r o c o f t h e 2 3 r d I E E E C o n f o nC o m p u t e r V i s i o n a n d P a t t e r n R e c o n g n i t i o n. P i s c a t a w a y , N J :I E E E , 2 0 1 0 : 2 5 5 9 - 2 5 6 6[ 3 0 ] M c C a n n S , L o w e D.L o c a l n a i v e b a y e s n e a r e s t n e i g h b o r f o ri m a g e c l a s s i f i c a t i o n [ C ] ? ? P r o c o f t h e 2 5 t h I E E E C o n f o nC o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n. N e w Y o r k :A CM , 2 0 1 2 : 3 6 5 0 - 3 6 5 6[ 3 1 ] S o h n k , J u n g D , L e e H , e t a l . E f f i c i e n t l e a r n i n g o f s p a r s e ,d i s t r i b u t e d , c o n v o l u t i o n a l f e a t u r e r e p r e s e n t a t i o n s f o r o b j e c tr e c o g n i t i o n [ C ] ? ? P r o c o f t h e 2 0 1 1I n t C o n f o n C o m p u t e rV i s i o n.N e w Y o r k : A CM , 2 0 1 1 : 2 6 4 3 - 2 6 5 0
|
[返回] |