基于稀疏编码多尺度空间潜在语义分析的图像分类 |
来源:一起赢论文网 日期:2015-04-27 浏览数:3237 【 字体: 大 中 小 大 中 小 大 中 小 】 |
摘 要 传统潜在语义分析方法无法利用图像中区域语义构成的上下文信息来获得图像目标空间分布信息, 因此它丢掉了局部特征之间的空间关系信息 . 而基于最近邻矢量量化来构造共生矩阵具有较大的量化误差, 使得特征描述缺乏鲁棒性, 影响后续潜在语义分析获得特征的精确性 . 为了弥补这些不足, 文中提出了一种基于稀疏编码的多尺度空间潜在语义分析的图像分类方法 . 首先通过空间金字塔方法对图像进行空间多尺度划分, 然后利用稀疏编码对每个局部块特征进行软量化以形成共生矩阵, 之后结合概率潜在语义分析( P L S A ) 获得每个局部块的潜在语义信息, 再利用权值串接每个特定局部块中的语义信息得到图像多尺度空间潜在语义信息, 最后用支持向量机( S VM ) 分类器完成图像的场景分类 . 在常见图像库上的实验表明, 本文提出的基于稀疏编码的多尺度空间潜在语义分析方法平均分类精度比现有诸多方法均有明显提高, 验证了其有效性和鲁棒性 . 实验还表明, 空间金字塔匹配、 稀疏编码共生矩阵以及 P L S A 降维这 3 个模块在该文方法中缺一不可, 共同提升图像表征和分类性能 . 关键词 图像分类; 稀疏编码; 潜在语义分析; 空间金字塔
1 引 言
随着高速互联网的快速发展, 信息存储与传输技术的发展以及数码设备的普及, 数字彩色图像的获取和存储变得更加容易, 人们接触到的图像数据也以前所未有的速度在增长. 面对海量的图像数据,如何使计算机模拟人类对图像的理解认知机理, 自动把图像按照人们理解的方式分类到不同的语义类别就成为一个关键问题. 此外, 图像分类不仅包含人们对一幅图像的总体认识, 而且还提供了图像中对象出现的上下文环境, 为进一步识别出图像中的其他内容提供了基础. 因此, 图像分类成为当前计算机视觉和多媒体信息处理领域的热点问题.传统的图像分类方法中根据描述图像方式的不同, 图像分类方法可以分为基于全局特征和基于中层语义信息两大类.
早期的场景分类方法通过提取图像的颜色、 纹理、 形状等全局底层特征后再利用特征矢量表示场景内容. 如 V a i l a y a等人 [1 ] 提出的结合图像低级特征和二元贝叶斯分类器的多级框架;S z u mm e r等人 [2 ] 采用综合颜色、 纹理和频率信息的方法来提取场景特征; O l i v a等人 [3 ] 提出空间包络面方法表示图像内容. 虽然这些方法在一定条件下能够很好地表示图像, 但都基于图像的底层特征, 无法解决图像分类中的“ 语义鸿沟” 问题 [4 ] , 即底层视觉特征和高层语义特征之间的不统一性. 近年来, 基于图像中层语义特征来对图像建模的方法来表述图像得到了广泛的关注, 即分别建立图像关于低层、中层、 高层场景语 义 的表示. 如 基 于 “ 词 包 模 型”(B a g - o f - W o r d s,B OW )[ 5 ] 方法以及在基于 B OW基础上利用概率潜在语义分析( P r o b a b i l i s t i c L a t e n tS e m a n t i c A n a l y s i s , P L S A )[ 6 ] 和潜在狄雷克雷分布( L a t e n t D i r i c h l e t A l l o c a t i o n , L D A )[ 7 ] 等主题分析模型来找出图像最可能属于的主题或者潜在语义分布, 从而完成图像场景分类. 典型的如B o s c h等人 [8 ]提出的基于P L S A 的场景图像分类方法.
该方法中利用的P L S A 模型能够很好的解决图像分类中出现的多义词和同义词问题, 从而大大地提高图像的分类准确率. 然而, 基于B OW 描述的主题分析模型描述场景图像中视觉词汇出现的总体频次, 这类方法既没有考虑视觉词汇在空间的分布特点, 也无法获得场景中各目标的空间分布信息 [9 ] . 为了获取目标空间分布信息, L a z e b n i k等人 [1 0 ] 提出了一种空间金字塔匹配方法, 将图像在不同尺度下分割成多个子区域, 然后对每个子区域中的视觉词汇进行直方图统计和串联, 从而得到场景图像的空间分布表达; 由于文献[1 0 ] 中基于最近邻向量量化( N e a r e s tN e i g h b o r e d V e c t o r Q u a n t i f i c a t i o n , NN - VQ ) 方法在特征编码时具有较大的重构误差 [1 1 ] , 基于稀疏编码(S p a r s e C o d i n g , S C ) 的局部特征量化方法应运而生, 并且取得了很好的分类效果 [1 2 ] .
然而, 这种基于S C的局部特征量化方法忽略了局部区域的潜在语义信息, 无法表示特征在潜在语义空间的内在关系.针对现有方法的不足, 为了解决前面方法存在的不足,同时考虑到同类图像中区域语义的空间分布往往具有一定的规律, 本文提出了一种基于稀疏编码多尺度空间潜在语义分析的图像分类方法. 该方法通过空间金字塔思想对图像进行空间分层和局部区域分块划分获得图像的局部块之间的空间关系, 接着利用 S C 对每个局部块进行软量化形成共生矩阵, 再结合P L S A 模型对每个局部块进行潜在语义挖掘以获得其潜在语义信息分布. 最后通过权值将不同尺度上汇总的潜在语义信息进行串接得到图像最终的特征描述. 该特征不仅考虑到图像的局部潜在语义信息, 而且考虑到了图像空间信息. 实验结果表明本算法生成的图像多尺度空间潜在语义信息具有较高的分类性能.
2 基于稀疏编码的图像多尺度空间潜在语义分析
图像可视为若干个局部区域组成的集合. 本文提出一种基于稀疏编码的多尺度空间潜在语义分析的图像分类, 依据局部区域潜在语义信息与其空间分布情况进行图像分类.
2 . 1 局部特征编码传统的基于潜在语义信息分类方法主要是基于NN - VQ局部特征编码来构建共生矩阵[ 8 ]. 假设X =[x 1 , …, x N ] ∈ RK × N 表示图像局部特征集, 其中 K表示特征维数, N 表示特征个数,W = [ w 1 , …, w M ] ∈RK × M 表示视觉字典中基的集合, 其中M 是基的个数, 则 NN -VQ问题表示如下:m i nyix i -W yi2y i τ 0 =1 , y i 1 =1 , y i0(1 )其中, yi τ 0 =1 , y i 1 =1 , y i0表示y i 向量中只有一个元素是非零的且该非零元素是1其余全部为0. 实际上, 编码系数 yi 的求解就是寻找 x i 在字典 W中最近邻的一个基的过程.为了降低重构误差, 提高量化精度, S C[ 1 2 ] 将式(1) 中y i τ 0 =1约束条件进行放宽, 即利用 L 1范数来正规化稀疏编码 yi :m i nyix i -W yi2+ λy i 1s u b j e c t t o w k1, k =1 , …, N (2 )其中,λ 是正则化参数. 对于式( 2 ) 的求解, 本文先使用 k - m e a n s方法 [1 3 ] 对局部特征进行聚类, 得到视觉字典 W , 然后固定 W , 利用特征符号( f e a t u r e s i g n )方法 [1 4 ] 来求解稀疏编码 yi .图1直观地描述了 NN - VQ和S C之间的差异.由图可知,S C利用了更多视觉字典中的基来表示特征描述子 xi; 而 NN- VQ 方法只选择1个基来表示局部特征描述子 xi . 因此本文采用 S C 方法取代原先的 NN - VQ方法来进行量化形成共生矩阵, 使得生成的共生矩阵具有较小的重构误差.
2 . 2 基于P L S A的图像局部特征语义提取P L S A 模型是由 H o f m a n n[ 6 ] 提出的一种用于文本检索的概率生成模型, 它是为了解决文本中的同义词和多义词对文本语义理解的影响而产生的.在图像分类中, 图像特征作为输入, 就等同于文本分类中的单词, 同样具有“ 同义词” 和“ 多义词” 的特点.例如, 在太阳占大篇幅的图像中, 提取的特征必定是相似的, 但它们所表达的场景意义就不一定相同, 因为太阳既可以为日出场景做贡献, 也可以为日落场景做贡献, 这就类似于文本中的多义词. 而不同的图像特征常常也可以表现同一个场景. 例如, 在室外场景中, 可以出现沙漠、 瀑布、 森林等, 尽管这些目标物体的特征相差很大, 甚至完全不同, 但是他们所表示的场景是一类的, 这就相当于文本中的同义词. 由此可知, 图像中“ 同义词” 和“ 多义词” 的存在严重影响了图像的分类精度.本文借鉴 P L S A 主题模型在文本分析中的一些优良特性来对图像进行分析 [8 ] , 将该模型用于图像局部区域潜在语义挖掘, 使其获得的潜在语义特征具有较小的冗余性和歧义性.假设有训练图像库 D = [ d 1 , …, d N ′ ] , 其中 di 表示图像库中第 i 幅图像, 由 k - m e a n s聚类 [1 3 ] 而成的视觉词汇 W = [ w 1 , …, w M ] , 局部区域特征软量化形成的共生矩阵 Q , 其中 Qi j= n ( w i , d j ) ∈ M × N ′ 表示视觉词汇 w i 在图像 d j 中出现的频次. 我们用 Z =[z 1 , …, z K ′ ] 表示潜在语义( 主题) 集合, K ′ 为常数,为经验确定的主题个数. P L S A 假设“ 图像 - 视觉词汇” 之间是条件独立的并且潜在语义在图像和视觉词上分布也是条件独立的, 在这个前提下, 可以用式(3 ) 表示“ 图像 - 视觉词汇” 条件概率分布:P ( w i , d j ) = P ( d j )∑K ′k ′ =1P ( w i | z k ′ ) P ( z k ′ | d j )( 3 )式(3) 中P ( d j ) 表示第 j 个图像概率, P ( w i | z k ′ ) 为潜潜在语义在视觉词汇上分布概率,P ( z k ′ | d j ) 为图像中的潜在语义分布概率. 模型参数可根据极大似然准则求解, 本文通过极大化以下似然函数来进行模型的参数设计:L =∑Mi =1 ∑N ′j =1n ( w i , d j ) l o g P ( w i | d j )∝ ∑Mi =1 ∑N ′j =1n ( w i , d j ) l o g ∑K ′k =1P ( w i | z k ′ ) P ( z k ′ | d j )(4 )其中,P ( z k ′ | d i ) 和 P ( w j | z k ′ ) 参数通过期望极大化( E x p e c t a t i o n M a x i m i z a t i o n ,EM ) 算法[ 1 5 ] 迭代优化.最终得到的 P ( zk ′ | d i ) 描述了图像的局部特征在语义上的分布情况, 通过它来表示图像最终特征.
2 . 3 图像多尺度空间潜在语义学习模型结合图像的区域语义与其空间分布, 人们往往能够方便准确地进行图像分类. 例如, 一个海滩的场景往往是由在图像上部的天空、 中间的海洋和下面的沙滩组成. 因此, 通过分析图像在相应位置是否包含这些区域语义就能够有效地对图像进行分类, 从而大大的提高图像分类的准确率.本文构造的图像多尺度空间潜在语义学习模型通过对图像空间进行多尺度分割得到局部块后, 利用P L S A模型对每个局部子区域进行学习得到该子区域的潜在语义信息, 最后将每个局部区域的潜在语义特征加权拼接得到图像的最终特征. 以一个3层空间金字塔分块模型为例, 第0层表示是原图像, 第1层对图像进行2×2分块划分, 第2层对图像进行4×4分块划分, 则一共可以得到2 1个图像区域, 模型如图2所示. 由此得到的图像区域包含了图像中目标大小和空间位置的情况, 因此具有更好的鲁棒性.在上面金字塔分割的基础上利用P L S A 模型来对每层的每个局部区域块进行潜在语义学习, 第0层潜在语义学习得到的 P ( w | z ) 保持不变, 而对第1层和第2层的各子区域利用f o l d i n g - i n算法, 将 EM算法中第 M 步的 P ( w | z ) 保持不变, 不断地更新第M 步和 E 步中的其他参数使得式( 4 ) 中似然函数值达到最大, 进而得到每个局部块的潜在语义信息P ( z | d ) . 假设潜在语义主题个数为 K 1 , 则每个局部块di j可以产生一个 K 1 维的特征向量[ P ( z1 | di j) , …,P ( z K 1 | di j) ] , 将同层每个块内学习得到的 P ( z | d ) 串接形成每层的潜在语义概率分布, 最后对各分割层次进行加权串接以形成最终的图像多尺度空间潜在语义概率分布.测试图像生成多尺度空间潜在语义信息的过程与训练图像类似, 只是在后期的局部块潜在语义学习阶段要利用训练阶段得到的 P ( w | z ). 这里,P ( w | z )实际上就是局部特征的潜在语义模型. 保持 P ( w | z不变, 对测试图像的第0层, 第1层和第2层的每个图像局部块, 利用 EM 算法迭代直至收敛, 从而得到测试图像在每层的每个局部块中的潜在语义分布P ( z | d ) ; 然后利用训练阶段对每个局部块内潜在语义处理方法得到测试图像最终的多尺度空间潜在语义分布.本文的加权拼接中的权值我们采用文献[1 0] 中的设置方法, 即第0层的系数设置为1 / 2L, 第l 层的系数设置为 1 / 2L - l +1 , 其中L 表示金字塔总层次数,l 表示的特征所处的层次 . 故 3 层金字塔结构的权值系数为[0 . 5 , 0 . 2 5 , 0 . 2 5 ] .
2 . 4 图像分类系统结构图3为基于稀疏编码多尺度空间潜在语义分析的图像分类的总体框架示意图. 系统主要分为两个阶段: 训练阶段和测试阶段. 在训练阶段, 通过本文提出的图像多尺度空间潜在语义模型学习得到最优的P L S A模型, 再结合该模型生成的图像多尺度空间潜在语义特征来训练S VM 分类器模型 [1 6 ] , 从而得到最优的S VM 分类器模型. 在测试阶段, 首先结合训练阶段得到的最优 P L S A 模型参数 P ( w | z ) 及测试图像的每个局部区域软量化形成的共生矩阵,使用f o l d i n g -i n方法来计算测试图像的空间潜在语义信息分布, 再联合训练阶段生成的最优S VM对该潜在语义信息分布向量进行分类, 并将所得的置信度最高的语义类别作为该测试图像的类别标签从而实现测试图像分类.
3 实验结果与分析
为了验证本文算法的有效性和鲁棒性, 将在3个常用图像数据集S c e n e - 1 3[ 1 7 ] 、S c e n e - 1 5[ 1 0 ] 和C a l t e c h-1 0 1[ 1 8 ] 上测试其分类精度, 并与其他现有图像分类方法进行比较.S c e n e - 1 3图像数据集共包括 1 3 类自然场景3 7 5 9幅场景图 [1 7 ] ,S c e n e - 1 5则是在 S c e n e - 1 3的基础上另增加两个类别, 因此共包含1 5个类别的4 4 8 5幅场景图像 [1 0 ] . 图4给出了 S c e n e- 1 3和 S c e n e - 1 5每类场景的部分示例图像. 为公平起见, 参照其他文献 [1 0 ] , 在每次随机实验中, 随机抽取各类别1 0 0幅图 像 作 为 训 练 集, 而 将 剩 余 图 像 作 为 测 试 集.C a l t e c h - 1 0 1图像数据集[ 1 8 ] ( 其部分示例图像见图5 )共包含1 0 1个类别9 1 4 6幅图片. 为了和以前的方法比较 [1 0 ] , 从每个类别中随机选择了1 5或3 0幅图像进行训练, 剩下的图像作为测试.实验中, 舍弃图像颜色信息, 事先将图像库中彩色图像均转换为灰度图像. 同时, 为了减少运算量,在保持纵横比不变的条件下, 将所有图像的尺寸缩放到了3 0 0×3 0 0像素以内. 采用稠密S I F T特征提取算法 [1 9 ] 来进行图像局部特征描述, 提取S I F T 特征的图像块为1 6×1 6像素, 步长为8像素.本文S VM 分类器采用了一对多( o n e - v s - a l l) 的方法来处理多类问题. S VM 分类器使用速度较快的线性核函数 [1 2 ] , 参数通过交叉验证方法进行确定.与此同时为了保证结果的客观性, 在每个库上独立进行了1 0次随机实验, 并将平均分类准确率和标准方差作为评价指标.3 . 1节分析了潜在语义数目对空间金字塔各层分类精度的影响; 稀疏编码软量化和最近邻向量量化方法的性能比较结果将在3 . 2节介绍; 接下来的3 . 3节和3 . 4节我们研究了 P L S A 的必要性及多尺度空间金字塔对分类性能的影响;3 . 5节集中阐述了本文方法与其他现有方法的分类比较结果.
3 . 1 潜在语义数目对分类精度的影响本节将通过 S c e n e - 1 3数据集实验分析潜在语义数目对分类精度的影响. 图6是分类精度随潜在语义数目增加的变化趋势. 由图可看出, 在一定的范围内, 随着主题个数的增加分类精度将提高; 而当超过一定范围时分类精度反而会降低, 当主题个数为5 0时分类精度达到最大. 当空间金字塔设为3层时, 分类精度达到最高, 这充分说明多尺度空间匹配有利于发现更多的图像目标空间位置信息和提高图像分类精度.
3 . 2 稀疏编码软量化和最近邻向量量化比较图7给出了稀疏编码( S C ) 、 最近邻向量量化( NN - VQ ) 、 基于稀疏编码的概率潜在语义分析方法(S C+P L S A ) 以及基于最近邻向量量化的概率潜在语义( NN - VQ+P L S A) 方法在S c e n e - 1 3和S c e n e - 1 5图像数据集上随字典大小变化的分类结果. 由图中结果可知, 在多数情况下基于 S C 分类精度都是优于 NN- VQ方法, 表明用S C来进行特征量化, 比常用的 k - m e a n s特征量化精度更高, 而且更具有鲁棒性. 而S C 结合 P L S A 的方法( S C+P L S A ) 相对于NN - VQ结合 P L S A ( NN - VQ+P L S A ) 的方法在分类性能则有明显提升. 结果表明, 基于稀疏编码软量化形成的共生矩阵具有较小的重构误差, 能够提高分类精度.图7 中 结 果 也 显示, 不管字典的大小, S C+P L S A相比较于S C, 或者 NN- VQ+P L S A相比较于NN - VQ , 分 类 精 度 都 有 明 显 提 高, 这 也 证 明 了P L S A的必要性.此外, 由图7我们还可以发现, 随着视觉字典维度的增大, 基于S C和NN - VQ的图像分类精度都有一定变化. 这些情况说明, 视觉词典的大小对于视觉单词的描述能力有着一定的影响; 当视觉词典太小或太大时, 其描述能力较弱; 而只有在视觉词典大小适当时才能有较好的描述能力. 产生这一现象的原因, 主要源于由 S I F T 特征所生成的视觉单词存在多义或同义的现象. 当视觉词典过小时, 一个视觉单词可能表示了不同的内容, 具有多义性; 而当视觉词典过大时, 几个视觉单词可能表示的是同一个内容,具有同义性 . 正如文本分类中所出现的情况, 多义和同义往往带来了分类性能的下降, 因而采用视觉单词的方法也会带来同样的问题. 由此可见, 视觉词典的大小与分类问题密切相关. 在本实验中考虑到增加视觉字典的维度会导致分类的时间消耗增大. 综合以上考虑, 本文视觉字典大小选择为1 0 2 4 , 为了便于和现有的分类方法之间比较, 同时也很好的折中了分类时间的消耗问题.
3 . 3 P L S A的必要性我们通过S c e n e - 1 3和S c e n e - 1 5数据集来验证P L S A 潜在语义信息抽取的必要性. 表1给出了基于稀疏编码空间金字塔匹配( S c S PM )[ 1 2 ] ,S c S PM结合主成 分分 析 ( P r i n c i p a l C o m p o n e n t A n a l y s i s ,P C A ) 降维[ 2 0 ] 以及 S c S PM 结合 P L S A 降维的分类结果. 由表中实验结果可知, 在 S c e n e - 1 5数据集上S c S PM+P L S A 方法比单纯的S c S PM 和S c S PM+P C A 方法分类精度分别提高近1 . 8%和2 . 3%. 该结果充分说明在每个局部区域利用P L S A 模型进行学习得到的潜在语义信息能够提高图像的分类准确率, 验证了P L S A在本文图像分类模型中的重要性.表 1 S c S PM 、 S c S PM 结合 P C A 及其结合 P L S A 的分类精度比较/ % ( 字典大小为 1 0 2 4 )方法S c e n e - 1 3 数据集 S c e n e - 1 5 数据集S c S PM 8 5 . 5 3±0 . 7 6 8 0 . 9 1±0 . 7 3S c S PM+P C A 8 5 . 1 7±0 . 6 5 8 0 . 4 2±0 . 4 5S c S PM+P L S A 8 6 . 7 5±0 . 5 3 8 2 . 7 3±0 . 6 5
3 . 4 多尺度空间金字塔对分类精度的影响为了进一步说明多尺度空间金字塔匹配对提升图像分类精度的重要性, 我们将本文方法和S c S PM方法分别在单尺度和多尺度空间进行实验比较, 结果如表2和表3所示. 其中 L =0 , L =1 , L =2分别表示对图像进行1×1 , 2×2 , 4×4多尺度划分. 由表中结果可以看出, 图像多尺度划分粒度越细, 分类精度越高, 此外串联各层形成的多尺度空间金字塔划分其分类精度比单尺度划分分类精度高, 表明多尺度空间金字塔划分能得到更多的图像目标空间信息.
3 . 5 本文模型与其他已有方法的比较本文方法在 S c e n e - 1 5数据集上的平均分类正确率为 8 2 . 7 3% , 图8是在S c e n e - 1 5场景图像集上分类时生成的混淆矩阵(c o n f u s i o n m a t r i x ) .表 4 和表 5 分别给出了本文方法和其他性能较好方法在 S c e n e - 1 3 、 S c e n e - 1 5 、 C a l t e c h - 1 0 1的分类正确率比较. 由表4可知, 本文方法在 S c e n e -1 3场景图像上分类率达到了 8 6 . 7 5% , 在 S c e n e - 1 5场景图像上达到了8 2 . 7 3% , 比其他5种算法( 空间金字塔匹配核( K S PM )[ 1 0 ] , 朴素贝叶斯最近邻(N B NN )[ 2 1 ] ,稀疏编码空间金字塔匹配 S c S PM [1 2 ] , 概率潜在语义分析 ( P L S A )[ 8 ] , 基 于 潜 在 主 题 空 间 关 系 (S R -P L S A )[ 2 2 ] ) 性能均优. 由表5可看出, 在C a l t e c h- 1 0 1数据集上, 当训练图像数为1 5时, 本文分类精度比S c S PM 高出 2 . 2% ; 而当训练图像数为3 0时, 其分类性能比 S c S PM 提升 2 . 4%. 与其他各方法比较,本文方法分类性能均有明显提高. 实验结果很好地说明了本文所提出的基于稀疏编码多尺度空间潜在语义分析的图像分类方法的有效性和鲁棒性
4 结 论
本文提出基于稀疏编码多尺度空间潜在语义分析的图像分类方法. 通过图像分割的空间金字塔匹配提取目标空间位置信息; 基于稀疏编码对局部区域进行特征软量化, 形成共生矩阵, 提高了共生矩阵对原始特征表述的准确性; 最后, 结合 P L S A 模型挖掘局部潜在语义信息, 并串接每个局部的语义信息得到图像多尺度空间潜在语义信息. 通过实验验证, 本文方法同现有较好图像分类方法相比分类精度更高; 而空间金字塔匹配、 稀疏编码构建共生矩阵以及P L S A 降维这3个模块在本文方法中缺一不可,使图像得到更精确的表征, 共同提升图像分类性能.
参 考 文 献[ 1 ] V a i l a y a A , F i g u e i r e d o M A T , J a i n A K. I m a g e c l a s s i f i c a t i o nf o r c o n t e n t - b a s e d i n d e x i n g .I E E E T r a n s a c t i o n s o n I m a g eP r o c e s s i n g , 2 0 0 1 , 1 0 ( 1 ) : 1 1 7 - 1 3 0[ 2 ] S z u mm e r M , P i c a r d R W. I n d o o r - o u t d o o r i m a g e c l a s s i f i c a t i o n/ / P r o c e e d i n g s o f t h e 1 9 9 8I E E E I n t e r n a t i o n a l W o r k s h o p o nC o n t e n t - B a s e d A c c e s s o f I m a g e a n d V i d e o D a t a b a s e .B o m b a y , I n d i a , 1 9 9 8 : 4 2 - 5 1[ 3 ] O l i v a A , T o r r a l b a A.M o d e l i n g t h e s h a p e o f t h e s c e n e : Ah o l i s t i c r e p r e s e n t a t i o n o f t h e s p a t i a l e n v e l o p e . I n t e r n a t i o n a lJ o u r n a l o f C o m p u t e r V i s i o n , 2 0 0 1 , 4 2 ( 3 ) : 1 4 5 - 1 7 5[ 4 ] B o u r e a u Y L , B a c h F , L e C u n Y. L e a r n i n g m i d - l e v e l f e a t u r e sf o r r e c o g n i t i o n / / P r o c e e d i n g s o f t h e 2 0 1 0I E E E C o m p u t e rS o c i e t y C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r nR e c o g n i t i o n.W a s h i n g t o n , U S A , 2 0 1 0 : 2 5 5 9 - 2 5 6 6[ 5 ] J i a n g H , X u J . I m p r o v e d b a g s - o f - w o r d s a l g o r i t h m f o r s c e n er e c o g n i t i o n / / P r o c e e d i n g s o f t h e 2 n d I n t e r n a t i o n a l C o n f e r e n c eo n S i g n a l P r o c e s s i n g S y s t e m s .D a l i a n , C h i n a , 2 0 1 0 , 2 :2 7 9 - 2 8 2[ 6 ] H o f m a n n T.U n s u p e r v i s e d l e a r n i n g b y p r o b a b i l i s t i c l a t e n ts e m a n t i c a n a l y s i s .J o u r n a l o f M a c h i n e L e a r n i n g R e s e a r c h ,2 0 0 1 , 4 2 ( 1 - 2 ) : 1 7 7 - 1 9 6[ 7 ] B l e i D M ,N g A Y , J o r d a n M I . L a t e n t d i r i c h l e t a l l o c a t i o n.J o u r n a l o f M a c h i n e L e a r n i n g R e s e a r c h , 2 0 0 3 , 3 : 9 9 3 - 1 0 2 2[ 8 ] B o s c h A , Z i s s e r m a n A , M u n o z X. S c e n e c l a s s i f i c a t i o n u s i n ga h y b r i d g e n e r a t i v e / d i s c r i m i n a t i v e a p p r o a c h. I E E E T r a n s a c -t i o n s o n P a t t e r n A n a l y s i s a n d M a c h i n e I n t e l l i g e n c e , 2 0 0 8 ,3 0 ( 4 ) : 7 1 2 - 7 2 7[ 9 ] H a n D o n g - F e n g , L i W e n - H u i , G u o Wu. O b j e c t c l a s s i f i c a t i o nb a s e d o n l a t e n t l o c a l s p a t i a l r e l a t i o n s l e a r n i n g . C h i n e s e J o u r n a lo f C o m p u t e r s , 2 0 0 7 , 3 0 ( 8 ) : 1 2 8 6 - 1 2 9 4 ( i n C h i n e s e )( 韩东峰,李文辉,郭武 . 基于潜在局部区域空间关系学习的物体分类算法 . 计算机学报, 2 0 0 7 , 3 0 ( 8 ) : 1 2 8 6 - 1 2 9 4 )[ 1 0 ] L a z e b n i k S , S c h m i d C , P o n c e J .B e y o n d b a g s o f f e a t u r e s :S p a t i a l p y r a m i d m a t c h i n g f o r r e c o g n i z i n g n a t u r a l s c e n e c a t e -g o r i e s / / P r o c e e d i n g s o f t h e 2 0 0 6 I E E E C o m p u t e r S o c i e t yC o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.N e w Y o r k , U S , 2 0 0 6 : 2 1 6 9 - 2 1 7 8[ 1 1 ] S h a b o u A , L e B o r g n e H.L o c a l i t y - c o n s t r a i n e d a n d s p a t i a l l yr e g u l a r i z e d c o d i n g f o r s c e n e c a t e g o r i z a t i o n/ / P r o c e e d i n g s o ft h e 2 0 1 2I E E E C o m p u t e r S o c i e t y C o n f e r e n c e o n C o m p u t e rV i s i o n a n d P a t t e r n R e c o g n i t i o n.P r o v i d e n c e .R h o d e I s l a n d ,U S A , 2 0 1 2 : 3 6 1 8 - 3 6 2 5[ 1 2 ]Y a n g J C , Y u K , G o n g Y H , H u a n g T. L i n e a r s p a t i a l p y r a m i dm a t c h i n g u s i n g s p a r s e c o d i n g f o r i m a g e c l a s s i f i c a t i o n/ /P r o c e e d i n g s o f t h e 2 0 0 9I E E E C o m p u t e r S o c i e t y C o n f e r e n c eo n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.M i a m i , U S A ,2 0 0 9 : 1 7 9 4 - 1 8 0 1[ 1 3 ] S i v i c J , Z i s s e r m a n A. V i d e o G o o g l e : A t e x t r e t r i e v a la p p r o a c h t o o b j e c t m a t c h i n g i n v i d e o s/ / P r o c e e d i n g s o f t h e9 t h I E E E I n t e r n a t i o n a l C o n f e r e n c e o n C o m p u t e r V i s i o n.W a s h i n g t o n , U S A , 2 0 0 3 : 1 4 7 0 - 1 4 7 7[ 1 4 ] L e e H , B a t t l e A , R a i n a R. E f f i c i e n t s p a r s e c o d i n ga l g o r i t h m s . A d v a n c e s i n N e u r a l I n f o r m a t i o n P r o c e s s i n gS y s t e m s , 2 0 0 7 , 1 9 : 8 0 1[ 1 5 ] B i s h o p C M.P a t t e r n R e c o g n i t i o n a n d M a c h i n e L e a r n i n g .N e w Y o r k : S p r i n g e r , 2 0 0 6[ 1 6 ] F u Y a n , W a n g Y a o - W e i , W a n g W e i - Q i a n g , G a o W e n.C o n t e n t - b a s e d n a t u r a l i m a g e c l a s s i f i c a t i o n a n d r e t r i e v a l u s i n gS VM. C h i n e s e J o u r n a l o f C o m p u t e r s , 2 0 0 3 , 2 6 ( 1 0 ) : 1 2 6 12 6 5 ( i n C h i n e s e )( 付岩,王耀威,王伟强,高文 . S VM 用于基于内容的自然图像分类和检索 . 计算机学报, 2 0 0 3 , 2 6 ( 1 0 ) : 1 2 6 1 - 1 2 6 5 )[ 1 7 ] L i F F , P e r o n a P. A B a y e s i a n h i e r a r c h i c a l m o d e l f o r l e a r n i n gn a t u r a l s c e n e c a t e g o r i e s / / P r o c e e d i n g s o f t h e 2 0 0 5 I E E EC o m p u t e r S o c i e t y C o n f e r e n c e o n C o m p u t e r V i s i o n a n dP a t t e r n R e c o g n i t i o n. S a n D i e g o , U S A , 2 0 0 5 : 5 2 4 - 5 3 1[ 1 8 ] L i F F , F e r g u s R , P e r o n a P.L e a r n i n g g e n e r a t i v e v i s u a lm o d e l s f r o m f e w t r a i n i n g e x a m p l e s : A n i n c r e m e n t a l B a y e s i a na p p r o a c h t e s t e d o n 1 0 1o b j e c t c a t e g o r i e s / / P r o c e e d i n g s o f t h e2 0 0 4I E E E C o m p u t e r S o c i e t y C o n f e r e n c e o n C o m p u t e r V i s i o na n d P a t t e r n R e c o g n i t i o n W o r k s h o p . W a s h i n g t o n , U S A ,2 0 0 4 : 1 7 8[ 1 9 ] L o w e D G.D i s t i n c t i v e i m a g e f e a t u r e s f r o m s c a l e - i n v a r i a n tk e y p o i n t s . I n t e r n a t i o n a l J o u r n a l o f C o m p u t e r V i s i o n , 2 0 0 4 ,6 0 ( 2 ) : 9 1 - 1 1 0[ 2 0 ] A b d i H , W i l l i a m s L J . P r i n c i p a l c o m p o n e n t a n a l y s i s .W i l e yI n t e r d i s c i p l i n a r y R e v i e w s : C o m p u t a t i o n a l S t a t i s t i c s , 2 0 1 0 ,2 ( 4 ) : 4 3 3 - 4 5 9[ 2 1 ] B o i m a n O , S h e c h t m a n E , I r a n i M. I n d e f e n s e o f n e a r e s t -n e i g h b o r b a s e d i m a g e c l a s s i f i c a t i o n / / P r o c e e d i n g s o f t h e 2 0 0 8I E E E C o m p u t e r S o c i e t y C o n f e r e n c e o n C o m p u t e r V i s i o n a n dP a t t e r n R e c o g n i t i o n.A l a s k a , U S A , 2 0 0 8 : 1 - 8[ 2 2 ] J i n B , H u W L , W a n g H Q. I m a g e c l a s s i f i c a t i o n b a s e d o np L S A f u s i n g s p a t i a l r e l a t i o n s h i p s b e t w e e n t o p i c s .I E E ET r a n s a c t i o n s o n S i g n a l P r o c e s s i n g L e t t e r s , 2 0 1 2 , 1 9 ( 3 ) :1 5 1 - 1 5 4[ 2 3 ] J a i n P , K u l i s B , G r a u m a n K. F a s t i m a g e s e a r c h f o r l e a r n e dm e t r i c s / / P r o c e e d i n g s o f I E E E C o m p u t e r S o c i e t y C o n f e r e n c eo n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n. A l a s k a , U S A ,2 0 0 8 : 1 - 8[ 2 4 ] H u a n g Y Z , H u a n g K Q , W a n g C , T a n T N.E x p l o r i n gr e l a t i o n s o f v i s u a l c o d e s f o r i m a g e c l a s s i f i c a t i o n / / P r o c e e d i n g so f t h e 2 0 1 1I E E E C o m p u t e r S o c i e t y C o n f e r e n c e o n C o m p u t e rV i s i o n a n d P a t t e r n R e c o g n i t i o n.C o l o r a d o S p r i n g s , U S A ,2 0 1 1 : 1 6 4 9 - 1 6 5 6
|
[返回] |