基于局部特征的图像目标识别问题综述 |
来源:一起赢论文网 日期:2019-07-09 浏览数:1802 【 字体: 大 中 小 大 中 小 大 中 小 】 |
曹健,等:基于局部特征的图像目标识别问题综述 261有发现哪一种是对大多数图像都适用的。随着新的局部特征不断推出,一些研究者考虑针对不同目标特性自动选择不同的局部特征来完成识别任务[28],还有一些研究者正在探索将不同的特征结合起来进行图像分析和处理[29−30]。 (2)图像目标识别的一个终极目标就是希望“特征工程”越来越多地自动化。目前的一个趋势就是先自动产生大量的候选局部特征,或者称为原始特征,然后根据它们与分类类别的相关性,通过信息论的方法来选取最好的特征[31]。但需要注意的是,一些局部特征独立地看也许与分类无关,但组合起来可能就相关了。 (3)利用整体特征和局部特征进行图像分析进而进行识别的过程有很大不同,基本对应于人类的自下而上的和自上而下的 2 种信息加工方式。局部特征的优点除了本文开头所述之外,还在于快速实用,便于工程实现。整体特征的提取则需要利用先验知识建模,但是先验知识的表述是人工智能中的困难所在,而且人的很多先验知识也很难用数学形式表达。所以当前的趋势就是结合这两大类特征,发挥各自优势,实现更为有效的目标识别[32]。 5 结论 局部特征的提取和应用是目前图像处理和机器视觉领域的一个研究热点,本文着重考察近十年来国内外相关技术的最新成果,将众多研究方案分类归纳,按照系统的框架,详细介绍和比较每个环节的主流算法,希望对相关领域的研究人员和工程技术人员提供有益的帮助。 参考文献: [1] Choi J Y, Ro Y M, Plataniotis K N. Color local texture features for color face recognition[J]. IEEE Transactions on Image Processing, 2012, 21(3): 1366−1380. [2] 曹健, 刘琼昕, 高春晓,等. 角点特征在目标识别中的应用[J]. 北京理工大学学报: 自然科学版, 2011, 31(3): 308−312. CAO Jian, LIU Qiongxin, GAO Chunxiao, et al. Object recognition with corner-based feature[J]. Transaction of Beijing Institute of Technology (Natural Science), 2011, 31(3): 308−312. [3] Lowe D. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91−110. [4] Kadir T, Zisserman A, Brady M. An affine invariant salient region detector[C]//Europeon Conference on Computer Vision. Prague, Czech Republic: Springer-Verlag, 2004: 228−241. [5] Mikolajczyk K, Tuytelaars T, Schmid C, et al. A comparison of affine region detectors[J]. International Journal of Computer Vision, 2005, 65(1/2): 43−72. [6] Nowak E, Triggs B. Sampling strategies for bag-of-features image classification[C]//Europeon Conference on Computer Vision. Graz, Austria: Springer-Verlag, 2006: 490−503. [7] Moosmann F, Nowak E, Jurie F. Randomized clustering forests for image classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(9): 1632−1646. [8] 曹健, 陈红倩, 张凯, 等. 结合区域颜色和纹理的运动阴影检测方法[J]. 机器人, 2011, 33(5): 628−633. CAO Jian, CHEN Hongqian, ZHANG Kai, et al. Moving cast shadow detection based on region color and texture[J]. Robot, 2011, 33(5): 628−633. [9] Pan H, Li X B, Jin L Z, et al. Object description and recognition using multiscale geometric analysis[J]. Journal of Infrared and Millimeter Waves, 2011, 30(1): 85−90. [10] Mikolajczyk K, Schmid C. A performance evaluation of local descriptors[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(10): 1615−1630. [11] Redondo-Cabrera C, Lopez-Sastre R, Acevedo-Rodriguez J, et al. SURFing the point clouds: Selective 3D spatial pyramids for category-level object recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Providence, Rhode Island: IEEE, 2012: 3458−3465. [12] Mohan A, Papageorgiou C, Poggio T. Example-based object detection in images by components[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(4): 349− 361. [13] Viola P, Jones M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137−154. [14] Ding H, Li X D, Zhao H J, et al. A new generalized affine moment invariants for shape retrieval and object recognition[C]// Proceedings of IEEE International Symposium on Instrumentation and Control Technology. London: IEEE, 2012: 137−142. [15] Chen G Y, Gleason S. Ridgelet moment invariants for pattern recognition[C]//Proceedings of 25th IEEE Canadian Conference on Electrical & Computer Engineering. Montreal, Cauada: IEEE, 2012: 1−4. [16] Mikolajczyk K, Leibe B, Schiele B. Multiple object class detection with a generative model[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2006: 26−36. [17] Marszaek M, Schmid C. Spatial weighting for bag-of-features [C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2006, 2: 2118−2125. [18] Stark M, Schiele B. How good are local features for classes of 中南大学学报(自然科学版) 第 44 卷 有对不同目标的区分能力。目前,基于局部特征的目标表示通常分为 3 类,分别是向量空间模型、滑动窗口模型和结构关系模型。 向量空间模型,又称词袋、码书或视觉词典,主要是根据相似度对具体的局部特征进行聚类,进而抽象成单个特征项,一幅图像的内容被看成是其含有的特征项所组成的集合,从而把图像用模式向量的方式描述出来。向量空间模型初期主要应用于文本分类,不少图像领域的研究者提出了改进方案,从以下 2 个方面考虑:一是建立分层特征库,如 Mikolajczyk 等[16]将特征库表示为树状结构,树的根节点就是目标类,叶子节点就是由具体的局部特征聚类构成的特征项,每个子树都是由分布相近的特征项组成的。二是利用特征项的位置信息,如 Marszaek 等[17−18]引入局部特征的位置信息有效地减少背景噪声的影响。 滑动窗口模型一般通过固定或可变大小的窗口,从上到下、从左到右地扫描整幅图像,用隐含的模板将局部特征的空间信息表示为特征向量的形式。这种模型一般基于规模较大的训练集和密集选取特征区域方式,常常结合多分辨率分析和 adaboost 技术进行目标检测和分类。Agarwal 等[19]设计出局部特征之间的20 种空间关系,并采用可变大小的窗口在多层图像金字塔上进行多尺度的目标检测,实现通用目标的识别。 结构关系模型的思想是有固定结构的目标可以被拆分成许多部件,目标各个部件的特征描述以及结构关系可以通过对训练集的学习得到。Weber 等[20]提出的星系模型将目标的部件看作星系中的群星,用概率统计的方法得到目标的假设,Fergus 等[21]在此基础上加入尺度不变性;Leibe 等[22]在松散的星形结构上提出隐含形状模型(ISM),每个模型部件都有一个参考点,通过投票的方式确定目标的位置;Crandall 等[23]提出的k-fan模型,采用k个参考点形成中心完全子图,当 k=1 时相当于星形结构模型,k=0 时相当于向量空间模型;相片结构模型[24]和成对几何关系模型[25]等方法在表示局部特征之间的结构关系上也颇有独到之处。 上述 3 类目标表示方法有不同的优缺点和适用范围:向量空间模型表达简洁、应用方便,不用考虑特征项之间的空间关系,是基于内容的图像分类的主流方法;滑动窗口模型只需要少量的指导, 检测精度也较高, 但这类方法的定位能力较弱, 需要专门的算法将检测到的多个窗口进一步整合;结构关系模型的可扩展性比较强,可以充分利用各种模式识别的技术,在目标的检测和分割领域起到越来越重要的作用。 3 分类器设计 设计分类器是目标分类的主要任务和核心研究内容之一。分类器设计就是在训练样本集合上进行优化(如使每一类样本的表达误差最小或使不同类别样本的分类误差最小)的过程,也就是一个机器学习过程: 按照分类器训练过程中的人工参与程度,一般可以分为有监督和无监督识别。本质上的区别在于训练数据是否有已知的类别标签。无监督识别主要用于确定 2 个特征向量之间的“相似度”以及合适的测度,并选择一个算法方案,基于选定的相似度测度对向量进行聚类(分组)。通常,不同的算法方案可能导致不同的结果,这一点必须由专家进行解释;而有监督识别可以通过学习有标签的数据,挖掘已知信息来设计分类器,能够以较小的训练集获得较高精度的模型。对于海量的图像数据进行人工标注,浪费资源且不切实际,近年来,将标注数据和未标注数据结合起来用于目标识别受到广泛的关注,这就是半监督识别方法。Li 等[26]和陈荣等[27]分别将半监督识别应用到了人脸识别、目标检测以及图像分类等领域,取得一些成 果。 按照分类器的数学模型,可分为生成方法和判别方法。一般来说,朴素贝叶斯、k 最近邻法、决策树以及 Rocchio 分类器的能力相对较弱,但是它们的模型简单、效率较高,这些方法的修正和改进引起了研究人员的持续关注;神经网络要求对该问题的了解较少,可以实现特征空间较复杂的划分,适合于用高速并行处理系统来实现,但其网络设计、收敛速度、局部极小点等问题还没有得到完满地解决;近年来,支持向量机在目标识别领域取得了极大的成功,虽然在大数据集上训练收敛速度较慢,需要大量的存储资源和很高的计算能力,但能较好地解决过拟合问题,具有很好的泛化能力,在效果和稳定性上占有优势。 4 发展趋势 局部特征的提出和对人类感知特性的研究成果紧密联系在一起,经过众多学者的不懈努力,近几年在图像拼接、图像分类、目标检测领域的应用都取得较大进展。随着新的问题的不断涌现,对局部特征的研究深度和广度也不断拓展: (1)现有的各种局部特征都有各自的局限性,还没 曹健,等:基于局部特征的图像目标识别问题综述 259 着越来越广泛的应用。局部特征目前还没有一个统一的定义,它的提出主要是相对整体特征而言,用局部特征对图像进行描述时可以得到图像中物体的局部信息。在背景复杂、噪声干扰较大、存在局部遮挡、目标姿态发生较大变化等情况下,利用局部信息进行目标识别是非常有效的。 近几年对局部特征的研究非常活跃, 新的方法不断涌现。本文作者遵循目标识别系统的一般框架, 对局部特征提取技术、主流的目标表示方法进行详细探讨, 并对分类器设计以及研究趋势进行简要介绍。 1 局部特征提取 局部特征提取一般包括特征区域检测和特征区域描述 2 部分内容,与分类器设计相比,更加依赖于具体问题和相应领域的先验知识,一般要求对亮度、尺度、平移和旋转具有一定的不变性。 常用的特征区域检测方法可以分为 3 类,即稀疏选取、密集选取和其它选取方法。稀疏选取方法是通过特征检测,选取具有显著特点的图像区域作为局部特征,基于形状的检测算子[2]是根据图像的形状特征(如边界、直线、弧线等)来确定特征区域的位置,主要应用于外形区分度明显的目标识别,如各种刚性的、无关节的物体;基于外观的检测算子是在图像的灰度模式下,搜寻具有某种稳定性和不变性的特征点或关键区域,Do G(Difference of Gaussian)算子[3],Sal Reg (Salient Regions)算子[4]以及 Harris-Laplace,Hessian- Laplace,Harris affine 和 Hessian affine 算子[5]均是典型代表。稀疏选取法检测出的特征区域数量一般在200~3 000 左右, 其主要优点是简洁紧致, 图像的关键点远少于图像的像素、可加速后面的识别过程。 密集选取方法认为在模式识别的低层处理中,所有图像区域都有一定的作用,丢失任何细节都会对最终效果产生不利影响,实际上很大一部分特征区域信息量过小,对后期的识别没有作用甚至起到干扰作用,并加重了后面特征优化工作的负担。Nowak 等[6]发现当训练集的样本足够多时,随机取样法能达到和某些稀疏取样相近甚至更好的结果。Moosmann 等[7]提出 使用显著性映射在分类过程中动态选取图像块的方法。从本质上看,这 3 类方法都是建立在对图像像素遍历的基础之上的;从效果上看,特征区域检测和目标以及背景的特性有很大关联,所以结合多种检测算子进行目标识别是一种趋势。 常用的局部特征描述子通常是基于选定的表示方式,将特征区域描述为向量的形式,它们一方面要充分体现出不同目标的差异,又要对背景和目标姿态的变化具有鲁棒性,还要易于计算相似度。从技术应用的角度可以分为 4 类:基于分布的描述子、基于空间频率技术的描述子、差分描述子和其他描述子。基于分布的描述子主要利用直方图来描述不同的外观或形状特征。局部二值模式[8−9]是一种对灰度伸缩不变的纹理描述方法,主要应用在阴影检测和目标描述方面;Lowe[3]提出的 SIFT (Scale invariant feature transform) 转换描述子适用范围广、运算速度快、鲁棒性强,基本 不 受 旋 转 、 光 照 和 尺 度 变 化 等 因 素 的 影 响 ;PCA-SIFT 和 GLOH(Gradient location orientation histograms)[10]描述子是对 SIFT 描述子的扩展,在区域和梯度方向上采用不同的描述精度,通过主分量分析对特征向量进行降维处理,进一步增强了鲁棒性和区分度;SURF(Speeded-up robust features)[11]描述子与SIFT 描述子类似,描述区域内边缘的分布,主要应用于边缘特征比较明显、稳定的图像。 基于空间频率技术的描述子通过用频域技术对图像进行描述和处理,能充分利用频率成分和图像外观之间的对应关系。比如,Mohan 等[12]就采用类似于Haar 小波的频谱方法表示图像区域,实现行人、人脸和汽车等目标的检测与识别。另外,一系列的图像导数也可以用来描述一个点附近的区域特征,复数滤波器就是利用方程的求导结果对区域进行描述的,其函数的形式要根据具体情况而定,比如高斯导数或多项式。不变矩可描述一个区域内的形状和亮度分布,它的特征维数较少,对彩色图像的每个颜色通道的计算结果都很稳定,但高阶矩对几何失真和光亮度失真比较敏感,近些年国内外很多学者都在图像目标识别领域做相应地改进和尝试[13−15]。随着技术的进步,不断有新的描述子出现,但每种描述子都有一定的适用范围,而且其性能与特征区域检测方法没有必然的联系。总体看来,GLOH 和 SIFT 描述子应用广泛,性能比较稳定;SURF 描述子在形状特征明显的目标识别中效果不错,但在纹理图像和非刚性目标的识别中效果不佳;在低维描述子中,不变矩和导向滤波器的性能要略胜一筹。 2 目标表示方法 要使计算机能高效处理真实图像并对图像中的目标进行识别,就必须找到一种理想的形式化表示方法,这种表示方法既要能够真实地反映目标的内容,又要基于局部特征的图像目标识别问题综述 曹健,陈红倩,毛典辉,李海生,蔡强 (北京工商大学 计算机与信息工程学院,北京,100048) 摘要:基于局部特征的图像目标识别是近年来计算机视觉领域中的热点问题。首先,论述整体特征的不足以及局部特征的优势。然后,详细阐述局部特征提取技术和目标表示方法的研究现状,讨论其中的一些常用算法。为清楚说明这些方法,先是将局部特征提取分为特征区域检测和特征区域描述两步;然后,将目标表示方法分为向量空间模型、滑动窗口模型和结构关系模型 3 类;最后,介绍目标识别常用的分类器并对局部特征在目标识别领域的应用前景进行展望。 关键词:目标识别;局部特征;计算机视觉;目标表示;分类器 中图分类号:TP391.41 文献标志码:A 文章编号:1672−7207(2013)S2−0258−05 Survey of image object recognition based on local features CAO Jian, CHEN Hongqian, MAO Dianhui, LI Haisheng, CAI Qiang (College of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048, China) Abstract: Image object recognition based on local features is a hot spot currently in the domain of computer vision. Firstly, the defects of global features in the present system and the advantages of the local features in object recognition were discussed. Secondly, the state of art about recognition using local features was explored briefly, especially the main approaches of local features extraction and object presentation are shown. In order to explain these methods clearly, the problems of the local feature extraction were divided into the feature region detection and the feature region description. Then, the main component parts and the merits of these steps were presented. And the technologies of object presentation were classified into three classes: the vector space model, sliding window model and structure relationship model. Finally, the classifiers in common use were introduced. Meanwhile, the development trend of the area was forecasted. Key words: object recognition; local features; computer vision; object presentation; classifier 图像目标识别技术作为计算机视觉中的一个重要的研究领域,近些年广泛应用于国防和民用的许多领域,如安全监控、军事侦察、产品检验、人机交互和医学应用等多个方面[1]。该领域的一种典型研究思路是从大量包含目标的图片集中学习并抽取整体特征,如面积、周长、不变矩和傅里叶描绘子等,并采用统计分类技术进行目标分类。这种思路存在以下几个难以克服的问题:对于结构复杂的图像,识别效果受到图像分割精度的制约;需要学习大量的数据以及较长的训练时间;由于没有捕捉到图像中物体的局部信息,整体特征的突然变化对于图像目标的识别非常不利。 已有研究表明:人类的视觉系统可以将物体分解为许多有意义的小块,并通过这些局部的信息进行目标的辨识,这使得局部特征技术在复杂目标识别上有 收稿日期:2013−03−01;修回日期:2013−05−02 基金项目:北京市自然科学基金资助项目(4112016, 4123095);北京市属高等学校科学技术与研究生教育创新工程建设项目(PXM2012_014213_ 000037, PXM2012_014213_000079);北京市属高等学校人才强教计划项目(PHR201108075);北京工商大学青年教师科研启动基金资助项目(QNJJ2011-38) 通信作者:曹健(1982−),男,山东临沂人,博士,讲师,从事图像处理与模式识别研究;电话:;E-mail:caojian@th.btbu.edu.cn 262 中南大学学报(自然科学版) 第 44 卷 geometric objects[C]//IEEE 11th International Conference on Computer Vision. Riode Ianeiro: IEEE, 2007: 1−8. [19] Agarwal S, Awan A, Roth D. Learning to detect objects in images via a sparse, part-based representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(11): 1475−1490. [20] Weber M, Welling M, Perona P. Unsupervised learning of models for recognition[C]//Europeon Conference on Computer Vision (ECCV). Graz, Austria: Springer-Verlag, 2000: 18−32. [21] Fergus R, Perona P, Zisserman A. Object class recognition by unsupervised scale-invariant learning[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Midison, USA: IEEE, 2003: 264−271. [22] Leibe B, Leonardis A, Schiele B. Robust object detection with interleaved categorization and segmentation[J]. International Journal of Computer Vision, 2008, 77(1/2/3): 259−289. [23] Crandall D, Felzenszwalb P, Huttenlocher D. Spatial priors for part-based recognition using statistical models[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA: IEEE, 2005: 10−17. [24] Felzenszwalb P, Huttenlocher D. Pictorial structures for object recognition[J]. International Journal of Computer Vision, 2005, 1: 55−79. [25] Leordeanu M, Heber M, Sukthankar R. Beyond local appearance: Category recognition from pairwise interactions of simple features[C]//IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Cos Alamitos: IEEE, 2007: 1−8. [26] Li L J, Wang G, Li F F. Optimol: Automatic object picture collection via incremental model learning[J]//Int J Comput Vis, 2009, DOI: 10.1007/s11263-009-0265-6. [27] 陈荣, 曹永锋, 孙洪. 基于主动学习和半监督学习的多类图像分类[J]. 自动化学报, 2011, 37(8): 954−962. Chen Rong, Cao Yongfeng, Sun Hong. Multi-class image classification with active learning and semi-supervised learning [J]. Acta Automatica Sinica, 2011, 37(8): 954−962. [28] Wang Y, Zhu S C. Perceptual scale-space and its applications[J]. International Journal of Computer Vision, 2008, 80(1): 143−165. [29] 曹世翔, 江洁, 张广军, 等. 边缘特征点的多分辨率图像拼接[J]. 计算机研究与发展, 2011, 48(9): 1788−1793. Cao Shixiang, Jiang Jie, Zhang Guangjun, et al. Multi-scale image mosaic using features from edge[J]. Journal of Computer Research and Development, 2011, 48(9): 1788−1793. [30] 唐旭晟, 陈丹. 基于局部边缘特征的快速目标检测[J]. 计算机辅助设计与图形学学报, 2011, 23(11): 1902−1906. Tang Xusheng, Chen Dan. Fast object detection using edge fragment-based features[J]. Journal of Computer-Aided Design & Computer Graphics, 2011, 23(11): 1902−1906. [31] Javed K, Babri H A, Saeed M. Feature selection based on class-dependent densities for high-dimensional binary data[J]. IEEE Transactions on Knowledge and Data Engineering, 2012, 24(3): 465−477. [32] Bilen H, Namboodiri V P, van Gool L J. Classification with global, local and shared features[J]. Pattern Recognition: Lecture Notes in Computer Science, 2012, 7476: 134−143. (编辑 邓履翔) |
[返回] |