基于超图模型的图像目标识别 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

基于超图模型的图像目标识别

来源：一起赢论文网日期：2019-04-16 浏览数：1912 【字体：大中小】

GB 内存、2.14 GHz 计算机的Matlab 环境下，对于本实验中的一幅测试图像，CSHG 模型可以在 3 s 内完成识别。 4.3 复杂背景图像目标识别笔者用数码相机拍摄了一组存在背景干扰、遮挡的复杂背景图像，如图 5(a)、图 5(d)、图 5(g)所示，采用这些复杂背景图像来验证本文图像目标识别方法的性能。图 5(b)、图5(e)、图 5(h)是采用 3.2 节的方法从对应的待识别图像中分出的待识别目标区域图像，图 5(c)、图 5(f)、图 5(i)是分出的待识别目标区域与利用 CSHG 模型识别出的图像进行特征匹配的结果。 (a)待识图像 1 (b)图像 1 分出的目标区域 (c)图像 1 识别结果 (d)待识图像 2 (e)图像 2 分出的目标区域 (f)图像 2 识别结果 (g)待识图像 3 (h)图像 3 分出的目标区域 (i)图像 3 识别结果图 5 基于 CSHG 模型对复杂图像目标的识别结果由于背景干扰、遮挡等的影响，采用与简单图像的目标识别方法无法实现对复杂图像目标的准确识别，采用 3.2 节的复杂图像目标识别方法，可以准确地完成对待识别目标的识别任务。另外，需要指出的是，本文 CSHG 模型的训练图像集包含了多种图像集的 5 万多幅图像，也就是说，识别过程是在 CSHG 模型存在大量负类图像属性图的条件下进行的，从图 5 中可以看出，基于 CSHG 模型的识别方法可以实现对复杂图像目标的识别。对于复杂图像目标的识别效率，由于本文初始确定待识别目标区域采用的是滑动窗在待识别图像中移动的方法，确定待识别目标所在区域根据其在待识别图像中所处位置的不同时间消耗上会有差异，因此本文只考虑了确定出待识别目标区域后基于 CSHG 模型对其进行识别的时间。将待识别目标区域从待识别图像中分出以后，在Matlab 环境及 2 GB 内存、2.5 GHz 的计算机上，识别可以在3 s 内完成。 5 结束语本文基于超图模型分别研究了简单图像和复杂图像的目标识别方法。通过采用 RSOM 聚类树[13]的思想，可以在大数据集条件下实现对待识别图像的快速识别。复杂图像相对于简单图像来说存在背景干扰及遮挡的影响，通过将待识别目标区域从待识别图像中分出，降低了背景干扰以及遮挡对识别的影响。建立图像对应的属性图模型时，进一步结合图像的颜色、纹理和边界特征将会增强识别方法的稳健性，这是下一步需要研究的内容。参考文献 [1] Lowe D. Distinctive Image Features from Scale-invariant Key Points[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. [2] Bay H, Tuytelaars T, Gool L V. SURF: Speeded Up Robust Features[C]//Proc. of ECCV’06. Graz, Austria: [s. n.], 2006: 404-417. [3] Mikolajczyk K, Schmid C. A Performance Evaluation of Local Descriptors[J]. IEEE Transactions on PAMI, 2005, 27(10): 1615-1630. [4] 崔世林, 田斐. 基于 SIFT 特征和 Fisher 的人脸识别方法[J]. 计算机工程, 2009, 35(9): 195-197. [5] Li Feifei, Perona P. A Bayesian Hierarchical Model for Learning Natural Scene Categories[C]//Proc. of CVPR’05. San Diego, CA, USA: [s. n.], 2005: 524-531. [6] Nowak E. Sampling Strategies for Bag-of-features Image Classif- ication[C]//Proc. of ECCV’06. Graz, Austria: [s. n.], 2006: 490-503. [7] Sivic J, Russell B C, Efros A A, et al. Discovering Objects and Their Location in Images[C]//Proc. of ICCV’05. Beijing, China: [s. n.], 2005: 872-877. [8] Fan Chung. Spectral Graph Theory[C]//Proc. of CBMS Regional Conference on Mathematics. Washington D. C., USA: IEEE Press, 1997: 92. [9] Crandall D J, Huttenlocher D P. Weakly Supervised Learning of Part-based Spatial Models for Visual Object Recognition[C]//Proc. of ECCV’06. Graz, Austria: [s. n.], 2006: 16-29. [10] Jiang Xin, Munger A, Bunke H. On Median Graphs: Properties, Algorithms, and Applications[J]. IEEE Transactions on PAMI, 2001, 23(10): 1144-1151. （下转第 187 页） —183—识别图像的稳健 SIFT 特征[11]，并得到待识别图像对应的属性图，由于待识别图像中可能存在多个待识别目标，因此首先采用与 3.1 节中简单图像目标识别方法类似的方法得到该属性图在 CSHG 模型中的 k 个最近邻属性图，然后将待识别图像对应的属性图与 k 个最近邻属性图顺序地进行特征匹配。特征匹配后，对每个匹配后的图像进行以下操作：在匹配图像中的待识别图像部分(如图 2(b)中左半边的图像)，用一个滑动窗在这个图像上按从左到右、从上到下的顺序移动，设移动过程中滑动窗区域中的匹配特征点个数为 ni, i=1,2,…, N。当满足in >γ 时( γ 为设定的阈值)，认为该小区域存在待识别目标，通过这种方法完成对待识别目标在图像中区域的粗略定位，如图 3(a)左下方虚线方框所示。接下来，需要对待识别目标区域进行精确定位。设对待识别目标区域粗略定位的虚线方框的 4 个顶点坐标分别为：1 1(x, y) , 2 1(x, y) , 2 2(x, y) , 1 2(x, y) ，改变 x(y)的值为 x +ε ( y +ε )， ε 为对虚线方框区域进行扰动变化的数值，本文中 ε 扰动变化选为 10 个像素点。对变换顶点坐标后的虚线方框区域，采用文献[13]中的方法得到其对应的属性图 Gl，并与其在 CSHG 模型中最近邻的属性图qG 进行匹配，记录匹配上的特征点的个数jin , j =1, 2, , k ，k 表示虚线方框区域扰动变化的次数。当jin 取最大值时虚线方框所在的区域即是待识别目标精确定位的区域。图 3(b)为对目标区域进行精确定位后分离出来的待识别目标区域图像。 (a)待识别目标区域定位 (b)分离出的待识别目标区域图像图 3 待识别目标定位及分离出的目标区域图像得到待识别目标区域的精确定位后就可以将待识别目标区域图像从待识别图像中分离出来，根据文献[12]的方法提取分出的待识别目标区域图像的稳健 SIFT 特征点，进而得到待识别目标区域图像对应的属性图，然后按照与 3.1 节类似的方法完成对图像目标的识别。 4 仿真实验 4.1 CSHG 模型训练数据本文 CSHG 模型的训练数据包括 53 536 幅图像，其中包括 Coil-100 数据集、文献[14]中的训练数据集、Caltech101数据集[7]、PASCAL VOC’07、Google 下载的图像集以及笔者拍摄的图像集等图像数据，共有 500 多类目标，部分目标图像如图 4 所示。对于每幅图像，根据文献[12]中的方法提取了该幅图像的稳健 SIFT 特征点。本文实验中训练图像的稳健SIFT 特征点的数量最多选为 40 个，对每幅图像建立了其对应的属性图。所有训练图像共提取了 2 140 000 个 SIFT 特征，建立了 53 536 个属性图。利用训练图像集的 SIFT 特征，本文训练了一棵具有 25 334 个叶子节点的 RSOM 聚类树[13]，整个训练过程是在 Matlab 环境和 2 GB 内存、2.14 GHz 的计算机上进行的。采用第 2 节介绍的 CSHG 模型训练方法，训练得到了每类目标对应的 CSHG 模型。 (a)Coil-100 中的部分目标 (b)文献[14]中的 8 个目标 (c)从视频中采集到的部分目标图 4 训练图像集中的部分目标 4.2 简单图像目标识别 Coil-100 数据集中的图像具有简单的背景，且没有遮挡的影响，图 4(a)为 Coil-100 数据集中的 10 个目标。本文从Coil-100 数据集中任选 20 个目标，通过在这些目标的图像中加噪合成测试图像集，20 个目标分别表示为 T1~T20。对 20 个目标的图像加入噪声，其中，噪声的方差从 0.03、0.04、0.05 中随机选取，每幅图像合成 6 个加噪的图像，最后 20 个目标共合成 8 640 幅图像，这些图像作为测试图像集。对测试数据中每类目标的图像，设其待识别图像数量为 N，基于训练得到的 CSHG 模型，根据 3.1 节方法做出识别判决的待识别图像数量为RN ，做出判决的图像中正确识别的图像数量为TN ，定义识别的准确率指标 f 为： 21/ 1/fp r=+ (6) 其中， TNrN= , TRNpN= 。识别准确率指标 f 反映了 CSHG 模型对测试图像集的识别性能， f 越接近于 1，识别性能越好。表 1 为设定属性图相似性阈值为 7 时 CSHG 模型对简单背景的测试图像集识别的准确率指标，可以看出，对于简单背景的待识别图像，CSHG 模型对它们的识别准确率可以达到 0.95 以上。表 1 CSHG 模型对测试数据的识别准确率测试类型 T1 T2 T3 T4 T5 T6 T7 T8 T9 T10f 0.97 0.95 1.00 0.97 1.00 1.00 1.00 0.98 0.95 0.97测试类型 T11 T12 T13 T14 T15 T16 T17 T18 T19 T20f 0.98 1.00 0.98 1.00 1.00 1.00 0.98 0.97 0.98 1.00集可以建立对应的属性图集：{ , 1, 2, , }lG =G l = N 。定义任意 2 个属性图 Gl、Gq之间的相似性度量[12]( , )l qR G G 为： ( , ) ( , ) (exp( ( , )))l q l q l qR G G MCS G G e X Xκ= × − (1) 其中， ( , )l qMCS G G 表示图 Gl、 Gq的最大公共子图( , )l qMCS G G 中 SIFT 特征点的数量； ( , )l qe X X 为图 Gl、Gq之间迭代 procrustes 匹配误差；k 为匹配过程中去除的错误匹配特征点的数量。以任一属性图为聚类初始属性图，根据属性图相似性度量关系进行相似性传播聚类可以构建出 CSHG 模型[12]。 CSHG 模型定义为： CSHG =(HV, HE) ，其中， HV 为顶点集； HE 为边的集合，只有当属性图之间的相似性度量( , )l qR G G 大于设定的阈值tR 时，超图的顶点lG 和qG 之间建立一条边。以属性图 Gl为初始聚类属性图建立的与图 Gl具有超图关系的属性图集称为图 Gl的家族树(Family Tree of a Graph , FTOG)： { , 1}{ , } { , 1} { }q ll l R qG F G kF G k F G k S Gτ∈ −= − ∪ (2) 其中， { }lS G 为与 Gl满足相似性度量关系的属性图集合。如果 k =1 ，则 { ,1} { ,0} { }l l lF G =F G ∪S G , { , 0} { }l lF G =G 。当{ , } { , 1}l lF G k =F G k + 时，迭代过程结束。当训练图像集规模很大时，利用相似性度量 ( , )l qR G G 得到与任一属性图 Gl近邻的属性图集合 { }lK G 是很耗时的。为了提高 CSHG 模型训练的效率，CSHG 模型训练过程中利用训练图像集的 SIFT 描述向量训练得到了一棵 RSOM 聚类树[13]，基于 RSOM 聚类树快速检索与属性图 Gl具有相似性关系的属性图集合'( )lK G ，在'( )lK G 中找到与 Gl建立超图边关系的属性图集合，训练效率将大大提高。 3 基于 CSHG 模型的图像目标识别 CSHG 模型训练完成后，可以基于 CSHG 模型实现对图像目标的识别。 3.1 简单图像目标识别方法对于一个简单背景的待识别图像 L，利用文献[11]中的方法提取该图像中的稳健 SIFT 特征点，本文对简单背景的待识别图像提取出了 40 个稳健特征点，这样可以根据文献[12]中的属性图模型表示方法将待识别图像 L 表示为属性图 Gl：( , )l l lG =Ύ E ，其中，lΎ 为图 Gl的 SIFT 特征点集，表示为T T T T{ | (( ) , ( ) , ( ) ) , 1, 2, , }t t tt tl l ll l l lΎ =V V = X R Ut =T ；lE 为图 Gl的边集。第 2 节已经指出，为了提高 CSHG 模型的训练效率，在CSHG 模型训练的过程中，利用训练图像集的 SIFT 描述向量训练得到了一个 RSOM 聚类树[13]，其结构如图 1 所示。RSOM聚类树是以基本的 SOM 神经网络为节点采用递归的方法训练生成的，生成的 RSOM 树叶节点中存放了性质相似的 SIFT特征以及特征所在的属性图的标号。对于待识别属性图 Gl，其中的每一个 SIFT 描述向量都可以在 RSOM 聚类树中检索到对应的获胜叶节点，所有获胜叶节点中的属性图组成的图集可以作为与待识别图 Gl具有 ε 近邻关系的图集 { }lNG Gε，表示为： { } { | , { }, }j j t tl q q q q l l lNG G G U G U WL U U Gε= ∈ ∈ ∈ (3) 其中， { }tlWL U 为 SIFT 描述向量tlU 在 RSOM 聚类树中的获胜叶节点。 { }lNG Gε中属性图qG 出现的频率qF 表示属性图 Gl与属性图qG 粗略匹配成功的次数，对 { }lNG Gε中的属性图根据其出现的频率qF 进行降序排列，取其中前 K 个属性图组成图集 ( )lK G ，表示为： 1{ } { | { }, , 1, 2, , }l q q l q qK G G G NG G F F q Kε += ∈ > = (4) (a)RSOM树中叶节点输入层竞争层(b)RSOM树中基本SOM网络节点第2层SOM网络节点 RSOM树根节点模式输入矢量第1层SOM网络节点第L层叶节点层(c)SOM网络基本节点和叶节点构成的RSOM树图 1 RSOM 树结构根据式(1)，可以计算出图 Gl与 ( )lK G 中每个属性图qG 之间的相似性度量 ( , )l qR G G ，并得到属性图 Gl相似性度量大于设定阈值的属性图集 { }lS G 。得到图集 { }lS G 后，将待识别属性图 Gl识别为 { }lS G 中与其最近邻的图cG 所属的类别，即： l cG ∈w ,1,2, ,( , ) max ( ( , ))l c l qq kR G G R G G== (5) 其中，cG 属于cw 类；qG 为 { }lS G 中的属性图。 3.2 复杂图像目标识别方法在复杂图像的目标识别中，往往存在背景干扰、遮挡等因素的影响，因此，直接按照简单图像的目标识别方法通常不能实现对复杂图像目标的准确识别。图 2(a)为一幅待识别复杂图像，图像中待识别目标为一个罐子。图 2(b)为待识别图像与利用 CSHG 模型识别出的图像之间的特征匹配结果，由于背景干扰以及遮挡等的影响，图像中待识别目标在CSHG 模型中没有识别到与其准确匹配的图像。为了实现对图像目标的准确识别，本文首先利用滑动窗方法将待识别目标区域从待识别图像中分离出来，然后对分出的待识别目标区域进行识别。 (a)待识别图像 (b)图像匹配结果图 2 待识别图像及其与识别出图像的匹配结果将待识别目标区域从待识别图像中分出时，首先提取待 —181—其中，i 和 j 指第 i 和第 j 个不规则图形；i, j∈[1, N]；%表示相似度计算规则；S∈[0, 1]。 4.2 相似度计算规则对于 2 个不规则的多边形，相似性的计算有很多方法，包括计算狭长度、圆形度、惯性主轴方向、偏心率、基于内角的算法、基于边界方向算法等。基于内角的算法将二维图形的角度信息组织成向量，通过比较向量间夹角的余弦值进行相似性比较。基于顶点的算法首先将需比较的图形进行坐标系归一化预处理，即把它们的坐标原定，坐标比例以及坐标系方向归一化，通过比较两图形重合的顶点数比较图形的几何相似性，且支持通过调整比较精度来决定顶点的重合程度。 4.3 相似度合并阈值的确定不规则图形的合并由图形相似度的大小决定。相似度函数越大，合并的几率越大。确定一个阈值，用 tv 表示。当相似度大于 tv 时才对 2 个图形进行合并。可以看出，tv 值设定得越大，合并的图形就越少，合并后剩余的图形个数便越多。 4.4 合并操作合并操作步骤如下： for(i=1;i<M；i++) { for(j=i+1;j<N;j++) { S=i%j; if(S>tv) 将 j 图形合并到 i 图形的集合中； } } 经过合并操作后，可以对每类集合操作进行相同的编码，然后使用标准的遗传算法进行排样操作。 5 实例验证为了验证改进遗传算法的优越性，在 vs2003.net 系统下进行仿真实验。 (1)验证相似性合并阈值 tv 与智能排样速度之间的关系；随机生成 50 个不规则多边形，分别使用不同的 tv 阈值(tv=0.5, tv=0.7, tv=0.9) 进行合并后排样，为了验证准确性，设置了 3 次实验，得到的数据如表 1 所示。表 1 IGA 算法中 tv 与时间、占有率的关系实验指标 tv=0.5 tv=0.7 tv=0.9 时间/s 79.564 120.042 140.359 实验 1 占有率 0.804 0.771 0.654 时间/s 60.432 100.343 115.360 实验 2 占有率 0.901 0.843 0.722 时间/s 72.981 139.242 160.367 实验 3 占有率 0.844 0.802 0.695 根据表 1 可以得出，阈值 tv 设置得越大，时间复杂度便越大，而排列图形的空间占有率便会越小。两者不可同时要求，所以，必须针对不同的图形设定不同的 tv 值。 (2)验证 IGA 算法的优越性，设置 BL 算法，与标准 GA算法进行对比。在验证过程中设置 tv 阈值为 0.6，进行 3 次实验，第 1 次为 100 个不规则图形，第 2 次为 50 个不规则图形，第 3 次为 150 个不规则图形，如表 2 所示。表 2 不规则图形在各种排样算法中的对比实验指标 BL 算法标准 GA IGA 时间/s 0.282 405.760 287.435 占有率 0.882 0.782 0.798 时间/s 0.091 115.342 90.487 占有率 0.779 0.672 0.681 时间/s 0.352 672.432 391.653 占有率 0.865 0.802 0.799 由表 1 和表 2 的数据可以看出： (1)改进的遗传算法优化排样算法大大缩小了排样算法的时间复杂度，更容易被使用者接受。 (2)设置的 tv 值不同，对标准遗传排样算法的优化程度也不同，即 tv 值设置越小，简化程度越大。 (3)随着图形数量的不断增大，改进的遗传算法对标准遗传算法的简化程度也相应增大，很适合大规模零件的裁剪。 6 结束语本文的 IGA 算法充分利用了遗传算法排样占有率低的优点，在排样过程中加入图形相似性的概念对图形进行归类，使排样速度大幅度提高。特别在大规模的零件排样中，既要求高的材料使用率，还必须有能接受的时间复杂度。该算法可以满足需求，使用格雷厄姆图算法对不规则多边形进行凸包化。使用 BL 算法和碰撞检测算法思想，验证了算法的可行性。该算法可以用于大规模的零件或布料排样中。对于占有率的提高和多边形旋转所带来的问题，还有待进一步研究。参考文献 [1] 尹树玲, 杨玉丽. 浅谈智能排样算法[J]. 中国科技信息, 2008, (1): 35-37. [2] 朱亚男, 邓飞其, 叶家玮. 基于改进免疫遗传算法的不规则图形排样[J]. 计算机工程, 2005, 31(9): 170-172. [3] Jakobs S. On Genetic Algorithms for the Packing of Polygons[J]. European Journal of Operational Research, 1996, 88(1): 165-181. [4] 曾窕俊. 二维不规则图形的排样算法[D]. 南宁: 广西师范大学, 2006. [5] 邓春燕. 遗传算法的交叉算子分析[J]. 农业网络信息, 2009, (5): 124-126. 编辑张正兴~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ （上接第 184 页） [11] Xia Shengping, Ren Peng, Hancock E R. Ranking the Local Invariant Features for the Robust Visual Saliencies[C]//Proc. of ICPR’08. Tampa, Florida, USA: [s. n.], 2008: 1-4. [12] Xia Shengping, Liu Jianjun. Weakly Supervised Specific Object Modeling for Recognition[C]//Proc. of MIPPR’09. Yichang, China: [s. n.], 2009. [13] 夏胜平, 刘建军. 基于集群的并行分布式 RSOM 聚类[J]. 电子学报, 2007, 35(3): 385-391. [14] Rothganger F, Lazebnik S, Schmid C, et al. 3D Object Modeling and Recognition Using Local Affine-invariant Image Descriptors and Multi-view Spatial Constraints[J]. International Journal of Computer Vision, 2006, 66(3): 231-259. 编辑张正兴实验 1实验 3实验 2

[返回]

上一篇：基于多Agent进化计算的图像目标识别
下一篇：基于K-means聚类的柑橘红蜘蛛图像目标识别