欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
基于多尺度分块卷积神经网络的图像目标识别算法
来源:一起赢论文网     日期:2019-04-25     浏览数:1754     【 字体:

 器尺寸。下采样层主要负责对特征进行模糊,从而获得平移、尺度等不变性。采样间隔反映了模糊的程度,间隔越大模糊越严重,模糊后的特征保持的全局空间信息就越少。文献[6]证明当采样间隔较小时,即使经过 2 次卷积和 2次最大下采样( max-pooling) ,网络输出的激活值仍能重构出与原始输入看似相同的图案。然而下采样间隔过小会导致不变性丧失,过大则会损失大量细节信息,两者均会导致识别率的下降。针对以上问题,本文提出基于多尺度分块卷积神经网络( Multi-Scale Convolutional Neural NetworkMS-CNN) 的图像目标识别算法。首先利用稀疏自动编码器( Sparse Auto EncoderSAE) 对卷积神经网络的滤波器进行非监督预训练,通过最小化重构误差获得待识别图像的隐层表示,进而学习得到含有训练数据统计特性的滤波器集合,预训练效果相比 ICA 更好。其次提出多尺度分块的方法构建卷积神经网络,为了增加鲁棒性并减小下采样对特征表示的影响,对输入图像进行多尺度分块形成多个通路,并设计相应尺寸的滤波器进行卷积运算,将不同通路下采样后的输出进行融合从而形成新的特征,输入 softmax 分类器完成图像目标的识别。最后通过大量实验对比 MS-CNN 算法与经典算法在通用图像识别任务中的识别率和鲁棒性差异,从而验证算法的有效性。非监督预训练本文采用稀疏自动编码器对卷积神经网络的滤波器进行预训练,预训练的目的是得到符合数据集统计特性且初始值较好的滤波器集合,解决 CNN 第一层滤波器集合无法得到充分训练的问题。稀疏自动编码器是一种无监督学习模型,通过使输出值尽可能等于输入值完成对输入数据的重新编码,从而学习得到数据的特征[7]。一个多层的自动编码器如图 1( a) 所示。图 1 多层自动编码器及其隐藏层结构图 1 : S 为输入数据; L1L2L3分别代表隐藏层的神经元数量,通过限制神经元数量或加入某种限制条件,迫使自动编码器学习输入数据的压缩表示,从 S 维的向量中重构出 L3; w1w2w3分别表示隐藏层训练得到的权重矩阵。通过优化目标函数使得输出 T  S 基本相等,这样每层得到的参数都是输入 S 的一种表示,从而提取了 S 的特征。稀疏自动编码器在原有目标函数上加入稀疏限制,从而增强了稀疏性,降低了模型复杂度。设训练样本共 n 幅图像,分为 k 个类别,将每幅训练图变换为列向量,与相应标签构成样本集{ ( siti) i = 12n} ,则稀疏自动编码器的隐藏层输出可由列向量与对应权重加权组合并加上偏置项后通过一个非线性函数得到,该过程称为前向传播,如图 1( b) 所示,具体公式为:a( l+1)i= f( z( l+1)i) = f( ∑mj = 1W( l)ijsi+ b( l+1)i) ( 1)其中: a( l+1)i为第 l + 1 层第 i 单元的输出值; z( l+1)i为第 l + 1 层第 i 单元输入加权和; W( l)ij为第 l 层第 j 单元与第 l + 1 层第 i 单元之间的权重; b( l+1)i为是第 l + 1 层第 i 单元的偏置,在图 1( b) 中相当于 + 1; m 为第 l 层维数; f 函数为激活函数,一般取 sigmoid 函数或双曲正切函数。令 a( 1)= S 表示输入层激活值,用向量的形式表示 f 函数,可以将式( 1) 简化为向量的形式,这里符号的含义保持不变:z( l+1)= W( l)a( l)+ b( l+1)( 2)a( l+1)= f( z( l+1)) ( 3)为了使输出值尽可能等于输入值,需要对式( 1) 中的权重和偏置进行参数优化,方法是最小化这样的目标函数:J( Wb) =1n∑ni = 1(12‖a( l)( si) si‖2) ( 4)该目标函数是一个方差代价函数,采用梯度下降法进行优化。然而在计算过程中当遇到数据量较大,维数较高的输入数据时,该目标函数往往收敛很慢,计算复杂度过高。一种解决办法是在该函数中加入稀疏约束,这样就构成了稀疏自动编码器。此时的目标函数为:Jsparse( Wb) = J( Wb) + β∑s2j = 1KL( ρ‖ρj) ( 5)后面一项为 KL( Kullback-Leibler) 距离,表达式为:KL( ρ‖ρj) = ρlgρρj+ ( 1 ρ) lg1 ρ1 ρj( 6)为稀疏性参数,一般取接近 0 的数,隐藏层节点输出的平均值为:ρj=1m∑mi = 1a( l)j( si) ( 7)加入稀疏限制后隐藏层节点输出的平均值接近 0,这样大部分的隐藏层节点都处于非激活状态,即增加了模型的稀疏性。得到目标函数后,模型参数的更新依据如下公式:W( l)= W( l)αW( l)Jsparse( Wb) ( 8)b( l)= b( l)αb( l)Jsparse( Wb) ( 9)其中 α 是学习率。利用反向传播算法[8]对式( 8) ( 9) 的后两项导数项进行计算,不停迭代更新直到参数收敛后整个编码网络训练完毕,得到特征参数 Wb。已知 m 为第 l 层隐藏层节点个数,得到 W( l)后,将 W( l)分解为 m (槡 槡n × n) 的参数集,每个参数集就是一个滤波器,这样就得到了预训练好的滤波器集合。多尺度分块卷积神经网络传统 CNN 由 卷 积 层 ( convolutional layer) 、下 采 样 层( pooling layer) 和全连接层( full connected layer) 组成。原始图像首先经过卷积层与滤波器进行卷积,得到若干特征图4301 计算机应用 第 36 卷练集中的图像裁剪成与滤波器尺寸相同的图像块 patches;② 输入稀疏自动编码器,通过式( 1)  ( 9) 的训练步骤得到训练好的权重 W;③ 得到 W 后,将第一层隐藏层节点对应的连接权重变换为所需滤波器尺寸,得到预训练好的滤波器集合 k( 2)ij2) 通过式( 10) 计算卷积后的特征图 x( 2)3) 通过式( 11)  x( 2)进行局部对比度标准化,输出特征图 x( 3)4) 通过下采样层对 x( 3)进行模糊,得到 x( 4)5) 将所有输出的特征图合并为一个列向量,作为全连接网络的输入,利用 softmax 分类器得到图像的识别结果。6) 计算识别结果和标记的差异,通过 CNN 专用的反向传播算法[13]调节并更新参数 k( 2)ij,直到损失函数收敛于一个较小的值,训练完毕。7) 输入测试集,利用训练得到的滤波器集合和全连接网络权重参数对测试图像进行目标识别。仿真实验及分析本文 使 用 STL-10 公 开 数 据 集 以 及 从 全 色 波 段 的Quiek Bird 遥感卫星和 Google Earth 软件中截取的遥感飞机图像数据集进行测试实验,将所有图片变为 64 × 64 像素的 GB图。选择 STL-10 数据集的原因是因为其含有不包含标签的训练集,可用于本文的非监督预训练算法,且图像中包含更多类内变化。STL-10  10 类目标,本文选用其中的 4 类目标进行实验。选择遥感飞机图像数据则是为了验证本文算法在遥感图像解译方面的可用性。该数据集包含 5 类遥感飞机,共400 幅。实验时随机选取遥感飞机图像库中 50% 的图像作为训练样 本,其 余 作 为 测 试 样 本。本 文 的 实 验 环 境 为 CPU28 GHz、内存 3 GB 的 计 算 机,实 现 算 法 的 软 件 为 Matlab( 2011a) 4算法识别率对比测试MS-CNN 的各通路尺寸参数设置如图 4 所示,每个通道使用 300 个滤波器,滤波器初始值按照不同通道感受野大小利用稀疏自动编码器预训练得到。编码器设定为 3 层,稀疏参数 ρ 设定为 005,训练周期为 400。卷积神经网络的下采样方式采用最大下采样( max pooling) 。按照上述参数设置,通路 1 输出特征维度为 2700,通路 2输出特征维度为 4800,通路 3 输出特征维度为 4800MS-CNN输出特征维度总共为 12 300。所有算法的训练周期均为 50。传统 CNN 参数设定与通路 1 参数设定相同,同样使用 300 个滤波器,滤波器初始值通过随机初始化得到。输出特征维度为 2 700。实验结果如表 1 所示。从表 1 可看出,加入 LCN  CNN 较未加入的 CNN 对两种数据集的识别率有一定的提高,说明了加入 LCN 对目标识别率是有一定的贡献的; 在两种数据集上 MS-CNN 相比原始CNN 都拥有更高的识别率。MS-CNN 通路 1 虽然参数设置与CNN 相同,但在相同训练周期下识别率较加入 LCN  CNN又有一定提高,说明了非监督预训练对识别率提高的有效性。对于 STL-10 数据集,可看出通路 2 的识别率在 3 个通路中最高,通路 3 则最低,这是因为通路 3 输入的图像尺寸最小,而STL-10 类内变化很大且目标不全在图像中心,故识别率有所下降。通路之间进行两两累加后识别率都有所提高,在 3 个通路共同作用时识别率最高,达到 835% 。对于遥感飞机图像集而言,可看出 3 个通路中通路 2 的识别率最高,这是因为遥感飞机图像集均为飞机图像,不同类别之间的全局特征差异并不明显,而局部特征更能表示不同的飞机类别。通路 3由于输入尺寸较小,识别率稍有下降。同样的,不同通路之间的叠加都让识别率有所提升,最终 MS-CNN 三通路特征融合后的识别率达到了 965% ,完全满足对于可见光遥感图像目标识别的需求。从表 1 还可看出,本文算法在 3 个通路 CNN 的情况下的识别率较 1 个通路或 2 个通路的 CNN 的识别率高,由此可以推断 3 个通路 CNN 所提取的特征具有较强的泛化能力和鲁棒性。此外 3 个通道能够兼顾不同的尺度,使模型能提取到尺度不同的特征。表 1 不同输入情况下的识别率对比算法输出维度识别率 /%STL-10 遥感飞机CNNCNN( LCN)MS-CNN通路 1通路 2通路 3通路( 1 + 2)通路( 1 + 3)通路( 2 + 3)通路( 1 + 2 + 3)2 700 772 7542 700 783 7732 700 804 7944 800 821 9184 800 746 8727 500 829 9347 500 811 9379 600 831 94212 300 835 9654算法鲁棒性实验为验证 MS-CNN 的鲁棒性,在数据集中选取不同类别的图像对其进行平移、尺度、旋转变换,然后计算 MS-CNN 输出的第一层全连接特征与图像变换后输出特征之间的欧氏距离,根据距离的大小可以衡量输出特征对于目标变化的鲁棒性,欧氏距离越小就说明特征对于目标变化越不敏感,鲁棒性就越好。对于 STL-10 选取四类目标进行实验,对比算法为CNN; 对于遥感飞机图像集随机选取 10 幅进行实验,并取距离的平均值,对比算法为 ICA  CNN。测试结果如图 6 7所示。从图 6 可看出: 无论是面对平移、尺度还是旋转变换,MS-CNN 算法最终输出的特征向量变化率均小于 CNN 算法,证明其鲁棒性要好于 CNN。从图 7 也可看出: 本文算法对于遥感飞机图像集的平移、尺度、旋转均表现出良好的鲁棒性,相比而言 ICA 提取的特征鲁棒性较差,目标图像微小的变化就导致了特征较大的改变。本文算法鲁棒性较好首先是因为 MS-CNN 采用非监督的预训练方式,训练得到的滤波器含有更多图像不变性特征; 其次是因为 MS-CNN 采用多尺度输入,小块图像输入在一定程度上相当于另一种局部特征,这些特征相比全尺寸输入拥有更好的不变性; 最后是 MS-CNN 采用了局部对比度标准化,对于亮度变化较大和存在噪声的目标图像鲁棒性明显增强。另外,本文算法采用了多通路多尺度分块的方法,必然会使网络参数增加,从而会使训练时间比较耗时; 但在测试阶段,输入样本的计算仅包含一些简单的卷积和下采样,算法复杂度并没有因为通道的增加而增加,因此在测试阶段的实时性较传统的 CNN 并没有太大变化。6301 计算机应用 第 36 s) 后通过下采样层对特征进行模糊,最后通过一个全连接层输出用以识别图像的特征[9]。如图 2 所示。可看出虽然网络在卷积和下采样时各特征图之间采用并行计算,但整个网络是在单个通路内完成的,故滤波器的尺寸和下采样层的采样间隔只能单一设定,这就限制了参数的灵活性,不能有效对全局和局部特征进行提取。文献[10]将第一层卷积后的特征直接输入全连接层,构成多尺度的 CNN,一定程度上减小了采样间隔对最终特征的影响,但其参数仍然无法调整,普适性不强。图 2 卷积神经网络结构本文通过在 CNN 上构造多个通路,不同通路采用不同尺度滤波器和采样间隔的方法来解决以上问题。具体来说,设输入图像为 X,首先取 X 的三种不同尺度图像块 patch{ 123} 构造三个通路,根据 patch 的大小选择相应滤波器尺寸patch Dim{ 123} 和下采样间隔 pool Dim{ 123} 。选取的标准是尽量使不同通路的输出特征维度相同。MS-CNN 的网络结构如图 3 所示。图 3 多尺度分块卷积神经网络结构传统 CNN 虽然对平移,尺度变换具有一定的鲁棒性,但文献[11]证明了输入图像尺寸的微小变化仍然会导致 CNN最终识别结果的不同。为了增强模型的鲁棒性,MS-CNN 采用多尺度输入的方法,将直接输入原始图像改为输入原始图像的不同尺寸图像块。使用三种不同尺寸输入形成三个通路,在卷积和下采样操作时三通路分别进行,在全连接层时将三通路合并。在采用多尺度输入的同时对不同通路的输入图像使用大小不同的滤波器进行卷积,大尺寸滤波器卷积后得到的特征更具有全局特性,小尺寸则获得更能反映局部特性的特征。卷积的具体步骤与 CNN 相同,原始输入图像与滤波器进行卷积后通过一个激活函数,就得到第一层输出特征maps,公式[13]为:x( l+1)j= f( ∑i∈Mjx( l)i* k( l+1)ij+ b( l+1)j) ( 10)其中: 上标表示所在的层数; “* ”为卷积操作; x( l+1)j表示卷积后第 j 个神经元的输出; x( l)i表示第 l 层第 i 个神经元,即输入数据; k( l+1)ij表示滤波器; b( l+1)j表示偏置; Mj表示选择的输入 maps 的集合。MS-CNN 与传统 CNN 的另一个不同之处是增加了局部对比度标准化( Local Contrast NormalizationLCN) 操作,该操作被证明可以有效提升特征的不变性并增加模型的稀疏度[12]。本文将局部对比度标准化应用于卷积层之后,具体标准化公式为:x( l)'uv=x( l)uvm( l)N( uv)σ( l)N( uv)( 11)其中: x( l)uv表 示 第 l 层 特 征 图 对 应 位 置 ( uv) 的 输 出 值;m( l)N( uv)σ( l)N( uv)分别表示局部邻域 N( uv) 的均值和方差。经过局部对比度标准化后的特征输入下采样层,为了保证不变性的同时获取较高的识别率,本文根据输出特征的维度相应调整下采样的采样间隔,下采样层的采样间隔越大输出特征映射图( maps) 就越模糊,特征不变性就越强。最后使得三个通路输出维度基本相同。本文选取的三个通路的输出维度如图 4 所示。图 4 MS-CNN 各通道不同位置输出维度MS-CNN 模型经过一层下采样后将所有特征图输入全连接层,经过一层隐藏层后就得到最终用于分类的特征,将该特征直接输入 softmax 分类器就可以进行目标的分类识别了。3 MS-CNN 算法图 5 为本文提出的 MS-CNN 算法的流程。图 5 MS-CNN 算法流程算法步骤如下:算法 MS-CNN 算法。输入 含 目 标 的 图 像 训 练 集 和 测 试 集,滤 波 器 尺 寸patch Dim{ 123} ; 下采样间隔 pool Dim{ 123} 。步骤:1) 预训练滤波器: 4 期 张文达等: 基于多尺度分块卷积神经网络的图像目标识别算法5301: 2015-09-29; 修回日期: 2015-12-03 基金项目: 国家自然科学基金资助项目( 6137216761379104) 。作者简介: 张文达( 1991—) ,男,山东淄博人,硕士研究生,主要研究方向: 模式识别、人工智能; 许悦雷( 1975—) ,男,河北辛集人,教授,博士,主要研究方向: 图像处理、模式识别; 倪嘉成( 1990—) ,男,陕西西安人,硕士研究生,主要研究方向: 模式识别、人工智能。图 6 鲁棒性实验结果 1 7 鲁棒性实验结果 2 4 期 张文达等: 基于多尺度分块卷积神经网络的图像目标识别算法73015 结语本文提出了 MS-CNN 算法在卷积神经网络的基础上通过非监督预训练滤波器的方法解决传统卷积神经网络前几层无法得到有效训练的问题。针对传统神经网络对于复杂背景图像识别率不高的问题,利用多尺度输入图像增加局部不变信息,利用不同尺寸滤波器卷积搭配不同下采样间隔的方法在获得特征不变性的同时不至于丧失目标的细节信息,有效提升了识别率和鲁棒性。与经典算法的对比实验结果表明: 该方法能够有效识别可见光自然图像和遥感图像,并对平移、尺度和旋转变换具有较强的鲁棒性。参考文献:1 ALEX KILYA SHINTON G EImage Net classification withdeep convolutional neural networksEB / OL]. 2015-02-10]. ht-tp: / / papersnipscc / paper /4824-imagenet-classification-with-deep-convolutional-neural-networkspdf.[2 DAN CUELI MJUGEN SMulti-column deep neural networksfor image classificationC/ / Proceedings of the 2012 IEEE Confer-ence on Computer Vision and Pattern ecognitionPiscatawayNJ:IEEE2012: 3642 3649.[3 KAVUKCUOGLU KSEMANET PBOUEAU Yet alLearn-ing convolutional feature hierarchies for visual recognition EB /OL]. 2015-02-10]. http: / / csnyuedu / ylan / files / publi /koray-nips-10pdf.[4 KAVUKCUOGLU K,RABZATO MFEGUS R,et alLearninginvariant features through topographic filter mapsC/ / IEEE Con-ference on Computer Vision and Pattern ecognitionPiscatawayNJ: IEEE2009: 1605 1612.[5 COATES ALEE HNG A YAn analysis of single-layer networksin unsupervised feature learningC/ / Proceedings of the 14th In-ternational Conference on Artificial Intelligence and StatisticsPis-catawayNJ: IEEE2011: 215 223.[6 ZEILEM DFEGUS,R. Visualizing and understanding convo-lutional neural networks C/ / ECCV 2014: Proceedings of the13th European Conference on Computer VisionBerlin: Springer2014: 818 833.[7 BALDI PLU ZHIQINComplex-valued autoencodersJ]. NeuralNetworks201233: 136 147.[8 HAYKIN S 神经网络与机器学习[M]. 版. 申富饶,徐烨,郑俊,译. 北京: 机械工业出版社,2011: 81 89 ( HAYKIN SNeural Networks and Learning MachinesM]. 3rd edSHEN F R,XU Y ZHENG J translatedBeijing: China Machine Press2011: 81 89.[10 LECUN YBOTTOU LBENGIO YGradient-based learning ap-plied to document recognition J]. Proceedings of the IEEE199886( 11) : 2278 2324.[11 DEMANET P LECUN Y Traffic sign recognition with multi-scale convolutional networks C/ / Proceedings of the 2011 In-ternational Joint Conference on Neural NetworksPiscatawayNJ:IEEE2011: 2809 2813.[12 GONG Y CWANG L WGUO Qet alMulti-scale orderlesspooling of deep convolutional activation featuresC/ / ECCV2014: Proceedings of the 13th European Conference on ComputerVisionPiscatawayNJ: IEEE2014: 392 407.[13 JARRETT KKAVUKCUOGLU K,RANZATO Met alWhat isthe best multi-stage for object architecture? C/ / Proceedings ofthe 2009 IEEE 12th International Conference on Computer VisionPiscatawayNJ: IEEE2009: 2146 2153.[14 BOUVIE JNotes on convolutional neural networks EB /OL].[2015-02-10]. http: / /wwwmathdukeedu/ jvb /papers/cnn_tutorialpdfBackgroundThis work is partially supported by the National Natural Science Foun-dation of China ( 6137216761379104) ZHANG Wendaborn in 1991MScandidateHis research in-terests include pattern recognition and artificial intelligenceXU Yueleiborn in 1975PhD professorHis research interestsinclude image processing and pattern recognitionNI Jiachengborn in 1990MScandidateHis research interestsinclude pattern recognition and artificial intelligence( 上接第 1007 )7] 陈敬炜. 嵌入式数据库恢复算法研究[D]. 上海: 复旦大学,2012: 8 17 ( CHEN J W. Research on embedded database recov-ery algorithm D]. Shanghai: Fudan University2012: 8 17 )8] 胡进. 达梦嵌入式数据库恢复机制研究[D]. 武汉: 华中科技大学,2012: 10 20 ( HU J. Research on recovery mechanisms inDM embedded DBMS D]. Wuhan: Huazhong University of Sci-ence and Technology2012: 10 20 )9 YU PHU H WZHOU NDesign and implement of a My SQL da-tabase backup and recovery system C/ / Proceedings of the 11thWorld Congress on Intelligent Control and AutomationPiscatawayNJ: IEEE2014: 5410 5415.[10 CHOI M SYOON H SSONG E Met alTwo-step backupmechanism for real-time main memory database recovery C/ /Proceedings of the 7th International Conference on eal-Time Com-puting Systems and ApplicationsPiscatawayNJ: IEEE2000:453 457.[11 PLA-CIVEA J,RUIZ-FUETES M IGACIA-MUNOZ L Het alOptimizing certification-based database recovery C/ / ISP-DC 2007: Proceedings of the 6th International Symposium on Par-allel and Distributed ComputingPiscatawayNJ: IEEE2007:211 218.[12 YU SLEE KHAN HIn-memory write-ahead logging for mo-bile smart devices with NVAM J]. IEEE Transactions on Con-sumer Electronics201561( 1) : 39 46.[13 SIPPU SSOISALON-SOININEN ETransaction rollback and re-start recovery M/ / SIPPU SSOISALON-SOININEN ETrans-action ProcessingPiscatawayNJ: Springer International Publish-ing2014: 26 52.[14 KJETIL NThe vagabond approach to logging and recovery intransaction-time temporal object database systems J]. IEEETransactions on Knowledge and Data Engineering200416( 4) :504 518BackgroundThis work is partially supported by the Special Funds for Tianjin Soft-ware Industry Development Program ( 201406101) LU Dongdongborn in 1991MScandidateHis research inter-ests include databaseHE Qingfaborn in 1970PhD research fellowHis researchinterests include databaseinformation security8301 计算机应用 第 36 

 
[返回]
上一篇:基于峰值特征高斯混合建模的SAR目标识别
下一篇:基于K-Gmm算法的SAR海冰图像分类