一种基于融合重构的子空间学习的零样本图像分类方法 |
来源:一起赢论文网 日期:2022-01-05 浏览数:1007 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第44 卷 第2期2021 年2 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No.2Feb. 2021一种基于融合重构的子空间学习的零样本图像分类方法赵 鹏w汪纯燕2)张思颖2)刘政怡^1:)(安徽大学计算智能与信号处理教育部重点实验室 合肥230601)2)(安徽大学计算机科学与技术学院 合肥 23 060 1)摘 要 图像分类是计算机视觉中一个重要的研究子领域. 传统的图像分类只能对训练集中出现过的类别样本进行分类. 然而现实应用中, 新的类别不断涌现, 因而需要收集大量新类别带标记的数据, 并重新训练分类器. 与传统的图像分类方法不同, 零样本图像分类能够对训练过程中没有见过的类别的样本进行识别, 近年来受到了广泛的关注.零样本图像分类通过语义空间建立起已见类别和未见类别之间的关系, 实现知识的迁移, 进而完成对训练过程中没有见过的类别样本进行分类. 现有的零样本图像分类方法主要是根据已见类别的视觉特征和语义特征, 学习从视觉空间到语义空间的映射函数, 然后利用学习好的映射函数, 将未见类别的视觉特征映射到语义空间, 最后在语义空间中用最近邻的方法实现对未见类别的分类. 但是由于已见类和未见类的类别差异, 以及图像的分布不同, 从而容易导致域偏移问题. 同时直接学习图像视觉空间到语义空间的映射会导致信息损失问题. 为解决零样本图像分类知识迁移过程中的信息损失以及域偏移的问题, 本文提出了一种图像分类中基于子空间学习和重构的零样本分类方法.该方法在零样本训练学习阶段, 充分利用未见类别已知的信息, 来减少域偏移, 首先将语义空间中的已见类别和未见类别之间的关系迁移到视觉空间中, 学习获得未见类别视觉特征原型.然后根据包含已见类别和未见类别在内的所有类别的视觉特征原型所在的视觉空间和语义特征原型所在的语义空间, 学习获得一个潜在类别原型特征空间, 并在该潜在子空间中对齐视觉特征和语义特征, 使得所有类别在潜在子空间中的表示既包含视觉空间下的可分辨性信息, 又包含语义空间下的类别关系信息, 同时在子空间的学习过程中利用重构约束, 减少信息损失, 同时也缓解了域偏移问题.最后零样本分类识别阶段, 在不同的空间下根据最近邻算法对未见类别样本图像进行分类. 本文的主要贡献在于:一是通过对语义空间中类别间关系的迁移, 学习获得视觉空间中未见类别的类别原型, 使得在训练过程中充分利用未见类别的信息,一定程度上缓解域偏移问题. 二是通过学习一个共享的潜在子空间, 该子空间既包含了图像视觉空间中丰富的判别性信息, 也包含了语义空间中的类别间关系信息, 同时在子空间学习过程中, 通过重构, 缓解知识迁移过程中信息损失的问题. 本文在四个公开的零样本分类数据集上进行对比实验, 实验结果表明本文提出的零样本分类方法取得了较高的分类平均准确率, 证明了本文方法的有效性.关键词 零样本图像分类; 迁移学习; 子空间学习; 重构; 特征原型中图法分类号TP18DOI号10.11897/SP.J.1016 .2021.00409AZero-ShotImageClassificationMethodBasedonSubspaceLearningwiththeFusionofReconstructionZHAOPeng1), 2)WANGChunYan2)ZHANGSi Yi ng2)LIUZhengYi1), 2)1 :) ( KeyLaboratoryofInieLL igeniComput ingandSignalProcessing?Mini stryofEducation?AnhuiUni versi ty?Ilefei230601)2){ SchoolofComput erScienceandTechnology?AnhuiUni versity?Ilefei23 0601)AbstractImageclassi ficati onisani mportantresearchsubfiel di nthecomputervisi on.Traditi onal收稿日期:2019 08 18; 在线发布日期:2020 05 05.本课题得到国家自然科学基金(61602004) 、 安徽省髙校自然科学研究重点项目( KJ2018A0013 , K; I2017A011)、 安徽省自然科学基金( 1908085MF188 , 1908085MF182)、 安徽省重点研究与开发计划项目( 1804d08020309)资助. 赵 鹏, 博士, 副教授, 硕士生导师, 中国计算机学会(CCF) 会员, 主要研究方向为机器学习、 图像理解. Email: zha〇peng_ad@163. mm.汪纯燕, 硕士研究生, 主要研究方向为机器学习、 图像分类. 张思颖, 硕士研究生, 主要研究方向为机器学习、 图像分类. 刘政怡, 博士, 副教授, 硕士生导师, 中国计算机学会(CCF) 会员, 主要研究方向为机器学习、 计算机视觉.410 计 算机 学 报 2021年i magecl assi ficati oncanonl ycl assi fythesampl esoftheseencategorieswhichhaveappearedi nthetrai ni ngdataset. However,newcategori esconti nuetoemergeinreal worl dappl i cati ons. Thesampl esofthenewcategoriesshoul dbecol l ectedandthecl assi fiershoul dberetrai ned.Di fferentfromtradi ti onalcl assifi cati onmethods,zero shoti magecl assifi cati onai msatcl assifyi ngthesampl esoftheunseencategori eswhichhavenotappearedi nthetrai ni ngdataset.Zero shotcl assi ficati onisaverychal lengi ngtaskandhasattractedmuchattentioni nrecentyears. Zero shoti magecl assifi cati onbri dgestheseencategori esandtheunseencategori esthroughthesemanti cembeddi ngspace,whichtransfersknowledgefromtheseencategoriestotheunseencategoriesandcl assi fiesthesampl esfromtheunseencategories. Firstl y?theexisti ngzero shotcl assi ficati onmethodstypical l yl earnamappi ngfuncti onfromthevisualspacetothesemanticembeddi ngspaceonlyaccordi ngtotheinformati onofthesampl esfromthetrai ni ngseencategori es.Then,thel earnedmappi ngfuncti onisutili zedtomapthevisualfeatureofthetestsampl efromtheunseencategoriestothesemanticspace. Fi nal l y,zero shotrecognitioncl assifythetestsampl esfromtheunseencategori esbyasi mpl enearestneighborsearchi nthesemanti cembeddi ngspace. Buttheseencategoriesandtheunseencategoriesaredifferent ,whichwil ll eadtothedomai nshi ft. Moreover,directl yl earningthemappi ngfunctionfromvi sualspacetosemanti cembeddi ngspacewi l lleadtotheinformati onl oss.Inordertosol vetheproblemsofthei nformati onl ossandthedomai nshiftintheknowl edgetransferofzero shoti magecl assification,weproposeazero shotcl assi ficati onapproachbasedonsubspacel earni ngandreconstructi onfori magecl assificati on( Zero ShotClassifi cati onbasedonSubspacel earningandReconstruction,ZSCSR).Fi rstly,ZSCSRmakesfull useoftheunseencategoryinformati ontomitigatethedomainshiftprobl em. Ittransferstherelationshipbetweentheseencategoriesandtheunseencategoriesfromthesemanticembeddi ngspacei ntothevisualspace,andobtai nsthevisualprototypesoftheunseencategories.Then,accordi ngtothevisualprototypesandsemanticprototypesofal lcategoriesi ncl udi ngtheseenandtheunseencategori es, ZSCSRl earnsal atentsubspace,whi chal ignsthevi sualandthesemanticspaces.Thelatentsubspacenotonlycontainsthediscri minati vei nformati oni nthevisualspace,butalsocontai nstheinformati onofthecategoryrel ati onshipsi nthesemanticembeddi ngspace. Meanwhil e,thereconstructi onconstrai ntreducestheinformati onl ossi nthesubspacel earni ng. Final l y,i nthezero shotrecogni ti on,thetestsamplesofunseencl assescouldbecl assifiedbythenearestneighborsearchindi fferentspaces.Therearetwomai ncontri buti onsi nthispaperasfol l ows. (1)ZSCSRl earnsthevisualprototypeoftheunseencategoriesthroughtransferri ngtherel ati onshipbetweentheseencategoriesandtheunseencategoriesfromthesemanticembeddi ngspacetothevisualspace,whichrelievesthedomainshi ftprobl em. (2)ZSCSRl earnsal atentspacethroughthel atentspacel earningandreconstructi on,whi chreducesthei nformationl oss. Theproposedmethodiseval uatedforzero shotrecogni ti ononfourbenchmarkdatasets. Theexperi mental resultsshowtheproposedmethodachieveshigheraverageaccuracies,whichprovetheeffecti venessoftheproposedmethod.Keywordszero shoti mageclassi ficati on;transferl earni ng;subspacel earni ng;reconstructi on;featureprototype类别样本进行分类, 却无法对训练数据集中未出现1弓I言过的类别样本进行分类. 然而现实场景中, 新类别往往层出不穷. 收集足够数量的新类别标注样本通常传统的分类方法只能对训练数据集中出现过的费时费力, 在某些特定领域甚至无法获取足够数量的赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 41 12 期新类别标注样本. 零样本学习( Zero ShotLearni ng,ZSL) 应运而生, 受到越来越多的研究者的关注. 人类具备识别未见类别样本的能力[ 1 ], 例如一个只见过马而未见过斑马的孩子, 如果被告知斑马是身上有斑纹的马, 那么当孩子在动物园看到斑马时, 就能顺利地识别出斑马. 零样本学习就是受人类这类学习方式的启发. 在零样本学习中, 训练集( 已见类别)和测试集(未见类别) 样本类别是不相交的, 通常通过一个语义空间, 建立起已见类别和未见类别间的关系, 进而实现知识的迁移. 其中语义空间通常由人工标注的属性、 文本关键词或者词向量构成. 零样本图像分类就是在图像分类中应用了零样本学习的方法.零样本图像分类方法通常分为零样本训练学习和零样本识别分类两个阶段. 现有零样本图像分类方法主要分为以下四类: (1) 基于属性的学习[23]. 直接属性学习(DirectAttri butePredicti on, DAP)[ a和间接属性学习(IndirectAttri but ePredicti on,IAP)[ 2 ]分别直接和间接学习单个语义属性的属性分类器,零样本识别阶段对未见类别样本预测该类别包含每个属性的概率, 然后根据属性与类别的关系计算样本为各类别的分值, 并将样本预测为得分最高的类别;(2 ) 基于视觉空间到语义空间映射的学习[ M ].基于属性的标签嵌人方法(Attri bute basedLabelEmbeddi ng,ALE)[4] 在训练阶段学习一个兼容性函数, 该函数用于衡量每一幅图像的视觉特征映射到语义空间后, 和语义空间中每个类别语义属性向量之间的匹配度, 确保每幅图像和所属类别语义属性向量的匹配度比其它类别的匹配度高. 测试阶段将兼容性得分最高的类别标签预测为该测试样本的标签? 结构化联合嵌人( StructuredJoi ntEmbeddi ng,SJE)[ 5 ]受ALE的启发, 使用了多种辅助语义信息源( 包括传统属性、词向量、 文本关键词等)替代人工标注属性. 与ALE类似, SJE同样使用兼容性得分函数衡量视觉特征映射到语义空间后, 与各类别语义表示的兼容性得分, 不同的是语义空间包含多种信息源, 因而需要学习多个映射; (3) 基于语义空间到视觉空间映射的学习. Annadam等人[1°]提出将类别间的关系划分为语义相同的类别、 语义相似的类别和语义不同的类别, 在学习语义空间到视觉空间的映射时保留类别间的关系. 将视觉特征空间作为嵌人空间,一定程度上缓解了由少数枢纽点导致的枢纽点问题( Hubnessprobl em). 枢纽点[ 1 1 ?]是指这样一些点, 它们是大多数其它点的最近邻点. 将视觉特征映射到语义空间, 会产生一些枢纽点, 在零样本识别阶段由于采用的是最邻近搜索方法, 所以会降低识别的性能; (4) 基于潜在子空间的学习[1 4 1 9]? 双视觉语义映射( DualvisualsemanticMappi ngPaths, DMaP)[1 4]学习视觉空间到语义空间的映射, 同时抽取视觉空间中潜在类别级的流形构造新的语义空间, 并结合原始的语义空间, 不断迭代优化新的语义空间. 耦合字典学习( Coupl edDicti onaryLearni ng,CDL)[1 5]通过稱合字典学习框架分别学习两个字典, 将视觉类别特征和语义类别特征分别映射到潜在子空间, 并在潜在子空间学习过程中对齐语义类别特征和视觉类别特征.虽然零样本图像分类的研究取得了一些进展,但是知识迁移过程中仍然存在以下主要问题: 信息损失和域偏移问题.(1) 信息损失问题, 是指在学习图像的视觉特征与语义特征间映射的过程中, 由于视觉特征和语义特征的维度相差较大, 往往会出现一些具有判别能力的信息在知识迁移的过程中丢失的情况, 从而影响最终的图像分类结果d2) 域偏移问题, 是指由于零样本学习在训练过程中只用到了已见类别的信息, 而训练类别和测试类别是不相交的, 同时训练类别和测试类别往往差异可能很大, 所以在测试的过程中会出现预测偏差导致域偏移问题.针对信息损失和域偏移问题, 本文提出了图像分类中基于子空间学习和重构的零样本分类(ZeroShotClassi ficati onbasedonSubspacel earningandReconstructi on, ZSCSR) 方法. 该方法的主要贡献包含以下两个方面:( 1) 首先假设语义空间和图像视觉空间具有相似的类别间关系, 学习语义空间中已见类别和未见类别的关系, 并将学习到的关系迁移到图像视觉空间, 学习获得未见类别的视觉类别原型, 缓解域偏移问题.(2) 基于子空间学习和重构的方法利用已见类别和未见类别的视觉特征和语义特征, 学习一个共享的潜在子空间, 该子空间既包含了图像视觉空间丰富的判别性信息也包含了语义空间中的类别间关系信息, 同时在子空间学习过程中, 通过重构, 缓解知识迁移过程中信息损失的问题.本文第2 节给出问题定义和介绍相关工作; 第3 节提出基于子空间学习和重构的零样本分类方412 计 算机 学 报 2021年法; 第4 节在几个通用零样本分类数据集上, 通过实验对所提出的方法进行测试, 并对实验结果和参数进行分析; 最后对本文的工作进行总结.2 问题定义和相关工作本文的工作受到子空间学习和自编码器中重构思想的启发. 下面分别给出本文的问题定义和相关工作简介.2. 1问题定义为了方便阐述, 首先给出问题定义. 设xs为已见类样本视觉特征矩阵, 其中 为已见类样本个数w为样本的特征维度.分别为已见类别的语义属性特征矩阵和未见类别的语义属性特征矩阵, 其中<: 为已见类的类别个数,?为语义特征的维度^为未见类的类别个数[ss, s?]e是所有类别的语义特征矩阵.兄={i,…,c} 为已见类的标签集, 叉={c+i,…,为未见类的标签集, y? nys=0. 零样本图像分类就是给定足, 5, 兄和叉学习一个图像分类器/(?) , 实现对未见样本心的分类, §卩 /:a—_y? , 其中_y?为未见样本?对应的标签.2. 2 子空间学习在图像分类问题中, 子空间学习是一种比较常见的方法. 子空间学习通过学习一个合适的子空间,使得在原空间中不易识别或区分的图像, 在子空间中类别差异扩大, 或者子空间具备原始空间不具备的某些优势, 进而将样本映射到子空间后获得更好的分类效果. 由于零样本图像分类中的视觉特征通常是通过神经网络提取, 而语义特征则是通过人工定义的属性或者文本中提取的关键词得到, 所以视觉特征和语义特征的分布通常是不同的. 如果直接学习获得视觉空间和语义空间之间的映射, 通常知识迁移能力不强, 导致零样本识别性能不好. 通过子空间的学习, 可以实现语义空间和视觉空间的对齐,获得较好的知识迁移能力.双视觉语义映射(Dual vi sual semanticMappi ngpaths,DMap)[ 14]通过学习一个语义子空间来对齐样本视觉空间和语义空间. DMap 首先学习获得样本视觉空间到原始语义空间映射, 然后根据该映射, 获得该类别样本视觉特征映射到语义空间后的均值, 并与原始语义向量表示进行融合, 迭代优化得到新的语义空间. 潜在嵌人空间学习( LatentEmbeddi ngs,LatEm)[ 1 8]针对细粒度图像分类问题, 提出将视觉和语义信息映射到一个多维向量空间, 这个多维的向量空间即为学习的子空间. 在子空间中将一些复杂的属性进行分解, 来训练学习一组线性映射函数,不同的映射函数捕捉不同对象类的视觉特征, 如颜色、形状或纹理等. 针对不同的类别, LatEm自动选择一组较好的线性函数模型来进行分类. 耦合字典学习( Coupl edDi cti onaryLearni ng, CDL)[ 1 5 ]采用字典学习方法获得一个子空间, 在子空间中对齐视觉和语义结构. CDL首先通过原型学习来学得已见类别在视觉空间的类别原型表示. 然后通过字典学习,分别在视觉空间和语义空间中学习到一对字典的基, 将视觉特征和语义特征映射到子空间, 并约束同一类别的视觉特征和语义特征映射到子空间具有相同的特征表示, 从而实现视觉空间和语义空间的结构对齐.这些子空间学习虽然一定程度地提高了知识的迁移能力, 但是在学习映射的过程中难免会出现信息损失的问题, 尤其是一些子空间学习方法仅利用已见类别的视觉特征和语义特征来实现子空间学习. 而丢失的信息可能对未见类别的识别有着重要的作用, 因而影响迁移能力的提升.2. 3 自编码器自编码器( Autoencoder, AE) 是一个非监督学习算法, 通常由三部分组成: 编码器( encoder)、 隐含层(hi dden) 和解码器(decoder).自编码器将输人表示X通过编码器编码到隐含层, 再通过解码器解码回X. 其中解码可以看作是重构的过程.自编码器的目标函数一般表示如式(1) 所示:mi n\X W*WX\ l(1)W, W*其中, xei^x"为输人样本, 《为输人样本个数W为样本特征维度. 为编码矩阵, 其中& 为隐含层维度,?为解码矩阵.语义自编码器( Semanti cAutoencode, SAE)[1]将自编码器的思想用于零样本图像分类, 采用了一种简单的自编码器结构, 只利用一层隐含层连接编码器和解码器. 不同于一般的ae, sae将隐含层定义为语义表示层, 具有明确的语义. SAE 通过已见类别样本学习训练出编码和解码的映射矩阵, 并利用该映射矩阵, 将待识别的未见类别样本映射到语义空间进行识别. 语义自编码器输人?是图像样本特征, 通过映射矩阵 映射到隐含层为编码过程, 然后再通过wTei^x?映射回视觉特征空间为解码过程, 解码过程即为重构, 使得重构赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 4132 期后的图像特征尽量地与原特征相近. SAE目标函数如式(2) 所示:mi n| |  ̄WTC¥| ||+A\ \ WXS ̄C¥\ \2F( 2)w其中, 第一项和第二项分别对?应解码过程和编码过程, ceiT5是输人的己见样本语义麗性矩阵, A是杈重系数, 调节第一项和第二领的'重要性-传统AE解码过裎映射寒阵为WV商SAE中编码和:解码过程是对称的, 所以令W+= WT.由于语义自编码器映射矩阵是由已见类别训练得出的, 在测试阶段直接应用到未见类别. 可能会由于己见娄别和未见类别的分布?不同, 而导致孥到的编码矩阵和解码矩阵泛化到未见类别的能力较弱?3 基于子空间学习和重构的零样本分类方法由于已见裘别和未见类别是不相交的, 其样本分布不同*如果在训练的过程中只利用已见类别的信息. 那么学巧到的模: 型往往不能较好地泛化到未见类别. 本文在训练过程中同时利用汜见类别和未见类规信息,以提裔模型的梗化性>茼时通过学习共享子空间, 对齐视意空间和语夂空间, 使得学苟到的子空间中既包含瘡义空间中'类别关系信息又包含视觉蜜间中可判别性倩息, 并且子空闻#g过程中利甩重构减少氣息损失? 本文提出的基于子空同学习和虞构'雖攀样本分类方法■(Zero-Shoi:Classi fication1 i?mi li )i: Snb>|?aci-l earni ngandReeoiistrUcti on,ZSCSR} 周祥包括训练孥方阶段和■零祥本识别阶段. 训. 缘学5阶段分为两步完成, 训练学习框架如_1 所示. 笫一歩学习'语义空间中. 已见类别和未见类别的关系2, #将该关系迁移到视觉空间, 在视觉空间学习得到未见类的视觉类别原型V第二步将学习到的未见类的视觉类别原型与B见类别的视觉鸯别原遽_合樽到所有类别在视觉空间的庳型表示, 然后采用融合重构的'子空间: 学习? 稂据视觉空间和语义窆间來#苟共享子空间. 尊禅本识别阶段可以将?未见类别样本分别映射到不苘空间进行识别.SteplStep2, 1 、 ,1,语义空间视觉空间语义空间共享子空间视觉空间未见类的视觉类别原型图1Z3CSR的锁::练学¥框:無摄3. 1 未见类别的类别原型学习零祥本分类在训练过程中, 如果仅使用到a见类别的信息, 学习到的模型不能根好地泛化到未见类别. 从而导致分类准确率下降. 本文提出首先学习未ja类剁在视觉空间的类别: 原邀, 并翁学习到的未见类别的视t类跳原型作为卞一步的输人. 语义M性和视觉特征分别从不饲的视角描述If—: 对象, w而语义空间和视觉空询上的类别关系是一致、 的* 虽然在语义龕间和视觉空间中样本的特征维度不同,但是它们却有■似的类别間关系. 卽如果两个类别在窜义全间中是相近的, 那么它们在视觉空间中应该也是栩近的.由于零雜本分类最终识别阶段是通过最近邻的方法实现未见类别样本识另ij, 所以学习到接近于真实分布的类别原型* 有 于提高识别准未见类别在视觉空间中的类别原裏学¥过程如图2所示. 画中 叠间为人工标注的羼性向量?包含了相对全面的类别描述及类别间关系鲁息. 通过在语义空间中学。习类别间关系矩阵2. 将其迁移到视觉空间,:举习莸得未见类别的视觉类别原型, 未见类别的类剔原型学召的目标函数如式(3) 所示:mi nlSs SSjl HUfsQPjlFs. t.I kl2<l< 3)Q^u其中, ps.e浐_是已见类别在*觉空词的类剌康'塑矩阵, 其中各类别原型取值为该类别下所有样本视觉#征向最的均值?1是縛要学习的末见类别在枧觉空间的类别廣型矩阵. 2eirs是学习到的语义空间中已见类与苯见类的类别关系矩阵.暴已见类别的类别语义特征矩阵,s, 是宋见类别的类别语义特征矩砗,414 计導机攀报: _1苹语义空间 视觉空间釋《 笨&集别的视*:n'_原麵#s本文采:用交替优化方法求解自标函数(式(J0) ,即固定其它变量』求解某一变憂,具体步骤如下:(1) 固定八, 更齋2, #到优化函数如下式所示:其半》: A=■5S--Ps-UQBi i+^m, B=—s,r-p,,-i)(4)直接对2求导聊#2=(ATA + aI)^1ATB_其中, J为单隹矩阵. a为拉格朗H乘子.(2) 固定2, 更新 得到优化函数如下式所示:mi n| | P.s SF?I J【5)K最后, 根据n, p:s可樽到p=De, p?].3. 2 融合重构的子空间学习视觉空间是由fl像自然的视觉.费征构成的, 包含了图像较为全M和细致的可判别僙息. 语义空间是由图像抽象的语义.屢性构成, 包含了丰富的类别俸息和类别关系f息■ 单纯的'子空间 在学习过程中*会造成部分信息丢失, 而这些丢:失的信息可能有助于未见类别样本的识别. 本文提出的融合重构的子空间学石, 利甩所宥类别(包括已见类别和未见类: 别) 的语义和视觉信息, 学习一个共摹子貧间. 该. 子fi:间既具有视觉餐间的可判别性燈息, 又具有语义空间的类别关系信息, 同时利用重构, 减少信息丢失? ^ 融合重构的予空M学习的学习框、 架如ST3所示?为了在子空间学习中对齐视觉空间和语义查间, 令各类姻的视觉特征和对应的语义特征映射到共享子空间中.莫有相同的特征表示. 设雯学习的共審子空间表示为厶攀习视暈空间到共荸子空间映射的貝标函数如式(7)所示:mi nA11 |F Z| | p+| | P-WlZ I^C7)Wl,z其中聲包含B见类与未见类的所有葉规; 在'共享子SRT中的表: 示,& 为 共享 量:间. 中猶维度k和f 分别是已见类和未见类的类别个数>为包含已见类和未见类的所赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 41 52 期有类别的视觉类别原型矩阵.由于训练过程中无法得到未见类别的视觉特征, 所以1\由3.1 节学习获得.ei?4m是视觉空间到共享子空间的映射矩阵. 式(7) 中第一项为视觉空间到共享子空间的映射, 第二项为根据共享子空间重构视觉空间, 权重系数;^调节这两项之间的比重. 通过空间映射差异最小化, 实现子空间学习获得视觉空间判别性信息, 同时通过重构误差最小化, 实现子空间尽可能多地保存原始信息, 缓解了知识迁移过程中的信息损失问题. 由于映射和重构分别使用了矩阵 和它的转置矩阵W〖, 因而该目标函数隐式地约束了不会太大, 而是在一个合理的范围内.类似地, 学习语义空间到共享子空间映射的目标函数如式(8) 所示:mi nX2\ \W2 S Z\ \2F+\ \S Wt2Z\ \2f(8)w2, z同样 [Ss, s? ]为包含已见类和未见类的所有类别的语义特征矩阵 是语义空间到共享子空间的映射矩阵. 式(8) 中第一项为语义空间到共享子空间的映射, 第二项为根据共享子空间重构语义空间, 权重系数a2 调节这两项之间的比重. 通过空间映射差异最小化, 实现子空间学习获得语义空间类别间关系信息, 同时通过重构误差最小化, 实现子空间尽可能多地保存原始信息, 缓解了知识迁移过程中的信息损失问题.综上, 融合重构的子空间学习的目标函数如式(9) 所示:mi nAi| | 叭卜Z| | H|P <Z| | HWx, w2, zAz\ \W2S Z\ \2f+\ \S Wt2Z\ \2f(9)本文采用交替迭代法求解目标函数(式(9) ). 具体求解过程如下:(1) 固定W2 , Z, 更新 , 得到优化函数如下式所示:mi nAiWWj P Zll+lP W^ZWl( 10)可直接对W求导, 令▲zZZ'B:GUDZ,得:( 11)上式可直接由Syl vester 方程求解.(2) 固定WdZ, 更新W2, 得到优化函数如下式所示:mi nA2\ \W2 S Z\ \2f+\ \S Wt2Z\ \2f( 12)W2直接对叭求导, 令B2= A2SST, C2=(A2 +1) ZST得:(13)上式可直接由Syl vester 方程求解.(3) 固定 , 更新Z, 得到优化函数如下式所示:mi nAi1 1^^ 21 1^+1 1^ ^21 1^+Za2| |w2s z| | HI |5 wIzG( 14)得到mi n| | A2 Z| |^,z其中,=Xr W. R Ai Ta2 w2 s, 衫3—A2 1pS wL, j为单位矩阵.对z直接求导得Z=(BjB3 )1BjA2(15)3. 3 算法流程本文基于子空间学习和重构的零样本分类方法中训练学习阶段流程如算法1 所示.算法1. 基于子空间学习和重构的零样本学习.输人: 已见类别的类别语义矩阵S, , 已见类别所有样本在视觉特征空间的特征矩阵X, , 未见类别的类别语义矩阵 , 最大迭代次数了输出: 叫, w2 , z过程: 优化更新过程1. 初始化2, 恳, 県, 叭, 2Stepl .2. 通过足计算已见类别在视觉特征空间的类别原型广, 各维度的值是该类别在视觉特征空间中的所有样本在该维度上的均值3. 根据式(5 )计算类别间关系矩阵24.根据式(6 )计算未见类别的类别原型^Step2.5. 计算所有类别的类别语义矩阵 和所有类别的类别原型矩阵6.FORi=ltoI7.根据式(1 1)计算映射矩阵8.根据式(13)计算映射矩阵W29.根据式(1 5)计算所有类别在潜在共享子空间中的表示矩阵Z10.ENDFOR3.4 零样本识别本文在零样本识别阶段采用最近邻方法识别未见类别样本. 由于本文方法涉及共享子空间、视觉空间和语义空间. 下面给出将待识别未见类别样本A映射到不同空间下进行识别的具体步骤.3.4.1 共享子空间中识别未见类别首先将A从视觉空间映射到共享子空间中, 即zu=W1xu.然后将语义空间中的类别语义矩阵 映射到416 计 算机 学 报 2021年共享子空间中, 得到未见类别在共享子空间中的新的表示厶=W2S?.最后, 预测?对应的类别标签_y 为y=argminD( z?, zJu) ,其中, D是一个距离函数, 本文采用的是余弦距离.4是矩阵Z?中的第j 列向量, 即第j 个类别在共享子空间中的特征表示.3.4.2 视觉空间识别未见类别在视觉空间的识别未见类别样本:r?有以下两种方法:(1) 方法一利用3.2 节学习到的映射矩阵将语义表示映射到视觉空间来进行未见类别的识别.首先将未见类别的语义表示矩阵映射到视觉空间得到预测的各未见类别的视觉特征矩阵夂=W^(W2S? ).然后预测;^对应的类别标签3^=argmi nD〇? ,记) , 其中尺是矩阵夂中的第J 列向量, 即第J 个未见类别的视觉类别原型向量.(2) 方法二直接根据3.1 节学习到的未见类别的视觉类别原型 , 预测未见类别样本A对应的类别标签_y=argmi n_D( :r? ,7〇, 其中 是矩阵 中的第 列向量, 即第_; 个未见类别的视觉类别原型向量.3.4.3 语义空间中识别未见类别首先将A从视觉空间映射到语义空间中, 即然后预测;^对应的类别标签3^=argmin_D(?? ,JO, 其中匕为矩阵 中的第 列向量, 即第 个未见类别的语义表示向量.4 实验结果与分析4. 1 数据集介绍及实验设置本文实验数据集采用零样本图像分类中普遍采用的四个公共基准数据集:Ani mal swithAttributes2(简记为AwA2)[2 °], CUB 200 2011Birds( 简记为CUB)[ 2 1 ], aPascal &aYahooC 简记为aP&Y)[ 2 2 ]和SUNAttributeC简记为SUN)[2 3]. 数据集AwA2的属性维度为85 维, 其中40 个已见类别的30337 张图片作为训练集和10 个未见类别的6985 张图片作为测试集, 共计37322 个图像样本. 数据集CUB的属性维度为312 维, 其中150 个已见类别的8855 张图片作为训练集和50 个未见类别的2933 张图片作为测试集, 共计11788 个图像样本. 数据集SUN的属性维度为102 维, 其中645 个已见类别的12900 张图片作为训练集和72 个未见类别的1440 张图片作为测试集, 共计14340 个图像样本. 数据集aP&Y的属性维度为64 维, 其中20 个已见类别的12695 张图片作为训练集和12 个未见类别的2644 张图片作为测试集, 共计15339 个图像样本.实验设置: 本文所有样本的视觉特征均采用Googl eNet 提取的1024 维的特征. 语义特征均采用各数据集中存储的人工定义的属性特征. 在实验过程中设置共享子空间维度为所有类别的总个数, 首先初始化所有类别在共享子空间中的表示Z为所有类别的相似度矩阵.4. 2 主流方法的对比实验为了验证本文所提的ZSCSR方法的有效性, 本文分别和相关的10 种主流方法进行了对比实验:Di rectAttri butePredi cti on( DAP)[ Z ],EmbarrassinglySimpl eZeroShotLearni ng( ESZSL)[ Z4], Attri buteLabelEmbeddi ng( ALE)[ 4],StructuredJoi ntEmbeddi ng( SJE)[5],LatentAttri buteDicti onary(LDA)[17],Predi ctingVisualExemplars( EXEM)[ Z 5 ],Semanti cAutoencoder( SAE)[ 1 ],Semantics PreservingAdversari al Embeddi ngNetwork( SPAEN)[ 7 ],Synthesi zedClassi fiers (SYNC)[2 6]禾口CoupledDicti onaryLearning( CDL)[ 1 5 ]. 同时为了验证本文提出框架每一部分的有效性, 本文对不同的子任务进行实验对比, ZSCSRE是指删去原始空间到子空间的映射部分, ZSCSRD是指删去子空间重构原始空间部分, ZSCSRP是指删去学习未见类别视觉特征原型的部分. 表1 为对比实验结果.表1 不同方法的分类准确率 (单位: %)MethodAwA2CUBaP&YSUN ̄DAPESZSLALESJELDAEXEMSAESP AENSYNCCDLZSCSRZSCSREZSCSRDZSCSRP 424063.0赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 41 72 期表1 中, DAP是零样本图像分类中较为经典的方法, 训练过程中针对每个属性训练对应的属性分类器, 对测试样本直接预测各属性的概率. 但是属性分类器是分开训练的, 并没有学习到属性间的关系,ZSCSR相对DAP在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了33.6%,15.3%,31.5%和23.1 %. ESZSL引人了一个双层的线性模型, 分别建模特征与语义之间的关系和语义与标签之间的关系, 在双层的线性模型知识迁移过程中会存在信息损失的问题. 相对ESZSL, ZSCSR在数据集AwA2、 CUB、aP&Y和SUN上的分类准确率分别提高了8.8%, 21.3%, 27.4%和13.2%.ALE和SJE都是通过学习兼容性函数, 来度量图像和语义空间的兼容性. SJE是在ALE的基础上,联合学习多个兼容性函数来帮助预测未见类别的标签. ZSCSR相对于ALE在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了21.6%,8.8%,11.6%和7.7%. ZSCSR相对于SJE在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了10.2 %,5.1%,14.9%和22.5%.LDA将学习获得的潜在属性空间作为语义空间, 潜在属性为已见属性的线性组合, 由于该模型通过已见类别进行训练, 在预测未见类别时, 使得未见类别易偏向于已见类, 使分类产生错误. ZSCSR相对于LDA在数据集AwA2、 CUB、aP&Y和SUN上的分类准确率分别提高了7%, 6.8%, 37.5%和7.2%.EXEM将语义属性映射到视觉空间, 使用核回归的方法来匹配语义属性对应的视觉特征聚类中心. ZSCSR相对于EXEM在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了13.6%, 6.5 %, 9.3%和3%. SAE和SPAEN都采用了重构的思想, 用编码和解码两个过程来学习视觉特征空间到语义空间的映射. SPAEN利用已见类别样本作为训练集, 将子空间学习分成了两个子任务, 分别实现重构和分类,并且在两个子任务中利用对抗学习实现零样本分类. ZSCSR相对于SAE 在数据集AwA2、 CUB、aP&Y和SUN上的分类准确率分别提高了4.5%,3.6%,17.4%和8. 1%, ZSCSR相对于SPAEN在数据集AwA2、 CUB、 aP&Y和SUN上的分类准确率分别提高了3.8%, 6.1%, 27.5%和3.8%. SYNC和CDL都是采用了字典学习的方法. SYNC通过对这些字典的基的组合来合成未见类别分类器. CDL则是通过字典的基来学习子空间, 在子空间中对齐语义和特征信息. ZSCSR相对于CDL 在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分另IJ提高了18.5%, 2.5%, 40.1%和19.9%. ZSCSR相对于SYNC在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了20.1%,4%,28%和9.7%.相对于ZSCSRE, ZSCSR 在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了40.8%, 9.5%,10.9%和13.8 %. 相对于ZSCSRD,ZSCSR在数据集AwA2、CUB、 aP&Y和SUN上的分类准确率分别提高了6.4%, 6%, 4.9%和5.6%.相对于ZSCSRP, ZSCSR在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了4.1%,5.8%, 9.1%和2.7%. 从实验结果看, ZSCSR同时利用已见类别和未见类别信息, 通过学习视觉空间和语义空间到子空间的映射, 学习到了原始空间中的可判别信息和类别关系信息, 并且利用重构, 减少信息损失, 在未见样本识别上获得较好的识别效果.4. 3 不同的空间中零样本识别对比实验本文提出的方法在识别阶段, 可以分别在三个空间下进行零样本识别. 为了验证不同空间下零样本识别的效果, 本文进行了对比实验, 对比实验的方法分别为3.4 节中介绍的4 种方法: 共享子空间中的识别方法, 语义空间中的识别方法, 视觉空间下的识别方法一和视觉空间下的识别方法二. 实验结果如表2 所亦.表2 不同空间中识别方法的识别准确率(单位: %)AwA2 CUB SUN aP&Y语义空间79. 7 45. 5 54. 8 20. 4共享子空间 80. 6 52. 7 61. 7 51. 6视觉空间方法一84.1 51. 3 63.0 45. 3视觉空间方法二 71. 6 35. 4 58. 7 15. 4由表2 可以看出, 对于不同的数据集, 每个空间的表示能力不同. 实验结果显示, 在4 个数据集上,视觉空间中方法一和共享子空间的识别性能均高于语义空间的, 说明视觉空间比语义空间包含更多的判别性信息, 共享子空间通过学习了视觉空间和语义空间的互补信息, 相较于语义空间有了一定程度的提升. 对于数据集CUB和aP&Y, 在共享子空间中的识别性能更高, 因为在共享子空间中同时学习到了图像视觉空间的判别性信息, 也学习到了语义空间类别间关系的信息, 两个空间中的信息融合互补, 所以在共享子空间中能够更好地对未见类别进行识别. 对于数据集AwA2 和SUN, 在视觉空间中方法一的识别能力高于共享子空间. 在数据集418 计 算机 学 报 2021年AwA2 中, 每个类别包含了足够多的图片数量, 具有足够的判别性信息能够很好地概括每个类别, 但是类别数较少, 没有足够的类别间关系信息, 所以图像视觉空间的识别能力更好. 数据集SUN虽然包含了较多的类别数, 但是由于SUN是场景数据集,涵盖的类别范围较广, 用于描述每个类别的语义属性维度却没有足够多, 所以SUN的语义并没有足够好地描述所有类别, 因而语义空间中的关系信息对分类结果的提升影响不大.视觉空间方法二是仅利用3.1 节方法学习未见类别的视觉类别原型, 并未进一步利用3.2 节融合重构的子空间学习, 识别性能虽然相较于其它方法来说差一点, 但是也具有一定的识别能力, 说明本文通过关系矩阵学习到的未见类别的类别原型能够较好地拟合未见类别的真实分布.为了进一步验证本文方法的适应性, 本文将预测标签集扩展到包括已见类和未见类的所有类别的标签集, 分别在四个不同的数据集上进行了对比实验, 实验结果如表3 所示.表3 预测标签集扩展后的不同空间中识别方法的识别准确率(单位: %)AwA2 CUB SUN aP&Y语义空间 4 7. 6 2 1. 1 38. 4 15. 6共享子空间50. 3 32. 340. 038 . 2视觉空间方法一56. 4 33. 2 49. 6 30. 2视觉空间方法二 4 2. 7 20. 4 32. 5 10. 9对比表2 和表3, 可以看出, 当标签集扩展到包含了所有已见类别和未见类别的标签集时, 分类的准确率会有所下降, 这是因为部分未见类别图像会被识别成与之相似的已见类别. AWA2 数据集在各空间中识别准确率下降最多, 其次是CUB数据集.因为AWA2 数据集为动物数据集, CUB为鸟类数据集, 有较多的相似类别, 所以会使得部分未见类别错误分类成相似的已见类别.4.4 参数分析为检验ZSCSR中各参数( 义1, 义2 和迭代次数z)对模型性能的影响, 本节在SUN数据集上进行对比实验. 实验中分别固定其它参数, 调节其中一个参数, 实验分别给出在不同空间中零样本识别的准确率. 以下实验结果中视觉空间的识别方法均为视觉空间方法一的结果.首先对参数〗: 对模型性能的影响进行对比实验, 设参数A2 =100, 迭代次数f=31. 实验结果如表4 所示, 可以看出 对三个空间中的识别效果的影响是不同的.A: 是调节视觉空间到共享子空间映射和重构过程的重要性参数.当Al 等于0 时, 相当于在视觉空间到共享子空间学习映射的过程中, 没有编码过程只有解码过程, 所以在学习共享子空间表示Z的过程中, 没有学习到视觉特征空间中类别原型的判别性信息.A: 等于1 时, 编码和解码过程重要性相同, 此时视觉空间获得了最高的识别准确率, 随着又: 的增大, 当 等于10 时, 语义空间获得了最高的识别准确率.当 等于100 时共享子空间获得了最高的识别准确率, 说明此时在共享子空间中很好地学习到了视觉特征空间中的判别性信息, 同时通过重构的过程减少了视觉特征空间到共享子空间映射过程中的信息损失.当—%时, 几乎忽略了重构过程, 使得在映射的过程中信息损失增大, 最终识别准确率降低.表4 不同A, 下在三个不同空间中的识别准确率(单位: %)Ai01101002 003004005006007008 0090010002000共孚子空间50. 753. 155. 061. 75 8. 958. 358. 759. 059. 259. 259. 55 9. 258. 751. 2视觉空间57. 163. 061. 857. 85 6. 857. 458. 459. 259. 759. 759. 960. 060. 257. 6语义空间45. 853. 554.850. 04 5. 643. 243. 142. 942. 943. 142. 842. 942. 840. 0然后对参数a2 对模型性能的影响进行对比实验, 设参数Ai=1, 迭代次数f=31, 实验结果如表5 所示. 可以看到, 共享子空间在义2 等于10 时,获得了最高的识别准确率. 在视觉空间和语义空间中, 当A2 等于100 时, 均获得了最高的识别准确率.A2 是调节语义空间到共享子空间映射的编码过程和重构的解码过程的重要性参数.A2 等于0时, 仅有重构过程, 无法学习到原语义空间中的类别信息. 随着A2 的增大, 编码过程的重要性逐渐增强, 能够通过编码过程学习语义空间的信息, 同时解码的重构过程减少了语义空间到共享子空间映射过程中的信息损失, 更好地学习了原语义空间的类别信息以及类别间关系信息.当A2 继续增大时, 重构过程的相对重要性降低, 直至被忽略, 使得原语义空间信息损失增加, 导致识别准确率下降.赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 41 92 期表5 不同A2 下三个不同空间中的识别准确率(单位: %)入20 1 10 100 2 00 300 400 500 600 700 8 00 900 1000 2000共享子空间21. 7 47.961.757. 5 53. 1 53.353.353. 1 52. 8 52. 4 52.352. 2 52. 2 51. 6视觉空间 15. 8 46. 0 61. 8 63 . 0 62. 4 62. 2 62. 2 62. 1 62. 1 62. 2 61. 9 61. 8 6 1. 9 61. 7语义空间 12. 4 39. 5 53. 5 54.8 5 3. 4 53. 1 52. 8 52. 5 52. 2 51. 9 52. 0 52. 0 52. 1 50. 8最后对迭代次数z 对模型性能的影响进行对比实验, 设参数= 1,A2= 100. 实验结果如表6 所示,可以看出共享子空间中, 识别准确率在迭代28 次左右时达到收敛; 在视觉空间中, 识别准确率在迭代1 〇 次左右时达到收敛; 在语义空间中, 识别准确率在迭代31 次左右时达到收敛.表6 不同迭代次数Z 下的识别准确率(单位: %)i 1 4 7 10 13 16 19 22 25 28 31 34共享子空间 35. 0 51. 2 53. 8 57. 6 58. 8 59. 3 60. 7 61. 1 61. 4 61. 7 61. 7 61. 7视觉空间 44. 9 62. 0 62. 3 63.0 63. 0 63. 0 63. 0 63. 0 62. 9 62. 9 63. 0 63. 0语义空间 28. 0 50. 5 51. 4 52. 1 52. 7 53. 0 53. 5 53. 9 54. 2 54. 5 54. 8 54. 85 总 结随着大规模图像数据集( 例如ImageNet ) 的出现, 图像分类研究取得了极大的进展. 然而, 新的图像类别和新的分类需求( 例如细粒度图像分类) 不断涌现. 获取足够的新类别的标注样本成本太大, 甚至在特定领域是非常困难的. 零样本图像分类具有非常重要的研究价值.针对零样本分类中知识迁移过程中信息损失和域偏移问题, 本文充分利用已见类别和未见类别信息, 学习语义空间的类别间关系, 同时将学习到的类别间关系迁移到视觉空间, 从而学习获得未见类别的视觉类别原型. 同时通过共享子空间的学习和重构的思想, 学习获得共享子空间, 在共享子空间中保存语义空间的关系信息和视觉空间中的判别性信息, 两个空间中的信息互补, 从而能够更好地表示各类别, 提升零样本识别效果.参 考 文 献[1]KodirovE,XiangTao,GongShaogang. Semant icautoencoderforzero shotlearning//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. Hawaii, USA,2017 :4 447 4456[2]LampertCI I , Nicki schI I , I larmelingS. Learningtodet ectunseenobjectcl assesbybet ween classat t ribut etransf er//Proceedingsoft heIEEEConf erenceonComput erVisionandPat t ernRecognition. Florida,USA,2009; 951 958[3]LampertCI I, NickischI I,I l armelingS. At t ribut ebasedclassificat ionforzero shotvisualobject categorizat ion. IEEETransactionsonPat t ernAnalysisandMachineIntelligence ^2014 ,3 6( 3): 453 4 65[4]Akat aZ,PerronninF?I l archaouiZ. Labelembeddi ngforat t ribut ebasedclassificat ion//ProceedingsoftheIEEEConferenceonComput erVisio nandPat ternRecognit ion.Port land, USA,2013: 8 19 826[5]Akat aZ, ReedS, Wal t erD, etal. Eval uationofoutputembeddingsforfinegrainedimageclassif icat ion//Proceedingsof theIEEEConferenceonComputerVisionandPat ternRecognit ion. Boston, USA,2015: 292 7 2936[6]MorgadoP?VasconcelosN. Semanti cal lyconsist entregularizationf orzero shotrecognit ion//ProceedingsoftheIEEEConferenceonComput erVisionandPat ternRecognit ion.Hawaii, USA, 2017; 20 37 2046[7]ChenLong,ZhangI I anwang?XiaoJun,et al. Zero shotvi sualrecognit ionusingsemanticspreservingadversarialembeddingnet works//Proceedingsoft heIEEEConf erenceonComputerVisionandPat t ernRecognit ion. Ut ah, USA,20 18: 1043 10 52[8]SongJie,ShenChengchao , YangYezhou, et al. Transductiveunbiasedembeddingf orzero shotlearning//ProceedingsoftheIEEEConferenceonComput erVisionandPat ternRecognit ion. Ut ah, USA,2018: 1024 1033[9]Akat aZ,PerronninF,I l archaouiZ, SchmidC. Labelembeddingforimageclassification. IEEETransactionsonPat ternAnalysisandMachineInt el ligence, 2016, 38(7):1425 1438[10]AnnadaniY, BiswasS. Preservingsemanticrelationsforzeroshot learni ng//Proceedingsoft heIEEEConf erenceonComput erVisionandPat ternRecognition. Ut ah, USA,20 18: 7603 7612[11]LazaridouA, DinuG,BaroniM. I l ubnessandpollut ion:Delvi ngintocross spacemappingforzero shotlearning//ProceedingsoftheMeet ingof theAssociationforComput ationalLinguist ics&-theInt ernat ionalJointConferenceonNaturalLanguageProcessing. Beijing? China? 2015: 270280[12]DinuG, LazaridouA, BaroniM. I mprovingzeroshot learning420 计 算机 学 报 2021年bymitigati ngthehubnessproblem//ProceedingsoftheInternationalConferenceonLearningRepresentations. SanDiego,USA,2015 : 10-20[13]ShigetoY,SuzukiI, I laraK,etal. Ridgeregression,hubness?andzero-shot learning//ProceedingsoftheEuropeanConferenceonMachineLearni ngandPri nciplesandPracticeofKnowledge DiscoveryinDatabases.Porto,Portugal,2015 :135-151[14]LiYanan,WangDonghui ,I IuI luanhang,etal. Zero-shotrecogni tionusingdualvisualsemanticmappingpaths//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecogni tion. Hawaii,USA,20 17:5207-5215[15]JiangI luajie ,WangRuipi ng, ShanShiguang,ChenXilin.Learningclassprototypesviastructurealignmentforzero-shotrecogni tion//ProceedingsoftheEuropeanConferenceonComputerVisi on. Munich,Germany,2018 :12 1-138[16]FuYanwei,I lospedalesTM,XiangTao, GongShaogang.Transductivemulti-viewzero-shotl earning. PatternAnalysisandMachineIntell igence,20 15,37(11) ;23 32-2345[17]JiangI luajie,WangRuiping,ShanShiguang,etal.Learningdiscriminativelatentattributesforzero-shotclassifi cation//ProceedingsoftheInternationalConferenceonComputerVision. Venice,Italy,2017 :4233-4242[18]XianYongqin,AkataZ,SharmaG,etal .Latent embeddingsforzero-shotclassification//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition. LasVegas?USA,2016 :69-77[19]FuYanwei ,I lospedalesTM,Xiang Tao,etal.Transductivemulti-viewembeddingforzero-shotrecognitionandannotation//ProceedingsoftheEuropeanConferenceonComputerVision.Zurich,Switzerland,2014 :584-599[20]XianYongqin,LampertCI I,SchieleB,AkataZ.Zero-shotlearning—Acomprehensiveevaluationofthegood,thebadandtheugly. IEEETransactionsonPatternAnalysisandMachineIntell igence,2019,40(9): 2251-22 65[2 1]WahC,BransonS,WelinderP,etal .TheCaltech-UCSDBirds-200-2011dataset.Pasadena,USA:CaliforniaInstituteofTechnologyComputation&NeuralSystems?TechnicalReportCNS-TR-2011-001 ,2011[22]FarhadiA, EndresI,I loiemD,ForsythD.Describingobjectsbytheirattributes//Proceedi ngsoftheIEEEConferenceonComputerVi sionandPatternRecognition. Fl orida,USA,2009: 1778-1785[23]PattersonG,XuChen,SuHang,Hays J. TheSUNattributedatabase :Beyondcategori esfordeepersceneunderstanding.InternationalJournalofComputerVision,2014 , 108 (1-2) :59-81[24]Romera-ParedesB,TorrPI IS. Anembarrassinglysimpleapproachtozero-shotlearning//Proceedingsofthe32ndInternationalConferenceonMachineLearning.Lil le, France,2015 : 2152-21 61[25]Changpi nyoS,ChaoWei-Lun,ShaFei. Predictingvisualexemplarsofunseenclassesforzero-shotlearning//ProceedingsoftheInternationalConferenceonComputerVision. Venice,Italy,2017 : 3496-3505[2 6]Changpi nyoS, ChaoWei-Lun, GongBoqi ng, ShaFei.Synthesizedcl assifiersforzero-shotlearning/ /ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecogniti on. LasVegas,USA,2016 :5327-5336ZHAOPeng,Ph.D.,associateprofessor,M.S.supervi sor.Herresearchinterestsincl udemachinel earningandi mageunderstanding.WANGChun-Yan,M.S.candidate.Herresearchinterestsi ncl udemachi nel earningandi mageclassifi cation.ZHANGSi-Ying,M. S.candidate.Herresearchinterestsincludemachinelearningandi mageclassification.LIUZheng-Yi ,Ph.D. , associateprofessor ,M.S.supervisor.Herresearchinterestsincludemachinelearningandcomputervision.BackgroundImagecl assificationisaveryimportanttaskincomputervisionandimageunderstanding.Traditionali mageclassifiercanonlyclassifythesampl esfromtheseencategorieswhichhaveappearedinthetrainingdataset.Butinreal-worldappl ications,newcategoriescontinuetoemerge.Itisverytime-consumi ngtocol l ectenoughl abel edsamplesofthenewcategoryandretraintheclassifier.Asweknow,humansareverygoodatrecognizingobjectswithoutseeinganyvisualsampl e.Inspiredbytheaboveabilityofhuman,zero-shotcl assificationemergesandhasbecomeaveryimportanttopicinrecentyears.Zero-shotclassificationhasshowntobeofutil ityinvariousappl ications , suchasfacerecognition,actionrecognition,activi tyrecognition,objectrecogni tion,eventdetection,and赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 4212 期soon. Zero shotclassificationaimstoutilizethesemanticprototypesofal lcategoriesandthevisualfeatureofthedatafromthese encategori estocl assi fythedatafromtheunseencategories.Theseencategoriesrefertothecategorieswithsufficientlabeleddata. Theunseencategoriesrefertothenewcategori eswithoutlabel eddata.Thesemanticprototypemeanstheembeddedlabelrepresentationi nasemanticspace.Suchasemanticspacecanbeasemanti cattributespaceorasemanti cwordvectorspace. Zero shotclassifi cationcanbetakenasaspecialcaseoftransferl earning, wheretheseencategori esarethesourcedomai ncategoriesandtheunseencategori esarethetargetdomai ncategories.Thekeyprobl emsinzero shotclassificationarewhataretherelationshipbetweentheseencategoriesandtheunseencategori esandhowtoclassifytheunseendataaccurately. Mostexisti ngzeroshotclassificationmethodslearnamappingfunctionfromthevi sualspacetothesemanticembeddingspaceonl yusingthevisualfeaturesofthelabel edtrainingdatafromtheseencategories. Therearetwomai nprobl emsinthezeroshotclassifi cation: domai nshiftandi nformationl oss.Inthispaper , wepresentanovelzero shotcl assificationapproachbasedonsubspacelearni ngandreconstructionforimageclassifi cation( Zero ShotCl assi ficationbasedonSubspacel earningandReconstruction, ZSCSR) , whichrelievestheproblemsofdomainshiftandinformationlossinthetransferl earningofzero shotclassification.ThispaperissupportedbytheNational NaturalScienceFoundationofChina( GrantNo.61 602004) ,theNaturalScienceFoundationoftheEducationDepartmentofAnhuiProvince( GrantNos.KJ2018A0013 , KJ201 7A01 1) , theNaturalScienceFoundationofAnhuiProvi nce(GrantNos.1908085 MF188, 1 908085MF182), andtheKeyResearchandDevelopmentProgramofAnhuiProvince(GrantNo. 1804d08020309 ). |
[返回] |