欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
SCI期刊论文
当前位置:首页 > SCI期刊论文
一种基于融合重构的子空间学习的零样本图像分类方法
来源:一起赢论文网     日期:2022-01-05     浏览数:845     【 字体:

 第44 第2期2021 年2 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No.2Feb. 2021一种基于融合重构的子空间学习的零样本图像分类方法赵 鹏w汪纯燕2)张思颖2)刘政怡^1:)(安徽大学计算智能与信号处理教育部重点实验室 合肥230601)2)(安徽大学计算机科学与技术学院 合肥 23 060 1)摘 要 图像分类是计算机视觉中一个重要的研究子领域. 传统的图像分类只能对训练集中出现过的类别样本进行分类. 然而现实应用中, 新的类别不断涌现, 因而需要收集大量新类别带标记的数据, 并重新训练分类器. 与传统的图像分类方法不同, 零样本图像分类能够对训练过程中没有见过的类别的样本进行识别, 近年来受到了广泛的关注.零样本图像分类通过语义空间建立起已见类别和未见类别之间的关系, 实现知识的迁移, 进而完成对训练过程中没有见过的类别样本进行分类. 现有的零样本图像分类方法主要是根据已见类别的视觉特征和语义特征, 学习从视觉空间到语义空间的映射函数, 然后利用学习好的映射函数, 将未见类别的视觉特征映射到语义空间, 最后在语义空间中用最近邻的方法实现对未见类别的分类. 但是由于已见类和未见类的类别差异, 以及图像的分布不同, 从而容易导致域偏移问题. 同时直接学习图像视觉空间到语义空间的映射会导致信息损失问题. 为解决零样本图像分类知识迁移过程中的信息损失以及域偏移的问题, 本文提出了一种图像分类中基于子空间学习和重构的零样本分类方法.该方法在零样本训练学习阶段, 充分利用未见类别已知的信息, 来减少域偏移, 首先将语义空间中的已见类别和未见类别之间的关系迁移到视觉空间中, 学习获得未见类别视觉特征原型.然后根据包含已见类别和未见类别在内的所有类别的视觉特征原型所在的视觉空间和语义特征原型所在的语义空间, 学习获得一个潜在类别原型特征空间, 并在该潜在子空间中对齐视觉特征和语义特征, 使得所有类别在潜在子空间中的表示既包含视觉空间下的可分辨性信息, 又包含语义空间下的类别关系信息, 同时在子空间的学习过程中利用重构约束, 减少信息损失, 同时也缓解了域偏移问题.最后零样本分类识别阶段, 在不同的空间下根据最近邻算法对未见类别样本图像进行分类. 本文的主要贡献在于:一是通过对语义空间中类别间关系的迁移, 学习获得视觉空间中未见类别的类别原型, 使得在训练过程中充分利用未见类别的信息,一定程度上缓解域偏移问题. 二是通过学习一个共享的潜在子空间, 该子空间既包含了图像视觉空间中丰富的判别性信息, 也包含了语义空间中的类别间关系信息, 同时在子空间学习过程中, 通过重构, 缓解知识迁移过程中信息损失的问题. 本文在四个公开的零样本分类数据集上进行对比实验, 实验结果表明本文提出的零样本分类方法取得了较高的分类平均准确率, 证明了本文方法的有效性.关键词 零样本图像分类; 迁移学习; 子空间学习; 重构; 特征原型中图法分类号TP18DOI号10.11897/SP.J.1016 .2021.00409AZero-ShotImageClassificationMethodBasedonSubspaceLearningwiththeFusionofReconstructionZHAOPeng1), 2)WANGChunYan2)ZHANGSi Yi ng2)LIUZhengYi1), 2)1 :) ( KeyLaboratoryofInieLL igeniComput ingandSignalProcessing?Mini stryofEducation?AnhuiUni versi ty?Ilefei230601)2){ SchoolofComput erScienceandTechnology?AnhuiUni versity?Ilefei23 0601)AbstractImageclassi ficati onisani mportantresearchsubfiel di nthecomputervisi on.Traditi onal收稿日期:2019 08 18; 在线发布日期:2020 05 05.本课题得到国家自然科学基金(61602004) 、 安徽省髙校自然科学研究重点项目( KJ2018A0013 , K; I2017A011)、 安徽省自然科学基金( 1908085MF188 , 1908085MF182)、 安徽省重点研究与开发计划项目( 1804d08020309)资助. 赵 鹏, 博士, 副教授, 硕士生导师, 中国计算机学会(CCF) 会员, 主要研究方向为机器学习、 图像理解. Email: zha〇peng_ad@163. mm.汪纯燕, 硕士研究生, 主要研究方向为机器学习、 图像分类. 张思颖, 硕士研究生, 主要研究方向为机器学习、 图像分类. 刘政怡, 博士, 副教授, 硕士生导师, 中国计算机学会(CCF) 会员, 主要研究方向为机器学习、 计算机视觉.410 计 算机 学 报 2021年i magecl assi ficati oncanonl ycl assi fythesampl esoftheseencategorieswhichhaveappearedi nthetrai ni ngdataset. However,newcategori esconti nuetoemergeinreal worl dappl i cati ons. Thesampl esofthenewcategoriesshoul dbecol l ectedandthecl assi fiershoul dberetrai ned.Di fferentfromtradi ti onalcl assifi cati onmethods,zero shoti magecl assifi cati onai msatcl assifyi ngthesampl esoftheunseencategori eswhichhavenotappearedi nthetrai ni ngdataset.Zero shotcl assi ficati onisaverychal lengi ngtaskandhasattractedmuchattentioni nrecentyears. Zero shoti magecl assifi cati onbri dgestheseencategori esandtheunseencategori esthroughthesemanti cembeddi ngspace,whichtransfersknowledgefromtheseencategoriestotheunseencategoriesandcl assi fiesthesampl esfromtheunseencategories. Firstl y?theexisti ngzero shotcl assi ficati onmethodstypical l yl earnamappi ngfuncti onfromthevisualspacetothesemanticembeddi ngspaceonlyaccordi ngtotheinformati onofthesampl esfromthetrai ni ngseencategori es.Then,thel earnedmappi ngfuncti onisutili zedtomapthevisualfeatureofthetestsampl efromtheunseencategoriestothesemanticspace. Fi nal l y,zero shotrecognitioncl assifythetestsampl esfromtheunseencategori esbyasi mpl enearestneighborsearchi nthesemanti cembeddi ngspace. Buttheseencategoriesandtheunseencategoriesaredifferent ,whichwil ll eadtothedomai nshi ft. Moreover,directl yl earningthemappi ngfunctionfromvi sualspacetosemanti cembeddi ngspacewi l lleadtotheinformati onl oss.Inordertosol vetheproblemsofthei nformati onl ossandthedomai nshiftintheknowl edgetransferofzero shoti magecl assification,weproposeazero shotcl assi ficati onapproachbasedonsubspacel earni ngandreconstructi onfori magecl assificati on( Zero ShotClassifi cati onbasedonSubspacel earningandReconstruction,ZSCSR).Fi rstly,ZSCSRmakesfull useoftheunseencategoryinformati ontomitigatethedomainshiftprobl em. Ittransferstherelationshipbetweentheseencategoriesandtheunseencategoriesfromthesemanticembeddi ngspacei ntothevisualspace,andobtai nsthevisualprototypesoftheunseencategories.Then,accordi ngtothevisualprototypesandsemanticprototypesofal lcategoriesi ncl udi ngtheseenandtheunseencategori es, ZSCSRl earnsal atentsubspace,whi chal ignsthevi sualandthesemanticspaces.Thelatentsubspacenotonlycontainsthediscri minati vei nformati oni nthevisualspace,butalsocontai nstheinformati onofthecategoryrel ati onshipsi nthesemanticembeddi ngspace. Meanwhil e,thereconstructi onconstrai ntreducestheinformati onl ossi nthesubspacel earni ng. Final l y,i nthezero shotrecogni ti on,thetestsamplesofunseencl assescouldbecl assifiedbythenearestneighborsearchindi fferentspaces.Therearetwomai ncontri buti onsi nthispaperasfol l ows. (1)ZSCSRl earnsthevisualprototypeoftheunseencategoriesthroughtransferri ngtherel ati onshipbetweentheseencategoriesandtheunseencategoriesfromthesemanticembeddi ngspacetothevisualspace,whichrelievesthedomainshi ftprobl em. (2)ZSCSRl earnsal atentspacethroughthel atentspacel earningandreconstructi on,whi chreducesthei nformationl oss. Theproposedmethodiseval uatedforzero shotrecogni ti ononfourbenchmarkdatasets. Theexperi mental resultsshowtheproposedmethodachieveshigheraverageaccuracies,whichprovetheeffecti venessoftheproposedmethod.Keywordszero shoti mageclassi ficati on;transferl earni ng;subspacel earni ng;reconstructi on;featureprototype类别样本进行分类, 却无法对训练数据集中未出现1弓I言过的类别样本进行分类. 然而现实场景中, 新类别往往层出不穷. 收集足够数量的新类别标注样本通常传统的分类方法只能对训练数据集中出现过的费时费力, 在某些特定领域甚至无法获取足够数量的赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 41 12 期新类别标注样本. 零样本学习( Zero ShotLearni ng,ZSL) 应运而生, 受到越来越多的研究者的关注. 人类具备识别未见类别样本的能力[ 1 ], 例如一个只见过马而未见过斑马的孩子, 如果被告知斑马是身上有斑纹的马, 那么当孩子在动物园看到斑马时, 就能顺利地识别出斑马. 零样本学习就是受人类这类学习方式的启发. 在零样本学习中, 训练集( 已见类别)和测试集(未见类别) 样本类别是不相交的, 通常通过一个语义空间, 建立起已见类别和未见类别间的关系, 进而实现知识的迁移. 其中语义空间通常由人工标注的属性、 文本关键词或者词向量构成. 零样本图像分类就是在图像分类中应用了零样本学习的方法.零样本图像分类方法通常分为零样本训练学习和零样本识别分类两个阶段. 现有零样本图像分类方法主要分为以下四类: (1) 基于属性的学习[23]. 直接属性学习(DirectAttri butePredicti on, DAP)[ a和间接属性学习(IndirectAttri but ePredicti on,IAP)[ 2 ]分别直接和间接学习单个语义属性的属性分类器,零样本识别阶段对未见类别样本预测该类别包含每个属性的概率, 然后根据属性与类别的关系计算样本为各类别的分值, 并将样本预测为得分最高的类别;(2 ) 基于视觉空间到语义空间映射的学习[ M ].基于属性的标签嵌人方法(Attri bute basedLabelEmbeddi ng,ALE)[4] 在训练阶段学习一个兼容性函数, 该函数用于衡量每一幅图像的视觉特征映射到语义空间后, 和语义空间中每个类别语义属性向量之间的匹配度, 确保每幅图像和所属类别语义属性向量的匹配度比其它类别的匹配度高. 测试阶段将兼容性得分最高的类别标签预测为该测试样本的标签? 结构化联合嵌人( StructuredJoi ntEmbeddi ng,SJE)[ 5 ]受ALE的启发, 使用了多种辅助语义信息源( 包括传统属性、词向量、 文本关键词等)替代人工标注属性. 与ALE类似, SJE同样使用兼容性得分函数衡量视觉特征映射到语义空间后, 与各类别语义表示的兼容性得分, 不同的是语义空间包含多种信息源, 因而需要学习多个映射; (3) 基于语义空间到视觉空间映射的学习. Annadam等人[1°]提出将类别间的关系划分为语义相同的类别、 语义相似的类别和语义不同的类别, 在学习语义空间到视觉空间的映射时保留类别间的关系. 将视觉特征空间作为嵌人空间,一定程度上缓解了由少数枢纽点导致的枢纽点问题( Hubnessprobl em). 枢纽点[ 1 1 ?]是指这样一些点, 它们是大多数其它点的最近邻点. 将视觉特征映射到语义空间, 会产生一些枢纽点, 在零样本识别阶段由于采用的是最邻近搜索方法, 所以会降低识别的性能; (4) 基于潜在子空间的学习[1 4 1 9]? 双视觉语义映射( DualvisualsemanticMappi ngPaths, DMaP)[1 4]学习视觉空间到语义空间的映射, 同时抽取视觉空间中潜在类别级的流形构造新的语义空间, 并结合原始的语义空间, 不断迭代优化新的语义空间. 耦合字典学习( Coupl edDicti onaryLearni ng,CDL)[1 5]通过稱合字典学习框架分别学习两个字典, 将视觉类别特征和语义类别特征分别映射到潜在子空间, 并在潜在子空间学习过程中对齐语义类别特征和视觉类别特征.虽然零样本图像分类的研究取得了一些进展,但是知识迁移过程中仍然存在以下主要问题: 信息损失和域偏移问题.(1) 信息损失问题, 是指在学习图像的视觉特征与语义特征间映射的过程中, 由于视觉特征和语义特征的维度相差较大, 往往会出现一些具有判别能力的信息在知识迁移的过程中丢失的情况, 从而影响最终的图像分类结果d2) 域偏移问题, 是指由于零样本学习在训练过程中只用到了已见类别的信息, 而训练类别和测试类别是不相交的, 同时训练类别和测试类别往往差异可能很大, 所以在测试的过程中会出现预测偏差导致域偏移问题.针对信息损失和域偏移问题, 本文提出了图像分类中基于子空间学习和重构的零样本分类(ZeroShotClassi ficati onbasedonSubspacel earningandReconstructi on, ZSCSR) 方法. 该方法的主要贡献包含以下两个方面:( 1) 首先假设语义空间和图像视觉空间具有相似的类别间关系, 学习语义空间中已见类别和未见类别的关系, 并将学习到的关系迁移到图像视觉空间, 学习获得未见类别的视觉类别原型, 缓解域偏移问题.(2) 基于子空间学习和重构的方法利用已见类别和未见类别的视觉特征和语义特征, 学习一个共享的潜在子空间, 该子空间既包含了图像视觉空间丰富的判别性信息也包含了语义空间中的类别间关系信息, 同时在子空间学习过程中, 通过重构, 缓解知识迁移过程中信息损失的问题.本文第2 节给出问题定义和介绍相关工作; 第3 节提出基于子空间学习和重构的零样本分类方412 计 算机 学 报 2021年法; 第4 节在几个通用零样本分类数据集上, 通过实验对所提出的方法进行测试, 并对实验结果和参数进行分析; 最后对本文的工作进行总结.2 问题定义和相关工作本文的工作受到子空间学习和自编码器中重构思想的启发. 下面分别给出本文的问题定义和相关工作简介.2. 1问题定义为了方便阐述, 首先给出问题定义. 设xs为已见类样本视觉特征矩阵, 其中 为已见类样本个数w为样本的特征维度.分别为已见类别的语义属性特征矩阵和未见类别的语义属性特征矩阵, 其中<: 为已见类的类别个数,?为语义特征的维度^为未见类的类别个数[ss, s?]e是所有类别的语义特征矩阵.兄={i,…,c} 为已见类的标签集, 叉={c+i,…,为未见类的标签集, y? nys=0. 零样本图像分类就是给定足, 5, 兄和叉学习一个图像分类器/(?) , 实现对未见样本心的分类, §卩 /:a—_y? , 其中_y?为未见样本?对应的标签.2. 2 子空间学习在图像分类问题中, 子空间学习是一种比较常见的方法. 子空间学习通过学习一个合适的子空间,使得在原空间中不易识别或区分的图像, 在子空间中类别差异扩大, 或者子空间具备原始空间不具备的某些优势, 进而将样本映射到子空间后获得更好的分类效果. 由于零样本图像分类中的视觉特征通常是通过神经网络提取, 而语义特征则是通过人工定义的属性或者文本中提取的关键词得到, 所以视觉特征和语义特征的分布通常是不同的. 如果直接学习获得视觉空间和语义空间之间的映射, 通常知识迁移能力不强, 导致零样本识别性能不好. 通过子空间的学习, 可以实现语义空间和视觉空间的对齐,获得较好的知识迁移能力.双视觉语义映射(Dual vi sual semanticMappi ngpaths,DMap)[ 14]通过学习一个语义子空间来对齐样本视觉空间和语义空间. DMap 首先学习获得样本视觉空间到原始语义空间映射, 然后根据该映射, 获得该类别样本视觉特征映射到语义空间后的均值, 并与原始语义向量表示进行融合, 迭代优化得到新的语义空间. 潜在嵌人空间学习( LatentEmbeddi ngs,LatEm)[ 1 8]针对细粒度图像分类问题, 提出将视觉和语义信息映射到一个多维向量空间, 这个多维的向量空间即为学习的子空间. 在子空间中将一些复杂的属性进行分解, 来训练学习一组线性映射函数,不同的映射函数捕捉不同对象类的视觉特征, 如颜色、形状或纹理等. 针对不同的类别, LatEm自动选择一组较好的线性函数模型来进行分类. 耦合字典学习( Coupl edDi cti onaryLearni ng, CDL)[ 1 5 ]采用字典学习方法获得一个子空间, 在子空间中对齐视觉和语义结构. CDL首先通过原型学习来学得已见类别在视觉空间的类别原型表示. 然后通过字典学习,分别在视觉空间和语义空间中学习到一对字典的基, 将视觉特征和语义特征映射到子空间, 并约束同一类别的视觉特征和语义特征映射到子空间具有相同的特征表示, 从而实现视觉空间和语义空间的结构对齐.这些子空间学习虽然一定程度地提高了知识的迁移能力, 但是在学习映射的过程中难免会出现信息损失的问题, 尤其是一些子空间学习方法仅利用已见类别的视觉特征和语义特征来实现子空间学习. 而丢失的信息可能对未见类别的识别有着重要的作用, 因而影响迁移能力的提升.2. 3 自编码器自编码器( Autoencoder, AE) 是一个非监督学习算法, 通常由三部分组成: 编码器( encoder)、 隐含层(hi dden) 和解码器(decoder).自编码器将输人表示X通过编码器编码到隐含层, 再通过解码器解码回X. 其中解码可以看作是重构的过程.自编码器的目标函数一般表示如式(1) 所示:mi n\X W*WX\ l(1)W, W*其中, xei^x"为输人样本, 《为输人样本个数W为样本特征维度. 为编码矩阵, 其中& 为隐含层维度,?为解码矩阵.语义自编码器( Semanti cAutoencode, SAE)[1]将自编码器的思想用于零样本图像分类, 采用了一种简单的自编码器结构, 只利用一层隐含层连接编码器和解码器. 不同于一般的ae, sae将隐含层定义为语义表示层, 具有明确的语义. SAE 通过已见类别样本学习训练出编码和解码的映射矩阵, 并利用该映射矩阵, 将待识别的未见类别样本映射到语义空间进行识别. 语义自编码器输人?是图像样本特征, 通过映射矩阵 映射到隐含层为编码过程, 然后再通过wTei^x?映射回视觉特征空间为解码过程, 解码过程即为重构, 使得重构赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 4132 期后的图像特征尽量地与原特征相近. SAE目标函数如式(2) 所示:mi n| |  ̄WTC¥| ||+A\ \ WXS ̄C¥\ \2F( 2)w其中, 第一项和第二项分别对?应解码过程和编码过程, ceiT5是输人的己见样本语义麗性矩阵, A是杈重系数, 调节第一项和第二领的'重要性-传统AE解码过裎映射寒阵为WV商SAE中编码和:解码过程是对称的, 所以令W+= WT.由于语义自编码器映射矩阵是由已见类别训练得出的, 在测试阶段直接应用到未见类别. 可能会由于己见娄别和未见类别的分布?不同, 而导致孥到的编码矩阵和解码矩阵泛化到未见类别的能力较弱?3 基于子空间学习和重构的零样本分类方法由于已见裘别和未见类别是不相交的, 其样本分布不同*如果在训练的过程中只利用已见类别的信息. 那么学巧到的模: 型往往不能较好地泛化到未见类别. 本文在训练过程中同时利用汜见类别和未见类规信息,以提裔模型的梗化性>茼时通过学习共享子空间, 对齐视意空间和语夂空间, 使得学苟到的子空间中既包含瘡义空间中'类别关系信息又包含视觉蜜间中可判别性倩息, 并且子空闻#g过程中利甩重构减少氣息损失? 本文提出的基于子空同学习和虞构'雖攀样本分类方法■(Zero-Shoi:Classi fication1 i?mi li )i: Snb>|?aci-l earni ngandReeoiistrUcti on,ZSCSR} 周祥包括训练孥方阶段和■零祥本识别阶段. 训. 缘学5阶段分为两步完成, 训练学习框架如_1 所示. 笫一歩学习'语义空间中. 已见类别和未见类别的关系2, #将该关系迁移到视觉空间, 在视觉空间学习得到未见类的视觉类别原型V第二步将学习到的未见类的视觉类别原型与B见类别的视觉鸯别原遽_合樽到所有类别在视觉空间的庳型表示, 然后采用融合重构的'子空间: 学习? 稂据视觉空间和语义窆间來#苟共享子空间. 尊禅本识别阶段可以将?未见类别样本分别映射到不苘空间进行识别.SteplStep2, 1 、 ,1,语义空间视觉空间语义空间共享子空间视觉空间未见类的视觉类别原型图1Z3CSR的锁::练学¥框:無摄3. 1 未见类别的类别原型学习零祥本分类在训练过程中, 如果仅使用到a见类别的信息, 学习到的模型不能根好地泛化到未见类别. 从而导致分类准确率下降. 本文提出首先学习未ja类剁在视觉空间的类别: 原邀, 并翁学习到的未见类别的视t类跳原型作为卞一步的输人. 语义M性和视觉特征分别从不饲的视角描述If—: 对象, w而语义空间和视觉空询上的类别关系是一致、 的* 虽然在语义龕间和视觉空间中样本的特征维度不同,但是它们却有■似的类别間关系. 卽如果两个类别在窜义全间中是相近的, 那么它们在视觉空间中应该也是栩近的.由于零雜本分类最终识别阶段是通过最近邻的方法实现未见类别样本识另ij, 所以学习到接近于真实分布的类别原型* 有 于提高识别准未见类别在视觉空间中的类别原裏学¥过程如图2所示. 画中 叠间为人工标注的羼性向量?包含了相对全面的类别描述及类别间关系鲁息. 通过在语义空间中学。习类别间关系矩阵2. 将其迁移到视觉空间,:举习莸得未见类别的视觉类别原型, 未见类别的类剔原型学召的目标函数如式(3) 所示:mi nlSs SSjl HUfsQPjlFs. t.I kl2<l< 3)Q^u其中, ps.e浐_是已见类别在*觉空词的类剌康'塑矩阵, 其中各类别原型取值为该类别下所有样本视觉#征向最的均值?1是縛要学习的末见类别在枧觉空间的类别廣型矩阵. 2eirs是学习到的语义空间中已见类与苯见类的类别关系矩阵.暴已见类别的类别语义特征矩阵,s, 是宋见类别的类别语义特征矩砗,414 计導机攀报: _1苹语义空间 视觉空间釋《 笨&集别的视*:n'_原麵#s本文采:用交替优化方法求解自标函数(式(J0) ,即固定其它变量』求解某一变憂,具体步骤如下:(1) 固定八, 更齋2, #到优化函数如下式所示:其半》: A=■5S--Ps-UQBi i+^m, B=—s,r-p,,-i)(4)直接对2求导聊#2=(ATA + aI)^1ATB_其中, J为单隹矩阵. a为拉格朗H乘子.(2) 固定2, 更新 得到优化函数如下式所示:mi n| | P.s SF?I J【5)K最后, 根据n, p:s可樽到p=De, p?].3. 2 融合重构的子空间学习视觉空间是由fl像自然的视觉.费征构成的, 包含了图像较为全M和细致的可判别僙息. 语义空间是由图像抽象的语义.屢性构成, 包含了丰富的类别俸息和类别关系f息■ 单纯的'子空间 在学习过程中*会造成部分信息丢失, 而这些丢:失的信息可能有助于未见类别样本的识别. 本文提出的融合重构的子空间学石, 利甩所宥类别(包括已见类别和未见类: 别) 的语义和视觉信息, 学习一个共摹子貧间. 该. 子fi:间既具有视觉餐间的可判别性燈息, 又具有语义空间的类别关系信息, 同时利用重构, 减少信息丢失? ^ 融合重构的予空M学习的学习框、 架如ST3所示?为了在子空间学习中对齐视觉空间和语义查间, 令各类姻的视觉特征和对应的语义特征映射到共享子空间中.莫有相同的特征表示. 设雯学习的共審子空间表示为厶攀习视暈空间到共荸子空间映射的貝标函数如式(7)所示:mi nA11 |F Z| | p+| | P-WlZ I^C7)Wl,z其中聲包含B见类与未见类的所有葉规; 在'共享子SRT中的表: 示,& 为 共享 量:间. 中猶维度k和f 分别是已见类和未见类的类别个数>为包含已见类和未见类的所赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 41 52 期有类别的视觉类别原型矩阵.由于训练过程中无法得到未见类别的视觉特征, 所以1\由3.1 节学习获得.ei?4m是视觉空间到共享子空间的映射矩阵. 式(7) 中第一项为视觉空间到共享子空间的映射, 第二项为根据共享子空间重构视觉空间, 权重系数;^调节这两项之间的比重. 通过空间映射差异最小化, 实现子空间学习获得视觉空间判别性信息, 同时通过重构误差最小化, 实现子空间尽可能多地保存原始信息, 缓解了知识迁移过程中的信息损失问题. 由于映射和重构分别使用了矩阵 和它的转置矩阵W〖, 因而该目标函数隐式地约束了不会太大, 而是在一个合理的范围内.类似地, 学习语义空间到共享子空间映射的目标函数如式(8) 所示:mi nX2\ \W2 S Z\ \2F+\ \S Wt2Z\ \2f(8)w2, z同样 [Ss, s? ]为包含已见类和未见类的所有类别的语义特征矩阵 是语义空间到共享子空间的映射矩阵. 式(8) 中第一项为语义空间到共享子空间的映射, 第二项为根据共享子空间重构语义空间, 权重系数a2 调节这两项之间的比重. 通过空间映射差异最小化, 实现子空间学习获得语义空间类别间关系信息, 同时通过重构误差最小化, 实现子空间尽可能多地保存原始信息, 缓解了知识迁移过程中的信息损失问题.综上, 融合重构的子空间学习的目标函数如式(9) 所示:mi nAi| | 叭卜Z| | H|P <Z| | HWx, w2, zAz\ \W2S Z\ \2f+\ \S Wt2Z\ \2f(9)本文采用交替迭代法求解目标函数(式(9) ). 具体求解过程如下:(1) 固定W2 , Z, 更新 , 得到优化函数如下式所示:mi nAiWWj P Zll+lP W^ZWl( 10)可直接对W求导, 令▲zZZ'B:GUDZ,得:( 11)上式可直接由Syl vester 方程求解.(2) 固定WdZ, 更新W2, 得到优化函数如下式所示:mi nA2\ \W2 S Z\ \2f+\ \S Wt2Z\ \2f( 12)W2直接对叭求导, 令B2= A2SST, C2=(A2 +1) ZST得:(13)上式可直接由Syl vester 方程求解.(3) 固定 , 更新Z, 得到优化函数如下式所示:mi nAi1 1^^ 21 1^+1 1^ ^21 1^+Za2| |w2s z| | HI |5 wIzG( 14)得到mi n| | A2  Z| |^,z其中,=Xr W. R Ai Ta2 w2 s, 衫3—A2 1pS wL, j为单位矩阵.对z直接求导得Z=(BjB3 )1BjA2(15)3. 3 算法流程本文基于子空间学习和重构的零样本分类方法中训练学习阶段流程如算法1 所示.算法1. 基于子空间学习和重构的零样本学习.输人: 已见类别的类别语义矩阵S, , 已见类别所有样本在视觉特征空间的特征矩阵X, , 未见类别的类别语义矩阵 , 最大迭代次数了输出: 叫, w2 , z过程: 优化更新过程1. 初始化2, 恳, 県, 叭, 2Stepl .2. 通过足计算已见类别在视觉特征空间的类别原型广, 各维度的值是该类别在视觉特征空间中的所有样本在该维度上的均值3. 根据式(5 )计算类别间关系矩阵24.根据式(6 )计算未见类别的类别原型^Step2.5. 计算所有类别的类别语义矩阵 和所有类别的类别原型矩阵6.FORi=ltoI7.根据式(1 1)计算映射矩阵8.根据式(13)计算映射矩阵W29.根据式(1 5)计算所有类别在潜在共享子空间中的表示矩阵Z10.ENDFOR3.4 零样本识别本文在零样本识别阶段采用最近邻方法识别未见类别样本. 由于本文方法涉及共享子空间、视觉空间和语义空间. 下面给出将待识别未见类别样本A映射到不同空间下进行识别的具体步骤.3.4.1 共享子空间中识别未见类别首先将A从视觉空间映射到共享子空间中, 即zu=W1xu.然后将语义空间中的类别语义矩阵 映射到416 计 算机 学 报 2021年共享子空间中, 得到未见类别在共享子空间中的新的表示厶=W2S?.最后, 预测?对应的类别标签_y 为y=argminD( z?, zJu) ,其中, D是一个距离函数, 本文采用的是余弦距离.4是矩阵Z?中的第j 列向量, 即第j 个类别在共享子空间中的特征表示.3.4.2 视觉空间识别未见类别在视觉空间的识别未见类别样本:r?有以下两种方法:(1) 方法一利用3.2 节学习到的映射矩阵将语义表示映射到视觉空间来进行未见类别的识别.首先将未见类别的语义表示矩阵映射到视觉空间得到预测的各未见类别的视觉特征矩阵夂=W^(W2S? ).然后预测;^对应的类别标签3^=argmi nD〇? ,记) , 其中尺是矩阵夂中的第J 列向量, 即第J 个未见类别的视觉类别原型向量.(2) 方法二直接根据3.1 节学习到的未见类别的视觉类别原型 , 预测未见类别样本A对应的类别标签_y=argmi n_D( :r? ,7〇, 其中 是矩阵 中的第 列向量, 即第_; 个未见类别的视觉类别原型向量.3.4.3 语义空间中识别未见类别首先将A从视觉空间映射到语义空间中, 即然后预测;^对应的类别标签3^=argmin_D(?? ,JO, 其中匕为矩阵 中的第 列向量, 即第 个未见类别的语义表示向量.4 实验结果与分析4. 1 数据集介绍及实验设置本文实验数据集采用零样本图像分类中普遍采用的四个公共基准数据集:Ani mal swithAttributes2(简记为AwA2)[2 °], CUB 200 2011Birds( 简记为CUB)[ 2 1 ], aPascal &aYahooC 简记为aP&Y)[ 2 2 ]和SUNAttributeC简记为SUN)[2 3]. 数据集AwA2的属性维度为85 维, 其中40 个已见类别的30337 张图片作为训练集和10 个未见类别的6985 张图片作为测试集, 共计37322 个图像样本. 数据集CUB的属性维度为312 维, 其中150 个已见类别的8855 张图片作为训练集和50 个未见类别的2933 张图片作为测试集, 共计11788 个图像样本. 数据集SUN的属性维度为102 维, 其中645 个已见类别的12900 张图片作为训练集和72 个未见类别的1440 张图片作为测试集, 共计14340 个图像样本. 数据集aP&Y的属性维度为64 维, 其中20 个已见类别的12695 张图片作为训练集和12 个未见类别的2644 张图片作为测试集, 共计15339 个图像样本.实验设置: 本文所有样本的视觉特征均采用Googl eNet 提取的1024 维的特征. 语义特征均采用各数据集中存储的人工定义的属性特征. 在实验过程中设置共享子空间维度为所有类别的总个数, 首先初始化所有类别在共享子空间中的表示Z为所有类别的相似度矩阵.4. 2 主流方法的对比实验为了验证本文所提的ZSCSR方法的有效性, 本文分别和相关的10 种主流方法进行了对比实验:Di rectAttri butePredi cti on( DAP)[ Z ],EmbarrassinglySimpl eZeroShotLearni ng( ESZSL)[ Z4], Attri buteLabelEmbeddi ng( ALE)[ 4],StructuredJoi ntEmbeddi ng( SJE)[5],LatentAttri buteDicti onary(LDA)[17],Predi ctingVisualExemplars( EXEM)[ Z 5 ],Semanti cAutoencoder( SAE)[ 1 ],Semantics PreservingAdversari al Embeddi ngNetwork( SPAEN)[ 7 ],Synthesi zedClassi fiers (SYNC)[2 6]禾口CoupledDicti onaryLearning( CDL)[ 1 5 ]. 同时为了验证本文提出框架每一部分的有效性, 本文对不同的子任务进行实验对比, ZSCSRE是指删去原始空间到子空间的映射部分, ZSCSRD是指删去子空间重构原始空间部分, ZSCSRP是指删去学习未见类别视觉特征原型的部分. 表1 为对比实验结果.表1 不同方法的分类准确率 (单位: %)MethodAwA2CUBaP&YSUN ̄DAPESZSLALESJELDAEXEMSAESP AENSYNCCDLZSCSRZSCSREZSCSRDZSCSRP 424063.0赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 41 72 期表1 中, DAP是零样本图像分类中较为经典的方法, 训练过程中针对每个属性训练对应的属性分类器, 对测试样本直接预测各属性的概率. 但是属性分类器是分开训练的, 并没有学习到属性间的关系,ZSCSR相对DAP在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了33.6%,15.3%,31.5%和23.1 %. ESZSL引人了一个双层的线性模型, 分别建模特征与语义之间的关系和语义与标签之间的关系, 在双层的线性模型知识迁移过程中会存在信息损失的问题. 相对ESZSL, ZSCSR在数据集AwA2、 CUB、aP&Y和SUN上的分类准确率分别提高了8.8%, 21.3%, 27.4%和13.2%.ALE和SJE都是通过学习兼容性函数, 来度量图像和语义空间的兼容性. SJE是在ALE的基础上,联合学习多个兼容性函数来帮助预测未见类别的标签. ZSCSR相对于ALE在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了21.6%,8.8%,11.6%和7.7%. ZSCSR相对于SJE在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了10.2 %,5.1%,14.9%和22.5%.LDA将学习获得的潜在属性空间作为语义空间, 潜在属性为已见属性的线性组合, 由于该模型通过已见类别进行训练, 在预测未见类别时, 使得未见类别易偏向于已见类, 使分类产生错误. ZSCSR相对于LDA在数据集AwA2、 CUB、aP&Y和SUN上的分类准确率分别提高了7%, 6.8%, 37.5%和7.2%.EXEM将语义属性映射到视觉空间, 使用核回归的方法来匹配语义属性对应的视觉特征聚类中心. ZSCSR相对于EXEM在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了13.6%, 6.5 %, 9.3%和3%. SAE和SPAEN都采用了重构的思想, 用编码和解码两个过程来学习视觉特征空间到语义空间的映射. SPAEN利用已见类别样本作为训练集, 将子空间学习分成了两个子任务, 分别实现重构和分类,并且在两个子任务中利用对抗学习实现零样本分类. ZSCSR相对于SAE 在数据集AwA2、 CUB、aP&Y和SUN上的分类准确率分别提高了4.5%,3.6%,17.4%和8. 1%, ZSCSR相对于SPAEN在数据集AwA2、 CUB、 aP&Y和SUN上的分类准确率分别提高了3.8%, 6.1%, 27.5%和3.8%. SYNC和CDL都是采用了字典学习的方法. SYNC通过对这些字典的基的组合来合成未见类别分类器. CDL则是通过字典的基来学习子空间, 在子空间中对齐语义和特征信息. ZSCSR相对于CDL 在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分另IJ提高了18.5%, 2.5%, 40.1%和19.9%. ZSCSR相对于SYNC在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了20.1%,4%,28%和9.7%.相对于ZSCSRE, ZSCSR 在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了40.8%, 9.5%,10.9%和13.8 %. 相对于ZSCSRD,ZSCSR在数据集AwA2、CUB、 aP&Y和SUN上的分类准确率分别提高了6.4%, 6%, 4.9%和5.6%.相对于ZSCSRP, ZSCSR在数据集AwA2、CUB、aP&Y和SUN上的分类准确率分别提高了4.1%,5.8%, 9.1%和2.7%. 从实验结果看, ZSCSR同时利用已见类别和未见类别信息, 通过学习视觉空间和语义空间到子空间的映射, 学习到了原始空间中的可判别信息和类别关系信息, 并且利用重构, 减少信息损失, 在未见样本识别上获得较好的识别效果.4. 3 不同的空间中零样本识别对比实验本文提出的方法在识别阶段, 可以分别在三个空间下进行零样本识别. 为了验证不同空间下零样本识别的效果, 本文进行了对比实验, 对比实验的方法分别为3.4 节中介绍的4 种方法: 共享子空间中的识别方法, 语义空间中的识别方法, 视觉空间下的识别方法一和视觉空间下的识别方法二. 实验结果如表2 所亦.表2 不同空间中识别方法的识别准确率(单位: %)AwA2 CUB SUN aP&Y语义空间79. 7 45. 5 54. 8 20. 4共享子空间 80. 6 52. 7 61. 7 51. 6视觉空间方法一84.1 51. 3 63.0 45. 3视觉空间方法二 71. 6 35. 4 58. 7 15. 4由表2 可以看出, 对于不同的数据集, 每个空间的表示能力不同. 实验结果显示, 在4 个数据集上,视觉空间中方法一和共享子空间的识别性能均高于语义空间的, 说明视觉空间比语义空间包含更多的判别性信息, 共享子空间通过学习了视觉空间和语义空间的互补信息, 相较于语义空间有了一定程度的提升. 对于数据集CUB和aP&Y, 在共享子空间中的识别性能更高, 因为在共享子空间中同时学习到了图像视觉空间的判别性信息, 也学习到了语义空间类别间关系的信息, 两个空间中的信息融合互补, 所以在共享子空间中能够更好地对未见类别进行识别. 对于数据集AwA2 和SUN, 在视觉空间中方法一的识别能力高于共享子空间. 在数据集418 计 算机 学 报 2021年AwA2 中, 每个类别包含了足够多的图片数量, 具有足够的判别性信息能够很好地概括每个类别, 但是类别数较少, 没有足够的类别间关系信息, 所以图像视觉空间的识别能力更好. 数据集SUN虽然包含了较多的类别数, 但是由于SUN是场景数据集,涵盖的类别范围较广, 用于描述每个类别的语义属性维度却没有足够多, 所以SUN的语义并没有足够好地描述所有类别, 因而语义空间中的关系信息对分类结果的提升影响不大.视觉空间方法二是仅利用3.1 节方法学习未见类别的视觉类别原型, 并未进一步利用3.2 节融合重构的子空间学习, 识别性能虽然相较于其它方法来说差一点, 但是也具有一定的识别能力, 说明本文通过关系矩阵学习到的未见类别的类别原型能够较好地拟合未见类别的真实分布.为了进一步验证本文方法的适应性, 本文将预测标签集扩展到包括已见类和未见类的所有类别的标签集, 分别在四个不同的数据集上进行了对比实验, 实验结果如表3 所示.表3 预测标签集扩展后的不同空间中识别方法的识别准确率(单位: %)AwA2 CUB SUN aP&Y语义空间 4 7. 6 2 1. 1 38. 4 15. 6共享子空间50. 3 32. 340. 038 . 2视觉空间方法一56. 4 33. 2 49. 6 30. 2视觉空间方法二 4 2. 7 20. 4 32. 5 10. 9对比表2 和表3, 可以看出, 当标签集扩展到包含了所有已见类别和未见类别的标签集时, 分类的准确率会有所下降, 这是因为部分未见类别图像会被识别成与之相似的已见类别. AWA2 数据集在各空间中识别准确率下降最多, 其次是CUB数据集.因为AWA2 数据集为动物数据集, CUB为鸟类数据集, 有较多的相似类别, 所以会使得部分未见类别错误分类成相似的已见类别.4.4 参数分析为检验ZSCSR中各参数( 义1, 义2 和迭代次数z)对模型性能的影响, 本节在SUN数据集上进行对比实验. 实验中分别固定其它参数, 调节其中一个参数, 实验分别给出在不同空间中零样本识别的准确率. 以下实验结果中视觉空间的识别方法均为视觉空间方法一的结果.首先对参数〗: 对模型性能的影响进行对比实验, 设参数A2 =100, 迭代次数f=31. 实验结果如表4 所示, 可以看出 对三个空间中的识别效果的影响是不同的.A: 是调节视觉空间到共享子空间映射和重构过程的重要性参数.当Al 等于0 时, 相当于在视觉空间到共享子空间学习映射的过程中, 没有编码过程只有解码过程, 所以在学习共享子空间表示Z的过程中, 没有学习到视觉特征空间中类别原型的判别性信息.A: 等于1 时, 编码和解码过程重要性相同, 此时视觉空间获得了最高的识别准确率, 随着又: 的增大, 当 等于10 时, 语义空间获得了最高的识别准确率.当 等于100 时共享子空间获得了最高的识别准确率, 说明此时在共享子空间中很好地学习到了视觉特征空间中的判别性信息, 同时通过重构的过程减少了视觉特征空间到共享子空间映射过程中的信息损失.当—%时, 几乎忽略了重构过程, 使得在映射的过程中信息损失增大, 最终识别准确率降低.表4 不同A, 下在三个不同空间中的识别准确率(单位: %)Ai01101002 003004005006007008 0090010002000共孚子空间50. 753. 155. 061. 75 8. 958. 358. 759. 059. 259. 259. 55 9. 258. 751. 2视觉空间57. 163. 061. 857. 85 6. 857. 458. 459. 259. 759. 759. 960. 060. 257. 6语义空间45. 853. 554.850. 04 5. 643. 243. 142. 942. 943. 142. 842. 942. 840. 0然后对参数a2 对模型性能的影响进行对比实验, 设参数Ai=1, 迭代次数f=31, 实验结果如表5 所示. 可以看到, 共享子空间在义2 等于10 时,获得了最高的识别准确率. 在视觉空间和语义空间中, 当A2 等于100 时, 均获得了最高的识别准确率.A2 是调节语义空间到共享子空间映射的编码过程和重构的解码过程的重要性参数.A2 等于0时, 仅有重构过程, 无法学习到原语义空间中的类别信息. 随着A2 的增大, 编码过程的重要性逐渐增强, 能够通过编码过程学习语义空间的信息, 同时解码的重构过程减少了语义空间到共享子空间映射过程中的信息损失, 更好地学习了原语义空间的类别信息以及类别间关系信息.当A2 继续增大时, 重构过程的相对重要性降低, 直至被忽略, 使得原语义空间信息损失增加, 导致识别准确率下降.赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 41 92 期表5 不同A2 下三个不同空间中的识别准确率(单位: %)入20 1 10 100 2 00 300 400 500 600 700 8 00 900 1000 2000共享子空间21. 7 47.961.757. 5 53. 1 53.353.353. 1 52. 8 52. 4 52.352. 2 52. 2 51. 6视觉空间 15. 8 46. 0 61. 8 63 . 0 62. 4 62. 2 62. 2 62. 1 62. 1 62. 2 61. 9 61. 8 6 1. 9 61. 7语义空间 12. 4 39. 5 53. 5 54.8 5 3. 4 53. 1 52. 8 52. 5 52. 2 51. 9 52. 0 52. 0 52. 1 50. 8最后对迭代次数z 对模型性能的影响进行对比实验, 设参数= 1,A2= 100. 实验结果如表6 所示,可以看出共享子空间中, 识别准确率在迭代28 次左右时达到收敛; 在视觉空间中, 识别准确率在迭代1 〇 次左右时达到收敛; 在语义空间中, 识别准确率在迭代31 次左右时达到收敛.表6 不同迭代次数Z 下的识别准确率(单位: %)i 1 4 7 10 13 16 19 22 25 28 31 34共享子空间 35. 0 51. 2 53. 8 57. 6 58. 8 59. 3 60. 7 61. 1 61. 4 61. 7 61. 7 61. 7视觉空间 44. 9 62. 0 62. 3 63.0 63. 0 63. 0 63. 0 63. 0 62. 9 62. 9 63. 0 63. 0语义空间 28. 0 50. 5 51. 4 52. 1 52. 7 53. 0 53. 5 53. 9 54. 2 54. 5 54. 8 54. 85 总 结随着大规模图像数据集( 例如ImageNet ) 的出现, 图像分类研究取得了极大的进展. 然而, 新的图像类别和新的分类需求( 例如细粒度图像分类) 不断涌现. 获取足够的新类别的标注样本成本太大, 甚至在特定领域是非常困难的. 零样本图像分类具有非常重要的研究价值.针对零样本分类中知识迁移过程中信息损失和域偏移问题, 本文充分利用已见类别和未见类别信息, 学习语义空间的类别间关系, 同时将学习到的类别间关系迁移到视觉空间, 从而学习获得未见类别的视觉类别原型. 同时通过共享子空间的学习和重构的思想, 学习获得共享子空间, 在共享子空间中保存语义空间的关系信息和视觉空间中的判别性信息, 两个空间中的信息互补, 从而能够更好地表示各类别, 提升零样本识别效果.参 考 文 献[1]KodirovE,XiangTao,GongShaogang. Semant icautoencoderforzero shotlearning//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. Hawaii, USA,2017 :4 447 4456[2]LampertCI I , Nicki schI I , I larmelingS. Learningtodet ectunseenobjectcl assesbybet ween classat t ribut etransf er//Proceedingsoft heIEEEConf erenceonComput erVisionandPat t ernRecognition. Florida,USA,2009; 951 958[3]LampertCI I, NickischI I,I l armelingS. At t ribut ebasedclassificat ionforzero shotvisualobject categorizat ion. IEEETransactionsonPat t ernAnalysisandMachineIntelligence ^2014 ,3 6( 3): 453 4 65[4]Akat aZ,PerronninF?I l archaouiZ. Labelembeddi ngforat t ribut ebasedclassificat ion//ProceedingsoftheIEEEConferenceonComput erVisio nandPat ternRecognit ion.Port land, USA,2013: 8 19 826[5]Akat aZ, ReedS, Wal t erD, etal. Eval uationofoutputembeddingsforfinegrainedimageclassif icat ion//Proceedingsof theIEEEConferenceonComputerVisionandPat ternRecognit ion. Boston, USA,2015: 292 7 2936[6]MorgadoP?VasconcelosN. Semanti cal lyconsist entregularizationf orzero shotrecognit ion//ProceedingsoftheIEEEConferenceonComput erVisionandPat ternRecognit ion.Hawaii, USA, 2017; 20 37 2046[7]ChenLong,ZhangI I anwang?XiaoJun,et al. Zero shotvi sualrecognit ionusingsemanticspreservingadversarialembeddingnet works//Proceedingsoft heIEEEConf erenceonComputerVisionandPat t ernRecognit ion. Ut ah, USA,20 18: 1043 10 52[8]SongJie,ShenChengchao , YangYezhou, et al. Transductiveunbiasedembeddingf orzero shotlearning//ProceedingsoftheIEEEConferenceonComput erVisionandPat ternRecognit ion. Ut ah, USA,2018: 1024 1033[9]Akat aZ,PerronninF,I l archaouiZ, SchmidC. Labelembeddingforimageclassification. IEEETransactionsonPat ternAnalysisandMachineInt el ligence, 2016, 38(7):1425 1438[10]AnnadaniY, BiswasS. Preservingsemanticrelationsforzeroshot learni ng//Proceedingsoft heIEEEConf erenceonComput erVisionandPat ternRecognition. Ut ah, USA,20 18: 7603 7612[11]LazaridouA, DinuG,BaroniM. I l ubnessandpollut ion:Delvi ngintocross spacemappingforzero shotlearning//ProceedingsoftheMeet ingof theAssociationforComput ationalLinguist ics&-theInt ernat ionalJointConferenceonNaturalLanguageProcessing. Beijing? China? 2015: 270280[12]DinuG, LazaridouA, BaroniM. I mprovingzeroshot learning420 计 算机 学 报 2021年bymitigati ngthehubnessproblem//ProceedingsoftheInternationalConferenceonLearningRepresentations. SanDiego,USA,2015 : 10-20[13]ShigetoY,SuzukiI, I laraK,etal. Ridgeregression,hubness?andzero-shot learning//ProceedingsoftheEuropeanConferenceonMachineLearni ngandPri nciplesandPracticeofKnowledge DiscoveryinDatabases.Porto,Portugal,2015 :135-151[14]LiYanan,WangDonghui ,I IuI luanhang,etal. Zero-shotrecogni tionusingdualvisualsemanticmappingpaths//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecogni tion. Hawaii,USA,20 17:5207-5215[15]JiangI luajie ,WangRuipi ng, ShanShiguang,ChenXilin.Learningclassprototypesviastructurealignmentforzero-shotrecogni tion//ProceedingsoftheEuropeanConferenceonComputerVisi on. Munich,Germany,2018 :12 1-138[16]FuYanwei,I lospedalesTM,XiangTao, GongShaogang.Transductivemulti-viewzero-shotl earning. PatternAnalysisandMachineIntell igence,20 15,37(11) ;23 32-2345[17]JiangI luajie,WangRuiping,ShanShiguang,etal.Learningdiscriminativelatentattributesforzero-shotclassifi cation//ProceedingsoftheInternationalConferenceonComputerVision. Venice,Italy,2017 :4233-4242[18]XianYongqin,AkataZ,SharmaG,etal .Latent embeddingsforzero-shotclassification//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition. LasVegas?USA,2016 :69-77[19]FuYanwei ,I lospedalesTM,Xiang Tao,etal.Transductivemulti-viewembeddingforzero-shotrecognitionandannotation//ProceedingsoftheEuropeanConferenceonComputerVision.Zurich,Switzerland,2014 :584-599[20]XianYongqin,LampertCI I,SchieleB,AkataZ.Zero-shotlearning—Acomprehensiveevaluationofthegood,thebadandtheugly. IEEETransactionsonPatternAnalysisandMachineIntell igence,2019,40(9): 2251-22 65[2 1]WahC,BransonS,WelinderP,etal .TheCaltech-UCSDBirds-200-2011dataset.Pasadena,USA:CaliforniaInstituteofTechnologyComputation&NeuralSystems?TechnicalReportCNS-TR-2011-001 ,2011[22]FarhadiA, EndresI,I loiemD,ForsythD.Describingobjectsbytheirattributes//Proceedi ngsoftheIEEEConferenceonComputerVi sionandPatternRecognition. Fl orida,USA,2009: 1778-1785[23]PattersonG,XuChen,SuHang,Hays J. TheSUNattributedatabase :Beyondcategori esfordeepersceneunderstanding.InternationalJournalofComputerVision,2014 , 108 (1-2) :59-81[24]Romera-ParedesB,TorrPI IS. Anembarrassinglysimpleapproachtozero-shotlearning//Proceedingsofthe32ndInternationalConferenceonMachineLearning.Lil le, France,2015 : 2152-21 61[25]Changpi nyoS,ChaoWei-Lun,ShaFei. Predictingvisualexemplarsofunseenclassesforzero-shotlearning//ProceedingsoftheInternationalConferenceonComputerVision. Venice,Italy,2017 : 3496-3505[2 6]Changpi nyoS, ChaoWei-Lun, GongBoqi ng, ShaFei.Synthesizedcl assifiersforzero-shotlearning/ /ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecogniti on. LasVegas,USA,2016 :5327-5336ZHAOPeng,Ph.D.,associateprofessor,M.S.supervi sor.Herresearchinterestsincl udemachinel earningandi mageunderstanding.WANGChun-Yan,M.S.candidate.Herresearchinterestsi ncl udemachi nel earningandi mageclassifi cation.ZHANGSi-Ying,M. S.candidate.Herresearchinterestsincludemachinelearningandi mageclassification.LIUZheng-Yi ,Ph.D. , associateprofessor ,M.S.supervisor.Herresearchinterestsincludemachinelearningandcomputervision.BackgroundImagecl assificationisaveryimportanttaskincomputervisionandimageunderstanding.Traditionali mageclassifiercanonlyclassifythesampl esfromtheseencategorieswhichhaveappearedinthetrainingdataset.Butinreal-worldappl ications,newcategoriescontinuetoemerge.Itisverytime-consumi ngtocol l ectenoughl abel edsamplesofthenewcategoryandretraintheclassifier.Asweknow,humansareverygoodatrecognizingobjectswithoutseeinganyvisualsampl e.Inspiredbytheaboveabilityofhuman,zero-shotcl assificationemergesandhasbecomeaveryimportanttopicinrecentyears.Zero-shotclassificationhasshowntobeofutil ityinvariousappl ications , suchasfacerecognition,actionrecognition,activi tyrecognition,objectrecogni tion,eventdetection,and赵 鹏等:一种基于融合重构的子空间学习的零样本图像分类方法 4212 期soon. Zero shotclassificationaimstoutilizethesemanticprototypesofal lcategoriesandthevisualfeatureofthedatafromthese encategori estocl assi fythedatafromtheunseencategories.Theseencategoriesrefertothecategorieswithsufficientlabeleddata. Theunseencategoriesrefertothenewcategori eswithoutlabel eddata.Thesemanticprototypemeanstheembeddedlabelrepresentationi nasemanticspace.Suchasemanticspacecanbeasemanti cattributespaceorasemanti cwordvectorspace. Zero shotclassifi cationcanbetakenasaspecialcaseoftransferl earning, wheretheseencategori esarethesourcedomai ncategoriesandtheunseencategori esarethetargetdomai ncategories.Thekeyprobl emsinzero shotclassificationarewhataretherelationshipbetweentheseencategoriesandtheunseencategori esandhowtoclassifytheunseendataaccurately. Mostexisti ngzeroshotclassificationmethodslearnamappingfunctionfromthevi sualspacetothesemanticembeddingspaceonl yusingthevisualfeaturesofthelabel edtrainingdatafromtheseencategories. Therearetwomai nprobl emsinthezeroshotclassifi cation: domai nshiftandi nformationl oss.Inthispaper , wepresentanovelzero shotcl assificationapproachbasedonsubspacelearni ngandreconstructionforimageclassifi cation( Zero ShotCl assi ficationbasedonSubspacel earningandReconstruction, ZSCSR) , whichrelievestheproblemsofdomainshiftandinformationlossinthetransferl earningofzero shotclassification.ThispaperissupportedbytheNational NaturalScienceFoundationofChina( GrantNo.61 602004) ,theNaturalScienceFoundationoftheEducationDepartmentofAnhuiProvince( GrantNos.KJ2018A0013 , KJ201 7A01 1) , theNaturalScienceFoundationofAnhuiProvi nce(GrantNos.1908085 MF188, 1 908085MF182), andtheKeyResearchandDevelopmentProgramofAnhuiProvince(GrantNo. 1804d08020309 ).

[返回]
上一篇:一种支持高并发的多人链下支付方案
下一篇:基于双通道R-FCN的图像篡改检测模型