欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
基于注意力感知和语义感知的RGB_D室内图像语义分割算法_段立娟
来源:一起赢论文网     日期:2021-12-23     浏览数:840     【 字体:

 第44 第2期2021 年2 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No.2Feb. 2021基于注意力感知和语义感知的RGB-D室内图像语义分割算法段立娟 孙启超 乔元华5 )陈军成”崔国勤6)1 :)(北京工业大学信息学部 北京 100124 )2)( 可信计算北京市重点实验室 北京 100124)3 )(信息安全等级保护关键技术国家工程实验室 北京10 0124)4)(浙江省北大信息技术髙等研究院 杭州 31120 0)5)(北京工业大学应用数理学院 北京 100124)6 )(北京中星微电子有限公司数字多媒体芯片技术国家重点实验室 北京 100 191)摘 要 近年来, 全卷积神经网络有效提升了语义分割任务的准确率. 然而, 由于室内环境的复杂性, 室内场景语义分割仍然是一个具有挑战性的问题. 随着深度传感器的出现, 人们开始考虑利用深度信息提升语义分割效果. 以往的研究大多简单地使用等权值的拼接或求和操作来融合RGB特征和深度特征, 未能充分利用RGB特征与深度特征之间的互补信息.本文提出一种基于注意力感知和语义感知的网络模型ASNet( 八ttentionawareandSemantic awareNetwork). 通过引人注意力感知多模态融合模块和语义感知多模态融合模块, 有效地融合多层次的RGB特征和深度特征.其中, 在注意力感知多模态融合模块中, 本文设计了一种跨模态注意力机制, RGB特征和深度特征利用互补信息相互指导和优化, 从而提取富含空间位置信息的特征表示.另外, 语义感知多模态融合模块通过整合语义相关的RGB特征通道和深度特征通道, 建模多模态特征之间的语义依赖关系, 提取更精确的语义特征表示. 本文将这两个多模态融合模块整合到一个带有跳跃连接的双分支编码解码网络模型中. 同时, 网络在训练时采用深层监督策略, 在多个解码层上进行监督学习. 在公开数据集上的实验结果表明, 本文算法优于现有的RGB D图像语义分割算法, 在平均精度和平均交并比上分别比近期算法提高了1.9%和1.2%.关键词 RGB D语义分割; 卷积神经网络; 多模态融合; 注意力模型; 深度学习中图法分类号TP3 91DOI号1 0. 1 189 7/SP.J. 101 6. 2021 . 00275Attention-AwareandSemantic-AwareNetworkforRGB-DIndoorSemanticSegmentationDUANLiJuan1) ,2) ,3)SUNQi Chao1) ,2) ,4)QIAOYuan Hua5)CHENJunCheng1)CUIGu〇 Qi n6){FacultyofInformati onTechnology^ BeijingUniversi tyofTechnology? Beijing100124)2) (BeijingKeyLaboratoryofTrust edComputing? Beiji ng100124)3 ){ Nat ionalEngineeri ngLaboratoryforKeyTechnologi esofInformat ionSecurityLevel ProL ecL ion?Beiji ng100 124){AdvancedInsLi LuLeofInformat ionTechnology^ PekingUniversity? Hangzhou3 11200)5 )( Col l ege ofAppl ied. Sciences? BeijingUniversityofTechnology^Beijing100 124)6){ Stat eKeyLaboratoryofDigi talMuUi medi aChipTechnology?Vi mi croCorporation?Beijing100191)AbstractSemanti csegmentati oni saresearchhotspoti nthefi el dofcomputervi si on. Itreferstoassigningal lpi xelsi ntodi fferentsemanticclasses.Asafundamentalprobleminsceneunderstandi ng,semanticsegmentati oniswi del yusedinvari ousi ntel ligenttasks.Inrecentyears,with收稿日期:20 19 06 30; 在线发布日期:2020 02 13.本课题得到国家重点研发计划(2017YFC08 03705) 、 北京市自然基金委市教委联合资助项目( KZ201910005008)、 杭州市重大科技创新项目( 20 1820 14B09) 资助. 段立娟, 博士, 教授, 博士生导师, 中国计算机学会( CCF) 髙级会员, 主要研究领域为图像处理和机器学习. Emai l: ljduan@bjut . edu.cn. 孙启超, 硕士研究生, 主要研究方向为图像处理和深度学习.乔元华, 博士, 教授, 博士生导师, 主要研究领域为机器学习. 陈军成( 通信作者) , 博士, 讲师, 主要研究方向为信号处理与大数据分析.Email :juncheng@bjut. edu. cn. 崔国勤, 硕士, 研究员, 主要研究领域为模式识别和智能视频分析.276 计 算机 学 报 2021年thesuccessofconvol utionalneuralnetwork( CNN)i nmanycomputervisionapplicati ons,ful l yconvol uti onalnetworks(FCN)haveshowngreatpotenti alonRGBsemanti csegmentationtask.However,semanticsegmentationisstil l achal l engi ngtaskduetothecompl exityofscenetypes,severeobjectoccl usionsandvaryi ngi l l uminations. Inrecentyears,wi ththeavai l abi li tyofconsumerRGB DsensorssuchasReal Sense3DCameraandMi crosoftKi nect,wecancapturebothRGBi mageanddepthi nformati onatthesameti me.Depthinformati oncandescribe3Dgeometri ci nformati onwhi chmightbemi ssedi nRGB onlyimages. Itcansignifi cantl yreduceclassi ficati onerrorsandi mprovetheaccuracyofsemanticsegmentati on.Inordertomakeeffecti veuseofRGBi nformati onanddepthi nformation,itiscrucialtofindanefficientmul ti modali nformati onfusi onmethod. Accordi ngtodifferentfusi onperi ods,thecurrentRGB Dfeaturefusionmethodscanbedi vi dedi ntothreetypes:earlyfusi on,l atefusi onandmi ddl ef usi on.However,mostofprevi ousstudiesfailtomakeeffecti veuseofcompl ementaryi nformati onbetweenRGBinformati onanddepthi nformati on.Theysi mpl yfuseRGBfeaturesanddepthfeatureswi thequal weightconcatenati ngorsummi ng,whichfai l edtoextractcompl ementaryi nformati onbetweentwomodal sandwil l suppressedthemodalityspeci fici nformation. Inadditi on,semanti ci nformati oni nhighl evel featuresbetweendifferentmodal si snottakeni ntoaccount,whichisveryimportantforthefi ne grai nedsemanticsegmentati ontask.Tosol vetheaboveprobl ems,i nthispaper,wepresentanovelAttenti onawareandSemantic awareMul ti modalFusi onNetwork( ASNet)forRGB Dsemanticsegmentati on. Ournetworkisabl etoeffecti vel yfusemul ti l evelRGB Dfeaturesbyi ncl udi ngAttenti onawareMul ti modalFusi onbl ocks( AMF)andSemantic awareMul ti modalFusi onbl ocks( SMF). Speci fical l y,inAttenti onawareMul timodalFusi onbl ocks,across modalattenti onmechanismisdesignedtomakeRGBfeaturesanddepthfeaturesgui deandopti mizeeachotherthroughtheircomplementarycharacteristicsi nordertoobtainthefeaturerepresentationwithrichspatiallocati oninformati on.Inadditi on,SemanticawareMul ti modalFusi onbl ocksmodelthesemanti ci nterdependenci esbetweenmul ti modalfeaturesbyi ntegrati ngsemanticassociatedfeaturechannelsamongtheRGBanddepthfeaturesandextractmoreprecisesemanticfeaturerepresentation. Thetwobl ocksarei ntegratedi ntoatwobranchencoder decoderarchitecture,whichcanrestorei mageresol utiongradual l ybyusi ngconsecuti veupsampl i ngoperationandcombi nel owl evelfeaturesandhighl evelfeat uresthroughskipconnecti onstoachievehigh resol uti onpredicti on.Inordertoopti mi zethetrai ni ngprocess,weusi ngdeepl ysupervisedl earningovermul til eveldecodi ngfeatures. Ournetworkisabl etoeffecti velylearnthecomplementarycharacteristicsoftwomodal i tiesandmodelsthesemanticcontextinterdependenciesbetweenRGBfeaturesanddepthfeatures.Experi mentalresult swithtwochal l engi ngpubl i cRGB Di ndoorsemanti csegmentationdatasets,i .e. ,SUNRGB DandNYUDepthv2 ,showthatournetworkoutperformsexisti ngRGB Dsemanticsegmentati onmethodsandi mprovesthesegmentati onperformanceby1.9%and1.2%formeanaccuracyandmeanIoUrespectivel y.KeywordsRGB Dsemanticsegmentati on;convol utionalneuralnetwork;mul ti modal f usi on;attenti onmodel;deepl earni ng觉领域的研究热点之一, 其目的是为图像中的每个1弓I言像素分配一个预先定义的语义类别标签[l]. 作为场景理解的基础, 语义分割被广泛应用于各种智能任语义分割( semanticsegmentati on) 是计算机视务, 比如自动驾驶、机器人感知和无人机导航等.等: 基響法_: #緯舛和儀黑感如的S6SrD3j>i庫偉霉龙分餐筹_ 27 7 2: 期近年来* 深度学习在计算机视觉领域的应用越来越广:l£i? 暴親神餐网翁^3'(C輝y〇luttenai?ewalHftwork, 筒称ONn>在礙像鎖、 目标检测和谱文分割等计算机视觉任务?中都取得了不错的效祟[3].8014学,: Long等人wH出时全___络( Ful lyCflnvol uti onalNetrol'k》 简称FGN) 在谮叉费割任务上显示出巨大的潜力. 此后, 很多研究人员基于该方法提坶了改进的语义分割模11? 然而.由于室内环境的复杂性, 室内场景下的?义分割仍然是一个具會挑战性的问顧, 比如窠内光: 照的: 变化和物体间的遮麵V容易造成大量像素被错误分类_, 彰晌最?终的语夏分割效果. 如獨1 所:示< 观察RGB羅像,虛线内的区域受光照影响。黑色的椅子与背景融为一体, 难以. 区分他们的类别?近年来, 随着探度传感器的普及〈例如IntelReal Sense3DGameira、AsusXtici nPRQLIVE和MiCTomftKi nfcorf5 ]: >, 人们对谨像的研貪已经不再局限于彩色图像, 并且已经探入到对含有深度谓息的RGB Depth( RGB-D》 图像的研究*RGB特征能够描述物体激色和纹理之类的外观偉息, 而深虞特征能够描述物体的三维几何翁息, 这种几何倩息報难在RGB特怔中获取.3 并且不=会随光照的变化而改变. 如图1 第2列所示, 将探度'信息引人语义分割任务, 作为颜色信息的补充, 更有利于截分图像中易混淆的E域, 从而提升语义分割精度? 为了充分利用颜色會息和深度儐息, 寻我一种有效的多模态特怔融合方法至关重翼I近年来, 很多研究将颜色信息和深度信息结合起来甩于锫义分割任务.一些方法[「7]简单地将RGB特征和深度特征拼接起来, 作为CNN的M通道输人, 有效提蠤了语义分割的准确性? 这些方法通常在特征输入网络之前截合RGB債違和深度鲁息,属于前期融合方法?Wang等人 进一步将深度笸息编码为HHA( 水平视差, 对地裔度f 表面法向量的角度)特征, 然后将颜色特征和HHA释征输人到两个并联的CRN中, 分别预测出两个塔义分割概率裡、 并在最后一爵将它们M合作为鑲終的分割结皋. Cheng 等人?在解码器最:后一层:使用H苌融合单元学习RGB特舞和深度特征对于语义分割任务的重要程度, 然后利用德合特征预测最终的分割概率S, 这些方法通常在网络最踣一层进行特征融合s 扁于后期融合方法, 此外,一些算法M使用双分支CNN作为编码器, 分别从RGBW象和探度圈像中提取特征| 并将多个阶段的RGB特征与深度特征融合, 然后对融会特征解码上采样得到最终分割、结果., 属于多级融合方法,RGB图像深度图像语义标签_1 室:内驗T的语义分劊胁上述方法虽然在RGB-D语义分割任务中取得了不错的效屎, 但仍存在一些不足* 貧先, 以往研究大多将RGB特征和探度特征筒单地通过等.权值拼接或求和的方式进行14合[6^1 3]. 未能有效地挖掘并利用RGB特征与深度特征在空间上的互补信息,并且这种简傘驗融佥方法还可龍会抑制模__"部的特有倩息. 另一方面, 卷积神经网络裔层特征中的每个通道都会编码某个特: 定类别的语义信息s 现有方法均末:考虑到不同摟态高唐特征之间语义詹息的湘关性, . 而语. 义信息对于捂义分割这种细粒度分类任务来说很重要.针对上述两个问题, 本文提出一种基于注窵力感知和语义感知的RGB-D、图像语义分割方法, 图2为本文网鱗_爾的整体: 结构, M络叢体上; :慕^个猶码-解码架构, 其中包含两个创新性的多模态特征融#截块: 聲意力感知多傷态融#模块和语义感知多模态徽合模块? 其中灌倉力感知多模态融合模块: 充分利用两种模态特征在空间上的差: 异, 分别计算两种樓态的空M注意力掩模, 多模态特征通过炷篇力掩瘼相互指导和优化, 从而堤取富貧空间位餐瘴息的特征? 语. 义感知多模态融合糢块利用两种模态特征之间语义信息的相关性. 采用_局部策略建模多模态费征之间的长距离语义依赖关系, 通过融合语义相关的多模。 态#征逋_道增强特征的语义表示能力. 本文将这两个融合填块整合到一个带有跳跃连接的编码-解码结构中,其冲编码器由两个相同的CNN分支构成, 分别用来提取RGB特征和探度特征. 根据CNN提取的特?征尺寸可以将其分为五个阶段, 其中, 前四个阶段的特征分别送人四个注意力感知多黎态融含模块, 最后一个阶段的高层次待征送入语义感知多模态融合模块* 然后将其输出送人解码器, 使用连续的上采祥操作恢复图"像分_象通过上述结构设计, 本文网络由浅入深地提取并融合多层次的RGB特征和深度#征, 并且充分利用多模278 计 算机 学 报 2021年态特征的空间差异和语义依赖关系, 有效促进多模态特征的协同交互, 从而提高最终的语义分割效果.本文的主要贡献可以概括如下:(1) 提出了一种端到端的基于注意力感知和语义感知的多模态融合网络ASNet , 用来解决RGB D室内场景语义分割问题.(2) 提出两种多模态特征融合方法. 其中, 在注意力感知多模态融合模块中, 本文设计出一种跨模态注意力机制, RGB特征和深度特征利用注意力掩模协同优化, 提取富含空间细节信息的特征. 另一方面, 语义感知多模态融合模块将非局部策略整合到多模态卷积神经网络中, 融合语义相关的多模态特征通道, 编码更具判别性的语义信息.(3) 实验证明本文提出的RGB D语义分割网络能够准确地处理复杂场景下的室内图像, 在公共的RGB D语义分割数据集SUNRGB D和NYUDepthv2 上取得了优于其他方法的语义分割结果.2 相关工作2. 1 基于卷积神经网络的单模态语义分割近年来, 卷积神经网络被广泛应用于图像的语义分割任务. Long等人于2014 年[ 4]提出了一种全卷积网络, 通过把分类网络中的全连接层改为卷积层, 创新性地将用于图像分类的CNN扩展到语义分割任务. 然而, CNN也存在一定的局限性, 经过网络中的卷积和池化操作, 原始图像的尺寸会大大降低, 而低分辨率的特征表示会导致图像细节信息的丢失, 从而降低分割准确度. 为了改善上述问题,Zhao等人[ 1 4]设计了一个金字塔池化模块, 通过整合不同区域的上下文信息对全局上下文信息进行建模. Chen等人[1 5]设计出一种空洞卷积, 在不损失分辨率和不增加计算量的前提下指数级地扩大网络的感受野. 〇6叩1 &1312[ 1 6 ]算法根据空间金字塔的思想,提出空洞空间金字塔池化(AtrousSpatialPyrami dPool i ng, 简称ASPP) , 使用多个不同采样率的空洞卷积来整合多尺度特征. 随后的〇6叩1^13 ¥3[ 1 7 ]进一步改进了ASPP模块, 以级联和并行的方式将4 个不同采样率的空洞卷积组合在一起, 编码不同尺度的上下文信息. U等人[ 1 8 ]提出一种两路并行网络, 分别提取图像轮廓特征和多尺度细节特征, 最后融合两类特征改善分割精度. 另外一些研究#2 2]则使用编码解码结构, 在编码过程中进行下采样操作,逐步减少特征图的分辨率, 在解码过程中连续上采样逐步恢复图像尺寸, 最终实现高分辨率语义分割.2.2 基于多模态融合的RGB-D图像语义分割随着深度传感器的广泛应用, 我们能够更方便的获取场景的深度信息, 人们对图像的研究不再局限于RGB图像, 对于RGB D图像的研究也取得了不错的进展. 有效的RGB特征与深度特征融合方法可以提高语义分割的精度. 目前的RGB D特征融合方法根据融合时期的不同可分为三类: 前期融合、后期融合和多级融合. Coupne 等人[ 7 ]提出了一种前期融合方法, 简单地将图像的RGB通道和深度通道拼接起来作为卷积神经网络的四通道输人. Wang等人[ 8 ]将深度信息编码为HHA特征, 并将RGB特征和HHA特征分别输人到两个CNN中进行预测, 在网络的最后阶段进行融合, 这种方法属于后期融合. Haarbas 等人[ 2 3 ]提出了一种编码解码网络,使用双分支CNN编码器分别从RGB图像和深度图像中提取特征, 并将不同层次的深度特征选择性的融合到相应的RGB特征中去, 这种方法为多级融合. 卷积神经网络提取的低层特征编码更多的空间位置信息, 而高层特征编码更多的类别语义信息, 网络提取的每一层特征都有利于最终的预测, 因此多级融合方法能更有效地利用中间层特征的信息.上述研究大多简单使用等权的拼接或求和操作来融合RGB特征和深度特征, 没有考虑到不同模态之间互补信息的有效利用. 近年来,一些研究提出了更有效的RGB D特征融合策略. U等人[ 2 4]使用级联的垂直和水平LSTMC LongShortTermMem〇ry)[ 2 5 ]层多方向扫描特征图, 从RGB特征和深度特征中分别提取上下文信息并融合. Hochmt er等人[ 2 6 ]提出了一种特征转换网络, 通过特征转换模块同时提取两种模态之间的共有特征和特有特征.Lee 等人[ 1 °]将Refi neNet[ 2 2 ]扩展到RGB D语义分割任务, 在一个深层网络中重复使用残差模块, 提取和融合多层次的RGB D特征, 其将残差模块进行重复叠加, 未考虑到两种模态之间互补信息的交互.一些研究%2 8 ]使用超像素方法建模图像的上下文结构信息, 并将其引人神经网络, 然后利用深度信息进行多分支预测, 但是超像素的计算需要消耗大量时间. Cheng等人[ 9 ]设计了一种后期融合方法, 在网络的最后一层使用门控融合单元, 通过反向传播自适应学习RGB特征和深度特征对于最终分割任务的贡献程度, 但其仅融合了最后一层特征, 未充分利用卷积网络提取的中间层特征.等: 基響法_: #緯舛和儀黑感如的S6SrD3j>i庫偉霉龙分餐筹_ 27 9 2撰2. 3注意力机制近年来, 注意力机制被广泛应用于计算机视觉等领域?Wang等:A?]在图像分类模型中使用空闾注龛力, 通过卷积神M网络的反向传播..自适应学习空甸注意力掩模, 指导特怔关在?像的重讓区域*显箸提升了图像分类任务的准确率HU等人[3°]提出一种通道注意力机制, 通过神经网: : 络自适庞学习每个特征逋: 道的重要截度, W〇〇等人[ 3 1]将: 空间注意力和通道法鮝力以级联和并行的方式整合, 进一步提升特征提取能九Wang等人[ 扣受非局部均值 和自注意力的启. 发, 提。出了一种非局部模块. 通过计算:相似矩阵捕莸特■征图申'像素点同的长距离依赖关系. FU等人 将该方法扩展到语义分割任务, 在全卷积网络的顶层接人两个并行模块, 存空间维度和通道维度编码特怔图时上下文信息? 现有的注糞力机制在单模态特征提取中嚴示出巨太潜力, 为了有效利用多模态数据的互补信息,本文提壯一种跨模态注意力机制, 分别计箅RGB特征和深度特征的空间注意力掩模. 多模态特征通过注意力掩模协同优化, 学习富含空间位耸倩息的#征?另外, 聋非局部思想的启发, 本文将非=局部操作整合到多模态融合卷积神经网络中, 建模多模态特怔之间的长距离语义依赖. 关系?3 本文方法本节雷先介绍本文语义分割网络ASNt的整体结构, 然e分别详细阐述所设计的两个多模态特征韻合隹块: 澤意力感知多模态融合隹块和语'义感知多模态融合模块r最菽介销模型训练所使用的损失函数.3. 1 网络模型的整体结构圏2雇示了网鉻摸型的整体结构. 本'文: 网齡整体为编码-解码架构,同时使用跳跃连接传递编码层和解码M之间的i償息? 其中r编码器为一个双分支全卷积网络. 分别甩来提取RGB特征和深度特征. 本文采用两个预训练的ResNet[3 5]作为编码器的两个分支, 并且去掉Resist 最病的全黯平均池化篇和全连接层? 另一方面, 解码器连续对特征进行上采样, 遂步恢篡图像分辨率.RGB图像下采样层 上采样层篛勰鼷语?I模态 跳跃连接la 靈于建=蠢金論細、和齋X感_的KGB-P舊复分割网絡穩滅ASNet 齒整体結輪本文网络模型弓] 入了两个多模态特征融合模块:注意力感知多傷态融参獲抉和_义感知多繼态論,摸抉. 具体来说, 将ResNet 编码器的前四个多级RGBf奢鋒( Res「r I?R機,r4, ) 和深處棒征(Re& ̄dlRfis-■祖) 输人注意力感知多模态敵合模块, 利用RGB特征和探度特征中的互补信息协同优化, 从而学习到富含空间位置信息的特征表:示, 另外, 将RessN et 编條器的最后一层货进特征( Res-tf) 和深度特怔(Res-d5) 输人到语义感知多模态融合模块,用来整合RGB特征和深度特征之间的语义相关通道? 然后4等语义感知多模态融合模块的输出特征输人到解码端, 通过6个连续的上采样层遂步恢复图像分謙攀, 靠中每个上靡样崖: 隹,爾个3',3着积层和一个 3.转:置卷积晨> 每个卷积层后都带有批标准化和ReLU撒活操作. 每个上.采样层将#征尺寸增大为原来的2?倍逋道个数减少为原来的一來AMF4280 计導机攀报: _1苹此外,注意力多模态融合模块输出的多级编码特征通过跳跃连接与具有相詞尺寸的解码特征融合, 举文使用对应位置元素求和拇作来实现跳跃连接. 为了优化训练过程f 本文采:用深昆监督策略训维网络,以减轻梯度'撒失丨句題. 具体来说, 本文网路在苴个不苘层次的解码特征上进行监督学习, 对五个上采样雇的输出特征分别使用1/1 卷积操怍4等特征逋31个数减少为釕3并使用Softmax函数进行像素级分类-解码器最后一g的输出为网络最幾的语义分割结舉?接下来两小节将分别对本网絡模型中盼注蠶力感知多律态融食模块和语叉感知多撰态融會犧块迸行律细介缉.3. 2 注意力感知多模态融合模块像上不同美别的相邻物体具有相似的外观时, 算法很难区分它们的类别. 此外r受光鹿影响? 物体的边界轮廓易和背景融为一体,箅法难以准确识别物体的边 E别于颜色偉息, 捧度償息不会随光照的变化而改变1因此可以根据深度. 值对它们进行?分.卷积神绎网络提取的浅层特征可以编码菌像中物体的?边缘翁i償息、 画3 麗示了乘: SResSst码器第2层提取的If息. 其中, 第1 列为RGB图像编码分支(Rtor2)提取的信息! 第2列为深度图像编码分支( Res d2) 提取的信息, 观察第(2)行和第00行■■受环境光照的彰响? 由RGB圈像提取的特征未能编码出西像中阴蝽处椅子的轮、暉情息, 而深. 度待征未受光照影晌, 准确编码出了椅子整体的轮廓信息. 第( 4) 行展示了由本文注黧力感知多模态融合模抉计算出的两个模态的注:意力掩模., 可以看出sRGB特征倾南于关注图像中顏色和纹霉发生变化的区域, 而振度特征则倾向予关fc探度値发生变化的区域, 两种■态特征的编码信息互为补充,Depth庫gRG?臀_、馨: 縻特征邾讓费■特,6|可观化对比考虑以上问题, 本立撻出一种跨模态往意力机制, 同时计算两种樓态特征的空间注意力掩樓,RGB特怔和深度特怔通过注意力掩模相互指导和优化?图2第(5> 行展示了餘过此融合填块提取的融合特征, 可以看出H善到的融合'特征不仅关柱到颜色和纹理发生变化的区域, W时关法到深度值发生变化的E域, 帮助网.络吏精确地判别物体的边界轮廓. 下面将对该模块进行详细介绍.注拿力感知多模态融合模块( AMF) 的结构如图4所示s_中JTf?£ R1—^'和尤f[w分别c 乂 h乂w图4 注意力感知多模态融合模块段立娟等: 基于注意力感知和语义感知的RGB D室内图像语义分割算法 2812 期表示来自ResNet 编码器第z 个阶段的RGB特征和深度特征, 特征的通道个数和尺寸分别为c 和/i X将同一阶段的RGB特征和深度特征作为注意力感知多模态融合模块的输人. 首先分别对两个特征图进行第一组非线性映射操作:Xff=ReLU( BN(/3 X3(XfGB) )(1)XDepth =ReLU( BN(/3 x3(xfeplh) )(2)其中,/3 X3为标准卷积操作, 卷积核大小为3X3 , 采样步长为1, 在卷积操作前对特征图外侧进行尺度为1的全〇 填充, 卷积操作不改变特征图的尺寸和通道个数, BN为批标准化操作, ReLU为线性整流激活函数, Xff和 为经过第一组非线性映射提取的特征, 接下来对其进行第二组非线性映射操作:X=B=BN(/3 X3(Xff) )(3)〇BN (/3  x3(#广) )⑷其中,/3 X3为标准卷积操作, 卷积核大小为3X3 , 采样步长为1, 同样对特征图进行尺度为1 的全〇 填充, 不改变特征图尺寸和通道个数, BN为批标准化操作. 与第一组非线性映射操作不同, 第二组非线性映射操作不使用ReLU激活函数.然后, 对 和Xge2plh使用Sigmoi d激活函数,将所有的特征值归一化到〇 和1 之间, 得到跨模态注意力掩模MfeB和M?pl h:MfGB=——y ^(5)l+exp( X,?)'l+exp( X°rh>其中, MfGBe为颜色注意力掩模, e为深度注意力掩模.使用注意力掩模让RGB特征和深度特征相互指导. 其中, 深度注意力掩模 来指导RGB特征, 颜色注意力掩模MTB用来指导深度特征:[/ fGB=B? Mfplh ?XfGB(7)[/ 产lh=X严1h?MfGB?X严1h(8)其中, C/feB为更新后的RGB特征, 为更新后深度特征, ?表示对应位置元素相乘, 十表示对应位置元素相加. 因此, 最终更新后的特征相当于原始特征的恒等残差映射( resi duali denti tymappi ng)[3 5],MfeB和M?plh中的元素取值范围为0 到1 之间,当某个位置的权值趋向于〇 时, 更新后的特征G在该位置的取值近似等同于原始特征X,,当权值趋向于1 时, 特征G在该位置的取值将会增加, 权值越大意味着该位置将会受到更多的关注.因此, 经过该融合模块, RGB特征和深度特征自适应协同优化, 同时保留了原始模态的特有信息, 有利于网络学习更鲁棒的特征表亦.进一步地, 注意力多模态融合模块的输出特征昃e通过以下计算获得:F,=/l xl(concat([/fGB, U^eplh) )( 9)其中, concat 表示在通道维度的拼接操作,/l xl表示一组非线性映射操作, 包括采样步长为1 的1 X1 卷积、批标准化和ReLU激活函数, 经过此操作, 特征的尺寸不变, 通道个数减少为原来的一半.3. 3 语义感知多模态融合模块卷积神经网络高层特征的每个通道都编码特定类别的语义信息. 为了充分利用多模态特征中的语义相关信息, 本文提出语义感知多模态融合模块( SMF) , 受现有文献[32] 中非局部思想的启发, 将非局部策略扩展到多模态特征融合任务, 通过整合语义相关的RGB特征通道和深度特征通道, 使得编码相同语义信息的特征互相增强.基于非局部思想的非局部均值滤波算法[ 33 ]被成功用于图像去噪任务, 可将其看作局部滤波方法的扩展, 局部滤波方法仅考虑局部搜索空间位置之间的关系, 非局部滤波方法则通过计算目标位置与全局搜索空间位置响应的相关程度, 更新目标位置的响应为所有位置响应的加权和, 从而建模全局响应间的长距离上下文关系. 本文将其用于编码两种模态特征通道间的长距离语义依赖关系. 为方便地将非局部操作引人本文多模态CNN, 本模块将其整合到一个残差单元内, 定义非局部操作为y, =-\-x, (10)Vz其中,z 枚举所有搜索空间位置,:r, 为z 位置的响应,6为_; 位置的原始输人响应,%为_; 位置更新后的输出响应, 二元函数/计算响应:c, 和:r, 之间的相关程度, C(:r)=I;/(u, ) 为归一化函数?式(10) 中的二元函数/有多种可选形式, 比如向量间的欧氏距离或点积相似性, 考虑到卷积神经网络提取的特征为三维张量, 点积操作在本文算法框架下可以更方便地实现. 参考非局部均值滤波算法[ 3 3 ], 定义二元函数/为高斯函数:?xj)( 11)因此, 式(10) 中的^y/(A, 即为计算对应位置的Softmax. 如图5 所示, 语义感知多模态融合模块的282 计 算机 学 报 2021年Reshape2cXhwReshape& transposemhwX2cReshape2cXhw 4>AJ?凡Fusi onReshapecXkXzo2cXhXwcXhXw2cXhXw庫s 看黑感知:_撰靈爾脅#fc输人为Reslfet 编码器第5 盼段的颜色特征it— _A'和深.處#征y98*eit71 _'鲁征的逋道个数和尺寸分别为r和/以规, 首先将它们在通道维度拼接, 得到融合特征 eRm, 调整齋合特征叉*^_的尺寸为i#us l ?eRm,將嫉阵H**-1和_翁蜜. 矩阵做矩阵乘法运算, 然后使用Softmax函数对其归一化, 计算得到语义相关矩阵AeR&_2%aJl=-^—fiH], Hl)=2 fXP(K)<12)i-l其中七为语义相关矩阵A在位置Gw.) 处时值, 甩来衡營特征 第? 个特怔通道与第厂个特征通道之间的语义相关程度,迸一歩的, 将语义相关矩阵A与ifSu_做矩阵乘法运: #, 并将输出矩阵的尺寸丨周整为ifFd_eRm, 然后使用?鳥部操作更蕾 , 瘍. 到语义零强特簡■yfmtm=(M]i Hf?) +x|us , on<13)i-l其中, Xf“为 的第 个通道, 打^为'更新后的谮义増强特征Pu'■的第i'个通道-, 经过上述_梟部操作, 语义增强特征 中的每个通道都是原始特征中和其语义相关的通道加权整合的铕果,与翁前通遺语义相近的通道:在顰合时会被赋予更大的杖童, 受益于恢操作的恭局部特性, 该模块不仅整嗆了專个模态内语义相关的通道,同对可以建模多模态特征通道之间的长鉅离谱义依赖关系k从而融合RGB特征和深度特征之间的语义相关通道*进一步增强特怔的语义表示.力*帮助网络爭习更具判别性的语义儔息.最后,使用1/1 卷积、 批标准化和ReLU激活操作, 將谣夂增強待征 的通道个数减少为;M来的一半41韻最终输出 本文使用p1 卷积实现特征的跨通道信息整含和降维, 可以看作上采榉前的一个瓶颈层, 更有效、 直观地进行数据的训练和特征提取. 同时减少接T来上采样操作的计算量? 另一方面. 最. 过该降维操作* 语义感知_合模块的输人特征和输出特怔拥有相同的通道维数,提高了模块的易用性和可移植性, 可以方便地将该模块整合到萁他多模态两络架构中?3. 4 损失函数本文网络在五个不同层次的解码铮征上迸行.监膂学习. 我们使用最近邻插值的方式对语义标签图下来#V将尺寸分别调整厲?■0,§40、 MQ,3甜、120X1S0、V8OX80 和加X4&; f 用乘迸行深.层避餐'训练? 对五个上舉样层的输出特征分别使用1Z1 卷积和Softmax函数计算每个像素的分类概拿. 第^层的损失涵数L, 为像素级交叉熵掼失^L,=X) YCp;,) log( ¥*( ^.q"))(14)其中, M为第*'层的?偉素个数, ^(? 为像泰位置y为输出的分类概率J齿标签类别.将五个解码层的像素级交叉熵损失相加, 作为本文网络最终的损失函数f5i-lplal  ̄DL,H Sii l通过优化上述损失函数T 本文的网络模塑能够端到端地进行训练. 链过一次训练卽可得到蕞终的分割Ilf.巣. 同时,由于本文使用跳跃连接策略将注意力感知融含模块的倩息传递到獬碍眉, 因此, 在反向传搐阶段, 辅助掘失产生的禅度可以容易地传递到对应的多模态融合模块, 进而传递到柑虫的编码层,从而有教的避免网络的梯度消失问题,提升模型整体的參数更新能力.3. 5 与现有方法的联系和区别本文所揭出的两个多儀态威合糧块均涉萬表倉力机制? 首H猶于?文献[群]和文献[34]中的_篇部4彙力^本戈浅倉力虜知參镇态截舍養块中的跨模态ft意力的本质为特征图盼空间注意力, 通过网段立娟等: 基于注意力感知和语义感知的RGB D室内图像语义分割算法 2832 期络的非线性运算和反向传播得到特征图的空间注意力权重, 利用多模态特征在空间注意力上的差异进行跨模态协同优化. 而文献[32]和文献[34]中的注意力本质为非局部思想和自注意力机制, 通过矩阵乘法运算得到注意力权重, 并且用于建模单一模态特征内部的上下文关系. 另一方面, 文献[32]通过非局部策略建模特征图空间像素点间的全局上下文关系, 文献[34]将其同时用于特征空间维度和通道维度. 它们均成功地将非局部策略用于提取单模态特征图在空间或通道维度的上下文信息, 受此启发, 本文的语义感知多模态融合模块将非局部策略扩展到多模态特征融合任务, 充分利用非局部思想能够建模长距离信息的优越性, 对RGB特征和深度特征之间的语义相关通道进行融合, 学习更具判别性语义信息的融合特征. 实验结果表明, 语义感知多模态融合方法充分利用了多模态特征之间的语义相关信息, 有效提升了最终的语义分类效果.4 实验结果与分析本节首先介绍实验使用的数据集, 评估指标和网络参数设置, 然后与现有的RGB D语义分割算法进行对比, 最后对网络模型内各个模块的作用进行实验分析.4. 1 实验数据集与评估指标4.1.1 数据集本文使用常用的公共RGB D语义分割数据集SUNRGB D[ 3 7 ]和NYUDepthv2[ 3 8 ]评估所提出的网络模型. SUNRGB D数据集是常用的大规模RGB D室内场景语义分割数据集, 共包含10335 张成对的RGB  D图像和标签, 其中深度图像的缺失值均使用邻近帧估计的方法进行了填充和去噪处理. 所有图像都被精细标注, 每个像素被分配一个语义类别标签, 共划分为37 个语义类别, 包含了室内场景中常见的物体类别. 除了新采集的数据外,SUNRGB D数据集同时包含了NYUDepthv2、Berkel eyB3DO[ 3 9 ]、 SUN3D[ 40]中的数据. 本文采用与Song等人[ 3 7]相同的数据划分方法, 在实验评估中使用5285 个实例进行训练,5050 个实例进行测试. NYUDepthv2 数据集由1449 张来自室内场景的RGB D图像组成, 数据使用Mi crosoftKi nect 采集, 并对深度图的缺失值进行了填充. 语义标签共划分为40 类. 在实验中, 本文根据标准划分方法, 使用795 个实例用于训练, 654 个实例用于测试.4.1.2 评估指标本文使用三种常用的语义分割评估指标来验证算法性能, 分别为像素精度(pi xelaccuracy)、平均精度(meanaccuracy) 和平均交并比(meanloU)?4.2网络参数设置本文在开源的深度学习框架PyTorch?上实现并训练了所提出的网络模型. 首先使用随机尺度调整、 随机裁剪和随机翻转等方法对训练数据进行扩增, 然后将所有RGB图像、 深度图像的大小调整为480 X640 作为网络输人, 并且进一步把语义标签图的尺寸调整为480X640 、240X320、120X160、60X80 和30 X40, 用来进行深层监督训练. 将五个解码层的输出和标签间的像素级交叉熵损失相加,作为网络最终的损失函数. 本文使用在ImageNet分类数据集[ 41 ]上预训练的ResNet 来初始化编码器权重参数, 其余不在ResNet 上的层使用均值为0,方差为l〇i的正态分布进行参数初始化. 我们在两个NVIDIAGeForceGTX1080Ti GPU上使用带动量的随机梯度下降优化算法训练本文网络, 训练时批处理大小设置为5, 初始学习率设置为0.004,并且每50 次迭代乘以0.8 来减少学习率, 动量和权重衰减分别为〇.9 和0.0001.4. 3 实验结果分析4.3. 1 与其他算法的对比结果( 1) 在SUNRGBD数据集上的对比结果本文首先将所提算法与现有算法在SUNRGBD数据集上进行对比实验. 如表1 所示, 本文算法在三种评估指标上均优于现有方法. 具体来说, 本文以ResNet 101 为编码器的网络ASNet 101 在SUNRGBD测试集上的语义分割像素精度、平均精度和平表1与其他算法在SUN-RGBD数据集上的分割像素精度、平均精度以及平均交并比的比较结果 (单位: %)算法LSTMCF[24] ̄DFCNDCRF[42]FuseSF5[23 ]Cont ext CRF[43]LSD GF[ 9]CFN152[2 7]RDF15200RedNet。1]SCN152[28]ASNet 101ASNet 152pixelacc. meanacc.81. 960.582. 662. 7meanIoU4248 .751 . 1(DAutomat icdifferent iationinpytorch. ht tps : //o penreview.net/forum?id=BJJsrmfCZ284 计 算机 学 报 2021年均交并比分别为81.9%、60.5%和48.7%; 相比于LSD GF算法, 本文方法的平均精度提高了2.5%;相比于RDF152 算法, 本文方法的像素精度、平均精度和平均交并比分别提高了0.4%、0.4%和1.0%.上述算法均使用双分支编码解码架构, 需要指出的是, 本文的ASNet101网络使用101 层ResNet 作为编码器, 其性能已经优于使用152 层ResNet 作为编码器的CFN152 算法和RDF152 算法, 这归功于精心设计的网络结构以及多模态融合模块, 本文的方法不需要使用很深层的网络即可取得更优的分割结果.本文进一步验证了使用ResNet 152 作为编码器的网络性能. 如表1 所示, 使用更深的编码器进一步提高了网络的分割性能, 相比同样使用ResNet152作为编码器的CFN152 算法和SCN152 算法, 本文算法ASNet 152 的平均交并比分别提升3.0%和〇.4%, 这两种算法需要额外消耗大量时间计算超像素并进行多分支预测.另一方面, 相比于同样使用双分支编码解码架构的RedNet 和RDF152, 本文算法在三个指标上均取得更优结果. 这两种算法的性能提升主要归功于使用了更复杂的解码器, 其中,RDF152 算法的解码上采样层重复使用嵌套的残差单元, 包含大量的卷积和池化计算操作, RedNet算法则设计了包含约35 层3 X3 卷积的解码器, 而本文网络的解码上采样阶段仅包含15 层3 X3 卷积, 所使用的解码器更加轻量化.(2) 在NYUDepthv2 数据集上的对比结果本文进一步将所提算法与现有算法在NYUDepthv2 数据集上进行对比实验?NYUDepthv2 数据集的语义标签共划分为40 类. 如表2 所示, 本文以ResNet 101 为编码器的网络ResNet 101 在NYUDepthv2 测试集上的语义分割像素精度、 平均精度和平均交并比分别比RDF101 算法提高了1.2%、1.0 %和0.4%, 以ResNet 152 为编码器的网络表2 与其他算法在NYUDepthv2 数据集上的分割像素精度、平均精度以及平均交并比的比较结果(单位: %)算法 pixelacc. meanacc. meanIoULSTMCF[24]4 9. 4Cont ext CRF[4 3 ]7 0. 0 53. 6 40. 6LSD GF[9]7 1. 9 60. 7 45. 9CFN152[2 7]48. 1RDFlOlW]7 5. 6 62. 2 49. 1RDF152^0]7 6. 0 62. 8 50. 1SCN152[28 ]49. 6ASNet 101 76.4 63.2 49. 5ASNet 152 77. 6 64. 7 51. 3ASNet 152 的平均交并比分另IJ 比CFN152 算法和SCN152算法提高了3.2%和1.7%, 比RDF 152算法的像素精度、平均精度和平均交并比分别提高了1.6%、1.9%和1.2 %. 相比于现有尺08 0语义分割算法, 本文算法在NYUDepthv2 数据集上取得了最优的分割准确率. 这表明本文算法在不同数据集上均可以学习到具有判别性的特征表示, 能够有效适应数据中类别和场景的多样性.( 3) 语义分类结果分析为了更清楚地了解本文方法在各个语义类别上的分类情况, 本文进一步分析所提方法在SUNRGBD数据集37 个语义类别上的像素精度, 分别将本文网络与现有的RGB D语义分割网络FuSe SF5[ 2 3 ]以及LSD GF?进行了比较. 如表3 所示, 本文方法在25 个类别的像素精度上超过了另外两个算法. 具体来说, 本文网络进一步提高了高频类别和易区分类别的分割准确率, 比如“墙面”、“地板”和“天花板”等. 而对于形状复杂的类别和低频类别, 本文算法也提升了相当可观的分割精度, 例如“电冰箱”、“淋浴器”、“人”等. 这归功于以下两个因素: ( 1) 多层次特征融合的网络结构使得本文网络更充分地利用多模态特征的互补信息42) 两种多模态融合模块有效挖掘并利用多模态特征的空间互补信息和语义相关信息, 得到更精细的边缘分割效果和更准确的语义分类结果. 因此, 本文算法在多数类别上都取得了更优的结果, 但也存在一些类别的分类精度低于所对比算法的情况. 如图6 混淆矩阵所示, 本文算法容易将书桌床头柜错误地识别为桌子. 由于这些类别在外观和属性上非常相似, 难以根据物体内部语义信息对它们进行区分, 而LSD GF算法采用双分支上采样和局部敏感反池化操作, 为解码反池化阶段提供更丰富的局部上下文线索, 从而利用物体邻近上下文信息更准确地区分这些类别( 比如床头柜通常在床的旁边) . 同时, 这些局部外观和几何线索使得网络在反池化恢复图像尺寸过程中对体积较小且外观变化剧烈的物体有更强的适应能力, 比如毛巾、包袋等. 进一步观察图6 混淆矩阵, 可以看出, 本文网络在多数类别上都取得较好的分类结果, 但是仍有一些外观和属性比较相似的物体在分类时被混淆, 比如“书桌(desk)”、“桌子( tabl e)”和“床头柜( mghtstand)”. 还有少数类别因为出现频率较低而难以被网络准确识别, 例如“沐浴器(shower)”、“地毯(fl oormat)”和“架子( shel ves)”.等: 基響法_: #緯舛和儀黑感如的S6SrD3j>i庫偉霉龙分餐筹_ 285101 分别减少了&7%和5.41这说明本文提出的多模态融合模块显著提升了最终的语义分割准确率?迸一步地, 本文评估了网络在分别去除注蠢力感知多模态融合模块和语义感知多模态融合模块情况下的性能. 我们同样采用等权值拼接的操作来代替相应模块, 同时保持网络其他的参数设養相同. 下一节分别讨论所提出的两个#镔态融合嗔. 块对网铬性能的影垧.(I)注意力感知多模态融合楱块我们去除了ASNet-101中所有的注意力感知多糢态融会模块, 改为筒单盼等权値拼接两个模态的特征. 如表4第2轩所示, 在去餘注意力感知多模态融合模块后, 调络的平均精度和平均交并比分别降低了'1.#〇/命_2.8%.图7 展示了本文:网絡中间特征图的可.视化, 第2 列为羟过ResNet 第2、 层撵取的原始RGB特征图和探度特征M,第3 列为计算出的注意力掩■.可以看出4S始RGB特证难以准确编码光线较暗处物体的细节轮廓信息, 而深度特征未爱光照影响. 准确编码出了这些餘置的信I息, 弁且在深度值变化的ft置产生垔高的响座: . 另一方面, 对于那些深度值相同而类别不同的区域, 两种模态特征值的响麼倩况相反,比如地毯和地板,墙面和窗户. 第4列为该融合模块提取的融合特征图, 可以看出? 逋过注:意力协同优化, 融合特征整费了两种模态互补信息的优勢, 准确编码出樣層.商所有物体_位錢軟廓:會息?省徽适斑复杂的环境条件?_3廯3T使用或去除注意, 力感知多模态融合模块的分割结. 果. 对比虚线区域内的分割效果# 可以看比, 使用段意力感知多模态融合的网络对物体轮廓的分割更加精细, 比如空间上相邻且因为光照融像素精度/%虜6: 本:i;餘_:#§1件: RGBD数据?.类上的像素._德果渴灘歲障庸讀綫为等个_§!!; 梅參囊輕度(Jfal acc( 沿》4.a.2 两种多瘼态融合模块的性能分析本节讨论本文听提出的注意力感知多模态融合模块(AMF) 和语义感知多襟态融合模块XSMF)在网络擦:製中的作用. 我们通过替换网络模型中的两个多模态融#模块来验证它们对于屬兹分割性能的篸响? 实验结果如表4所示,本文首先坪估了网络在圭. 除所有多模态融合模块情况下的性能, 我们采用等权值拼接的操作来代替所有的多模态融含模块,同时保持网络其他的训缘参数相同, 本文在表4中用ConCat表示此网:络s其分割的平均精度和乎均交并比为分别为S48%和仏 , 比本文网络AS!%t-表4 两种多模态融合模块对网络性能的影响网络模型 AMF SMF pixelacc. meanacc. meanIoUConeat m. m 78.7 54.8 43.3ASNet-101 _ 80.4 58.745. 9ASNet-101 m 80.1 58.2 46.7ASNet-101 81. 9 60. 5 48.72撰表3 在§1 PN-RGB-D数据集37个类的像素分类精度的比较结果mm 墙稱 她面 娜 床 捭予 錄 齡 门 儀户 书架Fuse-SF5[2 3]LSD-GF[9 ]91. J94.!94.'61. J61.f77.:82. :78.f87. J66.!62. ;65.^46.J47. !62.468. 034.^48.^ASNet-101 92. 1照片95. 171.784. 2 87. 7 70.7 71. 1 64.4柜台 百叶窗 书桌 架子 窗帘 梳妆台 枕头65.\镜子48. (地毯Fuse-SF5[2 3]LSD-GF[9]67.:69. :40.:49. ^43.^51. :25.(35.(20.:24. (65.!68.,44.060. 554.266.552.^57. (ASNet-101 74.f衣服54.<54. 1 27.! 25. i 76. 1 57.\ 66.:天花板 书 电冰箱 电视 纸张 毛巾 沐浴器58. (箱子 木板Fuse-SF5[2 3]LSD-GF[9]25. )44.84.'88. ;45. 261. 534. !5 1. ^34.871. 724. (37. :21. 051. 421. ^46. (57, J54. \ASNet-10148.5人89.560. :68. 3 69. \ 46. 1 47.( 9. 8床头柜 马桶 水槽 灯 浴缸 包袋44.^62. 3Fuse-SF5[2 3]LSD-GF[9 ]ASNet-101 ̄ ̄19. (49. :72. (37.144.629.676. 782.  283.568. :74. :76.f64. 763.573.277. 088.512.647. 631.1邊甚llllppslpllf286 计 算机 学 报 2021年原始图像特征图注意力掩摸融合特征图图7 注意力多模态融合模块的特征可视化RGB图像语义标签不使用注意力使用注意力多模态融合多模态融合图8 注意力感知多模态融合模块的对比结果为一体的“沙发”和“地毯”, 形状复杂的“书桌”和“椅子 这说明通过跨模态特征的协同交互, 优化后的特征能够关注到仅靠单一模态难以关注的区域, 提取富含空间位置信息的特征表示, 有效增强了网络识别物体边界信息的能力, 从而得到更精细的轮廓分割绪果( 2)语义感知多模态融合模块本文使用同样的方法去. 除了:网络中时语义感知多輟态磁含模块? 如表4第3 行所示, 去除每义感知多模态融合模块后,算法的平均精度和平均交并比分别降低了2.3%和2.054圈0廣示了使用或去除语义感知多模态敲合模块的分割结果. 通过对比可以着出, 使用语义感知多II态融合模块的网络可以芷确的K分外观相似.、容易:混淆的物体, 例如 桌子”和“椅子”、&面片°和“窗户55等?.这说明语义感知多模态融合模块有效地整合了语义相关的RGE特征和深度特征* 帮助网络提取到更:加具有判别性的谙义信息.本文进一步对比了德用本同的#征雜合方式对网络性能的影响. 我们保持网络其t:结构和参数设覺不变, 分别使用以下方式替换举文的语义感知多模态融合獏块: <:1) 简单拼接多模态特征;等: 基響法_: #緯舛和儀黑感如的S6SrD3j>i庫偉霉龙分餐筹_ 287 2: 期RGB图像 语义标签 不使用语义感知使用语义感知多模态融合多模态融合图9—J4感 多揍翁 象放对tsl#C2)Red胃Et[ 1 1 ]零■法中的求和:操作., 筒■举*f: 多學藤特征进行相加; (; 0LSTM-CFtM算法中的记忆上下文融合方法, 使用LSTM昆多方向扫描RGB特征和深度特征并融合, 编码面像聋间像素之间的上下文关系;(4)LSD-GF?箕法中的门控融合单元, 通过春积和门控操作自适座学3RGB费征和深度特征对于最终分割的寅歡程度以§)Wa呢等人[3 2]的空间非舄部往意力, 通过计算相似矩阵捕获特‘怔图'傳寒点间的长距离依赖关系, 我们将多模态特怔拼接后使用此注意力进行特征提取-如表5 所示, 可以出s 这些方法从不同角度懈诀多模态#征的融合问题, 相比于筒率的多模态特征拼接或求和操作s 均一定程度地提升了最终的分割准确率, 但是仍然没有傭决语义分割任务中关键的语义判别问题. 本文的语义感知融合方法从特征的语义M面考虚, 增强了多模态融合特征的语义籠能力, 有效解决了錢像素被蠢中错误分类的问题; 相比现有多模态特征||合方:猶>提升效巣:變加'長著?表5 不同融合方式的性能对比融合方式pixel潑c岛 辑時維龜働 趙备酿 ̄SSSi Tlii?2ii77隶和mS57.746.5iBK上下文融合i〇. sas, spjjfl控齋餘额.s59. 3*?, , s空: 间非 部注意力80. 659^47. 1 ̄SXdi##8lT96〇7148? 74. a. 3#他影响囟素分析本节迸一步分析其他可餌影响本文柯络摟盡性能的因素*分别讨论了深度鲁息、特征融含崖数和深屢监督策略对网络最终分割性能产生: 的影响?本文曹先验怔了在不使用探度信息的情况下网络模型的性能.我们去除了编码器提取深度特怔的分支以及所有的多模态融合模块* 保留'RGR特征编码分支和其他部件, 旦编码薇酸后一个阶段的RGB特征直接送人解码器进行上采样.同对, 多层次的RGB编码特征与对应的解码特征通过跳跃连接相加融合、如表6 第1 行所示》由于缺少额外的全间几何信息,分割精度: 和平均交并比太幅降低? 这说明仅靠RGB特征所包含的外观信息,网络难以对环揸复杂的宣内场景进行精确分割.因此, 使用包含空间几何信息的深度数据, 同时利用RGB特征和深度特征来进行推理, 是解决复条环攙下场景理解问题的有数方法,表6 其他因素对网络性能的影响影响因素 pixelacc. meanacc. meanIoU不使用深度信息 77. 352.2 4 1.9不融合Res-1 和Res-2 层 80. 2 59.1 4 6.5不融合Res_3 和Res-4 层 80. 5 58.8 4 6.3不使用深层监督策略 81.1 59.4 48.1ASNet-101 81. 9 60.5 48.7为了骖怔多层漱#征威合的效桌., 我们逋过去除ASIfet-101中的某些融合层, 对阿络的性能迸行评估. 如_6 的第2#和第3 行所示, 去掉任何阶段的特征融含g姆杳降低网络最. 终的分割性能. 卷积神经网络提取的深层特征和浅层特征都有利于两络最终的推理预测, 本文网絡融合多个层次的RGB特征和深度特怔, 腾个樓态的特征由稱人深的协同指导和优化. 更充分的和用多个层次的多模态互补信息, 从而学习到更鲁棒的多模态特征表示.本文最后验怔了薇层M督策略对于网络性能的影响? 如表6 所示, 使用深层监臂輦略后, 网络的平均精度和乎均交并比分别提高1.1舛和〇?<?%?身于本文使用跳跃连接.中甸篇辅助损失的梯度可以通过跳跃连接更容易地传递到对应的特征融合模块,288 计導机攀报: _1苹有效避免了樣度If失问题, 使得本文. 网络在训练时更容1收敛, 从而产生更好的拟合结果.4. 4 结果可视化虜10M示了.本文算法隹SUN-RGBD数据集上的可视化对比结某3 第6 列为本文两络ASNfet-1, 01的分割结:暴. 可以?看itU本文#法在;各种复杂的螯内场景下都取得了精确的分割效果>我们将所提方法和I除所有多模态融合模块的Cmimt 模. 型以及RDFN#t#?M的分割结果进行了可视化比较. 可以看出,Concat模谨的分割结果中. 存在大量误分像素点, 并且物体边缘分顧结果较, 为粗糙?RDENet 算法的分割效果相对较好,钽是M对难以K分的类别缺乏足够的语义判别能力, 导致易混淆像素点被集:中分类错误, 比如地毯‘镜子”等、 相比RDFNet算法f:本文算法可以在准确识别难分物体的同时得到更精细的边廉分割结果.如第6 列所示, 通过使用注意力感知多模态融合模块 椅子”、“灯”和“人”等形犹复杂物体的分割轮廓宽加■精姻. 晃一方面:,通过使用篑义感知多模态磁食模块<本文网络现在能够将难以区分的傳素蟲正确分类, 比如第2行尤商积的“镜子”、第3行床头旁边的小“镜子”以及第S 行的“‘床头柜ConcatRDFNet-152[u,(1)(2)RGB图像深度图像-101⑷(5)尊If癱Edfmfgmi(6)(7)na^3图M 本: 文 薇在StfNRGSD翁藤義上的分劃鑛暴可讓ft对比( 不同歡色代表不同g1養細>.段立娟等: 基于注意力感知和语义感知的RGB D室内图像语义分割算法 2892 期5 总 结本文提出一种RGB D室内场景语义分割方法, 其中包含两种多模态特征融合模块: 注意力感知多模态融合模块和语义感知多模态融合模块. 本文将它们集成到一个双分支编码解码网络中, 有效地融合多层次的RGB特征和深度特征. 其中, 注意力感知多模态融合模块充分利用多模态特征在空间上的互补信息, 提升了模型的边缘分割效果. 语义感知多模态融合模块通过整合多模态特征的语义相关通道, 提取更具判别性的语义特征表示, 有效提升了网络模型的语义判别能力. 本文证实了融合多个层次的特征能够有效提升网络最终的分割精度, 使用深层监督策略可以有效减轻梯度消失问题, 提升模型的训练效果. 实验表明, 本文方法能够有效处理各种复杂的室内场景, 在多个具有挑战性的RGB D语义分割数据集上的分割性能均优于现有算法, 所提出的多模态特征融合方法可以应用于其它多模态计算机视觉任务, 例如多模态动作识别、 场景识别和目标检测等.RGB D室内语义分割任务的准确率还有进一步地提升空间, 考虑解决类别不均衡问题, 提升低频类别的分割精度, 或者结合多任务训练策略进一步利用深度信息提升语义分割精度等, 都是我们未来的研究方向.参 考 文 献[1]TianXuan,WangLiang,DingQi. Reviewof imagesemanti csegmentat ionbasedondeepl earning. JournalofSof t ware ^2019 ,3 0(2) : 4404 68(inChinese)( 田萱, 王亮, 丁琪. 基于深度学习的图像语义分割方法综述. 软件学报, 2019 ,30 ( 2 ): 440 4 68)[2]LeCunY, Bot touL,BengioY,I l af fnerP. Gradientbasedlearni ngappliedtodocument recogni tion. ProceedingsoftheIEEE, 1998 ,86(11) : 2278 2324[3]ZhangShun,GongYi 1 long, WangJinJun. Thedevelopmentofdeepconvolut ionalneuralnet worksanditsapplicationoncomput ervision. ChineseJournalofComput ers? 2019?42(3) :453 4 82 ( inChinese)( 张顺, 龚怡宏, 王进军. 深度卷积神经网络的发展及其在计算机视觉领域的应用. 计算机学报,2019, 42( 3) : 453482)[4]LongJ, ShelhamerE, DarrellT. Fullyconvolut ionalnet worksf orsemanticsegmentat ion//ProceedingsoftheIEEEConferenceonComputerVisionandPat t ernRecognition.Boston, USA, 2015: 3431 3440[5]ZhangZY. MicrosoftKi nectsensorandi tsef fect . IEEEMult imedi a,2012,19(2) : 4 10[6]HeY,ChiuWC, KeuperM,Fri tzM. RGBDsemant icsegment ationusingspatiot emporaldatadrivenpooling//Proceedingsoft heIEEEConferenceonComputerVi sionandPat ternRecognit ion. Hawaii,USA,2017: 7158 7 167[7]CouprieC, FarabetC, NajmanL? LeCunY. I ndoorsemanticsegment ationusingdept hinf ormation//Proceedi ngsoft heInternat ionalConferenceonLearningRepresentat ions.Scot t sdale, USA,2013: 80 88[8]Gupt aS,Gi rshickR,Arbel aezP, MalikJ. Learningrichfeat uresfromRGB Dimagesforobjectdetect ionandsegment ation//Proceedingsoft heEuropeanConf erenceonComput erVision. Hawaii ,USA,2 014: 345 360[9]ChengY,CaiR,LiR,etal. LocalitySensitivedeconvolutionnet workswithgat edfusionf orRGB Dindoorsemant icsegment ation//Proceedingsoft heIEEEConferenceonComput erVisionandPat t ernRecognit ion. Hawai i ?USA,20 17: 1475 14 83[10]LeeS,ParkS, HongK, RDFNet; RGB Dmult ilevelresidualfeat urefusionf orindoorsemant icsegment at ion//ProceedingsoftheIEEEInt ernationalConferenceonComput erVision. Venice,Italy,2017: 4990 4999[11]JiangJD,ZhengLN, LuoF,ZhangZJ. RedNet: Residualencoderdecodernet workf orindoorRGB Dsemant icsegment ation. arXivpreprint arXiv: 1806.01054,2018[12]EigenD, FergusR. Predi ct ingdept h, surf acenormalsandsemant iclabelswithacommonmult iscaleconvolutionalarchit ecture//Proceedings ofthe IEEE Int ernationalConferenceonComputerVision. Santi ago ,Chile,2015; 26502658[13]WangA,LuJW,WangG,etal. Mul ti modalunsupervisedfeat urelearningforRGB Dscenel abeling//ProceedingsoftheEuropeanConferenceonComputerVision. Hawaii , USA,20 14: 453 4 67[14]ZhaoI IS,ShiJP, QiX, et al. Pyramidsceneparsingnet work//Proceedingsoft heIEEEConferenceonComput erVisionandPat t ernRecogni tion. Hawaii ,USA, 2017: 6230623 9[15]ChenLC,PapandreouG? KokkinosI , et al . Semantic imagesegmentationwit hdeepconvolut ionalnetsandfullyconnect edCRFs. arXivprepri ntarXiv: 1412. 7062,20 14[16]ChenLC,PapandreouG,Kokki nosI ,et al. DeepLab:Semant icimagesegment at ionwithdeepconvolut ionalnets,Atrousconvolut ion, andfullyconnectedCRFs. IEEETransact ionsonPat ternAnalysisandMachineInt el ligence^20 18, 40(8) : 834 848[17]ChenLC,PapandreouG?Schroff F?AdamI I. Rethinkingat rousconvolut ionforsemant icimagesegment at ion. arXivprepri ntarXiv: 1706.0558 7,2017[18]LiBao Qi, I l e YuYao, HeLingJiao ,QiangWei. Asymmet ricparallelsemanticsegment ationmodelbasedonfullconvolutionalneuralnetwork. Act aElectronicaSinica?20 19 , 47 ( 5):1058 1064( inChinese)290 计 算机 学 报 2021年( 李宝奇, 贺昱曜, 何灵蛟, 强伟.基于全卷积神经网络的非对称并行语义分割模型. 电子学报,2019 ,4 7(5) : 10581064)[19]Badri narayananV, KendallA, CipollaR. SegNet: Adeepconvolutionalencoderdecoderarchitect uref orimagesegment ation. IEEETransact ionsonPat ternAnalysisandMachineInt elligence, 2017 , 3 9(12) : 2481 2495[20]RonnebergerO,FischerP,BroxT. UNet: Convolutionalnetworksf orbiomedi calimagesegment at ion//Proceedingsoft heInt ernat ionalConf erenceonMedi calI mageComputi ngandComputer AssistedInt ervention. Munich, Germany?2015: 2 34 241[21]JegouS? DrozdzalM, VazquezD,etal. Theonehundredlayerst iramisu: Fullyconvolutionaldensenetsf orsemanti csegmentat ion. arXivpreprint arXiv: 1611. 0 932 6, 2016[22]LinGS,MilanA,ShenCI I,ReidI . RefineNet; Mult ipathrefi nementnet worksforhighresolut ionsemanticsegment at ion//ProceedingsoftheIEEEConferenceonComput erVisionandPat ternRecognit ion. Hawaii, USA,2017; 5168 5177[23]I l azirbasC, MaL, DomokosC, CremersD. FuseNet:Incorporat ingdepthintosemant icsegmentat ionviafusionbasedCNNarchitect ure//Proceedingsoft heAsianConferenceonComputerVision. Taipei , China, 2016 : 213 228[24]LiZ, GanYK, Li angXD, etal . LSTMCF; Unifyi ngcont extmodelingandf usio nwit hLSTMsf orRGB Dscenelabeling//Proceedingsof theEuropeanConferenceonComput erVision. Amsterdam,TheNet herlands?2016: 541 557[25]I lochreit erS, SchmidhuberJ. Longshort termmemory.Neural comput ation, 1997 , 9(8); 1735 1780[26]WangJI I , WangZI I , TaoDC,et al. Learningcommonandspecificfeat uresforRGB Dsemanti csegmentat ionwi thdeconvolut ionalnetworks//ProceedingsoftheEuropeanConferenceonComputerVision. Amst erdam^ TheNetherlands^2016; 664 679[27]LinD, ChenGY, Cohen 〇rD,etal. Cascadedfeat urenetworkforsemant icsegment at ionofRGB Dimages//Proceedingsof t heIEEEI nternat ionalConf erenceonComputerVision. Venice, It aly, 2017: 13201328[28]LinD,ZhangRM,JiYF,et al . SCN: Swit chablecontextnetworkforsemant icsegmentat ionof RGB Dimages. IEEETransactionsonCyberneti cs,202 0 , 50(3) : 1120 1131[29]WangF, JiangMQ, QianC, et al . Residualatt enti onnetworkforimageclassifi cation//ProceedingsoftheIEEEConf erenceonComputerVisionandPat t ernRecognit io n.Hawaii,USA,2017: 64506458[30]I I uJ,ShenL,SunG. Squeeze andexcitat ionnetworks//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. SaltLakeCity, USA, 2018: 7132 7141[31]WooS, ParkJ , LeeJ Y, KweonS. CBAM; Convolutionalblockat tentionmodule//ProceedingsoftheEuropeanConferenceonComputerVision. Munich,Germany,20 18: 3 19[32]WangXL,GirshickR,Gupt aA,HeKM. Nonlocalneuralnet works//Proceedi ngso ftheIEEEConf erenceonComput erVisionandPat t ernRecognit ion. SaltLakeCi ty, USA,20 18; 1153 1165[33]BuadesA, CollB, MorelJ M. Anonlocalalgorithmforimagedenoising//Proceedingsoft heIEEEConferenceonComput erVisionandPat ternRecognit ion. SanDiego, USA,2005; 60 65[34]FuJ, LiuJ , TianI IJ ,etal. Dualat t ent ionnet workforscenesegment at ion.arXivpreprint arXiv: 180 9. 02983 , 20 18[35]l i eKM,ZhangXY, RenSQ, SunJ. Deepresiduallearningforimagerecognit ion//Proceedingsoft heIEEEConf erenceonComput erVisionandPat t ernRecognit ion. LasVegas?USA, 2016;770778[36]l i eKM,ZhangXY, RenSQ, SunJ. I dent itymappingsindeepresidualnet works/ /Proceedingsoft heEuropeanConferenceon Computer Vision.Amst erdam, TheNetherlands,2016; 630645[37]SongS, Licht enbergSP,XiaoJX. SUNRGBD; ARGB Dsceneunderst andingbenchmarksuite//Proceedingsoft heIEEEConferenceonComput erVisionandPat ternRecognit ion.Boston, USA,2015;567 57 6[38]SilbermanN, I loiemD,KohliP,FergusR. Indoorsegmentat ionandsupport inf erencef romRGB Dimages//Proceedingsof theEuropeanConferenceonComputerVision. Florence,It aly,2012: 746 760[39]JanochA, KarayevS, JiaY,etal. Acat egorylevel3Dobjectdataset: Put ti ngtheKinect towork//ProceedingsoftheIEEEInt ernat ionalConferenceonComputerVisionWorkshops. Barcelona, Spai n,2011: 1168 1174[40]XiaoJX, OwensA, TorralbaA. SUN3D: A dat abaseof bigspacesreconst ruct edusingSFMandobjectlabels//Proceedingsof t heIEEEInt ernationalConferenceonComput erVision.Sydney, Aust ralia,2013 : 1625 1632[41]KrizhevskyA,SutskeverI, HintonGE. I mageNetclassificationwithdeepconvolutionalneuralnetworks//Proceedingsof theInt ernationalConf erenceonNeuralInformationProcessingSyst ems. LakeTahoe, USA,20 12; 1097 110 5[42]JiangJD?ZhangZJ, HuangYQ?ZhengLN. Incorporatingdepthint obot hCNNandCRF forindoorsemanticsegment at ion//Proceedi ngsof theIEEEInternationalConferenceonSoft wareEngineeringandServiceScience. Beijing? China?20 17: 525 5 30[43]Li nGS,ShenCI I ,vandenI l engelA,ReidI. Exploringcont extwithdeepst ruct uredmodel sforsemanticsegmentation.IEEETransact ionsonPatt ernAnalysisandMachi neIntelligence ,20 18 ,40(6) : 1352 1366段立娟等: 基于注意力感知和语义感知的RGB-D室内图像语义分割算法 29 1 2 期DUANLi-Juan,Ph.D.,professor,Ph.D.supervi sor.Herresearchinterestsincl udeimageprocessingandmachinel earning.BackgroundSemanticsegmentationisoneofthemostpopulartasksincomputervision.Asthefundamental ofsceneunderstanding,semanticsegmentationhasawiderapplicationinautomaticdrivingandrobotsensing.Recently, Moststudieshaveemployedconvolutional neuralnetwork(CNN)forsemanticsegmentationtask.However,indoorsemantics egmentationisstil lachal lengingtaskduetothecomplexityofindoorscenes.Recently,manyresearcheshaveimprovedtheindoorsegmentationaccuracybyintroducingdepthi nformation.However,thecurrentalgorithmsstil lfailtomakeeffectiveuseofcomplementaryinformationandsemanticinformationbetweenRGBfeatureanddepthfeature.MoststudiessimplyfuseRGBanddepthfeatureswithequal-weightconcatenatingorsumming,whichmaysuppressthemodalityspecificSUNQi-Chao,M.S.candi date.Hisresearchinterestsincl udeimageprocessinganddeepl earning.QIAOYuan-Hua,Ph.D. ,professor, Ph.D.supervisor.Herresearchinterestismachinel earning.CHENJun-Cheng,Ph.D. , l ecturer.Hisresearchinterestsincl udesignalprocessingandbigdataanalysis.CUIGuo-Qi n,M.S. ,professor.Hi sresearchinterestsincludepatternrecognitionandintel l igentvi deoanalysis.information.Inthiswork,wedesignamoreeffectiveRGB-Dfusionmethodwhichfullyexploitsthecomplementarycharacteristicsandsemanticinterdependenciesbetweenmutil-levelRGBanddepthfeatures.Theexperi mentresultsshowthatourmethodyi eldbettersegmentationresultsinvariouscompl exindoorscenes.ThisworkissupportedbytheNationalKeyR&DProgramofChina(No.2017YFC0803705) ,theKeyProjectofBeijingMuni cipalEducationCommission( No.KZ201 91 0005008) ,theMajorScienceandTechnologyInnovationProjectofHangzhou(No.201 82014B09),theprojectsdevotetomulti-mediaperceptionandcognition.Andsomeworkoftheresearchhasbeenpublishedintheinternationaljournal sandconferences.

[返回]
上一篇:生成对抗网络及其在图像生成中的应用研究综述
下一篇:融合语义信息与问题关键信息的多阶段注意力答案选取模型_张仰森