基于注意力感知和语义感知的RGB_D室内图像语义分割算法_段立娟 |
来源:一起赢论文网 日期:2021-12-23 浏览数:997 【 字体: 大 中 小 大 中 小 大 中 小 】 |
第44 卷 第2期2021 年2 月计 算机 学 报CHINESEJOURNALOFCOMPUTERSVol .44No.2Feb. 2021基于注意力感知和语义感知的RGB-D室内图像语义分割算法段立娟 孙启超 乔元华5 )陈军成”崔国勤6)1 :)(北京工业大学信息学部 北京 100124 )2)( 可信计算北京市重点实验室 北京 100124)3 )(信息安全等级保护关键技术国家工程实验室 北京10 0124)4)(浙江省北大信息技术髙等研究院 杭州 31120 0)5)(北京工业大学应用数理学院 北京 100124)6 )(北京中星微电子有限公司数字多媒体芯片技术国家重点实验室 北京 100 191)摘 要 近年来, 全卷积神经网络有效提升了语义分割任务的准确率. 然而, 由于室内环境的复杂性, 室内场景语义分割仍然是一个具有挑战性的问题. 随着深度传感器的出现, 人们开始考虑利用深度信息提升语义分割效果. 以往的研究大多简单地使用等权值的拼接或求和操作来融合RGB特征和深度特征, 未能充分利用RGB特征与深度特征之间的互补信息.本文提出一种基于注意力感知和语义感知的网络模型ASNet( 八ttentionawareandSemantic awareNetwork). 通过引人注意力感知多模态融合模块和语义感知多模态融合模块, 有效地融合多层次的RGB特征和深度特征.其中, 在注意力感知多模态融合模块中, 本文设计了一种跨模态注意力机制, RGB特征和深度特征利用互补信息相互指导和优化, 从而提取富含空间位置信息的特征表示.另外, 语义感知多模态融合模块通过整合语义相关的RGB特征通道和深度特征通道, 建模多模态特征之间的语义依赖关系, 提取更精确的语义特征表示. 本文将这两个多模态融合模块整合到一个带有跳跃连接的双分支编码解码网络模型中. 同时, 网络在训练时采用深层监督策略, 在多个解码层上进行监督学习. 在公开数据集上的实验结果表明, 本文算法优于现有的RGB D图像语义分割算法, 在平均精度和平均交并比上分别比近期算法提高了1.9%和1.2%.关键词 RGB D语义分割; 卷积神经网络; 多模态融合; 注意力模型; 深度学习中图法分类号TP3 91DOI号1 0. 1 189 7/SP.J. 101 6. 2021 . 00275Attention-AwareandSemantic-AwareNetworkforRGB-DIndoorSemanticSegmentationDUANLiJuan1) ,2) ,3)SUNQi Chao1) ,2) ,4)QIAOYuan Hua5)CHENJunCheng1)CUIGu〇 Qi n6){FacultyofInformati onTechnology^ BeijingUniversi tyofTechnology? Beijing100124)2) (BeijingKeyLaboratoryofTrust edComputing? Beiji ng100124)3 ){ Nat ionalEngineeri ngLaboratoryforKeyTechnologi esofInformat ionSecurityLevel ProL ecL ion?Beiji ng100 124){AdvancedInsLi LuLeofInformat ionTechnology^ PekingUniversity? Hangzhou3 11200)5 )( Col l ege ofAppl ied. Sciences? BeijingUniversityofTechnology^Beijing100 124)6){ Stat eKeyLaboratoryofDigi talMuUi medi aChipTechnology?Vi mi croCorporation?Beijing100191)AbstractSemanti csegmentati oni saresearchhotspoti nthefi el dofcomputervi si on. Itreferstoassigningal lpi xelsi ntodi fferentsemanticclasses.Asafundamentalprobleminsceneunderstandi ng,semanticsegmentati oniswi del yusedinvari ousi ntel ligenttasks.Inrecentyears,with收稿日期:20 19 06 30; 在线发布日期:2020 02 13.本课题得到国家重点研发计划(2017YFC08 03705) 、 北京市自然基金委市教委联合资助项目( KZ201910005008)、 杭州市重大科技创新项目( 20 1820 14B09) 资助. 段立娟, 博士, 教授, 博士生导师, 中国计算机学会( CCF) 髙级会员, 主要研究领域为图像处理和机器学习. Emai l: ljduan@bjut . edu.cn. 孙启超, 硕士研究生, 主要研究方向为图像处理和深度学习.乔元华, 博士, 教授, 博士生导师, 主要研究领域为机器学习. 陈军成( 通信作者) , 博士, 讲师, 主要研究方向为信号处理与大数据分析.Email :juncheng@bjut. edu. cn. 崔国勤, 硕士, 研究员, 主要研究领域为模式识别和智能视频分析.276 计 算机 学 报 2021年thesuccessofconvol utionalneuralnetwork( CNN)i nmanycomputervisionapplicati ons,ful l yconvol uti onalnetworks(FCN)haveshowngreatpotenti alonRGBsemanti csegmentationtask.However,semanticsegmentationisstil l achal l engi ngtaskduetothecompl exityofscenetypes,severeobjectoccl usionsandvaryi ngi l l uminations. Inrecentyears,wi ththeavai l abi li tyofconsumerRGB DsensorssuchasReal Sense3DCameraandMi crosoftKi nect,wecancapturebothRGBi mageanddepthi nformati onatthesameti me.Depthinformati oncandescribe3Dgeometri ci nformati onwhi chmightbemi ssedi nRGB onlyimages. Itcansignifi cantl yreduceclassi ficati onerrorsandi mprovetheaccuracyofsemanticsegmentati on.Inordertomakeeffecti veuseofRGBi nformati onanddepthi nformation,itiscrucialtofindanefficientmul ti modali nformati onfusi onmethod. Accordi ngtodifferentfusi onperi ods,thecurrentRGB Dfeaturefusionmethodscanbedi vi dedi ntothreetypes:earlyfusi on,l atefusi onandmi ddl ef usi on.However,mostofprevi ousstudiesfailtomakeeffecti veuseofcompl ementaryi nformati onbetweenRGBinformati onanddepthi nformati on.Theysi mpl yfuseRGBfeaturesanddepthfeatureswi thequal weightconcatenati ngorsummi ng,whichfai l edtoextractcompl ementaryi nformati onbetweentwomodal sandwil l suppressedthemodalityspeci fici nformation. Inadditi on,semanti ci nformati oni nhighl evel featuresbetweendifferentmodal si snottakeni ntoaccount,whichisveryimportantforthefi ne grai nedsemanticsegmentati ontask.Tosol vetheaboveprobl ems,i nthispaper,wepresentanovelAttenti onawareandSemantic awareMul ti modalFusi onNetwork( ASNet)forRGB Dsemanticsegmentati on. Ournetworkisabl etoeffecti vel yfusemul ti l evelRGB Dfeaturesbyi ncl udi ngAttenti onawareMul ti modalFusi onbl ocks( AMF)andSemantic awareMul ti modalFusi onbl ocks( SMF). Speci fical l y,inAttenti onawareMul timodalFusi onbl ocks,across modalattenti onmechanismisdesignedtomakeRGBfeaturesanddepthfeaturesgui deandopti mizeeachotherthroughtheircomplementarycharacteristicsi nordertoobtainthefeaturerepresentationwithrichspatiallocati oninformati on.Inadditi on,SemanticawareMul ti modalFusi onbl ocksmodelthesemanti ci nterdependenci esbetweenmul ti modalfeaturesbyi ntegrati ngsemanticassociatedfeaturechannelsamongtheRGBanddepthfeaturesandextractmoreprecisesemanticfeaturerepresentation. Thetwobl ocksarei ntegratedi ntoatwobranchencoder decoderarchitecture,whichcanrestorei mageresol utiongradual l ybyusi ngconsecuti veupsampl i ngoperationandcombi nel owl evelfeaturesandhighl evelfeat uresthroughskipconnecti onstoachievehigh resol uti onpredicti on.Inordertoopti mi zethetrai ni ngprocess,weusi ngdeepl ysupervisedl earningovermul til eveldecodi ngfeatures. Ournetworkisabl etoeffecti velylearnthecomplementarycharacteristicsoftwomodal i tiesandmodelsthesemanticcontextinterdependenciesbetweenRGBfeaturesanddepthfeatures.Experi mentalresult swithtwochal l engi ngpubl i cRGB Di ndoorsemanti csegmentationdatasets,i .e. ,SUNRGB DandNYUDepthv2 ,showthatournetworkoutperformsexisti ngRGB Dsemanticsegmentati onmethodsandi mprovesthesegmentati onperformanceby1.9%and1.2%formeanaccuracyandmeanIoUrespectivel y.KeywordsRGB Dsemanticsegmentati on;convol utionalneuralnetwork;mul ti modal f usi on;attenti onmodel;deepl earni ng觉领域的研究热点之一, 其目的是为图像中的每个1弓I言像素分配一个预先定义的语义类别标签[l]. 作为场景理解的基础, 语义分割被广泛应用于各种智能任语义分割( semanticsegmentati on) 是计算机视务, 比如自动驾驶、机器人感知和无人机导航等.等: 基響法_: #緯舛和儀黑感如的S6SrD3j>i庫偉霉龙分餐筹_ 27 7 2: 期近年来* 深度学习在计算机视觉领域的应用越来越广:l£i? 暴親神餐网翁^3'(C輝y〇luttenai?ewalHftwork, 筒称ONn>在礙像鎖、 目标检测和谱文分割等计算机视觉任务?中都取得了不错的效祟[3].8014学,: Long等人wH出时全___络( Ful lyCflnvol uti onalNetrol'k》 简称FGN) 在谮叉费割任务上显示出巨大的潜力. 此后, 很多研究人员基于该方法提坶了改进的语义分割模11? 然而.由于室内环境的复杂性, 室内场景下的?义分割仍然是一个具會挑战性的问顧, 比如窠内光: 照的: 变化和物体间的遮麵V容易造成大量像素被错误分类_, 彰晌最?终的语夏分割效果. 如獨1 所:示< 观察RGB羅像,虛线内的区域受光照影响。黑色的椅子与背景融为一体, 难以. 区分他们的类别?近年来, 随着探度传感器的普及〈例如IntelReal Sense3DGameira、AsusXtici nPRQLIVE和MiCTomftKi nfcorf5 ]: >, 人们对谨像的研貪已经不再局限于彩色图像, 并且已经探入到对含有深度谓息的RGB Depth( RGB-D》 图像的研究*RGB特征能够描述物体激色和纹理之类的外观偉息, 而深虞特征能够描述物体的三维几何翁息, 这种几何倩息報难在RGB特怔中获取.3 并且不=会随光照的变化而改变. 如图1 第2列所示, 将探度'信息引人语义分割任务, 作为颜色信息的补充, 更有利于截分图像中易混淆的E域, 从而提升语义分割精度? 为了充分利用颜色會息和深度儐息, 寻我一种有效的多模态特怔融合方法至关重翼I近年来, 很多研究将颜色信息和深度信息结合起来甩于锫义分割任务.一些方法[「7]简单地将RGB特征和深度特征拼接起来, 作为CNN的M通道输人, 有效提蠤了语义分割的准确性? 这些方法通常在特征输入网络之前截合RGB債違和深度鲁息,属于前期融合方法?Wang等人 进一步将深度笸息编码为HHA( 水平视差, 对地裔度f 表面法向量的角度)特征, 然后将颜色特征和HHA释征输人到两个并联的CRN中, 分别预测出两个塔义分割概率裡、 并在最后一爵将它们M合作为鑲終的分割结皋. Cheng 等人?在解码器最:后一层:使用H苌融合单元学习RGB特舞和深度特征对于语义分割任务的重要程度, 然后利用德合特征预测最终的分割概率S, 这些方法通常在网络最踣一层进行特征融合s 扁于后期融合方法, 此外,一些算法M使用双分支CNN作为编码器, 分别从RGBW象和探度圈像中提取特征| 并将多个阶段的RGB特征与深度特征融合, 然后对融会特征解码上采样得到最终分割、结果., 属于多级融合方法,RGB图像深度图像语义标签_1 室:内驗T的语义分劊胁上述方法虽然在RGB-D语义分割任务中取得了不错的效屎, 但仍存在一些不足* 貧先, 以往研究大多将RGB特征和探度特征筒单地通过等.权值拼接或求和的方式进行14合[6^1 3]. 未能有效地挖掘并利用RGB特征与深度特征在空间上的互补信息,并且这种简傘驗融佥方法还可龍会抑制模__"部的特有倩息. 另一方面, 卷积神经网络裔层特征中的每个通道都会编码某个特: 定类别的语义信息s 现有方法均末:考虑到不同摟态高唐特征之间语义詹息的湘关性, . 而语. 义信息对于捂义分割这种细粒度分类任务来说很重要.针对上述两个问题, 本文提出一种基于注窵力感知和语义感知的RGB-D、图像语义分割方法, 图2为本文网鱗_爾的整体: 结构, M络叢体上; :慕^个猶码-解码架构, 其中包含两个创新性的多模态特征融#截块: 聲意力感知多傷态融#模块和语义感知多模态徽合模块? 其中灌倉力感知多模态融合模块: 充分利用两种模态特征在空间上的差: 异, 分别计算两种樓态的空M注意力掩模, 多模态特征通过炷篇力掩瘼相互指导和优化, 从而堤取富貧空间位餐瘴息的特征? 语. 义感知多模态融合糢块利用两种模态特征之间语义信息的相关性. 采用_局部策略建模多模态费征之间的长距离语义依赖关系, 通过融合语义相关的多模。 态#征逋_道增强特征的语义表示能力. 本文将这两个融合填块整合到一个带有跳跃连接的编码-解码结构中,其冲编码器由两个相同的CNN分支构成, 分别用来提取RGB特征和探度特征. 根据CNN提取的特?征尺寸可以将其分为五个阶段, 其中, 前四个阶段的特征分别送人四个注意力感知多黎态融含模块, 最后一个阶段的高层次待征送入语义感知多模态融合模块* 然后将其输出送人解码器, 使用连续的上采祥操作恢复图"像分_象通过上述结构设计, 本文网络由浅入深地提取并融合多层次的RGB特征和深度#征, 并且充分利用多模278 计 算机 学 报 2021年态特征的空间差异和语义依赖关系, 有效促进多模态特征的协同交互, 从而提高最终的语义分割效果.本文的主要贡献可以概括如下:(1) 提出了一种端到端的基于注意力感知和语义感知的多模态融合网络ASNet , 用来解决RGB D室内场景语义分割问题.(2) 提出两种多模态特征融合方法. 其中, 在注意力感知多模态融合模块中, 本文设计出一种跨模态注意力机制, RGB特征和深度特征利用注意力掩模协同优化, 提取富含空间细节信息的特征. 另一方面, 语义感知多模态融合模块将非局部策略整合到多模态卷积神经网络中, 融合语义相关的多模态特征通道, 编码更具判别性的语义信息.(3) 实验证明本文提出的RGB D语义分割网络能够准确地处理复杂场景下的室内图像, 在公共的RGB D语义分割数据集SUNRGB D和NYUDepthv2 上取得了优于其他方法的语义分割结果.2 相关工作2. 1 基于卷积神经网络的单模态语义分割近年来, 卷积神经网络被广泛应用于图像的语义分割任务. Long等人于2014 年[ 4]提出了一种全卷积网络, 通过把分类网络中的全连接层改为卷积层, 创新性地将用于图像分类的CNN扩展到语义分割任务. 然而, CNN也存在一定的局限性, 经过网络中的卷积和池化操作, 原始图像的尺寸会大大降低, 而低分辨率的特征表示会导致图像细节信息的丢失, 从而降低分割准确度. 为了改善上述问题,Zhao等人[ 1 4]设计了一个金字塔池化模块, 通过整合不同区域的上下文信息对全局上下文信息进行建模. Chen等人[1 5]设计出一种空洞卷积, 在不损失分辨率和不增加计算量的前提下指数级地扩大网络的感受野. 〇6叩1 &1312[ 1 6 ]算法根据空间金字塔的思想,提出空洞空间金字塔池化(AtrousSpatialPyrami dPool i ng, 简称ASPP) , 使用多个不同采样率的空洞卷积来整合多尺度特征. 随后的〇6叩1^13 ¥3[ 1 7 ]进一步改进了ASPP模块, 以级联和并行的方式将4 个不同采样率的空洞卷积组合在一起, 编码不同尺度的上下文信息. U等人[ 1 8 ]提出一种两路并行网络, 分别提取图像轮廓特征和多尺度细节特征, 最后融合两类特征改善分割精度. 另外一些研究#2 2]则使用编码解码结构, 在编码过程中进行下采样操作,逐步减少特征图的分辨率, 在解码过程中连续上采样逐步恢复图像尺寸, 最终实现高分辨率语义分割.2.2 基于多模态融合的RGB-D图像语义分割随着深度传感器的广泛应用, 我们能够更方便的获取场景的深度信息, 人们对图像的研究不再局限于RGB图像, 对于RGB D图像的研究也取得了不错的进展. 有效的RGB特征与深度特征融合方法可以提高语义分割的精度. 目前的RGB D特征融合方法根据融合时期的不同可分为三类: 前期融合、后期融合和多级融合. Coupne 等人[ 7 ]提出了一种前期融合方法, 简单地将图像的RGB通道和深度通道拼接起来作为卷积神经网络的四通道输人. Wang等人[ 8 ]将深度信息编码为HHA特征, 并将RGB特征和HHA特征分别输人到两个CNN中进行预测, 在网络的最后阶段进行融合, 这种方法属于后期融合. Haarbas 等人[ 2 3 ]提出了一种编码解码网络,使用双分支CNN编码器分别从RGB图像和深度图像中提取特征, 并将不同层次的深度特征选择性的融合到相应的RGB特征中去, 这种方法为多级融合. 卷积神经网络提取的低层特征编码更多的空间位置信息, 而高层特征编码更多的类别语义信息, 网络提取的每一层特征都有利于最终的预测, 因此多级融合方法能更有效地利用中间层特征的信息.上述研究大多简单使用等权的拼接或求和操作来融合RGB特征和深度特征, 没有考虑到不同模态之间互补信息的有效利用. 近年来,一些研究提出了更有效的RGB D特征融合策略. U等人[ 2 4]使用级联的垂直和水平LSTMC LongShortTermMem〇ry)[ 2 5 ]层多方向扫描特征图, 从RGB特征和深度特征中分别提取上下文信息并融合. Hochmt er等人[ 2 6 ]提出了一种特征转换网络, 通过特征转换模块同时提取两种模态之间的共有特征和特有特征.Lee 等人[ 1 °]将Refi neNet[ 2 2 ]扩展到RGB D语义分割任务, 在一个深层网络中重复使用残差模块, 提取和融合多层次的RGB D特征, 其将残差模块进行重复叠加, 未考虑到两种模态之间互补信息的交互.一些研究%2 8 ]使用超像素方法建模图像的上下文结构信息, 并将其引人神经网络, 然后利用深度信息进行多分支预测, 但是超像素的计算需要消耗大量时间. Cheng等人[ 9 ]设计了一种后期融合方法, 在网络的最后一层使用门控融合单元, 通过反向传播自适应学习RGB特征和深度特征对于最终分割任务的贡献程度, 但其仅融合了最后一层特征, 未充分利用卷积网络提取的中间层特征.等: 基響法_: #緯舛和儀黑感如的S6SrD3j>i庫偉霉龙分餐筹_ 27 9 2撰2. 3注意力机制近年来, 注意力机制被广泛应用于计算机视觉等领域?Wang等:A?]在图像分类模型中使用空闾注龛力, 通过卷积神M网络的反向传播..自适应学习空甸注意力掩模, 指导特怔关在?像的重讓区域*显箸提升了图像分类任务的准确率HU等人[3°]提出一种通道注意力机制, 通过神经网: : 络自适庞学习每个特征逋: 道的重要截度, W〇〇等人[ 3 1]将: 空间注意力和通道法鮝力以级联和并行的方式整合, 进一步提升特征提取能九Wang等人[ 扣受非局部均值 和自注意力的启. 发, 提。出了一种非局部模块. 通过计算:相似矩阵捕莸特■征图申'像素点同的长距离依赖关系. FU等人 将该方法扩展到语义分割任务, 在全卷积网络的顶层接人两个并行模块, 存空间维度和通道维度编码特怔图时上下文信息? 现有的注糞力机制在单模态特征提取中嚴示出巨太潜力, 为了有效利用多模态数据的互补信息,本文提壯一种跨模态注意力机制, 分别计箅RGB特征和深度特征的空间注意力掩模. 多模态特征通过注意力掩模协同优化, 学习富含空间位耸倩息的#征?另外, 聋非局部思想的启发, 本文将非=局部操作整合到多模态融合卷积神经网络中, 建模多模态特怔之间的长距离语义依赖. 关系?3 本文方法本节雷先介绍本文语义分割网络ASNt的整体结构, 然e分别详细阐述所设计的两个多模态特征韻合隹块: 澤意力感知多模态融合隹块和语'义感知多模态融合模块r最菽介销模型训练所使用的损失函数.3. 1 网络模型的整体结构圏2雇示了网鉻摸型的整体结构. 本'文: 网齡整体为编码-解码架构,同时使用跳跃连接传递编码层和解码M之间的i償息? 其中r编码器为一个双分支全卷积网络. 分别甩来提取RGB特征和深度特征. 本文采用两个预训练的ResNet[3 5]作为编码器的两个分支, 并且去掉Resist 最病的全黯平均池化篇和全连接层? 另一方面, 解码器连续对特征进行上采样, 遂步恢篡图像分辨率.RGB图像下采样层 上采样层篛勰鼷语?I模态 跳跃连接la 靈于建=蠢金論細、和齋X感_的KGB-P舊复分割网絡穩滅ASNet 齒整体結輪本文网络模型弓] 入了两个多模态特征融合模块:注意力感知多傷态融参獲抉和_义感知多繼态論,摸抉. 具体来说, 将ResNet 编码器的前四个多级RGBf奢鋒( Res「r I?R機,r4, ) 和深處棒征(Re& ̄dlRfis-■祖) 输人注意力感知多模态敵合模块, 利用RGB特征和探度特征中的互补信息协同优化, 从而学习到富含空间位置信息的特征表:示, 另外, 将RessN et 编條器的最后一层货进特征( Res-tf) 和深度特怔(Res-d5) 输人到语义感知多模态融合模块,用来整合RGB特征和深度特征之间的语义相关通道? 然后4等语义感知多模态融合模块的输出特征输人到解码端, 通过6个连续的上采样层遂步恢复图像分謙攀, 靠中每个上靡样崖: 隹,爾个3',3着积层和一个 3.转:置卷积晨> 每个卷积层后都带有批标准化和ReLU撒活操作. 每个上.采样层将#征尺寸增大为原来的2?倍逋道个数减少为原来的一來AMF4280 计導机攀报: _1苹此外,注意力多模态融合模块输出的多级编码特征通过跳跃连接与具有相詞尺寸的解码特征融合, 举文使用对应位置元素求和拇作来实现跳跃连接. 为了优化训练过程f 本文采:用深昆监督策略训维网络,以减轻梯度'撒失丨句題. 具体来说, 本文网路在苴个不苘层次的解码特征上进行监督学习, 对五个上采样雇的输出特征分别使用1/1 卷积操怍4等特征逋31个数减少为釕3并使用Softmax函数进行像素级分类-解码器最后一g的输出为网络最幾的语义分割结舉?接下来两小节将分别对本网絡模型中盼注蠶力感知多律态融食模块和语叉感知多撰态融會犧块迸行律细介缉.3. 2 注意力感知多模态融合模块像上不同美别的相邻物体具有相似的外观时, 算法很难区分它们的类别. 此外r受光鹿影响? 物体的边界轮廓易和背景融为一体,箅法难以准确识别物体的边 E别于颜色偉息, 捧度償息不会随光照的变化而改变1因此可以根据深度. 值对它们进行?分.卷积神绎网络提取的浅层特征可以编码菌像中物体的?边缘翁i償息、 画3 麗示了乘: SResSst码器第2层提取的If息. 其中, 第1 列为RGB图像编码分支(Rtor2)提取的信息! 第2列为深度图像编码分支( Res d2) 提取的信息, 观察第(2)行和第00行■■受环境光照的彰响? 由RGB圈像提取的特征未能编码出西像中阴蝽处椅子的轮、暉情息, 而深. 度待征未受光照影晌, 准确编码出了椅子整体的轮廓信息. 第( 4) 行展示了由本文注黧力感知多模态融合模抉计算出的两个模态的注:意力掩模., 可以看出sRGB特征倾南于关注图像中顏色和纹霉发生变化的区域, 而振度特征则倾向予关fc探度値发生变化的区域, 两种■态特征的编码信息互为补充,Depth庫gRG?臀_、馨: 縻特征邾讓费■特,6|可观化对比考虑以上问题, 本立撻出一种跨模态往意力机制, 同时计算两种樓态特征的空间注意力掩樓,RGB特怔和深度特怔通过注意力掩模相互指导和优化?图2第(5> 行展示了餘过此融合填块提取的融合特征, 可以看出H善到的融合'特征不仅关柱到颜色和纹理发生变化的区域, W时关法到深度值发生变化的E域, 帮助网.络吏精确地判别物体的边界轮廓. 下面将对该模块进行详细介绍.注拿力感知多模态融合模块( AMF) 的结构如图4所示s_中JTf?£ R1—^'和尤f[w分别c 乂 h乂w图4 注意力感知多模态融合模块段立娟等: 基于注意力感知和语义感知的RGB D室内图像语义分割算法 2812 期表示来自ResNet 编码器第z 个阶段的RGB特征和深度特征, 特征的通道个数和尺寸分别为c 和/i X将同一阶段的RGB特征和深度特征作为注意力感知多模态融合模块的输人. 首先分别对两个特征图进行第一组非线性映射操作:Xff=ReLU( BN(/3 X3(XfGB) )(1)XDepth =ReLU( BN(/3 x3(xfeplh) )(2)其中,/3 X3为标准卷积操作, 卷积核大小为3X3 , 采样步长为1, 在卷积操作前对特征图外侧进行尺度为1的全〇 填充, 卷积操作不改变特征图的尺寸和通道个数, BN为批标准化操作, ReLU为线性整流激活函数, Xff和 为经过第一组非线性映射提取的特征, 接下来对其进行第二组非线性映射操作:X=B=BN(/3 X3(Xff) )(3)〇BN (/3 x3(#广) )⑷其中,/3 X3为标准卷积操作, 卷积核大小为3X3 , 采样步长为1, 同样对特征图进行尺度为1 的全〇 填充, 不改变特征图尺寸和通道个数, BN为批标准化操作. 与第一组非线性映射操作不同, 第二组非线性映射操作不使用ReLU激活函数.然后, 对 和Xge2plh使用Sigmoi d激活函数,将所有的特征值归一化到〇 和1 之间, 得到跨模态注意力掩模MfeB和M?pl h:MfGB=——y ^(5)l+exp( X,?)'l+exp( X°rh>其中, MfGBe为颜色注意力掩模, e为深度注意力掩模.使用注意力掩模让RGB特征和深度特征相互指导. 其中, 深度注意力掩模 来指导RGB特征, 颜色注意力掩模MTB用来指导深度特征:[/ fGB=B? Mfplh ?XfGB(7)[/ 产lh=X严1h?MfGB?X严1h(8)其中, C/feB为更新后的RGB特征, 为更新后深度特征, ?表示对应位置元素相乘, 十表示对应位置元素相加. 因此, 最终更新后的特征相当于原始特征的恒等残差映射( resi duali denti tymappi ng)[3 5],MfeB和M?plh中的元素取值范围为0 到1 之间,当某个位置的权值趋向于〇 时, 更新后的特征G在该位置的取值近似等同于原始特征X,,当权值趋向于1 时, 特征G在该位置的取值将会增加, 权值越大意味着该位置将会受到更多的关注.因此, 经过该融合模块, RGB特征和深度特征自适应协同优化, 同时保留了原始模态的特有信息, 有利于网络学习更鲁棒的特征表亦.进一步地, 注意力多模态融合模块的输出特征昃e通过以下计算获得:F,=/l xl(concat([/fGB, U^eplh) )( 9)其中, concat 表示在通道维度的拼接操作,/l xl表示一组非线性映射操作, 包括采样步长为1 的1 X1 卷积、批标准化和ReLU激活函数, 经过此操作, 特征的尺寸不变, 通道个数减少为原来的一半.3. 3 语义感知多模态融合模块卷积神经网络高层特征的每个通道都编码特定类别的语义信息. 为了充分利用多模态特征中的语义相关信息, 本文提出语义感知多模态融合模块( SMF) , 受现有文献[32] 中非局部思想的启发, 将非局部策略扩展到多模态特征融合任务, 通过整合语义相关的RGB特征通道和深度特征通道, 使得编码相同语义信息的特征互相增强.基于非局部思想的非局部均值滤波算法[ 33 ]被成功用于图像去噪任务, 可将其看作局部滤波方法的扩展, 局部滤波方法仅考虑局部搜索空间位置之间的关系, 非局部滤波方法则通过计算目标位置与全局搜索空间位置响应的相关程度, 更新目标位置的响应为所有位置响应的加权和, 从而建模全局响应间的长距离上下文关系. 本文将其用于编码两种模态特征通道间的长距离语义依赖关系. 为方便地将非局部操作引人本文多模态CNN, 本模块将其整合到一个残差单元内, 定义非局部操作为y, =-\-x, (10)Vz其中,z 枚举所有搜索空间位置,:r, 为z 位置的响应,6为_; 位置的原始输人响应,%为_; 位置更新后的输出响应, 二元函数/计算响应:c, 和:r, 之间的相关程度, C(:r)=I;/(u, ) 为归一化函数?式(10) 中的二元函数/有多种可选形式, 比如向量间的欧氏距离或点积相似性, 考虑到卷积神经网络提取的特征为三维张量, 点积操作在本文算法框架下可以更方便地实现. 参考非局部均值滤波算法[ 3 3 ], 定义二元函数/为高斯函数:?xj)( 11)因此, 式(10) 中的^y/(A, 即为计算对应位置的Softmax. 如图5 所示, 语义感知多模态融合模块的282 计 算机 学 报 2021年Reshape2cXhwReshape& transposemhwX2cReshape2cXhw 4>AJ?凡Fusi onReshapecXkXzo2cXhXwcXhXw2cXhXw庫s 看黑感知:_撰靈爾脅#fc输人为Reslfet 编码器第5 盼段的颜色特征it— _A'和深.處#征y98*eit71 _'鲁征的逋道个数和尺寸分别为r和/以规, 首先将它们在通道维度拼接, 得到融合特征 eRm, 调整齋合特征叉*^_的尺寸为i#us l ?eRm,將嫉阵H**-1和_翁蜜. 矩阵做矩阵乘法运算, 然后使用Softmax函数对其归一化, 计算得到语义相关矩阵AeR&_2%aJl=-^—fiH], Hl)=2 fXP(K)<12)i-l其中七为语义相关矩阵A在位置Gw.) 处时值, 甩来衡營特征 第? 个特怔通道与第厂个特征通道之间的语义相关程度,迸一歩的, 将语义相关矩阵A与ifSu_做矩阵乘法运: #, 并将输出矩阵的尺寸丨周整为ifFd_eRm, 然后使用?鳥部操作更蕾 , 瘍. 到语义零强特簡■yfmtm=(M]i Hf?) +x|us , on<13)i-l其中, Xf“为 的第 个通道, 打^为'更新后的谮义増强特征Pu'■的第i'个通道-, 经过上述_梟部操作, 语义增强特征 中的每个通道都是原始特征中和其语义相关的通道加权整合的铕果,与翁前通遺语义相近的通道:在顰合时会被赋予更大的杖童, 受益于恢操作的恭局部特性, 该模块不仅整嗆了專个模态内语义相关的通道,同对可以建模多模态特征通道之间的长鉅离谱义依赖关系k从而融合RGB特征和深度特征之间的语义相关通道*进一步增强特怔的语义表示.力*帮助网络爭习更具判别性的语义儔息.最后,使用1/1 卷积、 批标准化和ReLU激活操作, 將谣夂增強待征 的通道个数减少为;M来的一半41韻最终输出 本文使用p1 卷积实现特征的跨通道信息整含和降维, 可以看作上采榉前的一个瓶颈层, 更有效、 直观地进行数据的训练和特征提取. 同时减少接T来上采样操作的计算量? 另一方面. 最. 过该降维操作* 语义感知_合模块的输人特征和输出特怔拥有相同的通道维数,提高了模块的易用性和可移植性, 可以方便地将该模块整合到萁他多模态两络架构中?3. 4 损失函数本文网络在五个不同层次的解码铮征上迸行.监膂学习. 我们使用最近邻插值的方式对语义标签图下来#V将尺寸分别调整厲?■0,§40、 MQ,3甜、120X1S0、V8OX80 和加X4&; f 用乘迸行深.层避餐'训练? 对五个上舉样层的输出特征分别使用1Z1 卷积和Softmax函数计算每个像素的分类概拿. 第^层的损失涵数L, 为像素级交叉熵掼失^L,=X) YCp;,) log( ¥*( ^.q"))(14)其中, M为第*'层的?偉素个数, ^(? 为像泰位置y为输出的分类概率J齿标签类别.将五个解码层的像素级交叉熵损失相加, 作为本文网络最终的损失函数f5i-lplal  ̄DL,H Sii l通过优化上述损失函数T 本文的网络模塑能够端到端地进行训练. 链过一次训练卽可得到蕞终的分割Ilf.巣. 同时,由于本文使用跳跃连接策略将注意力感知融含模块的倩息传递到獬碍眉, 因此, 在反向传搐阶段, 辅助掘失产生的禅度可以容易地传递到对应的多模态融合模块, 进而传递到柑虫的编码层,从而有教的避免网络的梯度消失问题,提升模型整体的參数更新能力.3. 5 与现有方法的联系和区别本文所揭出的两个多儀态威合糧块均涉萬表倉力机制? 首H猶于?文献[群]和文献[34]中的_篇部4彙力^本戈浅倉力虜知參镇态截舍養块中的跨模态ft意力的本质为特征图盼空间注意力, 通过网段立娟等: 基于注意力感知和语义感知的RGB D室内图像语义分割算法 2832 期络的非线性运算和反向传播得到特征图的空间注意力权重, 利用多模态特征在空间注意力上的差异进行跨模态协同优化. 而文献[32]和文献[34]中的注意力本质为非局部思想和自注意力机制, 通过矩阵乘法运算得到注意力权重, 并且用于建模单一模态特征内部的上下文关系. 另一方面, 文献[32]通过非局部策略建模特征图空间像素点间的全局上下文关系, 文献[34]将其同时用于特征空间维度和通道维度. 它们均成功地将非局部策略用于提取单模态特征图在空间或通道维度的上下文信息, 受此启发, 本文的语义感知多模态融合模块将非局部策略扩展到多模态特征融合任务, 充分利用非局部思想能够建模长距离信息的优越性, 对RGB特征和深度特征之间的语义相关通道进行融合, 学习更具判别性语义信息的融合特征. 实验结果表明, 语义感知多模态融合方法充分利用了多模态特征之间的语义相关信息, 有效提升了最终的语义分类效果.4 实验结果与分析本节首先介绍实验使用的数据集, 评估指标和网络参数设置, 然后与现有的RGB D语义分割算法进行对比, 最后对网络模型内各个模块的作用进行实验分析.4. 1 实验数据集与评估指标4.1.1 数据集本文使用常用的公共RGB D语义分割数据集SUNRGB D[ 3 7 ]和NYUDepthv2[ 3 8 ]评估所提出的网络模型. SUNRGB D数据集是常用的大规模RGB D室内场景语义分割数据集, 共包含10335 张成对的RGB D图像和标签, 其中深度图像的缺失值均使用邻近帧估计的方法进行了填充和去噪处理. 所有图像都被精细标注, 每个像素被分配一个语义类别标签, 共划分为37 个语义类别, 包含了室内场景中常见的物体类别. 除了新采集的数据外,SUNRGB D数据集同时包含了NYUDepthv2、Berkel eyB3DO[ 3 9 ]、 SUN3D[ 40]中的数据. 本文采用与Song等人[ 3 7]相同的数据划分方法, 在实验评估中使用5285 个实例进行训练,5050 个实例进行测试. NYUDepthv2 数据集由1449 张来自室内场景的RGB D图像组成, 数据使用Mi crosoftKi nect 采集, 并对深度图的缺失值进行了填充. 语义标签共划分为40 类. 在实验中, 本文根据标准划分方法, 使用795 个实例用于训练, 654 个实例用于测试.4.1.2 评估指标本文使用三种常用的语义分割评估指标来验证算法性能, 分别为像素精度(pi xelaccuracy)、平均精度(meanaccuracy) 和平均交并比(meanloU)?4.2网络参数设置本文在开源的深度学习框架PyTorch?上实现并训练了所提出的网络模型. 首先使用随机尺度调整、 随机裁剪和随机翻转等方法对训练数据进行扩增, 然后将所有RGB图像、 深度图像的大小调整为480 X640 作为网络输人, 并且进一步把语义标签图的尺寸调整为480X640 、240X320、120X160、60X80 和30 X40, 用来进行深层监督训练. 将五个解码层的输出和标签间的像素级交叉熵损失相加,作为网络最终的损失函数. 本文使用在ImageNet分类数据集[ 41 ]上预训练的ResNet 来初始化编码器权重参数, 其余不在ResNet 上的层使用均值为0,方差为l〇i的正态分布进行参数初始化. 我们在两个NVIDIAGeForceGTX1080Ti GPU上使用带动量的随机梯度下降优化算法训练本文网络, 训练时批处理大小设置为5, 初始学习率设置为0.004,并且每50 次迭代乘以0.8 来减少学习率, 动量和权重衰减分别为〇.9 和0.0001.4. 3 实验结果分析4.3. 1 与其他算法的对比结果( 1) 在SUNRGBD数据集上的对比结果本文首先将所提算法与现有算法在SUNRGBD数据集上进行对比实验. 如表1 所示, 本文算法在三种评估指标上均优于现有方法. 具体来说, 本文以ResNet 101 为编码器的网络ASNet 101 在SUNRGBD测试集上的语义分割像素精度、平均精度和平表1与其他算法在SUN-RGBD数据集上的分割像素精度、平均精度以及平均交并比的比较结果 (单位: %)算法LSTMCF[24] ̄DFCNDCRF[42]FuseSF5[23 ]Cont ext CRF[43]LSD GF[ 9]CFN152[2 7]RDF15200RedNet。1]SCN152[28]ASNet 101ASNet 152pixelacc. meanacc.81. 960.582. 662. 7meanIoU4248 .751 . 1(DAutomat icdifferent iationinpytorch. ht tps : //o penreview.net/forum?id=BJJsrmfCZ284 计 算机 学 报 2021年均交并比分别为81.9%、60.5%和48.7%; 相比于LSD GF算法, 本文方法的平均精度提高了2.5%;相比于RDF152 算法, 本文方法的像素精度、平均精度和平均交并比分别提高了0.4%、0.4%和1.0%.上述算法均使用双分支编码解码架构, 需要指出的是, 本文的ASNet101网络使用101 层ResNet 作为编码器, 其性能已经优于使用152 层ResNet 作为编码器的CFN152 算法和RDF152 算法, 这归功于精心设计的网络结构以及多模态融合模块, 本文的方法不需要使用很深层的网络即可取得更优的分割结果.本文进一步验证了使用ResNet 152 作为编码器的网络性能. 如表1 所示, 使用更深的编码器进一步提高了网络的分割性能, 相比同样使用ResNet152作为编码器的CFN152 算法和SCN152 算法, 本文算法ASNet 152 的平均交并比分别提升3.0%和〇.4%, 这两种算法需要额外消耗大量时间计算超像素并进行多分支预测.另一方面, 相比于同样使用双分支编码解码架构的RedNet 和RDF152, 本文算法在三个指标上均取得更优结果. 这两种算法的性能提升主要归功于使用了更复杂的解码器, 其中,RDF152 算法的解码上采样层重复使用嵌套的残差单元, 包含大量的卷积和池化计算操作, RedNet算法则设计了包含约35 层3 X3 卷积的解码器, 而本文网络的解码上采样阶段仅包含15 层3 X3 卷积, 所使用的解码器更加轻量化.(2) 在NYUDepthv2 数据集上的对比结果本文进一步将所提算法与现有算法在NYUDepthv2 数据集上进行对比实验?NYUDepthv2 数据集的语义标签共划分为40 类. 如表2 所示, 本文以ResNet 101 为编码器的网络ResNet 101 在NYUDepthv2 测试集上的语义分割像素精度、 平均精度和平均交并比分别比RDF101 算法提高了1.2%、1.0 %和0.4%, 以ResNet 152 为编码器的网络表2 与其他算法在NYUDepthv2 数据集上的分割像素精度、平均精度以及平均交并比的比较结果(单位: %)算法 pixelacc. meanacc. meanIoULSTMCF[24]4 9. 4Cont ext CRF[4 3 ]7 0. 0 53. 6 40. 6LSD GF[9]7 1. 9 60. 7 45. 9CFN152[2 7]48. 1RDFlOlW]7 5. 6 62. 2 49. 1RDF152^0]7 6. 0 62. 8 50. 1SCN152[28 ]49. 6ASNet 101 76.4 63.2 49. 5ASNet 152 77. 6 64. 7 51. 3ASNet 152 的平均交并比分另IJ 比CFN152 算法和SCN152算法提高了3.2%和1.7%, 比RDF 152算法的像素精度、平均精度和平均交并比分别提高了1.6%、1.9%和1.2 %. 相比于现有尺08 0语义分割算法, 本文算法在NYUDepthv2 数据集上取得了最优的分割准确率. 这表明本文算法在不同数据集上均可以学习到具有判别性的特征表示, 能够有效适应数据中类别和场景的多样性.( 3) 语义分类结果分析为了更清楚地了解本文方法在各个语义类别上的分类情况, 本文进一步分析所提方法在SUNRGBD数据集37 个语义类别上的像素精度, 分别将本文网络与现有的RGB D语义分割网络FuSe SF5[ 2 3 ]以及LSD GF?进行了比较. 如表3 所示, 本文方法在25 个类别的像素精度上超过了另外两个算法. 具体来说, 本文网络进一步提高了高频类别和易区分类别的分割准确率, 比如“墙面”、“地板”和“天花板”等. 而对于形状复杂的类别和低频类别, 本文算法也提升了相当可观的分割精度, 例如“电冰箱”、“淋浴器”、“人”等. 这归功于以下两个因素: ( 1) 多层次特征融合的网络结构使得本文网络更充分地利用多模态特征的互补信息42) 两种多模态融合模块有效挖掘并利用多模态特征的空间互补信息和语义相关信息, 得到更精细的边缘分割效果和更准确的语义分类结果. 因此, 本文算法在多数类别上都取得了更优的结果, 但也存在一些类别的分类精度低于所对比算法的情况. 如图6 混淆矩阵所示, 本文算法容易将书桌床头柜错误地识别为桌子. 由于这些类别在外观和属性上非常相似, 难以根据物体内部语义信息对它们进行区分, 而LSD GF算法采用双分支上采样和局部敏感反池化操作, 为解码反池化阶段提供更丰富的局部上下文线索, 从而利用物体邻近上下文信息更准确地区分这些类别( 比如床头柜通常在床的旁边) . 同时, 这些局部外观和几何线索使得网络在反池化恢复图像尺寸过程中对体积较小且外观变化剧烈的物体有更强的适应能力, 比如毛巾、包袋等. 进一步观察图6 混淆矩阵, 可以看出, 本文网络在多数类别上都取得较好的分类结果, 但是仍有一些外观和属性比较相似的物体在分类时被混淆, 比如“书桌(desk)”、“桌子( tabl e)”和“床头柜( mghtstand)”. 还有少数类别因为出现频率较低而难以被网络准确识别, 例如“沐浴器(shower)”、“地毯(fl oormat)”和“架子( shel ves)”.等: 基響法_: #緯舛和儀黑感如的S6SrD3j>i庫偉霉龙分餐筹_ 285101 分别减少了&7%和5.41这说明本文提出的多模态融合模块显著提升了最终的语义分割准确率?迸一步地, 本文评估了网络在分别去除注蠢力感知多模态融合模块和语义感知多模态融合模块情况下的性能. 我们同样采用等权值拼接的操作来代替相应模块, 同时保持网络其他的参数设養相同. 下一节分别讨论所提出的两个#镔态融合嗔. 块对网铬性能的影垧.(I)注意力感知多模态融合楱块我们去除了ASNet-101中所有的注意力感知多糢态融会模块, 改为筒单盼等权値拼接两个模态的特征. 如表4第2轩所示, 在去餘注意力感知多模态融合模块后, 调络的平均精度和平均交并比分别降低了'1.#〇/命_2.8%.图7 展示了本文:网絡中间特征图的可.视化, 第2 列为羟过ResNet 第2、 层撵取的原始RGB特征图和探度特征M,第3 列为计算出的注意力掩■.可以看出4S始RGB特证难以准确编码光线较暗处物体的细节轮廓信息, 而深度特征未爱光照影响. 准确编码出了这些餘置的信I息, 弁且在深度值变化的ft置产生垔高的响座: . 另一方面, 对于那些深度值相同而类别不同的区域, 两种模态特征值的响麼倩况相反,比如地毯和地板,墙面和窗户. 第4列为该融合模块提取的融合特征图, 可以看出? 逋过注:意力协同优化, 融合特征整费了两种模态互补信息的优勢, 准确编码出樣層.商所有物体_位錢軟廓:會息?省徽适斑复杂的环境条件?_3廯3T使用或去除注意, 力感知多模态融合模块的分割结. 果. 对比虚线区域内的分割效果# 可以看比, 使用段意力感知多模态融合的网络对物体轮廓的分割更加精细, 比如空间上相邻且因为光照融像素精度/%虜6: 本:i;餘_:#§1件: RGBD数据?.类上的像素._德果渴灘歲障庸讀綫为等个_§!!; 梅參囊輕度(Jfal acc( 沿》4.a.2 两种多瘼态融合模块的性能分析本节讨论本文听提出的注意力感知多模态融合模块(AMF) 和语义感知多襟态融合模块XSMF)在网络擦:製中的作用. 我们通过替换网络模型中的两个多模态融#模块来验证它们对于屬兹分割性能的篸响? 实验结果如表4所示,本文首先坪估了网络在圭. 除所有多模态融合模块情况下的性能, 我们采用等权值拼接的操作来代替所有的多模态融含模块,同时保持网络其他的训缘参数相同, 本文在表4中用ConCat表示此网:络s其分割的平均精度和乎均交并比为分别为S48%和仏 , 比本文网络AS!%t-表4 两种多模态融合模块对网络性能的影响网络模型 AMF SMF pixelacc. meanacc. meanIoUConeat m. m 78.7 54.8 43.3ASNet-101 _ 80.4 58.745. 9ASNet-101 m 80.1 58.2 46.7ASNet-101 81. 9 60. 5 48.72撰表3 在§1 PN-RGB-D数据集37个类的像素分类精度的比较结果mm 墙稱 她面 娜 床 捭予 錄 齡 门 儀户 书架Fuse-SF5[2 3]LSD-GF[9 ]91. J94.!94.'61. J61.f77.:82. :78.f87. J66.!62. ;65.^46.J47. !62.468. 034.^48.^ASNet-101 92. 1照片95. 171.784. 2 87. 7 70.7 71. 1 64.4柜台 百叶窗 书桌 架子 窗帘 梳妆台 枕头65.\镜子48. (地毯Fuse-SF5[2 3]LSD-GF[9]67.:69. :40.:49. ^43.^51. :25.(35.(20.:24. (65.!68.,44.060. 554.266.552.^57. (ASNet-101 74.f衣服54.<54. 1 27.! 25. i 76. 1 57.\ 66.:天花板 书 电冰箱 电视 纸张 毛巾 沐浴器58. (箱子 木板Fuse-SF5[2 3]LSD-GF[9]25. )44.84.'88. ;45. 261. 534. !5 1. ^34.871. 724. (37. :21. 051. 421. ^46. (57, J54. \ASNet-10148.5人89.560. :68. 3 69. \ 46. 1 47.( 9. 8床头柜 马桶 水槽 灯 浴缸 包袋44.^62. 3Fuse-SF5[2 3]LSD-GF[9 ]ASNet-101 ̄ ̄19. (49. :72. (37.144.629.676. 782. 283.568. :74. :76.f64. 763.573.277. 088.512.647. 631.1邊甚llllppslpllf286 计 算机 学 报 2021年原始图像特征图注意力掩摸融合特征图图7 注意力多模态融合模块的特征可视化RGB图像语义标签不使用注意力使用注意力多模态融合多模态融合图8 注意力感知多模态融合模块的对比结果为一体的“沙发”和“地毯”, 形状复杂的“书桌”和“椅子 这说明通过跨模态特征的协同交互, 优化后的特征能够关注到仅靠单一模态难以关注的区域, 提取富含空间位置信息的特征表示, 有效增强了网络识别物体边界信息的能力, 从而得到更精细的轮廓分割绪果( 2)语义感知多模态融合模块本文使用同样的方法去. 除了:网络中时语义感知多輟态磁含模块? 如表4第3 行所示, 去除每义感知多模态融合模块后,算法的平均精度和平均交并比分别降低了2.3%和2.054圈0廣示了使用或去除语义感知多模态敲合模块的分割结果. 通过对比可以着出, 使用语义感知多II态融合模块的网络可以芷确的K分外观相似.、容易:混淆的物体, 例如 桌子”和“椅子”、&面片°和“窗户55等?.这说明语义感知多模态融合模块有效地整合了语义相关的RGE特征和深度特征* 帮助网络提取到更:加具有判别性的谙义信息.本文进一步对比了德用本同的#征雜合方式对网络性能的影响. 我们保持网络其t:结构和参数设覺不变, 分别使用以下方式替换举文的语义感知多模态融合獏块: <:1) 简单拼接多模态特征;等: 基響法_: #緯舛和儀黑感如的S6SrD3j>i庫偉霉龙分餐筹_ 287 2: 期RGB图像 语义标签 不使用语义感知使用语义感知多模态融合多模态融合图9—J4感 多揍翁 象放对tsl#C2)Red胃Et[ 1 1 ]零■法中的求和:操作., 筒■举*f: 多學藤特征进行相加; (; 0LSTM-CFtM算法中的记忆上下文融合方法, 使用LSTM昆多方向扫描RGB特征和深度特征并融合, 编码面像聋间像素之间的上下文关系;(4)LSD-GF?箕法中的门控融合单元, 通过春积和门控操作自适座学3RGB费征和深度特征对于最终分割的寅歡程度以§)Wa呢等人[3 2]的空间非舄部往意力, 通过计算相似矩阵捕获特‘怔图'傳寒点间的长距离依赖关系, 我们将多模态特怔拼接后使用此注意力进行特征提取-如表5 所示, 可以出s 这些方法从不同角度懈诀多模态#征的融合问题, 相比于筒率的多模态特征拼接或求和操作s 均一定程度地提升了最终的分割准确率, 但是仍然没有傭决语义分割任务中关键的语义判别问题. 本文的语义感知融合方法从特征的语义M面考虚, 增强了多模态融合特征的语义籠能力, 有效解决了錢像素被蠢中错误分类的问题; 相比现有多模态特征||合方:猶>提升效巣:變加'長著?表5 不同融合方式的性能对比融合方式pixel潑c岛 辑時維龜働 趙备酿 ̄SSSi Tlii?2ii77隶和mS57.746.5iBK上下文融合i〇. sas, spjjfl控齋餘额.s59. 3*?, , s空: 间非 部注意力80. 659^47. 1 ̄SXdi##8lT96〇7148? 74. a. 3#他影响囟素分析本节迸一步分析其他可餌影响本文柯络摟盡性能的因素*分别讨论了深度鲁息、特征融含崖数和深屢监督策略对网络最终分割性能产生: 的影响?本文曹先验怔了在不使用探度信息的情况下网络模型的性能.我们去除了编码器提取深度特怔的分支以及所有的多模态融合模块* 保留'RGR特征编码分支和其他部件, 旦编码薇酸后一个阶段的RGB特征直接送人解码器进行上采样.同对, 多层次的RGB编码特征与对应的解码特征通过跳跃连接相加融合、如表6 第1 行所示》由于缺少额外的全间几何信息,分割精度: 和平均交并比太幅降低? 这说明仅靠RGB特征所包含的外观信息,网络难以对环揸复杂的宣内场景进行精确分割.因此, 使用包含空间几何信息的深度数据, 同时利用RGB特征和深度特征来进行推理, 是解决复条环攙下场景理解问题的有数方法,表6 其他因素对网络性能的影响影响因素 pixelacc. meanacc. meanIoU不使用深度信息 77. 352.2 4 1.9不融合Res-1 和Res-2 层 80. 2 59.1 4 6.5不融合Res_3 和Res-4 层 80. 5 58.8 4 6.3不使用深层监督策略 81.1 59.4 48.1ASNet-101 81. 9 60.5 48.7为了骖怔多层漱#征威合的效桌., 我们逋过去除ASIfet-101中的某些融合层, 对阿络的性能迸行评估. 如_6 的第2#和第3 行所示, 去掉任何阶段的特征融含g姆杳降低网络最. 终的分割性能. 卷积神经网络提取的深层特征和浅层特征都有利于两络最终的推理预测, 本文网絡融合多个层次的RGB特征和深度特怔, 腾个樓态的特征由稱人深的协同指导和优化. 更充分的和用多个层次的多模态互补信息, 从而学习到更鲁棒的多模态特征表示.本文最后验怔了薇层M督策略对于网络性能的影响? 如表6 所示, 使用深层监臂輦略后, 网络的平均精度和乎均交并比分别提高1.1舛和〇?<?%?身于本文使用跳跃连接.中甸篇辅助损失的梯度可以通过跳跃连接更容易地传递到对应的特征融合模块,288 计導机攀报: _1苹有效避免了樣度If失问题, 使得本文. 网络在训练时更容1收敛, 从而产生更好的拟合结果.4. 4 结果可视化虜10M示了.本文算法隹SUN-RGBD数据集上的可视化对比结某3 第6 列为本文两络ASNfet-1, 01的分割结:暴. 可以?看itU本文#法在;各种复杂的螯内场景下都取得了精确的分割效果>我们将所提方法和I除所有多模态融合模块的Cmimt 模. 型以及RDFN#t#?M的分割结果进行了可视化比较. 可以看出,Concat模谨的分割结果中. 存在大量误分像素点, 并且物体边缘分顧结果较, 为粗糙?RDENet 算法的分割效果相对较好,钽是M对难以K分的类别缺乏足够的语义判别能力, 导致易混淆像素点被集:中分类错误, 比如地毯‘镜子”等、 相比RDFNet算法f:本文算法可以在准确识别难分物体的同时得到更精细的边廉分割结果.如第6 列所示, 通过使用注意力感知多模态融合模块 椅子”、“灯”和“人”等形犹复杂物体的分割轮廓宽加■精姻. 晃一方面:,通过使用篑义感知多模态磁食模块<本文网络现在能够将难以区分的傳素蟲正确分类, 比如第2行尤商积的“镜子”、第3行床头旁边的小“镜子”以及第S 行的“‘床头柜ConcatRDFNet-152[u,(1)(2)RGB图像深度图像-101⑷(5)尊If癱Edfmfgmi(6)(7)na^3图M 本: 文 薇在StfNRGSD翁藤義上的分劃鑛暴可讓ft对比( 不同歡色代表不同g1養細>.段立娟等: 基于注意力感知和语义感知的RGB D室内图像语义分割算法 2892 期5 总 结本文提出一种RGB D室内场景语义分割方法, 其中包含两种多模态特征融合模块: 注意力感知多模态融合模块和语义感知多模态融合模块. 本文将它们集成到一个双分支编码解码网络中, 有效地融合多层次的RGB特征和深度特征. 其中, 注意力感知多模态融合模块充分利用多模态特征在空间上的互补信息, 提升了模型的边缘分割效果. 语义感知多模态融合模块通过整合多模态特征的语义相关通道, 提取更具判别性的语义特征表示, 有效提升了网络模型的语义判别能力. 本文证实了融合多个层次的特征能够有效提升网络最终的分割精度, 使用深层监督策略可以有效减轻梯度消失问题, 提升模型的训练效果. 实验表明, 本文方法能够有效处理各种复杂的室内场景, 在多个具有挑战性的RGB D语义分割数据集上的分割性能均优于现有算法, 所提出的多模态特征融合方法可以应用于其它多模态计算机视觉任务, 例如多模态动作识别、 场景识别和目标检测等.RGB D室内语义分割任务的准确率还有进一步地提升空间, 考虑解决类别不均衡问题, 提升低频类别的分割精度, 或者结合多任务训练策略进一步利用深度信息提升语义分割精度等, 都是我们未来的研究方向.参 考 文 献[1]TianXuan,WangLiang,DingQi. Reviewof imagesemanti csegmentat ionbasedondeepl earning. JournalofSof t ware ^2019 ,3 0(2) : 4404 68(inChinese)( 田萱, 王亮, 丁琪. 基于深度学习的图像语义分割方法综述. 软件学报, 2019 ,30 ( 2 ): 440 4 68)[2]LeCunY, Bot touL,BengioY,I l af fnerP. Gradientbasedlearni ngappliedtodocument recogni tion. ProceedingsoftheIEEE, 1998 ,86(11) : 2278 2324[3]ZhangShun,GongYi 1 long, WangJinJun. Thedevelopmentofdeepconvolut ionalneuralnet worksanditsapplicationoncomput ervision. ChineseJournalofComput ers? 2019?42(3) :453 4 82 ( inChinese)( 张顺, 龚怡宏, 王进军. 深度卷积神经网络的发展及其在计算机视觉领域的应用. 计算机学报,2019, 42( 3) : 453482)[4]LongJ, ShelhamerE, DarrellT. Fullyconvolut ionalnet worksf orsemanticsegmentat ion//ProceedingsoftheIEEEConferenceonComputerVisionandPat t ernRecognition.Boston, USA, 2015: 3431 3440[5]ZhangZY. MicrosoftKi nectsensorandi tsef fect . IEEEMult imedi a,2012,19(2) : 4 10[6]HeY,ChiuWC, KeuperM,Fri tzM. RGBDsemant icsegment ationusingspatiot emporaldatadrivenpooling//Proceedingsoft heIEEEConferenceonComputerVi sionandPat ternRecognit ion. Hawaii,USA,2017: 7158 7 167[7]CouprieC, FarabetC, NajmanL? LeCunY. I ndoorsemanticsegment ationusingdept hinf ormation//Proceedi ngsoft heInternat ionalConferenceonLearningRepresentat ions.Scot t sdale, USA,2013: 80 88[8]Gupt aS,Gi rshickR,Arbel aezP, MalikJ. Learningrichfeat uresfromRGB Dimagesforobjectdetect ionandsegment ation//Proceedingsoft heEuropeanConf erenceonComput erVision. Hawaii ,USA,2 014: 345 360[9]ChengY,CaiR,LiR,etal. LocalitySensitivedeconvolutionnet workswithgat edfusionf orRGB Dindoorsemant icsegment ation//Proceedingsoft heIEEEConferenceonComput erVisionandPat t ernRecognit ion. Hawai i ?USA,20 17: 1475 14 83[10]LeeS,ParkS, HongK, RDFNet; RGB Dmult ilevelresidualfeat urefusionf orindoorsemant icsegment at ion//ProceedingsoftheIEEEInt ernationalConferenceonComput erVision. Venice,Italy,2017: 4990 4999[11]JiangJD,ZhengLN, LuoF,ZhangZJ. RedNet: Residualencoderdecodernet workf orindoorRGB Dsemant icsegment ation. arXivpreprint arXiv: 1806.01054,2018[12]EigenD, FergusR. Predi ct ingdept h, surf acenormalsandsemant iclabelswithacommonmult iscaleconvolutionalarchit ecture//Proceedings ofthe IEEE Int ernationalConferenceonComputerVision. Santi ago ,Chile,2015; 26502658[13]WangA,LuJW,WangG,etal. Mul ti modalunsupervisedfeat urelearningforRGB Dscenel abeling//ProceedingsoftheEuropeanConferenceonComputerVision. Hawaii , USA,20 14: 453 4 67[14]ZhaoI IS,ShiJP, QiX, et al. Pyramidsceneparsingnet work//Proceedingsoft heIEEEConferenceonComput erVisionandPat t ernRecogni tion. Hawaii ,USA, 2017: 6230623 9[15]ChenLC,PapandreouG? KokkinosI , et al . Semantic imagesegmentationwit hdeepconvolut ionalnetsandfullyconnect edCRFs. arXivprepri ntarXiv: 1412. 7062,20 14[16]ChenLC,PapandreouG,Kokki nosI ,et al. DeepLab:Semant icimagesegment at ionwithdeepconvolut ionalnets,Atrousconvolut ion, andfullyconnectedCRFs. IEEETransact ionsonPat ternAnalysisandMachineInt el ligence^20 18, 40(8) : 834 848[17]ChenLC,PapandreouG?Schroff F?AdamI I. Rethinkingat rousconvolut ionforsemant icimagesegment at ion. arXivprepri ntarXiv: 1706.0558 7,2017[18]LiBao Qi, I l e YuYao, HeLingJiao ,QiangWei. Asymmet ricparallelsemanticsegment ationmodelbasedonfullconvolutionalneuralnetwork. Act aElectronicaSinica?20 19 , 47 ( 5):1058 1064( inChinese)290 计 算机 学 报 2021年( 李宝奇, 贺昱曜, 何灵蛟, 强伟.基于全卷积神经网络的非对称并行语义分割模型. 电子学报,2019 ,4 7(5) : 10581064)[19]Badri narayananV, KendallA, CipollaR. SegNet: Adeepconvolutionalencoderdecoderarchitect uref orimagesegment ation. IEEETransact ionsonPat ternAnalysisandMachineInt elligence, 2017 , 3 9(12) : 2481 2495[20]RonnebergerO,FischerP,BroxT. UNet: Convolutionalnetworksf orbiomedi calimagesegment at ion//Proceedingsoft heInt ernat ionalConf erenceonMedi calI mageComputi ngandComputer AssistedInt ervention. Munich, Germany?2015: 2 34 241[21]JegouS? DrozdzalM, VazquezD,etal. Theonehundredlayerst iramisu: Fullyconvolutionaldensenetsf orsemanti csegmentat ion. arXivpreprint arXiv: 1611. 0 932 6, 2016[22]LinGS,MilanA,ShenCI I,ReidI . RefineNet; Mult ipathrefi nementnet worksforhighresolut ionsemanticsegment at ion//ProceedingsoftheIEEEConferenceonComput erVisionandPat ternRecognit ion. Hawaii, USA,2017; 5168 5177[23]I l azirbasC, MaL, DomokosC, CremersD. FuseNet:Incorporat ingdepthintosemant icsegmentat ionviafusionbasedCNNarchitect ure//Proceedingsoft heAsianConferenceonComputerVision. Taipei , China, 2016 : 213 228[24]LiZ, GanYK, Li angXD, etal . LSTMCF; Unifyi ngcont extmodelingandf usio nwit hLSTMsf orRGB Dscenelabeling//Proceedingsof theEuropeanConferenceonComput erVision. Amsterdam,TheNet herlands?2016: 541 557[25]I lochreit erS, SchmidhuberJ. Longshort termmemory.Neural comput ation, 1997 , 9(8); 1735 1780[26]WangJI I , WangZI I , TaoDC,et al. Learningcommonandspecificfeat uresforRGB Dsemanti csegmentat ionwi thdeconvolut ionalnetworks//ProceedingsoftheEuropeanConferenceonComputerVision. Amst erdam^ TheNetherlands^2016; 664 679[27]LinD, ChenGY, Cohen 〇rD,etal. Cascadedfeat urenetworkforsemant icsegment at ionofRGB Dimages//Proceedingsof t heIEEEI nternat ionalConf erenceonComputerVision. Venice, It aly, 2017: 13201328[28]LinD,ZhangRM,JiYF,et al . SCN: Swit chablecontextnetworkforsemant icsegmentat ionof RGB Dimages. IEEETransactionsonCyberneti cs,202 0 , 50(3) : 1120 1131[29]WangF, JiangMQ, QianC, et al . Residualatt enti onnetworkforimageclassifi cation//ProceedingsoftheIEEEConf erenceonComputerVisionandPat t ernRecognit io n.Hawaii,USA,2017: 64506458[30]I I uJ,ShenL,SunG. Squeeze andexcitat ionnetworks//ProceedingsoftheIEEEConferenceonComput erVisionandPat t ernRecognit ion. SaltLakeCity, USA, 2018: 7132 7141[31]WooS, ParkJ , LeeJ Y, KweonS. CBAM; Convolutionalblockat tentionmodule//ProceedingsoftheEuropeanConferenceonComputerVision. Munich,Germany,20 18: 3 19[32]WangXL,GirshickR,Gupt aA,HeKM. Nonlocalneuralnet works//Proceedi ngso ftheIEEEConf erenceonComput erVisionandPat t ernRecognit ion. SaltLakeCi ty, USA,20 18; 1153 1165[33]BuadesA, CollB, MorelJ M. Anonlocalalgorithmforimagedenoising//Proceedingsoft heIEEEConferenceonComput erVisionandPat ternRecognit ion. SanDiego, USA,2005; 60 65[34]FuJ, LiuJ , TianI IJ ,etal. Dualat t ent ionnet workforscenesegment at ion.arXivpreprint arXiv: 180 9. 02983 , 20 18[35]l i eKM,ZhangXY, RenSQ, SunJ. Deepresiduallearningforimagerecognit ion//Proceedingsoft heIEEEConf erenceonComput erVisionandPat t ernRecognit ion. LasVegas?USA, 2016;770778[36]l i eKM,ZhangXY, RenSQ, SunJ. I dent itymappingsindeepresidualnet works/ /Proceedingsoft heEuropeanConferenceon Computer Vision.Amst erdam, TheNetherlands,2016; 630645[37]SongS, Licht enbergSP,XiaoJX. SUNRGBD; ARGB Dsceneunderst andingbenchmarksuite//Proceedingsoft heIEEEConferenceonComput erVisionandPat ternRecognit ion.Boston, USA,2015;567 57 6[38]SilbermanN, I loiemD,KohliP,FergusR. Indoorsegmentat ionandsupport inf erencef romRGB Dimages//Proceedingsof theEuropeanConferenceonComputerVision. Florence,It aly,2012: 746 760[39]JanochA, KarayevS, JiaY,etal. Acat egorylevel3Dobjectdataset: Put ti ngtheKinect towork//ProceedingsoftheIEEEInt ernat ionalConferenceonComputerVisionWorkshops. Barcelona, Spai n,2011: 1168 1174[40]XiaoJX, OwensA, TorralbaA. SUN3D: A dat abaseof bigspacesreconst ruct edusingSFMandobjectlabels//Proceedingsof t heIEEEInt ernationalConferenceonComput erVision.Sydney, Aust ralia,2013 : 1625 1632[41]KrizhevskyA,SutskeverI, HintonGE. I mageNetclassificationwithdeepconvolutionalneuralnetworks//Proceedingsof theInt ernationalConf erenceonNeuralInformationProcessingSyst ems. LakeTahoe, USA,20 12; 1097 110 5[42]JiangJD?ZhangZJ, HuangYQ?ZhengLN. Incorporatingdepthint obot hCNNandCRF forindoorsemanticsegment at ion//Proceedi ngsof theIEEEInternationalConferenceonSoft wareEngineeringandServiceScience. Beijing? China?20 17: 525 5 30[43]Li nGS,ShenCI I ,vandenI l engelA,ReidI. Exploringcont extwithdeepst ruct uredmodel sforsemanticsegmentation.IEEETransact ionsonPatt ernAnalysisandMachi neIntelligence ,20 18 ,40(6) : 1352 1366段立娟等: 基于注意力感知和语义感知的RGB-D室内图像语义分割算法 29 1 2 期DUANLi-Juan,Ph.D.,professor,Ph.D.supervi sor.Herresearchinterestsincl udeimageprocessingandmachinel earning.BackgroundSemanticsegmentationisoneofthemostpopulartasksincomputervision.Asthefundamental ofsceneunderstanding,semanticsegmentationhasawiderapplicationinautomaticdrivingandrobotsensing.Recently, Moststudieshaveemployedconvolutional neuralnetwork(CNN)forsemanticsegmentationtask.However,indoorsemantics egmentationisstil lachal lengingtaskduetothecomplexityofindoorscenes.Recently,manyresearcheshaveimprovedtheindoorsegmentationaccuracybyintroducingdepthi nformation.However,thecurrentalgorithmsstil lfailtomakeeffectiveuseofcomplementaryinformationandsemanticinformationbetweenRGBfeatureanddepthfeature.MoststudiessimplyfuseRGBanddepthfeatureswithequal-weightconcatenatingorsumming,whichmaysuppressthemodalityspecificSUNQi-Chao,M.S.candi date.Hisresearchinterestsincl udeimageprocessinganddeepl earning.QIAOYuan-Hua,Ph.D. ,professor, Ph.D.supervisor.Herresearchinterestismachinel earning.CHENJun-Cheng,Ph.D. , l ecturer.Hisresearchinterestsincl udesignalprocessingandbigdataanalysis.CUIGuo-Qi n,M.S. ,professor.Hi sresearchinterestsincludepatternrecognitionandintel l igentvi deoanalysis.information.Inthiswork,wedesignamoreeffectiveRGB-Dfusionmethodwhichfullyexploitsthecomplementarycharacteristicsandsemanticinterdependenciesbetweenmutil-levelRGBanddepthfeatures.Theexperi mentresultsshowthatourmethodyi eldbettersegmentationresultsinvariouscompl exindoorscenes.ThisworkissupportedbytheNationalKeyR&DProgramofChina(No.2017YFC0803705) ,theKeyProjectofBeijingMuni cipalEducationCommission( No.KZ201 91 0005008) ,theMajorScienceandTechnologyInnovationProjectofHangzhou(No.201 82014B09),theprojectsdevotetomulti-mediaperceptionandcognition.Andsomeworkoftheresearchhasbeenpublishedintheinternationaljournal sandconferences. |
[返回] |