欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
SCI期刊论文
当前位置:首页 > SCI期刊论文
FF_CAM_基于通道注意机制前后端融合的人群计数_张宇倩
来源:一起赢论文网     日期:2021-05-08     浏览数:2260     【 字体:

 FF-CAM 基于通道注意机制前后端融合的人群计数张宇倩李国辉雷军何嘉宇( 国防科技大学信息系统工程重点实验室长沙4 1 0 07 3 )摘要单个图像中的人群计数在计算机视觉领域中备受关注, 因为其在公共安全方面具有重要作用. 例如, 在人群聚集的场景中监控设备可以实时监测人群数量变化, 对过度拥挤和异常情况进行预警以预防安全事故的发生.然而, 由于受到遮挡、透视扭曲、尺度变化和背景干扰的严重影响, 在单个图像中对人群计数的预测要达到较高精确度是极其困难的, 其面临着巨大的挑战. 在本文中, 我们提出了一个名为FF CAM 的创新性模型来计算图像中的人群数量. 它首先将主网络低层的特征图与高层的特征图合并, 实现不同尺度的特征融合, 且无需额外的分支或子任务, 解决了由于透视导致的尺度多样性问题. 随后融合的特征图被送人通道注意力模块以优化不同特征的融合过程, 并进行特征通道的重新校准以充分使用全局和空间信息. 此外, 我们在网络的末端利用扩张卷积来获得高质量的人群密度图, 扩张卷积层扩大了感受野, 其输出包含更详细的空间信息和全局信息, 不会降低空间分辨率. 最后, 我们加人基于S SJM 的损失函数用于比较估计人群密度图和真值的局部相关性, 以及基于回归人数的损失函数用于比较估计人群数量与真实人数之间的差异. 我们的FF CAM 在UC F CC 5 0 数据集、S h a ngh a i Te c h 数据集和UC F QRN F 数据集中进行训练并测试, 获得了出色的结果. 在UC F C C 5 0 数据集上比现有方法的M/V E提高了 4 . 5 % , M5£: 提高了 3 . 8 % .关键词人群计数; 特征融合; 通道注意力; 扩张卷积; 高质量密度图中图法分类号T P3 9 1DOI 号1 0 . 1 1 8 9 7 / SP . J . 1 0 1 6 .  2 0 2 1 . 0 0 3 0 4FF- CAM :C r ow dC oun t i ngB a s ed onFr o nt end- B ack endFus i onT hr o ughC h an ne l- A t ten ti o nMe cha ni s mZ H A N G Y u Q ia nL IG u o H u iL E IJ u nH E J i a Y u( S ci e n c e a n d Te c h n o lo gy on  Info rma t i on Sy st e msEn g in e e ri n gLa bo ra to ry^ Na t ion a lUn iv e rs i t y ofDe fe n s eT e c hn ol og y^ Ch a n g sh a4 1 0 07 3 )Abs t ra ctCr ow d co unt in gh a sa tt r a c t edm uch a tt en ti o ni n comp ut e r v i s i o now i ng t o i t s co n tr i b uti o ni np ub li c s e c ur i t y. F o r  ex am p l e , i na c r ow dg a th e r i ng s c en a r i o , t h e mo ni t o r i n g d ev i c e c an mo ni t o rch a n g e s int h en um b e r o f p e o p l ei nr e a lt i me ,a ndp r o v i d ee ar l yw ar ni n g o fo v e r c r ow d i ng  an da bn o rm a lc o n di ti o ns t o p r ev e n tth eo c c ur r en c e o fs a f e t ya c c i de nt s .B u to na c c o un t o f o c c l us i o n s,p e r s p e c t i v ed i s t o r t i o n s ,s c a l e v a r i a ti o n s a nd b ac kg r o un d i n t e r f e r en c e , it f a c e s ag r e at ch al l en g e t oa ch i e v e hi gha c cu r a cyo n th e p r e di c t i o no f c r ow dco u nt i n g i nas i ng l ei ma g e . I nt hi s p a p e r w ep r o p o s e a no v e lm o de lt o co un t c r ow ds na me d FF C AM .It me r g e s t h e fr o n t endf e a t ur e ma p w i th th eba cken d fe atu r e ma p i nth e ba s e l in e, ach iev i ng a fus i on o fv ar i o us s c al e f e at ur e s w it ho ut addi tio n al br anch e s o rex tr as u bt a s k s .Th ef us i o ni sf edin t ot h echa n n e l a tt e nt i o nb l o ckt oo p t i mi z et h ep r o c ed ur e ,a nd t oco n du c t f e at ur e r e c a libr a t io n to us e g l o ba l an ds p a ti a li nf o rma ti o n. F ur t h e rmo r e ,w e u ti l i z edi l a t e d l a ye r s t o o b t ai n a h ighqu a l it y de n s i ty ma p .T h ed i l at ed co n v o l ut io na ll a y e re xp a nd st h e r e c e p ti v e f ie l d , an di t s o ut p utco nt a in s m o r e de t ai l eds p a t i al i n fo rma t io na n dg l o ba l收稿日期:20 1 9 0 7 l l; 在线发布日期:2 0 2 0 0 4 1 2. 本课题得到国家自然科学基金( 7 1 6 7 3 2 9 3,6 1 8 0 6 2 1 5 ) 资助. 张宇倩, 硕士研究生, 主要研究方向为计算机视觉、深度学习以及信息系统工程.E m ail :4 4 6 5 7 9 7 9 4 @ q q .c o m. 李国辉( 通信作者) , 博士, 教授, 博士生导师, 主要研究领域为计算机视觉、信息系统工程、数据挖掘及虛拟现实技术. E m ail : gu o h li@ nmk . ed u . c n . 雷军, 博士, 讲师, 主要研究方向为计算机视觉、深度学习、数据挖掘及虛拟现实技术. 何嘉宇, 硕士研究生, 主要研究方向为深度学习、数据挖掘及虛拟现实技术.2 期张宇倩等: FF CA M : 基于通道注意机制前后端融合的人群计数3 0 5i nf o rm at i o nw i t h o u tr ed uc i n g t hes p a t i al r e s o l ut i o n .T he S S JM b a s e dl o s sf u nc ti o n is a d de dt oco mp a r et h e  l o c a l c o r r e l at i o nb e t w e en t h e e s t i ma t ed de ns it ym a pa n d t h e g r o un dt r ut h , me an w h i l et h er e g r e s s io n ba s e d l o s s f u nc ti o n i s ad de dt ocom p a r e th edi ff e r e nc eb e t w e enth ee s t i m at e dn um be r a n d t h e a c t u a lnu mb e r o f c r ow d.O ur  FF C AMi s v e r i fi e di n th e UC F_C C_5 0d at a s e t , t h eS ha n g h a iT e ch da t as e ta n dt h eUC F_ Q RN Fd at a s e t,g e t t i n gb r i l l i a nt e s t i m at i o n s . C omp ar edt os t a t e o f t h e ar t , MA Ei s i mp r o v edb y4 .  5 %a ndM SEi s i mp r o v edb y 3 .  8 %i nt h e UC F_C C_5 0da t a s e t .K eyw o rdsc r ow dco unt in g ;f e at ur e sf us i o n ;c ha nn e l a tt en ti o n ;d il at e dco n v o l ut io n s ;hi ghqu alit yd en s i t ym a pi 引言近年来, 随着生活水平的提高和交通的快速发展, 人群计数因其在公共安全方面的贡献而备受关注. 例如, 在人群聚集的场景中监控设备可以实时监测人群数量变化, 预防过度拥挤和异常情况. 然而,由于受到遮挡、透视扭曲、尺度变化和背景干扰的严重影响, 在单个图像中对人群计数的预测要达到较高精确性是极其困难的.在大量的研究和努力之下, 人群计数已经取得了较大的进展. 早期的工作主要是检测人群中的每个行人[1], 或使用多个人工提取的特征回归得到人数[2]. 但是在拥挤的场景中由于严重的遮挡难以准确检测到行人, 故会存在较大误差. 近年来, 主流的方法由直接计算人数转为生成人群密度图, 进而得到总人数以解决严重遮挡问题, 基于GA N [ ? 和基于C N N [ 5 ? ] 的方法已经发展并且得到了明显的改善. 此外, 人群密度图还包含了空间位置信息, 可更好的应用于安全领域.然而, 由于距监控相机的距离不同和透视问题,同一幅图像中会存在不同大小的人群, 因此人头尺度多样性是抑制计数准确度的主要难点.一些工作[ 5 9 ] 使用具有不同卷积核或是多列的卷积结构来解决尺度变化的问题, 而有些方法[ 1 " 1 1 ] 则是用相同大小的卷积核堆叠来替换不同的卷积核. 此外, 得到的人群密度图由于背景干扰会存在较大偏差, 文献[ 1 2 1 3 ] 在训练过程中增加了额外的信息来强调图像中的人群以解决该问题. 但这些方法仍然存在很多不足, 不能很好地解决尺度多样性的问题. L i 等人[ 1 ° ] 证明了多列结构中, 不同分支中的每列学到的是几乎相同的特征, 对尺度变化的贡献很小. 当网络变得复杂时, 计算量和计算复杂性急剧增加, 也会导致训练速度的延迟和梯度爆炸. 基于这个问题, 为了学习到不同尺度的特征, 同时排除背景噪声的影响,我们考虑采用单列单卷积核的网络结构, 融合低层和高层的特征图. 由于网络中不同级别的层包含不同的比例特征信息, 且多个相同大小卷积核叠加后与大的卷积核具有相同的特征学习效果. 此外, 不同级别的层还包含不同级别的语义信息, 低层卷积可以提取细节边缘图案, 有效地回归拥塞区域得到密度图, 高层则可以选择性地获得有用的语义信息, 将人头与背景噪声区分开来. 这样做在获得不同尺度信息的同时不增加计算量和网络结构复杂度.另一方面, 各种特征通过简单的连接难以很好地对融合的不同尺度大小的人头区域的特征进行有选择性的加强. 另外, 卷积层的通道容易被忽略, 从而导致空间信息的不足. 而由于生成的密度值遵循逐像素预测原则, 因此输出的密度图必须包含空间相干性, 以呈现最近像素之间的平滑过渡. 所以我们考虑将S E ( Squ e e z e a n d E xc it a t i o n ) 模块[1 4] 引人为通道注意力模块来优化融合. H u 等人[ 14 ] 提出, S E模块可以考虑通道的权重, 进行特征重新校准以捕获空间相关性, 并有选择地强调信息性强的特征. 如此一来将该模块加在特征融合之后可以优化连接过程, 对学习到的不同尺度的特征图进行加权, 有选择性地强调不同尺度的特征, 避免直接连接造成的损失. 同时捕获的空间相关性能使最终生成的密度图呈现最近像素之间的平滑过渡, 以生成高质量的人群密度图.此外, 经过池化层的特征图降低了空间分辨率,丢失了空间信息, 产生的人群密度图质量不够高. 我们考虑在网络末端运用扩张卷积. U 等人[ 1 ° ] 证明了扩张卷积比使用卷积、池化加反卷积的方案更好地保持了特征映射的分辨率, 可以包含更详细的空间306 计導机攀报 :_1苹信息和全局信息, 在扩大. 了感受野的同时不增加参数或计算量? 所以, 我们运用扩张卷积可以生成高质羞Sii 人群密度图.最后, 在人群场發中, 高密度区域的烏部模式和纹理特征与其他区域大不相同, 但欧几里德损失建立在像素独立性假设上并忽略了它们, 密.度囲的显部枏关性未被考虑? 另外, 其投有将输人图像的全緣计数错误考虑进去, 也与用:来衡量准确度的评估指标投有茸镔关系. 为此, 我们考虑在损失函数中加入错构相似性指数( SS J M) 和关于回归人数的损失函数. 结构相似性指数根摒鳥部模式计?算两个酉像之间的相似性s 可以比较生成人群密度M 与真值之间的相似性. 关于回归人数的损朱a数直接衡量带计人群数惫与寫值之向的差异? 通过改进损失函数, 网络将&成适合输人图像整体密度水平的特征, 这有助于产生更准确的密度值.基于上述讨论, 我们提出了一种新型人群计数的?fj lfsj  : FF- CAM ( F r o nt:e iid- ba cl s en dF usi onn etwo r kth r oug hCha n n e l- A tt en t io nM^ e ka n is m ) ?^ HI1|f f示? 我们提出的方法在U CF_C C_5 0 数摒集中的测试结果优于I前巖先进的方法. 筒而言之, 我们的贡献包括以下三个方面.-( 1 ) 我们融合了主M 络低层和高的特征_?网络主干R 有一列且a 有一个大小时卷积内核, 减去了额外的分1 支■及参黎:量? 不:同级别的卷积_ 不仅包含不同的裔义信息* 还包含不同的比例特征信息.它们的融合可以适应于透视效应引起的尺度变化, 并且共拿更多特征, 饲时可以排除背景干扰. 它还具有更少的参数和计算量《( 2, 我们引人了SE 模块[ 14 ] 作为F F- C A M 的通道注意Jj 模块. 避免直接连接造成的损失., 通道注:意力"檩暴有以对纖合的不同尺鹰大小的人头区域的褚征进行有选择性的加强, 由此提高网络的表达能力.另一方面它可以考虑通道的权黨, 进行脅征熏:新揆准以捕莸空. 间枏关牲, 使臻终生成的人群密度图呈规最近傳蒙间的平搰过渡?(J0 我们利H 一組扩张卷积作为网络的末端. 其在增太了感受野的词时保证较少的参数量,, 包含了更洋细的空间鲁息和全局瘡息, W 以生成高质量的人群密度图, 此外, 我们将SS IM【结构相似性. )和回归入数加人到损失囷数中[7]. S S/M 可用宁估计人群密度图和真值的局部一致性sS 于回归人数的损失涵数则衡量估计人群数量与真值之间的差异. 综合?后的损失函数有以望:好地衡量训练的估计值与真实值间的差异^产&更准确的密度值, 提高训练准确度..贳a.网络_结梅围( 网_输入搶是原觀的細翁人群a 像;■ jg嬌嵐像依次鱗入至不同酸卷嗔层? 慰合臀si本3 機特征flJ 等卸JS風不同坶卷観?组脅_ 出的眷征m■慕姻禽层的眷征图融脅fis爾》)S 再雜A 通道1£意:办樓象, 鏃貧_栽扩张暑稱模輿選梅痛囊轉猶人群密度图)2 相关工作在图像和视频中对人群迸行计数已经有了很多、年的发展, 因为它在视频监控和公共安全中发挥着重要作用, 故而受到计算机视觉领域中人们的长斯关注? 偉是由于遮挡, 透视失真* 茂度变化和背景干扰, 计数糈度的提禽是一个枏当大的挑战?a 前人群场景计数的研究大致有以下一些方法.2 . 1 传统的方法2 . 1 .  1 基手狻测隨方機早期的工作主要是检测单个个体弁计算教量.2 0 1 2 年, Dol kr 等人?使用类似移动窗Q 的探测器來探铡人体并计算野像中人的数量. H a ar 小波分鸯器0 6] 用于从检测到的人体中提取低级特征, 而文献[ 1 幻中则用H OG ( 直方圓定向梯度,) 分类器来提取特征_F e l ze ns2wa l b 等人[1 S] .尝.貧微娜身体的一些输定部分而不是整体, 因为人体在拥挤的埭景中总是张宇倩等: FF CA M : 基于通道注2 期 意机制前后端融合 的人 群计数 3 0 7被遮挡. 但是所有这些早期工作在非常拥挤的场景中都得到了较差的结果.2 . 1 . 2 基于回归的方法随着场景变得越来越拥挤, 基于检测的方法存在很大限制, 因此基于回归的方法被提出. C ha n 等人[1 9] 使用前景和纹理特征生成低级信息, 并在学习了人群与提取的特征相对应的关系后计算出数量.随后在2 0 1 3 年,Id r e e s 等人[2] 引人傅立叶分析和S IF T ( 尺度不变的特征变换) 来提取文献[ 1 9 ] 中提出的特征. 但是一些显著的特征很容易被忽视, 从而导致更大的偏差. 在文献[ 2 0 ] 中, 局部区域中的特征与其密度图之间的线性映射用来整合显著性信息.2 0 1 5 年, 由于理想线性映射增益的问题, P ha m 等人[ 2 1 ] 建议通过随机森林回归来学习非线性映射而不是线性映射.2 . 2 基于深度学习的方法随着深度学习的快速发展, 卷积神经网络在人群计数领域显示出了很大的优势.2 0 1 5 年, Z h a n g 等人[ 2 2 ] 训练卷积神经网络对人群密度图进行回归. 他们使用密度和透视信息重新得到图像, 然后使用它们微调训练好的网络并预测密度图. 然而, 其适用性受到透视图的要求和每个测试场景微调的限制. 2 0 1 6 年, Z h a ng 等人[ 9 ] 使用多尺度卷积神经网络架构来解决人群场景中的大规模变化, 并使用1 X 1 卷积操作融合来自每个特定尺寸的卷积网络训练的特征图以回归得到密度图. 它解决了尺度变化导致的问题. 在此之后, 多列[8] 或多尺度[ 6 ’ n ’ 1 7 ] 网络架构经常被用于人群计数问题. 具体而言, S a m 等人[ 7 ] 引人了一个分类器, 根据密集级别选择指定的训练列. Ca o 等人[8] 使用尺度融合模块作为编码器来提取不同尺度的特征, 并使用一组转置的卷积作为解码器来生成高质量的密度图, 还提出了局部模式一致性损失函数. Z ha n g 等人[ 1 1 ] 结合了多层的特征图来适应行人规模和视角的变化, 引人了多任务损失, 增加了相对人头数量损失函数. 但是一些工作则建议用相同大小的卷积核堆替换不同的卷积核. U 等人[1 ° ] 验证了使用多列卷积的有效性可能并不突出, 这种分支结构中的每一列学到的都是几乎相同的特征. 因此它使用V G G1 6 作为基线, 并在后端引人了扩张层, 得到了很大的改进.此外, 文献[ 1 2 1 3 ] 在训练过程中增加了额外的信息以排除背景干扰. S hi 等人[ 1 2 ] 将透视信息整合到人群密度图中, 提供有关图像中人物尺度变化的附加信息, 这十分有效地提高了小尺寸的人群区域的密度回归的精度. L m 等人[ 1 3 ] 提出了一项自监督的任务以改进人群计数网络的训练, 在训练时利用未标记的人群图像以显著提高效果. 它可以生成子图像的排名, 其可以用于训练网络来估计一个图像是否包含比另一个图像更多的人. 但额外的信息或任务可能会导致更多的资源和计算量的需求.在2 0 1 9 年, 更多解决方案被提出. Wa n g 等人[ 2 3 ] 构建了一个大尺度、多样化的合成人群计数数据集来预先训练他们设计的空间全卷积网络. L m等人[ 2 4 ] 引人了端到端架构, 该架构结合了使用多个大小的感受域得到的特征, 并学习在每个图像位置的每个特征的权重. L m 等人[ 2 5 ] 将检测到的模糊的图像区域放大到高分辨率以进行重新训练, 并添加了本地化任务. 几乎所有方法都添加了额外的信息或任务来增强单一人群计数的任务.3 主要方法论述许多先前的方法引人了多列融合的网络结构,以减少由于透视效应导致的头部尺度变化引起的误差. 它们可以融合各种不同尺寸的卷积核或不同列的各种感受野的特征图. 但是不同大小的内核可能会导致更多的参数量和计算量, 而多列架构可能使网络更复杂. 受文献[ 1 1 ] 的启发, 我们提出基于单一大小卷积核的单列网络, 通过通道注意机制融合低层和高层的特征图. 该网络对于头部尺度变化和背景噪声将更具鲁棒性, 同时保持结构的简洁. 此外,我们网络最后的部分利用扩张卷积模块, 并且将基于S S JM 和基于回归人数的两个损失函数添加到综合损失函数中.我们提出的网络结构模型如图1 所示, 该模型被称为F F C AM ( F r o n t e nd b ac k en dF us io nn e t w o r kth r o ughCh a nn e l A tt e nt i o nM e ch a ni sm ) . 我们将从四个方面详细阐述该模型.3 . 1 低层高层融合在人群场景的采集过程中, 由于同一场景下人与摄像机的距离不同, 会因为透视效应导致人头大小不同, 也就是存在尺度多样性的问题. 为了提取不同尺度大小的特征, 解决尺度多样性带来的问题, 并排除背景干扰, 我们提出了低层高层特征图融合的方法.如图1 所亦, 我们网络的主干米用V GG 1 6 结3? 8 计導机攀报 :_1苹构. 它具有强大的特征表示能力:旦易于连接. 我们运用VG G l fi 的前1 3 虜来提取多M 度的特征商? 组成FF CAM 的所有卷択核大小均为3/ 3( 除一个3 / S 卷积之前的1 / 1 卷积用于降低计算、复.杂度和最后一层1y1 卷积层用T 代替全卷?积层外) , 多个3 / 含的卷积核堆叠与太,R 度的卷积核具有相同的效果? 例如2 个3 / S 的卷积孩堆叠的效果相当于1 个5 / 5 的卷积核个3 卷积核则相当于1 个7 / 7 的卷积核, 以此'类推> 因此其可以学习到不同茂度的悻征,伹计算量要少得多,并且可以构建萬徕的网绪网络中不同级别的特征层不仅包含不同级别的语义倩惠* 还包含不同的比例特征f 息.? 低虜有以提取细节边缘思案、, 这对于在人群密度掲中回归拥塞K 域的僅1|有童_翥.夂. _ 它无法捕捉细节* 这可能会导致杂乱的背景干扰, 从而导致不。正确的回高层删可以逸择性地莸得有用的语义僙息, 西此网络可以将人群与貲# 噪声& 分开来.鉴于它们的特性, 我们通过通? 注意模块融合低层和高葛的特征厨, 以从主干M 络中获取并截合足够多的特征.如面1 所示, 我们使用来自V GG 1 6 主平网络中的 Cc m v l?2 , Co:nv2_2—CJo iw 4_3 和’Qmw S _ ,3 层的特征图, 其中卷积层参数设置与V G G -1 6 相同. 这些不嫌层级特征图的输人有助于提取多尺度的特征. 通过梟大池化层这些输m特怔图对应的大小分别为原始输入图像的i / 2 1/4 ,1/8 和1 / M? 首先使用爆近. 鑛:? 值财Cimv 4 ?a 输出的特征图进行上采样* 并与Cfen vU 输出的特征菌融合s 苒将融含后的特征圈输人逋道注意力模块,调整W屋不同特征倩息融合时的权重, 提.高W 络的表征龍力* 隨后, C? nv !i _3 输出的特征画和Co nvi0_2输出的特征图'的融貪搡作类似fCon ¥4^ 3: :和C on vH 融合得到的特征囹同样输人通遵注意力模块. 经通道注意力模块处理后的特征画输人一组卷fU ,t ; f Con vlJC 1 Y SI2 Co n?S// 5 X2 ,ff fCo nvSX3 X 忘1 2.  3XS 卷积之前的1X1 卷我甩于降低计雰:复杂度? 我们将该组卷积鏡输出的聲征團定义为Gon vlS 层?其_舞被上.蒙样:并与Gmw l—2 的输出論脅V然后以相伺的言式输A到通道柱意力獏:块<最踌; 输出的特征图通过扩张卷积模块后生成人群密'度圈.。接下来我们将具体介绍通道注意方模块和扩张卷积模块, 具体结构如图2 和图3. .通道注意力模块/ ^- CONCAT圓I 通遽3意力模块的黎构wgl 中(CO N CAT 表示霄遍督_ 图職合V得綱: 空间華翁为A /?f爵眷征動扩张卷积模块_ s 扩张卷藏模块的绪梅w en中扩张卷観:筆1 费?参繫分- 表章_興機大小和:爾擊霉>3 . 2 通道注意力模块ft意力模型现在&经成为神经网络中的一个重藝修ti肩本同的颡域中被研究和.座用. 文献E1 C1介绺了SE 模块/它模拟了卷积特征图的通道之间的梅苴依赖性, 从而提高了随络的表怔能力.大:多数先前的工作直接组合来自不同卷积层的特征图? 没有考虑融合时它们各自的权重. 另一方面, 亩于空间信息的不足4 卷积M 的通道总是被忽略. 3E 模块可以进行特征重新校准, 选择性地强调有用倩息. , 并且抑制不太有用的特征> 网祭可以学习使用全简誉息? 此外, 它还有助于捕靡空间相关性,张宇倩等: FF CA M : 基于通道注2 期 意机制前后端融合 的人 群计数 3 0 9而无需额外的监督. 最后一点, 它在计算上很轻巧.有如此多的好处, 它却只会略微增加模型复杂性和计算负担.此外, S E 模块已被证明可以改善网络性能, 并可以通过整个网络进行累积[1 4]. 因此, 我们将S E 块转换为我们的通道注意力模块. 具体结构如图2 所示. 通道注意力模块包括三个过程: 挤压S 、激励E和重新缩放i ? .首先, 对两个卷积层融合后输出的特征图N 进行挤压操作S . 挤压操作在空间维度上聚合特征图,并通过全局平均池化层来生成通道统计量. 给定特征图的空间维数为A X w X c, 挤压操作后变为I X I X c . 每一个通道的特征图队( :r = l,2,…,c ) 对应的通道描述符由以下公式计算:1hz vDX=S ( NX )=( 1 )其中, & 0',_ ; ) 表示特征图上第z 行第_; 列的元素的值.特征图N 通过挤压操作后生成了通道描述符D= { Dz ,: r=l,2,…,c } . 通道描述符嵌人了通道特征响应的全局分布, 因此其较低层能够利用全局感受野的信息.然后, 我们将D 送人激励操作E , 产生提取描述符T. 它由基于非线性的两个完全连接层、一个R e l u 函数和一个Si gm o i d 函数组成. 将其表示为T= E ( D ; F C )=a ( g ( D ; F C ) )= (t ( FC 2 5 ( FC 1 D) )( 2 )其中, 是具有缩小率々的降维层, 厂〇是维数增加层j 是一个超参数, 它可以改变模型中块的容量和计算成本. 根据文献[ 1 4 ] , 我们设置A= 1 6 , 以实现准确性和复杂性之间的良好平衡. 5 是Re l u 函数, ^ 是S gmm d 函数. 两个完全连接层可以通过减小维度来限制模型复杂性, 极大地减少了参数量和计算量. 并且其能更多地学习通道之间的非线性相互作用, 可以更好地拟合通道间复杂的相关性, 提高泛化性. 此外, 与o n e h o t 激活函数相反, Si g mo i d激活函数强调多个通道, 故整个激励操作能完全捕获通道依赖性并控制每个通道的激励, 获得〇? 1 之间归一化的权重.最后, 通道注意力模块的输人JV 由提取描述符了重新加权:F = R ( N ;T )=T. N( 3 )其中, i ? 表示输人特征图N 和提取描述符T 之间的通道乘法, 即通过乘法将T 逐通道的权重加权到N中对应的每个通道特征图的每个特征点上, 完成在通道维度上的对原始特征的重标定. 模块的最终输出F 可以直接被送人下一层.3 . 3 扩张卷积模块在我们的网络中, 输人的人群图像由最大池化层下采样再经上采样融合之后, 生成的特征图为原始输人的1 / 2 . 特征图在经过池化层后, 虽然在控制过拟合同时保持了不变性, 但降低了空间分辨率, 丢失了部分空间信息, 产生的密度图质量不够高.U 等人[ 1° ] 证明了扩张卷积可以比使用卷积、池化加反卷积的方案更好地保持特征映射的分辨率.虽然反卷积层可以减轻信息的丢失, 但会增加额外的复杂性, 且会导致执行延迟. 基于此, 我们在网络的末端利用扩张卷积层. 扩张卷积层扩大了感受野,而不增加参数或计算量. 同时, 经过扩张卷积的输出可以包含更详细的空间信息和全局信息, 不会降低空间分辨率. 所以, 我们运用扩张卷积可以生成高质量的人群密度图, 同时提高人群估计准确率.我们在网络的末端运用扩张卷积, 如图3 表示网络末端的扩张卷积模块. 它由具有扩张率为2 的四层扩张卷积层和一层1 X 1 的卷积层组成. 每个扩张卷积层的通道数都不同, 每一层后都会通过批量标准化层和R e l u 层. 1 X 1 卷积层用来输出最终的人群密度图, 相较于全连接层其参数量更少, 计算量更小. 最后, 网络输出高分辨率的人群密度图.3 . 4 综合损失函数主流工作将像素上的欧几里德损失设置为训练过程中的损失函数. 在人群场景中, 高密度区域的局部模式和纹理特征与其他区域( 低密度区域或背景)大不相同, 但欧几里德损失建立在像素独立性假设上并忽略了它们, 密度图的局部相关性未被考虑. 此外, 该损失函数与用来衡量准确度的MA E 及M SE没有直接关系, 也没有将输人图像的全局计数错误考虑进去. 为了解决上述问题, 我们将基于结构相似性指数( S S JM ) 的损失函数、基于回归人数的损失函数与欧几里德损失相结合作为我们的最终损失函数, 该函数可用于估计人群密度图和真值的局部一致性, 并估计人群数量与真实人数之间的差异, 从而使综合后的损失函数更好地表示训练产生的估计值与真实值间的差异, 以生成高质量的人群密度图, 提高训练准确度.3 . 4 . 1 欧几里德损失函数欧几里德损失用于在像素级别上衡量输出密度图与相应真值之间的差异, 其定义如下:Lz ( ?)=(A )i 13 1 0 计算机学报 2 0 2 1年其中, 0 表示网络训练时的一组参数, N 是训练样本的数量表示具有参数0 的网络输人图像八后输出的估计密度图, 而A 是对应的真值密度图.3 . 4 . 2 基于S S JM 的损失函数S S JM 是一种广泛用于图像质量评估领域的指标. 它根据局部模式( 包括均值, 方差和协方差) 计算两个图像之间的相似性. S S JM 值的取值范围是[ 1 , 1 ] . 两个图像越相似, 其值越大. 当两个图像相同时, 它等于1 .受S A N e t[7] 启发, 我们将S S JM 加人损失函数. 首先, 使用标准偏差为1 . 5 的1 1 X 1 1 归一化高斯核来估计局部统计量. 然后, 权重由W ={W ( r ) |/? £ 只, 只={ (5,5 ) ,?, ( 5,5 ) } } 定义, 其中?" 为中心,i ? 包含所有位置内核. 因此, 对于每个位置h计算密度图& 和相应的真值D 的局部统计量.首先计算& 的局部均值和方差:f^d( t Fd)=2W ( rFd'>' F ( t Fd+ rFd)( 5 )( ^,)=2w ( rFd')-LF ( t Fd+ rFd)f^d(.t Fd) yrfRFd, 、( 6 )其次, 是D 的局部均值和方差YjW ( rD )' F ( t D + rD )( 7 )rD^ RD二XW ( r D )? [F G D + r D ) "D ( r D ) ]2 ( 8 )rD^ RD由此我们可以计算^ 和D 间的局部协方差(^ FdD^W ( r )?[ F ( r  +r )fJ- Fd) ]*r ^: R[Y ( r +r ) " D ( r D ) ]( 9 )根据这些指标, S S JM 逐点计算如下:S S IM =( 2/LL Fd/LL D + Q1 ) ( 2(y FdD + Q2 )(_f/Fd +f/D+ Q i ) (_ a2Fd + (J2d+Q2 )( 1 0 )其中, 0 : 和〇2 是随机的非常小的常数, 以避免被零除, 我们依照文献[ 7 ] 的设置来给它们赋值.最后, 基于S S JM 的损失函数定义为Ls=l^^ S S IM ( t )( 1 1 )其中, M 是密度图中的像素总数.3 . 4 . 3 基于回归人数的损失函数大多数基于密度估计的计数算法通过测量预测密度图和地面实况密度图之间的每像素误差来优化其计数模型. 然而, 这种方法与用来衡量准确度的评估指标MA E 和MS E 没有直接关系, 也没有将输人图像的全局计数错误考虑进去. 为此, 我们新增了另一个关于回归人数的损失函数, 它直接衡量估计人群数量与真实人数之间的差异. 通过增加该损失函数, 网络将生成适合输人图像的整体密度水平的特征, 这有助于产生更准确的密度值. 其定义如下:Lc=| |C C| |Z( 1 2 )其中上和C 分别是训练得到的人群数量和真实的人群数量.3 . 4 . 4 综合损失函数将基于S S JM 的损失函数和基于回归人数的损失函数加人到训练过程中, 最终的综合损失函数表亦如下:L=L2  ̄\ ̄a L c +/?LS( 1 3 )其中, 《和/? 分别是基于回归人数的损失函数和基于S S JM 的损失函数的权重, 用作三个函数的平衡. 我们根据文献[ 7 ] 的经验设定/?=0 . 0 0 1, 在实验验证后设定《=1, 具体实验见第4 .  7 节.4 实验我们的实验是在4 块TI T A NXpG PU 上进行的. 该网络基于P yt o r c h 框架, 我们使用A da m 优化器来优化参数并将原始学习速率设置为l e 5 . 参数通过高斯分布随机初始化, 平均值为零, 标准差为〇. 0 1 . 除了输出层之外, 我们还在每个卷积层之后使用批量标准化层和R e l u 层, 以提高训练速度并有效地避免梯度的消失和爆炸.4 . 1 真值的生成现有的数据集一般都给定了原始图像以及其对应的人群在图像中的坐标位置及总人数. 和文献[ 9 ]一样, 我们同样用高斯自适应核来生成密度图的真值. 高斯自适应核的定义如下:NF ( x )—8( x Xi) X Ga ( x ) y al—^d l( 1 4 )i  1其中, 在真值5 中, 对于其中任意位置z 和每一个人头目标, i =l,2,…,JV , 定义是标准差为A 的高斯核, 而4 是& 个最近邻的平均距离. 根据文献[ 9 ] 的经验, 我们设置/? =0 . 3, 々=3 . 对于每幅输人的人群场景图像, 高斯核可将其中所有标注的人头模糊化, 生成人群密度图的真值.4 . 2 评估指标大多数现有工作使用两个度量指标来衡量人群计数的准确性, 平均绝对误差( MA E ) 和均方误差( MSE ) . MA E 表示估计的准确性, 而MSE 反映估计的鲁棒性. 定义如下:1NMA E =jj Tjl ^ A |( 1 5 )i  1MSE=J j^f^\Fdt Dt\2( 1 6 )稱類臀;FR e辑基于通2: 道麵机it賴增爾會的人輕賴 311 期其中* N 是恻试图像的数量, A 是第^ 个图像中的暮实人群数是第z 个图像中的估计人群数.4.3 在UCF_CC_ 5 0 数据集上的实验I dr e e s 等人见提出的U C F_ C C_S 〇数据集包括5 〇个具有不同视角和分携率的图像, 这是一个非常拥挤的数据集, 平均人数达到'了I 2缒人_*最多的一幅图片中有4 S 4S 人? 由于包含各种人群场景i 图镩总数有限, 这是一个非常具有挑战性的数据集. 因此, 我们按照文就[2] 中的标准设置执行S 倍交叉验证, 最大程度地利用榉本: 将数据集随机均分成五等份, 以其中的四份作为训'练集, 剩下的一份作为测试集, 共进行五次训练和测试, 五次实验的结果如表1所示- 最后再取误差指标的平均值作为实验的最?终结舉.我们将结果辱最先进的方法迸行比较, _2 中列: 出了M4 F 和MSE 比较的離果^ 我们的FF-CAM的估计误差MA E 和MS£在所有模型中鸯最小的,这表明我们樽到了对U CF_ CC_ 5 〇数据集计数的晕隹估计, 相比于激果最好的p°], 我们的MA E提高了表1:UC F CXL5 0 数据集5 倍交叉验证结果_姚_ 參号MA:gMS K ̄13 S 3?S 5ff9 . 9 921 4 4 . 3f3J? .2 532 9 30Sstf a s: 4m t .i ss i r .i?51 5 5 . 5 41 9 2 , 5 1#it2 4 6. 76 43 2 2 . 1 7 2表2PC: F_CC 50 数据集的估计误差MAEMMMCNN[ 9 ]3 7 7.  6 5 0 9 . 1C MTL[ 8 ]3 2 2. 8 3 9 7 . 9S wi t ch-CNN[ 7 ]3 1 8.  1 4 3 9 . 2S aCN N[1 1]3 1 4.  9 4 2 4 . 8C SRNe t[ 1 0 ]2 6 6.  1 3 9 7 . 5FF-CAM 2 4 6 . 8 3 2 2 . 24J% , MSE提賓了 3 .8该:结果验钲了FF CAM.型的准确性和脅棒性?训练好的模遽在UC F_QCJ 50 数据集上得到的部分密度估计阌如?4 所示? 由_4 窗以着出. 我们國4FF CAM 鎮藤辑載猶繼上徵資聽:对ft密度厲(顰1 行海,摩翁圈像^& ,4翁錚财海i9 f 〇和; 第? 行; i密康摘的蛋像3 :行愈C驟He t[w ] 綠擔#巍_ _泰估计图痛離&人巍金别为tIM 、3 4 3 0 和1 1 8 5 ; 第4 行为F F- C A M 得到的密度估计图, 预测总人数分别为2 00 6 、2 6W 和1 02 2 )3 1 2 计導机攀报 :_1苹的模型对极度拥挤的塚景能进行很好的预测并生成分布较齿准确的密度图, 且预测人数更接近真实人数, 好于C SRl^e t[1° ] 模型. 由这些图可以看扭,第二张由于透视存.在人头,R 度大小不一时问题, 面得到的密度画,很好地解决了翁间,题: , _不;麗人头太小的僮置生成的密疏程度不一. 第三张具有干扰的楼房背景,》而得到的密度圈很好地排除了干扰, 未将其统计人人数.4. 4 在S h ang ha i T ech 数据集上的实验Sh a irgli a iT e c li 数据集是一个多# 且拥挤的数磨集, 由Zh a n g 等人? 提出? 该数摒集包括Pa r tA和PartB 两部分, :Pa r tA 盖从网上收集而来? 共有指2 张图片;Part B. 则*从上海的拥挤繁忙的街道上收集而:来, 共有7 1 6 张?片. 两个部分都是十分拥挤的数据集, PartA 平均人数达'到了 3 0 1 人, 最多的一幅面片中有3 1 2 9 人. 而Pa rtB. 相对不那么拥挤, 平均人巍: 为1 M 人( _| # 的一_: 图片中有3 雜人. 在Pen t A 数据集中* 3 00 张圈片用来训练, 剩下的1 8 2 张则用来测试. P artB 数据集里的4 0 0 张图片用来训练,3 1 6 张甩f测试.表3 中列出了我们将估计结果的误差MAE 和与.最先进的方法进行比较的结果. 从表中可以看出? 我们的方法在PartB 数据集中测试的结果优宁靠他的方法.. MA E 和MSE 分别提高了.2?  §: % 和1 ,这说明我们的方法在PartB 数据集上表现得很好, 怔明了F F- CAM 的优趨性? 同时其在;PartA 数据集上的MSE 提髙了4 .  5% ? 说明模型敗鲁棒性较强? 但MAE 则略差于CS RN e t_, 这嚴映出我们的方法可能讀寒更多的训缘和实验来掇高其预测的准猶性.表3Sh angha iTe ch 数据集的估计误差施MSEMCNN[ 9 ]1 1 0 . 2Swit ch-CNN[7] 9 0 . 4Sa CNN。1 ]8 6 . 8CSRN et[1 0]6 8 . 2FF-CAM 7 1 . 01 1 5. 01 0 . 61 6 . 010 9 . 81 0 . 31 5. 8图5 和图6 展示了训练好的模型在Sha ngha iTech数据集上估计得到的部分密度估计图. 可以看出, 我们的模型在这两个部分的数据集上都有较好的表现,F F-CAM 模型在Sh an gh a iT ec h A 数据集上的实验对比密度图( 第1 行为原始图像, 总人数分别为2 3 9 、1 0 0 5 和1 1 7 4; 第2 行为密度图的真值; 第3 行为CSR Net「W 得到的密度估计图, 预测总人数分别为3 7 9 、7 4 1 和1 4 4 8; 第4 行为FF -CA M 得到的密度估计图, 预测总人数分别为3 4 6 、8 7 0 和1 4 0 2 )稱類臀;FR e辑基于通2: 道麵机it賴增爾會的人輕賴 313 期國: IFKC 5 AM 棋_S ha nfe ba iTeeh B_:爾棄上的实暴爾比齊萬固t寒1 有为靜飨:图#s 总A 築:分爾为2 8 、1 3 0 和4 6 7: 第2 行为密度囝的真值; 第3 行为C SRNe t「" 得到的密度估计图. 预测总人数分别为2 <kI lf 和4iS: 第 4: ff食得倒的_估计阌, _獅[ 嚴人数#細;为妗、1就和輸if生成了分布较为准确的密.食:图?it测的结果東接近于真揸ift静論率也鞔會? 比樣图5 和图6 ,Shan:gMTe c :hPa rtA 数据集极度拥挤, 而S han gh aE£%c hP ar t B 数据策则栩对稀琦, 这说明在板度拥挤的数据.集上我们的网络还:需要更多的图片进行训练以提高獏型的准确度■4. 5 在UCF_QN RF 数据集上的实验UCF_Q NRF 数据集由I tW2 6] 等人提出, 伺样是—个多样且拥挤的数搪集, 但图片总薮薰有1 5 35 张,人的总数多达1 2S1 64 2 , 远多乎其他两个数据集. 其是从三个不同的数据集来源收集而来, 包含了全球各个壤景, 且同时拥有拥挤和稀疏的人群场景. . 我们取1 2 0 1 张屈片用来训练, 剩下的3 3 4 张则用于测试.表4 中列出了我们将估计结果的误差MA E 和MS E 与最先进的方法进行比较的结果? 从_ 中可以看出, 我们方法的MA E 提高了1 3 . 3 % , 这说明预测效果有了明適提升, 估计误蠢较小. 但MS E 则略逊于现有方法, 可能是预测结果还不够稳歲! 存隹少量廣差较太的? 片.表4 VCE LQNR F 数据集的估计误差方法 MAE MSEMCN N[ 9 ]1 11 4 2 6C MTL[8]2 52 5 1 4S wit c h- CNN [7] 2 28 4 4 5I d r e es 等人[ 26 ]1 32 1 9 1FF-CAM 1 14 . 5 2 0 0 . 5?T 展示了训錄好的模型估计得到的部分密度估计亂可《膂出r我们的模塑对g 7 磨两张的估计德翁Sw it c h- C N N [7] 更为准确j 且生成的密:貧虜的分布也更加榷准, 分辨奉寅髙, 这.反映出我们模型对拥挤和相对稀疏的玢景都能进行很好的预测并生成分布较为准确的密度图, 较接近于真值* 同时我们可以着到三幅面都具有枭屋和树木的背;! 平扰; 预测生成的密度?卿避免了此干扰<迸一步验证了模型的抗干轨性, 伹是, 第一张图的估计值相对离值有一定的偏差綦我们模型的测试中少量的读遠较大的图片, 这也可以解释模:型的MSE 略逊于现有方法.下一步需要更多的训练来提窗模型时鲁棒性, 排除太的误差.3 1 4 计導机攀报 :_1苹圓7F F-C *M模遵在TO^ QNR F 数据產上通_蘭'比密蘧图峰1ffS 原:賴图橡总,人:数费MS 0轉、4 詩?, 1 7;巔多行翁密度__真;fc泰? 翁谢密度括计图, 質觸总入数奋别讀S: ftl ?7 和1鋪%第i ff*FF- £ *滅骨_ ft |W度翁计图、:预侧总人数分别: 为》14? 和101 7>4. 6 消融实验我们在S ha ng ha i T e ch Pa r tA 数据集上进行了消融实验来讀证FF CAM 结构的有效性. 图8 给出了消融实验的'结果对比.MAEMSE图8 爾獄餐藤奪擧:对比图我们首先在V GG - 1 6 基线上进行了训练和测试的实验? 从图3W K:看出, F F CAM 的估计谟差明屬优于V S3 1 6 基_ 的结藤. 与VG O l? 网络相比, FF C AM 獲濯的MA E 提高了1 ? .  3%, MSE 餐;毫了1 2 . 7 % , 证明FF-CA M 的网络结构很好地提毫了预测精度》随后我们在保持F F- CA M 的其他结构不变时s分别去掉其中的通道柱意力' 模块; 扩张卷积摸块,基于SSIM 的损宍函数和基于菌归人数的损失越数,进行训练并测试. 每—今消酿实验揭到的MA E 和J VTSf: 的対比如獨I在去掉所有的通道往意力餐块后, 模型的MA 芯T降了1 1.4 % , MSE 下降了7 .  ?%3 黥征了賢貧注窵.力獏块对整个模觀的增益,在去掉扩张卷积辏块后, 模型的MAE 下降了??6 % , MSE 撵禽了4v  D% , 证明了扩张卷积的有效性?相翁于其他模块; 基于S S ZM 的损失請数和基于回归入数的掼.失函数对整、个模型的影响较小, 但老掉后翁缉的MA ES MSE 也有所下降, 说明其在一定程度上握高T 预测精度. 具体来说,基于回归人数的损失函数提高效果略离fS f SS JM 的损失函数.消融实毅结果表萌. 分别去掉各个模块后预测穡度都有一洚的下降, 这说昉每个擦块都对_ 络性能有一定的提升作用, 验证了我们提出的方法的

[返回]
上一篇:多尺度特征融合与特征通道关系校准的SAR图像船舶检测_周雪珂
下一篇:合成孔径雷达干扰技术研究综述_李永祯