多尺度特征融合与特征通道关系校准的SAR图像船舶检测_周雪珂 - SCI期刊论文 - 一起赢论文辅导网--专业代写代发SCI、EI、核心期刊、代写MBA、硕博毕业论文。QQ910330594

欢迎访问一起赢论文辅导网

加入收藏 | 设为主页 | 联系我们

本站动态

联系我们

QQ：3949358033

微信：paperwinner

工作时间：9:00-24:00

成功案例

SCI期刊论文

当前位置：首页 > SCI期刊论文

多尺度特征融合与特征通道关系校准的SAR图像船舶检测_周雪珂

来源：一起赢论文网日期：2021-05-20 浏览数：2877 【字体：大中小】

雷达学报 Journal of Radars ISSN 2095 -283X,CN 10-1030/TN 《雷达学报》网络首发论文题目：多尺度特征融合与特征通道关系校准的 SAR 图像船舶检测作者：周雪珂，刘畅，周滨收稿日期： 2021 -03 -04 网络首发日期： 2021 -04 -01 引用格式：周雪珂，刘畅，周滨．多尺度特征融合与特征通道关系校准的 SAR 图像船舶检测[J/OL] ．雷达学报. https://kns.cnki.net/kcms/detail/10.1030.TN.20210331.1555.004.html 网络首发：在编辑部工作流程中，稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶段。录用定稿指内容已经确定，且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期刊特定版式（包括网络呈现版式）排版后的稿件，可暂不确定出版年、卷、期和页码。整期汇编定稿指出版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出版管理条例》和《期刊出版管理规定》的有关规定；学术研究成果具有创新性、科学性和先进性，符合编辑部对刊文的录用要求，不存在学术不端行为及其他侵权行为；稿件内容应基本符合国家有关书刊编辑、出版的技术标准，正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。为确保录用定稿网络首发的严肃性，录用定稿一经发布，不得修改论文题目、作者、机构名称和学术内容，只可基于编辑规范进行少量文字的修改。出版确认：纸质期刊编辑部通过与《中国学术期刊（光盘版）》电子杂志社有限公司签约，在《中国学术期刊（网络版）》出版传播平台上创办与纸质期刊内容一致的网络版，以单篇或整期出版形式，在印刷出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊（网络版）》是国家新闻出版广电总局批准的网络连续型出版物（ISSN 2096-4188，CN 11-6037/Z ），所以签约期刊的网络版上网络首发论文视为正式出版。收稿日期：2021-03-04 *通信作者：周雪珂 zhouxk96@163.com *Corresponding Author: ZHOU Xueke, zhouxk96@163.com 基金项目：国家重点研发计划（2017YFB0503001） Foundation Item: Foundation Item: The State Key Research Development Program of China (2017YFB0503001) 责任主编：刘涛 Conspronding editor: LIU Tao 多尺度特征融合与特征通道关系校准的 SAR 图像船舶检测周雪珂*①② 刘畅② 周滨①② ①(中国科学院大学北京 100049) ②(中国科学院空天信息创新研究院北京 100190) 摘要：目前深度学习技术在SAR图像的船舶检测中已经取得了显著的成果，但针对SAR船舶图像中复杂多变的背景环境，如何准确高效地提取目标特征，提升检测精度与检测速度仍存在着巨大的挑战。针对上述问题，该文提出了一种多尺度特征融合与特征通道关系校准的 SAR 图像船舶检测算法。在Faster R-CNN的基础上，首先通过引入通道注意力机制对特征提取网络进行特征间通道关系校准，提高网络对复杂场景下船舶目标特征提取的表达能力；其次，不同于原始的基于单一尺度特征生成候选区域的方法，该文基于神经架构搜索算法引入改进的特征金字塔结构，高效地将多尺度特征进行充分融合，改善了船舶目标中对小目标、近岸密集目标的漏检问题。最后，在SSDD数据集上进行对比验证，实验结果表明，相较原始的Faster R-CNN，检测精度从84.5%提高到89.4%，检测速率也从2.8 FPS提高到10.7 FPS。该方法能够有效实现高速与高精度的SAR图像船舶检测，具有一定的现实意义。关键词：SAR；Faster R-CNN；船舶检测；特征融合；通道注意力中图分类号：TN957.52 DOI: 10.12000/JR21021 引用格式：周雪珂, 刘畅, 周滨, 等. 多尺度特征融合与特征通道关系校准的 SAR 图像船舶检测[J]. 雷达学报, 待出版. DOI: 10.12000/JR21021. Reference format: ZHOU Xueke, LIU Chang, ZHOU Bin, et al. Ship detection in SAR images based on multi-scale features fusion and channel relation calibration of features [J]. Journal of Radars, in press. DOI: 10.12000/JR21021.1 Ship detection in SAR images based on multi-scale features fusion and channel relation calibration of features ZHOU Xueke*①② LIU Chang② ZHOU Bin①② ①(University of Chinese Academy of Sciences, Beijing 100049, China) ②(Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100190, China) Absrtact: Deep learning technology has achieved remarkable results in ship detection of SAR images. However, in view of the complex and changeable background of SAR ship images, how to accurately and efficiently extract target features and improve the detection accuracy and speed is still a huge challenge. To solve this problem, a ship detection algorithm based on multi-scale feature fusion and channel relation calibration of features has been proposed in this paper. On the basis of Faster R-CNN, firstly, channel attention mechanism is introduced to calibrate the channel relationship between features of feature extraction network, so as to improve the expression ability of the network for ship’s feature extraction in different scenes; secondly, different from the original method of generating candidate regions based on single scale features, this paper introduces an improved feature pyramid structure based on neural architecture search algorithm, which helps improve the performance of the network. The multi-scale features are effectively fused to settle the problem of missing detection of small targets and inshore adjacent targets. Finally, the experimental results on SSDD dataset show that compared with the original Faster R-CNN, the proposed algorithm improves the detection accuracy from 84.5% to 89.4%, and the detection rate from 2.8 FPS to 10.7 FPS. This method can effectively achieve high-speed and high- accuracy SAR ship detection, which has certain practical significance. 网络首发时间：2021-04-01 11:37:33网络首发地址：https://kns.cnki.net/kcms/detail/10.1030.TN.20210331.1555.004.html Key words: SAR; Faster R-CNN; ship detection; features fusion; channel attention 1. 引言合成孔径雷达 (Synthetic Aperture Radar, SAR) 作为一种主动式微波成像传感器，利用脉冲压缩技术改善距离分辨率，利用合成孔径原理改善方位分辨率，具有全天时、全天候进行高分辨率雷达成像观测能力[2]。随着 SAR 成像技术的日益成熟，对SAR 图像中船舶目标检测的实时性和准确性也有了更高的要求[3]。传统的 SAR 船舶检测方法一般采用多个步骤，从图像预处理，海陆分割，再到候选区域提取，最后进行目标检测和鉴别[4]。然而这种方法往往针对不同的场景问题就需要设计具体的解决方案，具有泛化性差的问题，检测精度也较差。近些年，深度学习技术以其强大的特征表达能力和自主的学习能力在各个领域都得到了广泛的应用。基于深度学习的目标检测方法具有很多的优点[5]。深度学习算法充分体现了端到端的检测思想，整个过程几乎不需要人为干预，人为假设。其泛化性好，基于深度学习的目标检测算法针对光学图像、SAR图像，或者针对飞机、车辆、船舶等不同目标只通过变更样本重新训练即可，不需要修改网络结构和构建新特征。而且适应性强，深度学习技术在进行船舶检测时不用区分远海近岸目标，网络可以自主学习目标的深度特征。 2014年，Girshick开创性地提出一种基于区域的卷积神经网络方法[6]（Region-based CNN features，R-CNN）实现了在对目标检测同时进行识别。这一算法在该领域引起了广泛的关注，也涌现了很多有效的改进算法，比如 Fast R-CNN[7]、Faster R-CNN[8]错误!未找到引用源。、YOLO[9]、SSD[10]。Fast R-CNN 在 R-CNN 的基础上通过固定单一尺寸的卷积特征图进行网格划分和池化，提高了计算速度。Faster R-CNN进一步引入区域建议网络（RPN），通过RPN与 Fast R-CNN 共享特征提取网络，并进行位置回归，以提高目标检测的精度与速率。与R-CNN这些双阶段检测器不同，Redmon等人提出了一种单阶段目标检测算法，被称为YOLO(You Only Look Once)，该算法将检测问题简化为分类回归，提升了检测速度，但也降低了检测的精准性。在此基础上，Liu等人结合了Faster R-CNN的锚点机制与YOLO的回归思想，提出了SSD (Single Shot multibox Detector)目标检测算法，虽然在准确度上有所提升，但对小目标的检测效果仍然较差。鉴于Faster R-CNN的高检测准确度，不少学者已将其应用到SAR图像船舶检测中。李健伟等人[11]基于Faster R-CNN，结合将候选区域提取的二值化赋范梯度方法(Binarized Normed Gradients, BING)，采用级联CNN以增加模型复杂度换取检测精度的提升。2021年，李广帅等人[12]基于Faster R-CNN通过设计不同尺寸卷积核增强对浅层特征的提取，但依旧是从增加特征提取网络的卷积层数量出发,增加模型复杂度。Wang R等人[13]通过在网络中引入软阈值注意模块（STA）抑制SAR船舶图像中的海杂波噪声与陆地背景，实验验证了其有效性与可行性。同时，基于检测速度的提升，Zhang T等人[14]进行了深入的研究。2019年，提出基于深度可分离卷积神经网络（DS-CNN）的检测算法[15]，有效提升了检测速度，但检测精度有所损耗。之后，该团队又提出了一些轻量型网络[16]，能够较好地权衡检测精度与检测速度，并且具有良好的迁移能力。复杂场景下的SAR图像目标检测，提升检测精度和检测速度，降低模型训练代价，仍是目前大多数算法亟需解决的问题。本文基于Faster R-CNN算法进行优化，首先在卷积神经网络部分引入通道注意力模型（Channel Attention，CA）进行通道间特征的关系校准，使网络更加关注有效信息，抑制无关信息，提升检测精度。其次结合基于神经架构搜索（Neural Architecture Search，NAS）[18]算法的特征金字塔（Feature Pyramid Networks，FPN）[19]模块，在 FPN 生成的不同组合特征空间实现特征图的自动跨层连接，获取具有更丰富语义信息的特征图，以提升检测性能，同时在结合FPN后，适当减少了特征维度，从而减少前后向传播的运算量，以降低训练时间，保证实时检测。另外，在Faster R-CNN中，为了获取固定尺寸的特征向量，感兴趣区域池化层进行了两次量化操作，导致获取的候选框位置发生了偏移，对小目标检测影响极大。本文借鉴2017 年He等人提出的Mask R-CNN[20]中通过双线性差值填充回归得到的浮点数位置像素的方法，使得低层特征图向上映射时没有位置误差，从而提升小目标检测效果。在检测时利用非极大值软抑制（Soft-NMS）[21]算法以改善非极大值抑制（NMS）的性能，提高复杂背景下停靠在一起的密集船舶检测精度。 2. Faster R-CNN 算法原理 Faster R-CNN 算法检测流程如图1所示，首先基于特征提取网络获取输入图像的特征图，然后通过区域建议网络（Region Proposal Network，RPN）生成候选区域框，再使用感兴趣区域池化（Region of Interest Pooling, RoI Pooling），从特征图中获得固定长度的各个候选区域的特征向量，最后对固定尺寸的特征向量进行分类得分与边界框位置回归。分类回归感兴趣区域池化区域建议网络特征图特征提取网络图1 Faster R-CNN 结构图 Fig. 1 The frame structure of Faster R-CNN 2.1 特征提取网络 Faster R-CNN的特征提取网络通常采用卷积神经网络（Convolutional Neural Network，CNN），常见的特征网络有LeNet、AlexNet、VGG、GoogleNet、ResNet、DenseNet等。其中Resnet通过引入了三层残差模块（如图2所示），解决了神经网络中一味增加网络层数导致的“退化问题”。其中，Resnet50具有较好的特征提取能力，并且网络层数与参数量也较少。因此，本文采用Resnet50 作为 Faster R-CNN 的主干网络。图2 Resnet50的残差结构 Fig. 2 The residual structure of Resnet50 2.2 区域建议网络 RPN主要是通过滑窗操作，中间层映射和两个全连接层进行分类回归来实现候选区域生成的。如图3，首先选择3×3的滑动窗口在共享特征的最后一层特征图上进行滑动，每个滑动窗口区域通过中间层映射成一个特征向量，为每个滑窗区域的中心点生成 k 个不同尺寸和边长的锚框。该特征向量经过分类和回归分别输出每个滑动窗口的前背景概率值和回归后的锚框位置坐标信息。在RPN中，每个滑窗产生 k 个候选区域，回归层则会生成 4k 个位置坐标信息，分类层会生成 2k 个前背景得分信息。最后，RPN 根据回归计算出的修正值对每个锚框的长、宽和中心进行修正，修正后的候选区域再经过非极大值抑制筛选出输出得分靠前的前 N 个区域作为目标检测网络的输入。 2k个前背景概率值4k个锚框坐标信息中间层滑动窗口（3×3）特征图分类回归图3 区域建议网络结构 Fig. 3 The structure of region proposal network 2.3 RPN损失函数 RPN网络在生成候选区域框的时候有两个任务，一个是判断锚点产生的候选框是否是目标的二分类任务，另一个是对该候选框进行边框回归的回归任务。故RPN训练时的总体损失函数是分类损失clsL和回归损失regL的加权和，表达式为 *clsregcls**reg1L( , ) L ( , )N1L ( , )Ni i i iii i ip t p pp t t （1）分类损失函数为 *cls** L ( , ) log[ (1 )(1 )]i i i i i i p p p p p p （2）其中，� 表示第 � 个锚点，当锚点为正样本时，，否则，。表示锚框被预测为目标的概率。回归损失函数为 1r*gL*eL ( , ) smooth ( )i i i it t t t （3）其中， 1L22 20.5 , if | |11smooth ( )| | 0.5, otherwisexx xx （4） ** **** ** - - , ,log( ), log( ), - - , log( ), log( ) aa xyaawhaa aa xyaawhaax x y yttwhttwh x x y yttwhttwh （5） { , , , }i x y w ht t t t t表示预测的边界框的4个位置参数坐标；it 表示正样本对应的真值边界框的坐标向量。其中，x，y，w，h为box的中心坐标，宽，高。变量，和分别用于预测框，锚框和真值边界框。 3. 改进的Faster R-CNN模型在解决复杂背景下的SAR图像船舶目标检测任务时，上述Faster R-CNN模型存在检测精度较低且算法复杂度高、训练代价大的问题，导致其模型应用能力受限，针对此问题，本文提出了一种改进的Faster R-CNN模型。其网络结构如图4所示，主要表现在以下三方面的改进：为了提高小目标检测性能，解决Faster R-CNN 在感兴趣区域池化过程中两次量化带来的候选框位置偏差问题，借鉴Mask R-CNN[20]中的RoI Align方法，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值；为了提高检测的准确度，在卷积神经网络中加入通道注意力模块，对不同通道间的特征关系进行校准，提升网络的 BinaryConv3*3AppendRoIAlignFCclsregDetection SubnetworkNAS-FPNRPNConv3*3clsregSE-Resnet50InputRPNP2 P3 P4 P5 P6Conv1Conv2Conv3Conv4Conv5SESESESE 图4 本文算法网络结构 Fig. 4 The network structure of the algorithm in this paper 特征提取能力。为了高效地利用不同尺度的特征图，基于神经架构搜索算法，改进特征金字塔结构，使网络可以自动跨不同特征层进行特征融合。 3.1感兴趣区域池化层 Faster R-CNN 通过RoI Pooling将 RPN生成的候选区域统一到固定尺寸，然后经过一个全连接层得到 RoI 特征向量。通过模型回归得到的候选区域的位置往往是一个非整数像素值，为了得到池化后尺寸固定的特征图，在RoI Pooling 中存在两次量化的过程，经过这两次量化，产生的候选框就会和开始回归出来的位置坐标产生一定的误差，这个误差值会影响检测的准确度，尤其是在进行小目标检测时。图 5 RoI Align的实现原理 Fig.5 Implementation principle of RoI Align 本文在感兴趣区域池化部分引入Mask R-CNN 中提出的RoI Align方法，具体操作如图5所示。首先保持候选区域的浮点数位置坐标，然后将其划分为 k× k个单元，单元边界也不做量化处理，最后对每个单元进行四等分找到其中心点，通过双线性内插计算出这四个位置的坐标，再进行最大池化。该方法通过将 RoI Pooling 中两次量化转换成一个连续的过程，解决了 Faster R-CNN 中的位置偏差问题。 3.2通道注意力模块为了使模型更关注具有有效信息的通道特征，抑制无关特征，实现通道间特征关系的校准，本文在Faster R-CNN的特征提取网络部分引入了CA机制。 ResidualGlobal poolingFCSigmoidFCScale+ + WHC ´´ 11´´rCWHC ´´ 11´´ C 11´´ CSqueezeExcitationScale11´´ C WHC ´´WHC ´´WHC ´´ 11´´ C 11´´ C WHC ´´WHC ´´WHC ´´（a）SE注意力模块（b）SE_Resnet的残差结构（b）Residual structure of SE_Resnet（a） SE module combined withresidual learning 图6 通道注意力模块结构 Fig.6 The structure of channel attention module CA 算法借鉴 SENet 模型[22]的网络结构，如图6（a）所示，假设输入为通道数为 � 的 �×� 的特征图，首先对特征图进行压缩（Squeeze）操作，将特征图作为输入，对应（b）中的全局平均池化（Global Pooling）操作，将不同通道上整个空间特征编码聚合，得到一个经过全局压缩的 �× × 的特征向量；然后对全局特征进行激发（Excitation）操作，对应（b）可以看到，通过两个全连接层对通道间的相关性进行简单建模，提取各个通道间的关系，再经过Sigmoid激活函数获得归一化权重值；最后在原始特征图的基础上进行重加权（Scale）操作，也就是（b）中的scale操作，通过对原始特征图乘以对应通道的权重值，得到新的特征图。SE_Resnet 将原始特征图与新特征图进行叠加，得到最终的特征信息，即在Resnet中的残差模块引入图6（b）所示的CA结构。本文选择结合通道注意力的Resnet50作为特征提取网络的主干网络，表1列出了特征提取网络的相关参数。表1 以Resnet50作为主干网络的特征提取网络参数 Tab.1 The network parameters extraction with resnet50 as the backbone network feature 3.3特征金字塔模块 Faster R-CNN进行目标检测，利用顶层特征图进行后续目标分类与回归处理。顶层特征是卷积神经网络多次下采样得到的，具有比较丰富的语义信息，但是对细节的损失较大，而由于SAR图像成像范围较大，船舶目标相对较小，具有的像素信息也较少，在下采样的过程中极易丢失，从而导致漏检。为了解决这一问题，本文引入特征金字塔模块。为了能够准确快速地找到一种跨尺度连接的最优特征组合结构，本文使用了一种改进的特征金字塔结构（NAS-FPN）。NAS-FPN 借助神经架构搜索算法的优势，在 FPN 生成的不同组合特征空间中，发现一种高性能架构，实现特征的自动跨层连接。 NAS-FPN 主要利用强化学习的思想，使用循环神经网络(Recurrent Neural Network, RNN)作为控制器，利用网络模型在特征搜索空间中的准确度作为奖励进行交互，产生特征的组合行为，得到最优的模型架构。如图7所示，控制器对具有不同架构的子网络进行采样获取概率P，子网络模型将训练过程中的检测准确度R作为奖励信号反向传播更新控制器，通过不断迭代实验，控制器学习如何获取更好的组合架构，随着训练模型的逐渐收敛，得到最终的实验参数，也就是最优的组合方式。图7 NAS-FPN强化学习算法 Fig. 7 Reinforcement learning for NAS-FPN NAS-FPN通过上述的预处理任务训练一个简单的子网络模型，只需选择10个epoch，并且使用10层Resnet网络进行训练。经过预训练任务得到的组合结构如图8所示，从图中可以看到，此时的特征组合既包括红色自底向上和蓝色自顶向下的特征组合方式，充分融合了不同尺度的特征图信息。图8 FPN组合结构 Fig. 8 The combination structure of FPN 训练子网络模型M获取检测准确度R控制器（RNN）采样不同子网络结构M，获取概率P计算概率P的梯度并再根据R值调整P，更新RNNC3C4C5P3P4P5C6C7 P7P6网络层名称类型 Resnet50 SE-Resnet50 卷积核(高度×宽度×通道数)/步长卷积核(高度×宽度×通道数)/步长 conv1 卷积层 7 7 64 / 2 ´´ 7 7 64 / 2 ´´ max pool 池化层 3 3 64 / 2 ´´ 3 3 64 / 2 ´´ conv2_1~conv2_9 残差结构 1 1 64 / 13 3 64 / 1 31 1 256 / 1´´ éù êú´ ´ ´êú êú´´ ëû 1 1 64 / 13 3 64 / 131 1 256 / 1,[16*256] fc´´ éù êú´´êú´êú´´êú ëû conv3_1~conv3_12 残差结构 1 1 128 / 23 3 128 / 1 41 1 512 / 1´´ éù êú´ ´ ´êú êú´´ ëû 1 1 128 / 23 3 128 / 141 1 512 / 1,[32*512] fc´´ éù êú´´êú´êú´´êú ëû conv4_1~conv4_18 残差结构 1 1 256 / 23 3 256 / 1 61 1 1024 / 1´´ éù êú´ ´ ´êú êú´´ ëû 1 1 256 / 23 3 256 / 161 1 1024 / 1,[64*1024] fc´´ éù êú´´êú´êú´´êú ëû conv5_1~conv5_9 残差结构 1 1 512 / 13 3 512 / 1 31 1 2048 / 1´´ éù êú´ ´ ´êú êú´´ ëû 1 1 512 / 13 3 512 / 131 1 2048 / 1,[128*2048] fc´´ éù êú´´êú´êú´´êú ëû 当通过上述方式选定特征组合后，本文采用 Resnet50 作为主干网络，提取了{C1, C2, C3, C4, C5}5层特征，由于 C1，C2 占用内存较大，故将其移除，然后对 C5 进行下采样得到 C6 和 C7 层，选取{C3, C4, C5, C6, C7}构成特征金字塔。然后经过 NAS-FPN 得到{P3, P4, P5, P6, P7}。NAS-FPN 通过特征融合单元（Feature Mergeing Cell，FMC）对网络提取的特征图进行重新融合，得到新的不同尺度的特征图，然后作为目标检测子网络的输入。正如图7，首先从特征图集合中选取两幅特征图C3, C5作为 FMC 的输入，同时选取特征图C4，作为 FMC 输出特征图的分辨率，这里的C3, C4, C5都是通过预处理任务选定的；然后针对输入的两幅特征图从Binary 中选择所需的融合操作。这里Binary 图 9 NAS-FPN结构图 Fig.9 The frame structure of NAS-FPN （a）（b）（c）（d）（f）（g）（h）（e）（i）（j）图11 NAS-FPN热力图结果。(a) ~ (e) NAS-FPN中不同层特征图对应的热力图; (f) ~ (j) 热力图叠加在原图上的结果图。Fig. 11 The heatmaps of NAS-FPN. (a) ~ (e) Heatmap of different feature map in NAS-FPN;(f) ~ (j) The result of heatmap superimposed on the original input. 操作主要有两种选择，一是如图7的 Binary（a）所示，当输入的两特征图分辨率一致时，直接进行求和操作；二是如Binary（b）所示，当输入的两特征图分辨率不一致，低层特征进行最大池化，并通过 sigmoid 激活函数，与高层特征元素乘，结果再与低层特征相加的到最终的输出；最后将新的融合特征图增加到开始的特征图集合中。 Max PoolingSum （a）（b）图10 融合操作 Fig 10. Binary Operation 图11中（a）~（e）是 NAS-FPN 中不同层输出特征图的热力图，这里选取了P3～P7层的特征。图（f）~（g）为热力图叠加在原图上的效果图，从图中（f）可以看出，最终中送入 RPN 中的特征图在保留原始信息的基础上，已经充分融合了各个尺度的特征信息，实现了对目标的精确定位。 4 实验验证 4.1 实验环境与数据集介绍本次实验使用的是SAR 船舶检测数据集（SAR Ship Detection Dataset，SSDD）数据集[5]，该数据集是国内外公开的首个专门用于SAR图像船舶目标检测的数据集，共有1160个图像和2456个船舶。该数据集参考PASCAL VOC数据集的制作方式，数据包括RadarSat-2、TerraSAR-X和Sentinel-1传感器，HH、HV、VV和VH四种极化方式，分辨率为1m-15m，在大片海域和近岸地区都有船舶目标。基于深度学习的SAR船舶检测算法的日渐成熟，近些年多位学者提出用于模型训练的高分辨率SAR船舶检测数据集[23]。为了验证本文所提出的网络结构泛化性，增加高分辨率SAR图像数据集（High-Resolution SAR Images Dataset，HRSID）[24]进行实验验证，该数据集共包含5064张高分辨率SAR图像和16951个船舶目标，参考COCO数据集的构建过程，包括不同极化方式和不同背景的船舶目标，分辨率为0.5m，1m，3m。实验的硬件配置采用 Intel Core i7 处理器，6GB 内部存储器, GPU 处理器为NVIDIA GTX1660Ti.；实验平台为Ubuntu16.04；软件环境是Python 3.6，Anaconda 3，CUDA10.0，Cudnn7.6。实验基于 pytorch1.3 实现卷积神经网络模型，其中模型的特征提取网络都是在 Resnet50 上进行预训练的，主要参数包括最大迭代次数、候选区域锚框尺寸与数量、学习率、优化器和 soft-NMS 的阈值。 4.2 评价指标本文采用精度均值（Average Precision，AP），训练时表2 基于Faster R-CNN的优化算法对比 Tab. 2 Comparison of optimization algorithms based on Faster R-CNN RoIAlign CA NAS-FPN AP (%) Time(s/iter) Speed(FPS) 85.4 0.667 2.80 √ 87.2 0.727 2.78 √ √ 88.2 0.741 2.67 √ √ 88.0 0.493 10.72 √ √ √ 89.4 0.535 10.70 表3 不同检测算法的性能对比 Tab. 3 Comparison of different detection algorithms Method Image size FLOPs （G） Params （M） Time (s/iter) Speed（FPS） SSDD HRSID AP(%) AP(%) SSD 300*300 30.49 23.75 0.061 47.20 84.7 79.6 Cascade R-CNN 300*300 59.03 68.93 0.323 13.20 88.4 80.9 PAnet 300*300 59.03 68.93 0.301 14.70 88.7 81.3 本文算法 300*300 33.66 70.27 0.535 10.70 89.4 82.8 间（Time），每秒帧数（Frame Per Second，FPS），运算浮点数（FLOPs）和参数量（parameters）作为算法的评价指标。（1）精度均值 AP为准确率P和召回率R在 [0，1] 范围内绘制的曲线 pr 与坐标轴所围成的面积。其表达式为 10AP drpr （6）其中，准确率（Precision，P）是指在所有正样本中，被正确识别为正样本的比例。表达式为 TPPTP FP=+ （7）召回率（Recall，R）是预测的样本数中，被正确识别为正样本的比例。表达式为 TPRTP FN （8）其中，TP 代表真正例，FN 代表假反例，FP 代表假正例。（2）训练时间 Time代表着模型训练过程中，平均每一次迭代所需的时间，可以表示为 n 1Timeniit （9）其中，n 为模型训练至收敛的迭代次数，� 代表着训练第i次迭代所需要的时间。（3）每秒帧数 FPS代表着检测速度的快慢，可以表示为 NFPST= （10）其中，N为对测试集的样本数量，T为对测试集进行检测所需要的时间。（4）浮点运算次数 FLOPs 用来评估前向运算时的计算量，计算量越大，说明网络越复杂。（5）参数量 Parameters代表网络中的参数数量，在神经网络中一般指训练模型时需要学习的权重和偏置值。 4.3算法性能评估首先在基础实验上进行多次调参，以获得的最佳实验结果。最终的实验参数设置如下：最大迭代次数为 8000, 锚框尺度设置为{4，8，16，32，64}，比例为{0.5 : 1 : 2}，学习率采用线性增加策略，初始的500次迭代中学习率逐渐增加，初始学习率设置为0.005，优化器选择的是随机梯度下降法，soft-NMS的交并比阈值为0.5，最小得分阈值为0.05。当模型训练逐渐收敛，会提前终止迭代。为了更好的评估本文所提出的改进算法在 SAR 图像船舶目标的检测性能，实验基于SSDD数据集定量分析了该优化算法。从表2可以发现，从检测精度上看，Faster R-CNN 在 SSDD 上的 AP 值为85.4%，首先模型在感兴趣区域池化模块使用 RoI Align时，AP 提升了1.8%，通过添加 CA 模块，获取不同通道间的特征图的相关性，使得AP 在Faster R-CNN基础上提升了2.8%，通过添加 NAS-FPN模块获取不同尺度的特征图信息，使得AP在Faster R-CNN的基础上提上了2.6%，本文算法结合CA与NAS-FPN模型，将AP 相较基础模型提升了4.0%，取得了较好的检测结果；从训练时间上看，Faster R-CNN 在 SSDD 上达到0.667 s/iter，本文算法在 Faster R-CNN 的基础上添加了通道注意力模块，增加了训练时间，但是通过结合 NAS-FPN 模块，移除了占内存较大的 C1 和 C2 层特征，并且将之前送入RPN的1024 维的通道数减少到256维，降低了模型的复杂度，与训内存较大的 C1 和 C2 层特征，并且将之前送入RPN的1024 维的通道数减少到256维，降低了模型的复杂度，与训练时间。故本文算法相较基础 Faster R-CNN 仍具有极大的检测精度优势，同时检测速度提升了7.9 FPS，达到10.7 FPS，完全能够满足海上船舶实时检测的应用需求。 4.4 实验结果对比为了进一步验证本文算法的目标检测能力，基于SSDD与HRSID数据集，表3 将本文算法与SSD[10]、Cascade R-CNN[26] 和 PANet[27] 进行了性能对比。图12展示了不同算法在两数据集上的P-R曲线图。实验证明，本文算法虽然在检测速度上和模型参数上存在一些劣势。但不论在SSDD还是在HRSID数据集上，本文算法的检测精度都是最高的。图12不同算法的P-R曲线对比 Fig. 12 The P-R curve of different methods 除上述在检测精度方面的优势外，本文算法对各种复杂场景下船舶目标的检测适应能力更强。图13、14、15 分别从SSDD中选择了三种不同场景下的SAR船舶图像进行对比，包括小目标船舶、近岸船舶和密集停靠船舶，这里设置得分阈值为0.8，即认为在测试中, 如果检测到的船舶目标和标记的矩形框的重叠部分达到标记矩形框的 80% 以上, 则认为是成功检测。图中，均使用绿色矩形框在真值中标注目标位置，使用蓝色矩形框在不同算法的检测结果中标注检测目标位置。对比图13可以发现本文算法在小目标检测中的检测效果明显更优，在Faster R-CNN 中，由于模型检测精度低，对船舶目标的得分不够准确，在固定得分阈值下，当得分结果不够精确时，针对一例船舶目标就会存在了多个矩形标记框，如图（c）中的虚警情况；当船舶目标的边缘轮廓较弱时，模型打分结果过低，就会导致漏检。相同的参数设置下，本文算法因为其检测精度的提升，完全消除了虚警现象，漏警也得到了明显的改善，遗漏目标也主要是因为船舶目标的边缘较弱，提取的特征进行回归时的得分低于阈值，未成功检测，对于这一类弱目标的检测，也会在今后的研究中重点关注；与SSD算法相比，SSD算法对小目标检测效果极差，在图中未检测出一例船舶目标；通过对比PANet与Cascade R-CNN网络发现，Cascade R-CNN在小目标检测上的效果较差，在Casade R-CNN中，特征金字塔主要包括自上而下的单向融合，PANet中增加了自下而上的二次融合结构，而本文算法使用了NAS-FPN，增加了更复杂的双向特征融合，能够有效抑制噪声提取目标，目前的检测结果是最好的，检测率为100%，召回率为88.2%，虚警率为0。这说明本文算法对小目标检测相较当前大多数网络来说效果更优。（a） SSDD数据集（a）SSDD（b） HRSID数据集（b）HRSID (a) 真值 (a) Ground truth(c) Faster R-CNN 检测结果 (c) Detection result of Faster R-CNN (d) 虚警目标 (d) The false alarm target (g) Detection result of this algorithm(h) 漏警目标 (h) The missing alarm target (b) Detection result of SSD（g）本文算法检测结果(b) SSD 检测结果 (f) Detection result of PANet (f) PANet 检测结果 (e) Detection result of Caascade RCNN (e) Cascade RCNN 检测结果图13 小目标船舶图像的检测算法对比。图中使用黄色椭圆圈出漏警目标，白色椭圆圈出虚警目标。 Fig.13 Comparison of detection algorithms for small target. The yellow ellipse is used to circle the missing alarm target, and the white ellipse is used to circle the false alarm target. 对比图14中复杂背景下的近岸船舶目标检测结果，本文算法由于多尺度特征融合，增强了不同尺度船舶特征的提取，同时结合了通道注意力模型对不同通道间特征关系进行校准，使得近岸船舶不需要海陆分割等手段，就可以准确提取目标特征并成功检测目标，在图14 中本文算法的检测率达到100%，召回率为100%，虚警率为0。对比PANet 和Cascade R-CNN网络，检测结果保持一致，但Faster R-CNN和SSD算法由于检测精度较低，均漏检了图中的小目标船舶。这说明了本文算法对复杂背景下近岸的SAR图像船舶检测效果也更好；对比图15中复杂背景下的密集停靠船舶目标检测结果，对比算法均出现多个漏警，而本文算法则高效地检测出了其中大部分的漏警，检测率达到100%，召回率为85.7%，虚警率为0。从漏警目标可以看出对于近邻停靠的船舶，当其停靠角度有差异，就可以正确检测，但是，当停靠在一起的船舶完全平行时，就会将其检测成一例目标，针对这一情况在后续研究中考虑使用平衡场景学习机制（Balance SceneLearning Mechanism，BSLM）[28]提升近岸复杂场景下的船舶检测精度。目前实验结果对比表明本文算法对于密集停靠的船舶目标检测准确度仍然更高。 (a) 真值 (a) Ground truth（f）本文算法检测结果 (f) Detection result of this algorithm (e) Detection result of PANet（e）PANet检测结果 (d) Detection result of Cascade R-CNN（d）Cascade R-CNN检测结果(c) Faster R-CNN 检测结果 (c) Detection result of Faster R-CNN (b) SSD 检测结果 (b) Detection result of SSD 图14 近岸船舶图像的检测算法对比。图中使用黄色椭圆圈出漏警目标。 Fig.14 Comparison of detection algorithms for inshore ship. The yellow ellipse is used to circle the missing alarm target. (a) 真值 (a) Ground truth(c) Faster R-CNN 检测结果 (c) Detection result of Faster R-CNN（f）本文算法检测结果 (f) Detection result of this algorithm(d) Cascade R-CNN 检测结果 (d) Detection result of Cascade R-CNN(e) PANet 检测结果 (e) Detection result of PANet(b) SSD 检测结果 (b) Detection result of SSD 图15密集停靠的船舶图像检测算法对比。图中使用黄色椭圆圈出漏警目标。 Fig.15 Comparison of detection algorithms for adjacent targets. The yellow ellipse is used to circle the missing alarm target. 图16 本文算法在AIR-SAR Ship1.0数据上的检测结果。 Fig. 16 Detection result of this algorithm on AIR-SAR Ship 1.0. 表4基于SSDD数据集，将测试数据的船舶目标按照近岸与离岸船舶分为两类，分别统计其检测精度与召回率。实验结果表明，不论是针对近岸船舶还是离岸船舶，本文的检测精度都是最高的。与SSD算法相比较，本文算法的提升主要体现在离岸船舶目标的检测，由于这类目标多数为小目标船舶导致SSD检测效果较差。与Cascade R-CNN、PANet相比，本文算法因结合更复杂的多尺度特征融合与通道关系校准模块，在近岸和离岸船舶检测中检测精度均得到有效的提升。表4 不同检测算法基于SSDD在近岸与离岸场景下的性能对比 Tab. 4 Comparison of different detection algorithms in inshore and offshore scenes of SSDD Method Inshore Offshore AP(%) R(%) AP(%) R(%) SSD 73.6 92.7 88.1 95.7 Cascade R-CNN 73.7 90.7 90.4 95.0 PANet 73.7 88.0 90.7 93.6 本文算法 74.3 90.7 90.7 94.1 最后，本文选取了AIR-SARShip 1.0数据集错误!未找到引用源。的图像进行模型结果测试。如图16所示，AIR-SARShip 1.0 数据为3000*3000的高分辨SAR图像，其中，使用蓝色矩形框在检测结果中标注目标位置。本文算法能够较好的检测出船舶目标，检测率为100%。这说明该模型对大场景下星载SAR图像的船舶检测也是有效的。 5 结语本文提出一种基于多尺度特征融合与通道关系校准的Faster R-CNN 目标检测算法，将其用于 SAR 图像的船舶检测研究中。在两种船舶检测数据集上的检测结果均表明，相较原始 Faster R-CNN、SSD、Cascade R-CNN 与 PANet，本文算法不论是针对不同尺度下的小目标船舶，复杂背景下的近岸船舶，还是近邻停靠的多船舶目标都具有更好的检测精度，各种复杂场景下的船舶目标检测适应性更强。在检测时间上，与原始 Faster R-CNN 相比，检测速度得到了大幅度提升，能够适应对各种检测实时性要求高的检测任务需求，例如实时海面监控、紧急海上救援以及军事部署任务等。参考文献 [1] MOREIRA A, PRATS-IRAOLA P, YOUNIS M, et al. A tutorial on synthetic aperture radar[J]. IEEE Geoscience and Remote Sensing Magazine, 2013,1(1):6-43. doi:10. 1109/MGRS.2013.2248301. [2] 郭倩, 王海鹏, 徐丰. SAR 图像飞机目标检测识别进展[J]. 雷达学报, 2020, 9(3): 497–513. doi: 10.12000 /JR20020. Guo Qian, WANG Haipeng, and Xu Feng. Research progress on aircraft detection and recognition in SAR imagery[J]. Journal of Radars, 2020, 9(3): 497–513. doi: 10.12000 /JR20020. [3] WACKERMAN C C, FRIEDMAN K S, PICHEL W G, et al. Automatic Detection of Ships in RADARSAT-1 SAR imagery[J]. Canadian Journal of Remote Sensing, 2001, 27 (5) 568-577. doi:10.1080/07038992.2001.10854896 [4] 陈慧元, 刘泽宇, 郭炜炜, 等. 基于级联卷积神经网络的大场景遥感图像舰船目标快速检测方法[J]. 雷达学报,2019,8(3):413–424.doi: 10. 12000/ JR19041. CHEN Huiyuan, LIU Zeyu, GUO Weiwei, et al. Fast detection of ship targets for large-scale remote sensing image based on a cascade convolutional neural network[J]. Journal of Radars, 2019, 8(3): 413–424. doi: 10.12000 /JR19041. [5] 李健伟, 曲长文, 邵嘉琦,等. 基于深度学习的SAR图像舰船检测数据集及性能分析[C].第五届高分辨率对地观测学术年会论文集, 2018:180-201. LI Jianwei, QU Changwen, SHAO Jiaqi, et al. Dataset and Performance Analysis of Ship Detection Methods Based on Deep Learning [C]. The 5th China High Resolution Earth Observation Conference, 2018:180-201. [6] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, June 2014:580-587. doi:10.1109/CVPR.2014.81. [7] GIRSHICK R. Fast R-CNN[C]. IEEE International Conference on Computer Vision(ICCV), Santiago, Chile, Dec. 2015: 1440-1448. doi:10.1109 /ICCV.2015.169. [8] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149. doi:10.1109 /TPAMI.2016.2577031. [9] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016:779-788. doi: 10.1109 /CVPR. 2016.91. [10] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 21–37. doi: 10.1007/978-3-319- 46448-0_2. [11] 李健伟, 曲长文, 彭书娟. 基于级联CNN的SAR图像舰船目标检测算法[J]. 控制与决策, 2019, 34(10): 2191–2197. doi:10.13195/j.kzyjc.2018.0168. LI Jianwei, QU Changwen, and PENG Shujuan. A ship detection method based on cascade CNN in SAR images[J]. Control and Decision, 2019, 34(10): 2191–2197. [12] 李广帅,苏娟,李义红.基于改进Faster R-CNN的SAR图像飞机检测算法[J].北京航空航天大学学报, 2021, 47(01):159-168. doi:10.13700/j.bh.1001-5965. 2020.0004. LI Guangshuai, SU Juan, and LI Hongyi. An aircraft detection algorithm in SAR image based on improved Faster R-CNN[J]. Journal of Beijing University of Aeronautics and Astronautics,2021,47(1):159-168. doi:10. 13700/j.bh.1001-5965.2020.0004. [13] WANG Rui, SHAO Sihan, An Mengyu, et al. Soft Thres-holding Attention Network for Adaptive Feature Denoising in SAR Ship Detection[J]. IEEE Access, 2021, 9: 29090-29105. doi:10. 1109/ACCESS.2021.3059033. [14] ZHANG Tianwen, ZHANG Xiaoling. High-Speed Ship Detection in SAR Images Based on a Grid Convolutional Neural Network[J]. Remote Sensing, 2019, 11(10):1206-. doi: 10.3390/rs1110 1206.doi: 10.3390/rs11212483. [15] ZHANG Tianwen, ZHANG Xiaoling, SHI Jun, et al. Depthwise Separable Con-volution Neural Network for High-Speed SAR Ship Detection[J]. Remote Sensing, 2019, 11(21):2483. doi:10. 3390/rs1121 2483. [16] ZHANG Tianwen, ZHANG Xiaoling. ShipDeNet-20: An Only 20 Convolu-tion Layers and <1-MB Lightweight SAR Ship Detector[J]. IEEE Geoscience and Remote Sensing Letters, 2020:1-5. doi:10.1109/LGRS.2020. 2993899. [17] ZHANG Tianwen, ZHANG Xiaoling, SHI Jun, et al. HyperLi-Net: A hyper-light deep learning network for high-accurate and high-speed ship detection from synthetic aperture radar imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020,167:123-153. doi: 10.1016/j.isprsjprs.2020.05.016. [18] GHIASI G, LIN T Y, and LE Q V. NAS-FPN: Learning scalable feature pyramid architecture for object detection [C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, CA, USA, June 2019:7029-7038. doi:10.1109/CVPR.2019. 00720. [19] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, USA, July 2017: 936-944, doi:10.1109/ CVPR.2017.106. [20] HE Kaiming, GHIASI G, DOLLÁR P, et al. Mask R- CNN[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,42(2): 386-397. doi:10.1109/ TPAMI. 2018.2844175. [21] BODLA N, SINGH B, CHELLAPPA R, et al. Soft-NMS-- Improving Object Detection with One Line of Code[C]. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017:5561-5569. doi:10.1109/ICCV. 2017.593 [22] HU Jie, LI Shen, GANG Sun, et al. Squeeze-and-excitation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 42(8):7132-714. doi: 10.1109/ TPAMI. 2019.2913372. [23] ZHANG Tianwen, ZHANG Xiaoling, KE Xiao, et al. LS-SSDD-v1.0: A Deep Learning Dataset Dedicated to Small Ship Detection from Large-Scale Sentinel-1 SAR Images[J]. Remote Sensing, 2020, 12(18): 2997. doi: 10.3390/rs12182997. [24] WEI Shunjun, ZENG Xiangfeng, QU Qizhe, et al. HRSID: A High-Resolution SAR Images Dataset for Ship Detection and Instance Segmentation[J]. IEEE Access, 2020, 8:120234-120254. doi:10.1109/ ACCESS.2020.3005861. [25] 孙显, 王智睿, 孙元睿, 等. AIR-SARShip-1.0：高分辨率SAR 舰船检测数据集[J]. 雷达学报, 2019, 8(6): 852–862. doi:10.12000/JR19097. SUN Xian, WANG Zhirui, SUN Yuanrui, et al. AIR-SARShip-1.0: High-resolution SAR ship detection dataset[J]. Journal of Radars, 2019, 8(6): 852–862. doi: 10.12000/JR19097 [26] CAI Zhaowei, VASCONCELOS N. Cascade R-CNN: Delving into High Quality Object Detection[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018: 6154-6162, doi: 10.1109/CVPR. 2018. 00644. [27] LIU Shu, QI Lu, QIN Haifeng, et al. Path Aggregation Network for Instance Segmentation[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 2018: 8759-8768. doi:10.1109/ CVPR.2018. 00913. [28] ZHANG Tianwen, ZHANG Xiaoling, SHI Jun, et al. Balance Scene Learning Mechanism for Offshore and Inshore Ship Detection in SAR Images[J]. IEEE Geoscience and Remote Sensing Letters, 2020:1-5. doi:10.1109/LGRS.2020. 3033988. 作者简介周雪珂(1996–)，女，陕西西安人，中国科学院大学硕士研究生，研究方向为 SAR图像处理、机器学习。 E-mail: zhouxk96@163.com 周滨(1994-)，男，江西上饶人，中国科学院大学硕士研究生。研究方向为 SAR 图像处理、目标检测。刘畅(1978–)，男，山东烟台人，研究员，博士生导师。2006年在中国科学院电子学研究所获得博士学位，现担任中国科学院空天信息创新研究院研究员、博士生导师。主要研究方向为SAR系统及其相关SAR成像处理。 E-mail: cliu@mail.ie.ac.cn

[返回]

上一篇：函数极限的高阶逻辑形式化建模与验证_赵春娜
下一篇：FF_CAM_基于通道注意机制前后端融合的人群计数_张宇倩