欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
博士论文
当前位置:首页 > 博士论文
结合强化学习自适应候选框挑选的SAR目标检测方法
来源:一起赢论文网     日期:2023-01-01     浏览数:449     【 字体:

 结合强化学习自适应候选框挑选的SAR目标检测方法杜 兰*① 王梓霖① 郭昱辰② 杜宇昂① 严俊坤①①(西安电子科技大学雷达信号处理国家重点实验室 西安 710071)(西安电子科技大学前沿交叉研究院 西安 710071)摘要:大场景合成孔径雷达(SAR)图像相对于通用光学图像,复杂背景杂波对目标特征提取影响更大,由于传统基于候选框的深度目标检测算法会在整张特征图上产生大量冗余候选框,因而在SAR图像复杂背景杂波影响下会产生大量的虚警,降低目标检测精度。针对该问题,该文基于Faster R-CNN检测模型,提出结合强化学习自适应候选框挑选的SAR目标检测方法。该方法能够通过强化学习自适应搜索特征图中可能含有目标的区域,并挑选搜索区域内的候选框继续进行分类、回归。通过准确搜索到含有目标的区域,可以减少复杂背景杂波的影响并减少传统强化学习应用于检测问题的计算量。所提方法利用强化学习序列决策的特点,能够根据图像信息通过强化学习迭代搜索自适应确定图像中可能含有目标的搜索区域的位置。同时,该方法通过在强化学习中使用距离约束,可以根据之前的搜索结果自适应调整下一次搜索区域的尺寸。基于实测数据的实验结果表明,所提方法能够提升传统深度学习目标检测方法的检测性能。关键词:合成孔径雷达;目标检测;强化学习;Faster R-CNN算法中图分类号:TN957.51 文献标识码:A 文章编号:2095-283X(2022)05-0884-13DOI: 10.12000/JR22121引用格式:杜兰, 王梓霖, 郭昱辰, . 结合强化学习自适应候选框挑选的SAR目标检测方法[J]. 雷达学报, 2022,11(5): 884896. doi: 10.12000/JR22121.Reference format: DU Lan, WANG Zilin, GUO Yuchen, et al. Adaptive region proposal selection for SARtarget detection using reinforcement learning[J]. Journal of Radars, 2022, 11(5): 884896. doi: 10.12000/JR22121.Adaptive Region Proposal Selection for SAR Target DetectionUsing Reinforcement LearningDU Lan*WANG ZilinGUO YuchenDU YuangYAN Junkun①①(National Laboratory of Radar Signal Processing, Xidian University, Xian 710071, China)(Academy of Advanced Interdisciplinary Research, Xidian University, Xian 710071, China)Abstract: Compared with optical images, the background clutter has a greater impact on feature extraction inSynthetic Aperture Radar (SAR) images. Due to the traditional redundant region proposals on the entirefeature map, these algorithms generate large quantities of false alarms under the influence of clutter in SARimages, thereby lowering the target detection accuracy. To address this issue, this study proposes a Faster RCNNmodel-based SAR target detection method, which uses reinforcement learning to realize adaptive regionproposal selection. This method can adaptively locate areas that may contain targets on the feature map usingthe sequential decision-making characteristic of reinforcement learning and simultaneously adjust the scope ofthe next search area according to previous search results using distance constraints in reinforcement learning.Thus, this method can reduce the impact of complex background clutter and the computation of reinforcementlearning. The experimental results based on the measured data indicate that the proposed method improves thedetection performance.Key words: Synthetic Aperture Radar (SAR); Target detection; Reinforcement learning; Faster R-CNN收稿日期:2022-06-22;改回日期:2022-08-24;网络出版:2022-09-02*通信作者: 杜兰 dulan@mail.xidian.edu.cn *Corresponding Author: DU Lan, dulan@mail.xidian.edu.cn基金项目:国家自然科学基金(U21B2039)Foundation Item: The National Natural Science Foundation of China (U21B2039)责任主编:徐丰 Corresponding Editor: XU Feng1 1 卷第5 期雷 达 学 报Vol. 11No. 52 0 2 21 0Journal of Radars Oct. 20221 引言合成孔径雷达(Synthetic Aperture Radar,SAR)可对地面区域进行大面积的主动微波成像,能够实现全天时、全天候对地观测,在军事领域和民用领域得到广泛应用。近年来,随着SAR系统和成像算法逐渐成熟,越来越多高质量的SAR图像出现,如何对SAR图像进行准确高效的目标检测是现在研究热点之一。目前传统的SAR目标检测方法大都围绕经典的恒虚警率(Constant False Alarm Rate, CFAR)算法展开研究,这是一种基于灰度特征的传统SAR目标检测方法。其中双参数CFAR方法[1,2]是一种经典的局部自适应目标检测方法。该方法通过预设滑动窗口遍历SAR图像实现目标检测,对窗口内像素灰度与自适应阈值进行对比以区分目标和杂波。自适应阈值由预先设置的恒定虚警率和窗口中的杂波分布确定。文献[3]提出了一种基于双边微调统计的CFAR检测方法,该方法提出了一种基于双边阈值的策略,自动裁剪窗口内的样本来剔除异常值,提高了在海洋场景下的检测性能。此类方法需要SAR图像中目标与杂波具有较高对比度来拟合杂波的统计分布,因此只适用于简单场景,当场景较为复杂时,会造成检测性能的降低。近年来,在光学领域,由于网络深度的增加以及计算能力的不断提高[4],基于深度学习的目标检测方法[59]开始占据主流,取得了不错的效果。鉴于深度学习在光学图像目标检测领域的成功,研究者也将深度学习运用在SAR目标检测当中[10]。基于深度学习的SAR检测方法相较于浅层模型方法特征提取能力强、对于复杂SAR图像场景的检测效果好。文献[11]将低层纹理、边缘特征与高层深度特征进行融合,提高了SAR舰船目标的检测性能。目前一些基于深度学习的SAR目标检测方法是由基于区域的卷积神经网络(Region-CNN, R-CNN)结合候选区域来设计的两阶段检测方法。文献[12]使用多分辨率卷积特征,基于Faster R-CNN方法,对原有的卷积神经网络VGG-16的结构进行改进,提升了对小型目标的检测效果。文献[13]FasterR-CNN算法基础上,使用SAR分类数据集对网络进行预训练并扩充训练数据,解决了SAR目标检测训练样本不足的问题。此类方法在对区域候选网络(Region Proposal Network, RPN)产生的大量候选框进行挑选时,往往采用非极大值抑制(Non-MaximumSuppression, NMS)方法。在大场景SAR图像检测中,由于目标特征易受杂波影响,可鉴别性更差,并且单个目标占据图像比例更小,导致基于Faster R-CNN的目标检测方法在整张特征图上产生的候选框会包含大量杂波,而NMS方法无法在筛选候选框时有效去除杂波,导致目标检测产生大量虚警。近几年,在人工智能领域中,强化学习[14,15]得到了广泛关注。强化学习根据当前自身状态(State)并结合策略(Policy)做出相应的动作(Action),通过与外界的交互获得不同的奖励(Reward)来不断更新自身的状态并调整策略,最终形成解决某一问题的最优策略。将具有解译能力的深度学习与具有决策能力的强化学习结合而形成的深度强化学习,可以更好地与其他基于深度学习算法相结合,应用在目标检测[1618]中以提高检测性能。在光学领域,文献[16]根据当前收集到的图像信息,使用强化学习从5个预定义的固定形状和尺寸的候选区域中选择最有可能包含目标的区域,并通过迭代不断缩小候选区域,最终框定目标。但由于预设的候选区域并不能完全覆盖所有目标,此方法精度较低。受强化学习启发,本文基于Faster R-CNN检测模型[7],设计了新的强化学习模型实现自适应候选框挑选,有效减少冗余候选框数量。提出方法在RPN与感兴趣区域(Regions-of-Interest, RoI)池化层之间加入深度强化学习网络,对于RPN产生的大量初始候选框,深度强化学习网络综合相关信息进行迭代搜索,在特征图上不断找到可能含有目标的搜索区域,并挑选搜索区域内的候选框输入后续的检测器进行分类、回归,实现对搜索区域内的目标检测。由于深度强化学习网络是基于循环神经网络(Recurrent Neural Network, RNN)设计的,因此可以在迭代过程中捕捉到图像的上下文信息并确定可能含有目标的搜索区域的位置坐标。并且,本方法在强化学习中对产生的搜索区域尺寸添加距离约束,使得搜索区域尺寸可以根据之前迭代过程中的搜索区域以及目标检测结果进行自适应调整。针对大场景SAR图像中目标数量较多,分布情况较为复杂且易受杂波影响的特点,提出方法通过使用强化学习自适应确定搜索区域实现了对初始候选框的自适应挑选,提升了对背景杂波的鉴别能力并减少传统强化学习应用于检测问题的计算量。所提方法自适应确定搜索区域的能力包括两方面的自适应,一是通过综合利用图像的特征信息和上下文信息自适应确定搜索区域的位置坐标;二是通过搜索区域尺寸约束自适应调整下一次搜索区域的范围尺寸。基于实测数据的实验结果表明,所提方法能够有效减少SAR目标检测的虚警数量,提升传统深度学习目标检测方法的检测性能。第5 期杜 兰等:结合强化学习自适应候选框挑选的SAR目标检测方法8852 背景介绍2.1 Faster R-CNNFaster R-CNN[7]是目前比较常用的目标检测框架,用RPN来获取区域候选。如图1所示,FasterR-CNN的结构可以分为4个主要部分:特征提取网络、RPNRoI池化层以及检测器。其中,特征提取网络由卷积层、激活函数和池化层组成,用于提取输入图像的特征映射作为输出。后续的RPN和检测器将使用输出的特征映射完成候选框的生成以及分类、回归,实现卷积共享。RPN在特征图中每个点上设置k个锚框,对每个锚框进行二分类和初步位置修正并使用NMS算法进行候选框筛选作为初始的候选框;RoI池化层则负责收集原始的特征图和候选框,将其整合后提取出候选框对应位置的特征映射;最后输入检测器中进行目标分类和边界框的位置修订。2.2 强化学习 : S ! Aa 2 A强化学习的过程通常可以用图2中的马尔可夫决策过程[14](Markov Decision Process, MDP)来描述:智能体(agent)在环境当中,拥有其对当前环境感知的状态量S;通过策略从动作集A中选择动作,根据动作的不同,环境出现基于一定概率的改变并更新状态量S;在状态发生变化的同时,环境会根据状态变化通过奖励函数给予智能体相应的奖励r。这样智能体在与环境交换信息的过程中,依据得到的奖励来不断调整策略,最终得到最优策略。智能体能够与环境进行交互,每个状态是智能体对当前环境的感知,并且智能体只能通过动作来影响环境,而策略能够指导智能体在当前状态下做出何种动作,可以将其表示为一个由状态到动作的映射。奖励是在当前环境状态下,对智能体所进行动作的即时评价,这个评价也是策略优化的主要依据,可以表示为奖励函数的形式。当智能体做出一个带来较低奖励的动作时,当下次遇到相同的环境状态时,调整过的策略就可能会选择其他的动作来争取获得更高的奖励。强化学习的目标可以确定为:学习一个最优策略,来最大化期望累计奖励。因此,设置合适的状态、动作以及奖励函数,是强化学习获得最优策略的关键。3 结合强化学习的SAR目标检测方法3.1 总体框架hori  wori  3h  w  512k = 97  7本方法基于传统Faster R-CNN方法,整体框架如图3所示。除深度强化学习网络之外,其余各部分与Faster R-CNN模型相似。特征提取网络采用VGG-16,尺寸为的输入SAR图像在经过特征提取后生成的特征图,hw与输入图像的尺寸有关。在获取特征图后,RPN会在特征图的每个像素点上生成k(本文设置)个锚框,并通过softmax二分类器和回归器获得更精确的初始候选框,初始候选框将构成深度强化学习网络输入的一部分。对于RPN生成的大量初始候选框,我们使用深度强化学习网络进行区域搜索实现对初始候选框的挑选,将可能含有目标的候选框送入RoI池化层进行整合。RoI池化层会将挑选出来的候选框对应位置的特征映射划分为的网格,并对每一个网格进行最大值池化处理,以输出固定尺寸的特征向量。这些特征向量将被送入检测器,通过全连接层和softmax计算候选框的具体类别,输出类别概率预测向量,同时利用边界框回归,获取更准确的检测目标框。其中深度强化学习网络采用循环神经网络实现,此网络可以在特征图上找到一个可能含有目标的区域,并将该区域内的候选框送入后续的检测器进行分类回归,然后根据检测结果再找到另一个可能含有目标的区域,继续将该区域内的候选框送入检测器,如此迭代,完成候选框的自适应挑选。深度强化学习网络部分参考基于卷积门控循环单元[19](Convolutional Gated Recurrent Unit,Conv-GRU)进行设计。Conv-GRU作为一种计算需求相对较低的循环神经网络,对网络输入输出具SAR图像特征提取网络RoI池化RPN二分类边界框回归分类边界框回归最终检测结果检测器图 1 Faster R-CNN结构Fig. 1 Faster R-CNN structure智能体环境状态(S)奖励(r) 动作(A)策略图 2 强化学习原理Fig. 2 Principles of reinforcement learning886 雷 达 学 报第1 1 卷有记忆能力,能够捕捉迭代过程中的依赖关系,是能够实现深度强化学习的网络之一。Conv-GRU智能体的方程式如下:Ot = so St +Who Ht���1 + bo] (1)

[返回]
上一篇:多旋翼无人机载SAR的视线运动误差修正与补偿
下一篇:无先验模型复杂结构设施SAR全方位三维成像方法研究