欢迎访问一起赢论文辅导网
本站动态
联系我们
 
 
 
 
 
 
 
 
 
 
 
QQ:3949358033

工作时间:9:00-24:00
机械论文
当前位置:首页 > 机械论文
基于YOLOv5的舰船目标及关键部位检测算法
来源:一起赢论文网     日期:2022-04-20     浏览数:772     【 字体:

 系统工程与电子技术Systems Engineering and ElectronicsISSN 1001-506X,CN 11-2422/TN《系统工程与电子技术》网络首发论文题目: 基于 YOLOv5 的舰船目标及关键部位检测算法作者: 钱坤,李晨瑄,陈美杉,王瑶收稿日期: 2021-07-16网络首发日期: 2022-01-20引用格式: 钱坤,李晨瑄,陈美杉,王瑶.基于YOLOv5 的舰船目标及关键部位检测算法[J/OL].系统工程与电子技术.https://kns.cnki.net/kcms/detail/11.2422.TN.20220119.1436.011.html网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,只可基于编辑规范进行少量文字的修改。出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出版广电总局批准的网络连续型出版物(ISSN 2096-4188CN 11-6037/Z),所以签约期刊的网络版上网络首发论文视为正式出版。系统工程与电子技术Systems Engineering and Electronics收稿日期:2021-07-16;修回日期:2021-11-24。基金项目:装备预研领域基金(6140247030202)资助课题*通讯作者.基于YOLOv5 的舰船目标及关键部位检测算法钱 坤1,2,*,李晨瑄1,陈美杉1,王 瑶11. 海军航空大学岸防兵学院,山东 烟台 2640002. 中国人民解放军32127 部队,辽宁 大连 116100;)摘 要:为进一步提升对可见光图像中水面舰船目标的检测识别成功率,本文提出了一种基于YOLO v5 的舰船目标识别算法。使用了基于随机池化方法的空间金字塔池化网络,运用了双向特征金字塔网络进行多尺度特征融合,采用指数线性单元函数作为激活函数加快网络训练收敛速度,提升算法鲁棒性,从而实现了对水面舰船目标和舰船关键部位的快速准确识别。通过在舰船目标及其关键部位数据集上实验验证,对比多个经典目标检测方法,在识别准确率上均有不同程度提升,对比原YOLO v5s 模型,平均精度均值提升3.03%,速度提升2 帧,模型保持了YOLO v5 轻量化的特点,在应用部署上有良好前景。关键词:YOLO v5;随机池化;双向特征金字塔网络;指数线性单元函数中图分类号:TP 39 文献标志码:A DOI:Ship target and key parts detection algorithm based on YOLO v5QIAN Kun 1,2,*LI Chenxuan1CHEN Meishan1WANG Yao1(1. College of Coastal Defense Force, Naval Aeronautical University, Yantai 264000, China;2. Unit 32127 of the PLA, Dalian 116100, China)Abstract: In order to improve the detection and recognition success rate of the surfacewarship target in visible light image, a new algorithm based on YOLO v5 is proposed. Thespatial pyramid pooling network based on stochastic pooling is used for pooling operation, and thebi-directional feature pyramid network is used for feature fusion. At the same time, the exponentiallinear unit function is used as the activation function to further accelerate the convergence speedand improve the robustness of the model, so as to realize the rapid and accurate recognition ofsurface ship targets and key parts of the ship. Through the experimental verification on the data setof ship target and its key parts, compared with the mainstream target detection methods, therecognition accuracy is improved in varying degrees. Compared with the original YOLO v5 model,the mean average precision is improved by 3.03%, and the speed is improved by 2 frames persecond. The model maintains the lightweight characteristics of YOLO v5, and has a good prospectin application deployment.Keywords: YOLO v5; stochastic pooling; bi-directional feature pyramid network; exponentiallinear unit function0 引 言近年来,伴随着科技进步和技术革新,海上作战形式也有了新的变化,智能化、小型化、无人化、精确化已成为趋势。同时,在大国博弈的背景下,以威慑为战略目的,以失能为战术目标的精确化打击,将会成为双方展示实力的重要手段。网络首发时间:2022-01-20 09:22:00网络首发地址:https://kns.cnki.net/kcms/detail/11.2422.TN.20220119.1436.011.html系统工程与电子技术Systems Engineering and Electronics2水面舰艇作战过程中,中、远段突防可以依托武器装备的小型化和集群化对敌拦截武器系统施加压力,所以末端突防阶段的精确制导能力就成为打击能否成功的关键。在末制导技术中,图像制导具有被动探测、抗电磁干扰、成本低廉和设备体积小巧等优势,同时,由于可见光图像包含更加丰富的颜色和纹理细节,也非常适合作为精确识别的信息来源,可有力支撑精确化打击的实施。由于计算机GPU 算力的限制,早期的图像识别有着很强的手工设计痕迹,其解决问题的过程大致可以概括为区域选择、特征提取和分类识别三个步骤。区域选择多基于滑动窗口方式;特征提取主要依据目标颜色、纹理,设计专门的提取算法,典型方法有尺度不变特征变换[1]Scale-Invariant FeatureTransform SIFT ) 和方向梯度直方图[2]Histogram of Oriented GradientsHOG);分类识别主要应用支持向量机[3]SupportVector MachineSVM)或AdaBoost[4]。这种方法泛化能力差,难以在实际问题中实现多类别的、大数据量的、实时准确的检测识别。2006 年,加拿大Geoffery Hinton 教授[5]和他的学生Ruslan Salakhutdinov 开创性地提出了深度学习的思想,指出了多层人工神经网络具备强大的特征学习能力,即从训练模型中所提取的特征能够更本质地表达输入图像具备的特征,从而解决了特征可视化和分类问题;同时,人工神经网络可以对输入图像进行分层级地表达,这样可以显著降低多层人工神经网络的训练难度,正式开启了深度学习领域的研究[6]。卷积神经网络[7]Convolutional NeuralNetworkCNN)的引入,解决了滑动窗口选择和人工提取特征的问题,使得目标检测的实时性和准确性有了大幅提升,其中最具代表性的有两类算法,一是基于候选框的两阶段检测,如R-CNN[8-9]Fast R-CNN[10]Faster R-CNN[11-12]R-FCN[13-14]以及MaskR-CNN[15]。二是基于免候选框的单阶段检测,典型的有SSD[16]Retina-Net[17]以及YOLO系列算法。2015 YOLO v1[18]被提出,其核心思想与Faster R-CNN 类似,将整幅图片作为网络的输入,并直接在输出层实现边界框位置和分类的确定;随后的YOLO v2[19-20]在采用了批量归一化、高分分类器和先验框等优化策略后,实现了速度、准确率和识别对象类别数量上的提升;YOLO v3[21]的结构更加复杂,引入了特征金字塔网络(FeaturePyramid NetworkFPN)darknet-53 网络,并允许改变网络结构以权衡速度与精度,计算速度大幅提高;YOLO v4[22]的网络架构变化很大,通过大量的调参试验,在输入网络分辨率、卷积层数和参数数量间找到最佳平衡,实现了综合性能的提升;YOLO v5 在网络轻量化上贡献明显,速度更快,也更加易于部署。基于卫星遥感合成孔径雷达(SyntheticAperture RadarSAR)图像的海上舰船识别[23]已经比较成熟,但无论是星载还是机载,所获取的SAR 图像多为俯视视角,对于反舰武器掠海攻击来说借鉴意义不大。同时,由于SAR 成像机理限制,难以实时成像和对动目标高质量成像,因此并不适用于图像制导。在小型化、集群化的突防武器上使用可见光图像制导,利用丰富的图像信息进行舰船要害部位检测识别,而后实施高精度的打击使敌舰失能,就成为一种可行的战术思路。在基于水平视角的舰船目标识别研究中,文献[24]使用了传统的HOG+SVM 方法,经过图像预处理、HOG 特征提取训练以及SVM 分类器训练来检测船舶目标;文献[25]则利用类FCN 全卷积网络,能够接受任意尺寸图像的输入;文献[26][27]分别使用了YOLO v2 YOLO v3,取得了较好的效果。本文在YOLO v5 网络架构基础上进行了深度优化,在原有的空间金字塔池化(Spatial Pyramid PoolingSPP)网络[28]中引入了随机池化的多卷层,进一步提升了识别精度; 运用双向特征金字塔网络(Bi-directional Feature Pyramid NetworkBiFPN)进行多尺度特征融合,以提高特征融合效果,进而优化小目标检测能力;使用指数线性单元(Exponential Linear UnitELU)函数作为激活函数,加快了收敛速度,并提高了模型的鲁棒性。同时,针对之前的舰船目标识别研究普遍将舰船视为一个质点,不区分具体打击部位的情况,在本文的目标识系统工程与电子技术Systems Engineering and Electronics3别过程中,同时对几何形状明显和相对位置固定的舰船关键部位进行精确识别,为海上精确打击作战提供了有益借鉴。1 YOLO v5 目标识别算法1.1 YOLO v5 网络架构YOLO v5 的网络架构整体上与YOLOv4 比较相似,从结构上大致可以分为输入端、骨干段、颈部段和头部输出端4 个部分,具体结构图如图1。图1 YOLO v5 网络结构示意图Fig. 1 Network structure diagram of YOLO v5与之前YOLO 版本不同的是,YOLOv5 实现了网络架构的系列化,有YOLO v5sYOLO v5mYOLO v5l YOLO v5x 四种结构,结构的变化是通过调节深度倍数( depth multiple ) 和宽度倍数( widthmultiple)两个参数实现的。通过在每个跨阶段局部网络( Cross Stage PartialNetworksCSPN)中设置不同的残差组件数量,得到不同深度的网络;在聚焦(Focus)结构和每个CSPN 设定不同数量的卷积核,得到不同宽度的网络,表1 YOLO v5 系列网络结构的参数。表1 YOLO v5 系列网络结构的深度和宽度倍数参数Table 1 Depth and width multiple parameters of different YOLO v5 network structuresYOLO v5s YOLO v5m YOLO v5l YOLO v5xDepth multiple 0.33 0.67 1.0 1.33Width multiple 0.50 0.75 1.0 1.25BCSPn 数量(Ture) 1,3,3 2,6,6 3,9,9 4,12,12BCSPn 数量(False) 1 2 3 4卷积核数量32,64,128,256,51248,96,192,384,76864,128,256,512,102480,160,320,640,1280随着网络深度和宽度的增加,其泛化学习能力、特征提取能力和特征融合能力也会随之增强,代价是计算时间会有所增加。通过这样灵活的设定,可以根据具体需求,在检测速度和准确性间找到平衡。1.2 YOLO v5 模型检测识别算法原理在输入端主要有如下几项工作,一是基于马赛克(Mosaic)算法的数据增强,将四张图像分为一组,经过随即缩放、拼接或叠加合成一幅图像进行后续训练,目的是丰富数据集并缩短训练时长,经验证也可以降低内存的占用率。二是自适应锚框计算,训练中,输出的预测框与真实框进行比对,通过计算两者之间的交并比得到偏移量,反向迭代后,得到最适应数据集的锚框大小。三是自适图像片缩放,输入图像的尺寸是不一样的,在YOLO v5 中常用的尺寸有416×416608×608640×640 等,通过等比缩放并用黑边填充,得到尺寸统一的输入图像。在骨干段网络,采取聚焦结构来裁剪输入图像,将数据切分为4 份,每份数据都相系统工程与电子技术Systems Engineering and Electronics4当于在2 倍下采样下得到,在纵向通道进行拼接,之后进行卷积运算。以YOLO v5s 为例,原始的640×640×3 的图像输入聚焦结构后,经过切片变成320×320×12 的特征图,在经过32 个卷积核的卷积运算,得到320×320×32 的特征图。而在YOLO v5m 架构中,则有48 个卷积核,所以经过聚焦结构后输出为320×320×48 的特征图,YOLOv5lYOLO v5x 也是同理。而在特征生成部分,则沿用YOLOv3 SPP[29]网络来完成。在颈部段网络,应用路径聚合网络[30]Path-Aggregation NetworkPANet)进行特征融合,PANet 是在FPN[31]基础上增加了一条自底向上的信息流通路,缩短了信息传输路径,旨在使准确的底层定位信息能够增强到整个特征提取网络。损失函数的选取对于评估预测准确性至关重要, 早期的交并比损失函数(Intersection over Union LossIoU Loss)设计比较简单,只计算预测框与真实框交集面积与并集面积的比值,但实际情况是这个比值并不能完全反映预测框与真实框的相对位置。在头部输出端,通过引入中心点距离和宽高比两个参数后,形成了完全交并比损失函数(Complete Intersection over UnionLossCIoU Loss)。(1)(2)(3)其中是预测框与目标框的中心点距离, 最小外接矩形对角线长度, 和分别是是预测框与目标框的宽高比。YOLOv5 目标检测流程如图2。图2 YOLO v5 目标检测流程图Fig. 2 Flow chart of object detection in YOLO v52 基于改进YOLO v5 的舰船目标关键部位检测识别2.1 算法整体框架算法基于YOLO v5 网络模型,兼顾精度与速度,网络轻量化优势突出。输入图像尺寸灵活,经自适应缩放后统一为640×640后进入聚焦结构,经过多层卷积运算后,进入随机池化SPP 网络,进行图像下采样,降低维度,减少网络参数,增大卷积核的局部感受野;再进入BiFPN 结构,进行不同尺度下的特征融合,旨在进一步减少冗余计算,提升后续检测精度;同时在网络中应用ELU激活函数,代替带泄露线性整流函数(LeakyRectified Linear Unit, ReLULeaky ReLU),起到抑制噪声、加快收敛速度并提升模型鲁棒性的作用。算法整体框架如图3。图3 算法整体架构Fig. 3 Algorithm architecture系统工程与电子技术Systems Engineering and Electronics52.2 基于随机池化的多卷积层SPP 网络YOLO v5 延续了YOLOv3 中的SPP 网络,在SPP 结构中,使用最大值池化进行运算。池化的目的是将区域中的信息进行压缩,从而完成信息的提取和抽象,通过池化运算能够达到数据降维、特征压缩、扩大感受野以及实现不变性(包括平移、旋转和尺度的不变性)。所以在设计池化运算的时候要在简化运算的基础上尽量减少特征图中信息映射的丢失。池化运算中,最为常用的是平均池化( Average-Pooling ) 和最大值池化(Max-Pooling),前者可以输出子区域内特征值的均值,能够更多地保留背景信息,后者输出子区域内特征值的最大值,强调输出图中最强烈的部分,但对于差异性不明显的情况容易造成特征信息的丢失。随机池化[32]Stochastic-Pooling)介于两者之间,思路是通过对像素点按照数值大小赋予概率,即数值大的被选中的概率也大,这样的设计在平均意义上与平均池化相近,但在局部信息上,依旧服从最大值池化的规则[33]。图4 三种典型池化方法示意图Fig. 4 Three typical pooling methods首先计算池化区域的统计和,用每个特征值去除这个统计和,从而得到每个特征值的概率值,之后按照这个概率值进行随机采样,从而实现随机池化,见公式(4)。其中, 是采样的窗口大小;为被采样的特征值; 为按照随机选择的数值。(4)SPP 结构中应用随机池化,改进后的随机池化SPP 结构如图5。图5 随机池化SPP 结构图Fig. 5 Stochastic pooling SPP structure diagram2.3 基于BiFPN 的多尺度特征融合网络伴随YOLO 架构的发展,模型愈加复杂,网络不断加深,所提取的特征语义维度也越来越高,但每层网络都会造成一定程度的特征丢失,这就需要对在不同尺度上提取的特征进行融合。YOLO 架构的多尺度特征融合经历了从类FPNFPN,再到PANet 的不断优化改进,从原理来看,浅层网络拥有更高的分辨率,涵盖了更准确的位置信息;深层网络感受野更大,涵盖更多的高维语义信息,对目标的分类贡献更大。所以优化不同尺度信息融合效果就成为提升网络架构的一种方法。单阶段目标检测算法面临的问题是无法通过一个单一阶段的特征抽取得到不同尺度的特征。在骨干段抽取生成的特征,按照阶段(Stage)进行划分,记作C1C2、…、C7,数字代表图像分辨率减半的次数,如C4 表示第4 阶段,输出为原图像1/16 尺寸的特征图。之后由上至下逐层进行特征融合,输出的记作P,这个过程可以用方程表示为:(5)YOLO v5 在颈部段应用了PANet 进行特征融合,PANet 结构的特点是在C3 C7层建立了自下而上的融合链路,加强了底层强定位特征的向上传递。由Googlg 的大脑团队在2020 年提出的EfficientDet 目标检测网络中首次应用了BiFPN 多尺度特征融合系统工程与电子技术Systems Engineering and Electronics6[34],相对于PANetBiFPN 主要的改进有三点:一是减少了部分节点,BiFPN 中删除了入度为1 的节点,因为这样的节点相较于前一节点没有额外信息,可以减少冗余计算;二是增加了跳跃链接,使输出层不但能够得到自下而上已经参与特征融合的信息,还保留了原始节点未经融合的信息;三是形成了融合模块,可以作为整体继续参与堆叠,做进一步融合,各层关系如公式(6)。(6)通过这样的设计,理论上可以实现精度的小幅提升和运算量的大幅降低,这对于设备空间极为有限,运算能力并突出的弹载装备来说具有很大的现实意义。图6 PANet 结构和BiFPN 结构Fig. 6 PANet structure and BiFPN structure2.4 ELU 激活函数激活函数的设计在神经网络设计中非常重要,它的特点是具备非线性,可以决定神经网络的感知机制是否触发,同时,这种非线性也赋予了深度网络学习复杂函数的能力,在YOLO v5 网络架构中的卷积模块(Conv)中应用了Hard-Swish 激活函数,用分段函数可以表达为:(7)CSPN 模块中应用了Leaky ReLU 激活函数,文献[35]中提出了一种对LeakyReLU 函数的进一步优化方法,称为ELU 函数,其表达式为公式8,图像如图7(8)7 ELU 激活函数图像(α=1Fig. 7 ELU activation function image(α=1ELU 函数有效融合了S 型曲线函数(Sigmoid)函数和线性整流函数(RectifiedLinear UnitReLU)函数的优点,它在零点的右侧呈线性,可以进一步缓解梯度消失问题;在零点左侧是非线性的,使其对输入变化或者噪声有着更优异的鲁棒性。并且由于ELU 函数的输出均值接近于0,所以在收敛速度上也有一定提升。在YOLO v5 网络架构中用引入ELU 函数代替原有的LeakyReLU 函数作为激活函数。3 实验验证3.1 数据集与实验环境基于水平视角或较低视角的海上舰船系统工程与电子技术Systems Engineering and Electronics7可见光图像目前尚无权威数据集,作战舰艇图像数据因涉密原因也比较难以获取,所以本文所用数据集主要由两部分组成,一部分是利用基于Python 脚本的爬虫技术爬取图片素材网站中的目标图像得到的,主要过程是在素材网站中搜索“航空母舰”、“宙斯盾驱逐舰”、“渔船”、“货轮”等关键字,得到含有大量搜索结果的网页及其源代码,分析获取目标图像的统一资源定位符( UniformResource LocatorURL),并依照URL 进行下载;另一部分是人工实地拍摄,包括长焦镜头拍摄和无人机掠海航拍,两部分经过人工筛选后汇总,所建立的数据集共有图像1554 幅,包含民用船只558 幅、作战舰艇区分航空母舰和驱逐舰,各636 幅、741 幅。图像大小为1200×800 300×200 之间,经自适应缩放后统一为640×640 大小。图8 部分样本Fig. 8 Some samples在反舰装备智能化、小型化,集群化的发展方向上,以命中舰艇为精度的攻击已经难以满足要求,因为小型化的反舰武器毁伤能力不足,难以对舰船造成实质性的伤害,所以必须命中舰船的要害部位,比如攻击雷达或天线,可以瘫痪舰艇的侦察、火控和通信能力;攻击舰艇驾驶舱,可以直接瘫痪指挥中枢,实施舰上“斩首”;攻击船尾甲板下部舵机舱,可以破坏其机动能力;攻击水线部位,则能够造成船身进水,直接威胁舰船安全。在以上要害部位中,可以优先选择舰艇的相控阵雷达阵面,一方面是相控阵雷达是现代舰艇的标配,其阵面天线多为形状规则的多边型,且舰艇配有多个阵面,正向或是侧向突防时都能明显观察。还可以选择舰岛上方桅杆,这个部位敏感器件密集,位于舰船的最高点,相对位置突出。舵机舱所占空间较大,允许的攻击误差也相对较大,且位于舰艇尾部甲板下方,位置也比较明显。驾驶舱位于舰岛中上部,单层(驱逐舰)或多层(航空母舰)的联排的舷窗是其明显的标志。综上,在具体标注过程中,选择在驱逐舰上标注桅杆、相控阵雷达、驾驶舱和舵机舱;在航空母舰上标注桅杆和驾驶舱;民用船只不标注关键部位。经统计,共标注带有关键部位的作战舰艇图像1052 幅,每幅作战舰艇平均标注3.67 个关键部位。数据集格式使用PASCAL VOC 格式,并运用开源工具labelImg 进行手工标注。图9 标注样例Fig. 9 Annotation examples在关键部位尺度上,符合小尺度关键部位(小于50 像素)的占81%,中尺度关键部位(介于50 130 像素之间)的占17%,大尺度关键部位(大于130 像素)的占2%,所以对小目标的检测能力是模型优化的关键。在数据集的划分上,使用脚本文件将全部图像按照8:1:1 的比例随机划分成训练集、测试集和验证集,具体数量为训练集1237幅、测试集149 幅和验证集158 幅,标注数据见表2。表2 数据集标准情况统计表Table 2 Statistical table of data set standards标注类别数据集总数航空母舰驱逐舰 桅杆 驾驶舱相控阵雷达天线舵机舱民用船只数量(幅) 1554 636 741 1476 1032 405 393 558各类占比 —— 41.2% 48.0% 95.6% 66.8% 26.2% 25.5% 36.1%系统工程与电子技术Systems Engineering and Electronics8实验的具体环境配置如表3。表3 实验环境Table 3 Experimental environment操作系统 Windows10CPU i7-9700 3.00 GHzGPU NVIDIA 2060 SUPERGPU 显存 8GB内存 16G加速环境 CUDAv11.0CuDNNv7.6显卡驱动版本 27.21.14.6172Pytorch 版本 1.7Python 版本 3.8.53.2 YOLO v5 架构选择及训练参数YOLO v5 架构根据复杂程度不同分四种模型,本文选择以YOLO v5s 为基础进行改进,因为该模型最为精简,运算开销最低,更适合算力有限的弹载计算机。在YOLO v5s 原始算法中,参数量仅为7.5M,对于移动端的部署非常友好。主要的训练配置参数设置如下:训练周期(epochs)为100,批处理量(batchsize)为16,图片尺寸为640×6403.3 评价指标在识别精度方面采用混淆矩阵中的查准率和召回率作为基本指标(查准率主要评估预测是否准确,召回率主要评估查找是否完全),依据查准率和召回率计算平均精度均值(mean Average PrecisionmAP),作为精度的最终评价指标,用以衡量训练得到的模型在所有类别上的综合表现,并将交并比为0.5 作为判别检测成功与否的阈值。在运算速度方面采用每秒传输帧数(Frames Per SecondFPS)和每秒浮点运算次数( Floating-point Operations PerSecondFLOPS)进行评价,一方面可以考察是否满足动态实时检测识别的要求,另一方面可以考察弹载设备的计算能力是否可以满足模型的运算负载。在模型大小方面主要考察参数量(Params)的大小,参数量完全由模型结构所决定,即一旦网络结构确定,参数量也随之确定。同时,由于参数以32 位浮点数格式存储,所以模型文件大小约等于参数量的4 倍。同时,为了检验网络模型鲁棒性表现,还设计了不同光照条件下的检测识别实验,为得到不同光照条件下的图像,对原始图像曝光度进行调节,得到一系列过曝和低照度情况的图像,再用原YOLO v5s网络和改进后的YOLO v5s 网络分别进行检测,并进行效果对比。3.4 识别结果与分析通过训练,得到相应的训练权重文件,使用权重训练文件对图像进行识别,结果如图10。图10 中(a)列为待检测的输入图像,(b)列为输出的检测结果,检测结果中对于舰船目标,目标框准确标示目标外沿,对于舰船上小目标的检测清晰准确,对于存在部分遮挡情况的目标也能够准确识别。(a)输入图像 (b)检测结果(aInput image bResult10 实验结果示例Fig. 10 Examples of experimental results11 是在不同光照条件下的检测识别实验结果,改进后的YOLO v5 网络在图像存在明显过曝或低照度条件下的检测效果都比较稳定,原YOLO v5 网络在低光照情况下,先出现了漏检情况,在(a)组(f)图中检测出了两处相控阵雷达天线,而在(b)组(f)图中漏检了一处,说明改进后的网络模型鲁棒性有所提升,对于光照的变化不敏感。系统工程与电子技术Systems Engineering and Electronics9a)本文算法(aProposed methodb)原算法(bOriginal method11 光照鲁棒性实验结果Fig. 11 Experimental results of illumination robustness为客观验证算法性能,在相同实验平台,同一数据集情况下,对几种主流目标识别网络性能进行了对比,准确率和处理速度情况如表4。表4 在舰船关键部位数据集上几种算法的检测精度和速度Table 4 Detection accuracy and speed of several algorithms on data set of key parts of ship算法 图像分辨率 mAP/% 航母 驱逐舰 桅杆 驾驶舱 天线 舵机舱 民船 FPSHOG+SVM[24] 500×500 64.82 88.4 70.2 73.9 52.6 62.8 66.3 39.5 12SSD[16] 500×500 72.34 94.1 77.6 81.9 64.4 69.7 64.8 53.9 28Mask R-CNN[15] 512×384 73.65 96.2 78.9 83.1 66.3 72.5 63.7 54.8 14CenterNet-Hourglass(s)[36] 512×512 72.25 94.6 77.2 81.4 62.3 68.5 63.4 51.3 26改进YOLO v2[26] 416×416 72.20 96.8 77.5 80.2 62.1 67.2 64.5 50.1 24YOLO v4[22] 512×512 73.78 97.2 81.7 80.3 66.5 66.1 64.2 53.4 24YOLO v5s 640×640 74.10 97.2 79.4 84.6 65.9 69.2 67.1 55.3 25Proposed method 640×640 77.13 97.3 86.1 84.7 67.8 79.9 63.9 60.2 27本文算法对比传统的HOG+SVM 方法有着大幅提升,mAP 提升近13%,速度提升了每秒15 帧;对比同为单阶段检测的SSD 算法,mAP 提高4.79%,速度上略有不足,但均能满足实时性检测要求;对比两阶段检测的Mask R-CNN 算法,mAP 提高3.57%,速度上近乎翻倍;对比单阶段免锚框的CenterNet-Hourglass(simple)算法,速度小幅提升,mAP 提高4.88%;对比同系列的YOLO 算法,在mAP 和速度上也系统工程与电子技术Systems Engineering and Electronics10均有提升,特别是对照原YOLO v5s 算法,mAP 提高了3.03%,速度提升了2 帧。在对含有舰船目标的MP4 格式视频文件检测试验中,所训练模型能够准确识别舰船及其关键部位,且跟踪稳定流畅。分析7 类目标的识别结果,民用船只、驾驶舱和舵机舱在各算法中的识别正确率普遍较低,主要原因可能是民用船只形态各异,渔船、客轮、货轮、液化天然气船外形差异巨大,在数据集较小情况下,训练的效果比较一般;驾驶舱联排舷窗属于小目标,检测相对较难;舵机舱位于船尾且较为低矮,在从船头的正视角观察时,容易产生大部分被遮挡的情况。由于YOLO v5 模型轻量化的特点,加之YOLO v5s 对模型深度和宽度的精简,原有模型的参数量仅有7.5M,显著优于其他算法,改进型算法在参数量方面进一步缩减了2.7%。在运算开销上看,YOLO v5模型比其他算法的算力要求明显更低,改进型算法在原有算法基础上又降低了2.2%。表5 各算法的参数量和运算量Table 5 The amount of parameters and calculation of each algorithm算法 Params FLOPsRetinaNet[17] 53.1M 127BMask R-CNN[15] 63.4M 164BCenterNet-Hourglass (simple)[36] 95.4M 140B改进YOLO v2[26] 107.7M 149BYOLO v4[22] 27.6M 31BYOLO v5s 7.5M 17BProposed method 7.3M 13.2B在实验测试中发现,当舰船置于复杂岛岸背景下,漏检、错检概率明显上升,如图12。但复杂岛岸背景下的精确化打击有着极为重要的意义,甚至可能是我方面临的主要海战场环境,这说明模型还需进一步提升优化。如图12(a)中漏检了岸边舰船目标,并错检了岸上停泊的轿车,图12(b)中将船舶停靠的泊位错检成了民用船只。(a)场景一 (b)场景二(aScene 1 bScene 212 复杂岛岸背景下检测示例Fig. 12 Detection example under complex island and shore background3.5 消融实验算法同时对原YOLO v5s 模型的特征生成、特征融合和激活函数进行了改进,为评估不同模块改动和不同模块组合对于算法性能优化的程度,设计了消融实验,表6 为消融实验数据。在相同的实验环境下,在舰船目标及其关键部位数据集上进行实验统计,数据表明,每个模块单独应用均能对最系统工程与电子技术Systems Engineering and Electronics11终结果产生正向优化,其中BiFPN 对于识别准确率的贡献相对较为明显,mAP 提升0.78%ELU 激活函数对于速度的提升相对显著,提高1 帧。不同的组合对模型整体表现也基本呈现正向优化。三个模块的组合应用对于最终的识别精度和处理速度优化效果最好。表6 消融实验数据Table 6 Ablation data算法 随机池化SPP BiFPN ELU mAP/% FPSProposed method(1) 74.26 25Proposed method(2) 74.88 25Proposed method(3) 73.95 26Proposed method(4) √ √ 74.35 25Proposed method(5) √ √ 75.37 26Proposed method(6) √ √ 75.92 26Proposed method √ √ √ 77.13 2713 列出在消融实验下检测识别的效果对比。左列为消融实验检测识别结果,右列为本文算法检测识别结果,实验结果表明,消融实验组多次出现漏检,本文算法组准确识别出所有舰船目标及其关键部位。图13 消融实验对比示例Fig. 13 Comparison of ablation experiments4 结 论在武器智能化、小型化和集群化的反舰作战背景下,实现对舰船及其关键部位的识别是精确化打击的基础性工作。针对现有识别算法仅将舰船视为质点而不区分部位的情况,首先构建了舰船及其关键部位数据集,针对弹载设备算力有限的情况,提出了基于YOLO v5 的改进型轻量化舰船目标及其关键部位识别算法。(1) 改进了基于随机池化的多卷积层SPP 网络,优化特征提取效果,在突出强烈特征的同时,也能对差异化不明显的特征给予一定保留。在mAP 指标上相较主流的SSDMask R-CNNCenterNet-Hourglass(simple)分别提升4.79%3.57%4.88%,相较同系列的YOLO v2YOLO v3 和原YOLO v5s模型也分别有4.93%3.35%3.03%的提升。(2) 使用BiFPN 结构进行多尺度特征融合,减少冗余计算,降低计算负载。在以轻量化为特点的YOLO v5 算法基础上进一步压缩了2.7%的参数量。使用ELU 函数代替原有的Leaky ReLU 函数作为激活函数,加快收敛速度,提升了模型鲁棒性。算法能够满足实时性要求,运算开销较低,适合移动部署。系统工程与电子技术Systems Engineering and Electronics12目前,海上舰船目标精确识别依旧面临很多问题,如移动平台采集图像成像质量不佳;海上气候条件恶劣,容易受烟、雾、不良光照干扰,从而丢失目标纹理细节,对要害部位识别造成困难。以上问题需要对图像进行有针对性的预处理,完成图像增强和重建等工作。在实验测试中还发现,舰船在临近岛岸情况下漏检、错检概率明显增加,说明在复杂背景下的检测识别能力还有提升空间,以上问题将是后续工作的重点研究方向。参考文献[1] KIM Y. Convolutional neural networks forsentence classification[J]. arXiv preprintarXiv:1408.5882v2, 2014[2] DALAL N. Histograms of orientedgradients for human detection[C]//. 2005IEEE Computer Society Conference onComputer Vision and Pattern Recognition,2005, 886-893.[3] 王瑶,徐昌,舒福舟. 基于SVM 算法的两种特征提取的图像分类方法分析[J]. 电脑与信息技术, 2019, 027(006):18-20,33.WANG Y, XU C, SHU F Z. Analysis ofimage classification methods based ontwo feature extraction based on SVMalgorithm[J]. Computer and InformationTechnology, 2019, 027(006):18-20, 33.[4] ZHU J, ARBOR A, HASTIE T. Multi-classadaBoost[J]. Statistics & Its Interface,2006, 2(3):349-360.[5] 苏赋,吕沁,罗仁泽.基于深度学习的图像分类研究综述[J]. 电信科学, 2019,35(11):58-74.SU B, LV Q, LUO R Z. Review of imageclassification based on deep learning[J].Telecommunications Science, 2019,35(11):58-74.[6] ZOU Z, SHI Z, GUO Y, et al. Objectdetection in 20 years: a survey[J]. arXivpreprint arXiv:1905.05055v2, 2019.[7] HINTON G E, OSINDERO S, TEH Y W.A fast learning algorithm for deep beliefnets[J]. Neural Computation, 2014,18(7):1527-1554.[8] GIRSHICK R, DONAHUE J, DARRELLT, et al. Rich feature hierarchies foraccurate object detection and semanticsegmentation[C]// 2014 IEEE Conferenceon Computer Vision and PatternRecognition, 2014, 580-587.[9] 南晓虎,丁雷. 深度学习的典型目标检测算法综述[J]. 计算机应用研究, 2020,37(S2):15-21.NAN X H, DING L. Review of typicaltarget detection algorithms based on deeplearning[J] Application Research ofComputers. 2020, 37(S2):15-21.[10] GIRSHICK R. Fast R-CNN[J]. arXiveprint arXiv:1504.08083, 2015[11] REN S, HE K, GIRSHICK R, et al.Faster R-CNN: towards real-time objectdetection with region proposalnetworks[J]. IEEE Transactions onPattern Analysis & Machine Intelligence,2017, 39(6):1137-1149.[12] CHEN X, GUPTA A. An implementationof faster RCNN with study for regionsampling[J]. arXiv preprintarXiv:1702.02138v2, 2017.[13] DAI J, LI Y, HE K, et al. R-FCN: objectdetection via region-based fullyconvolutional networks[J]. CurranAssociates Inc. 2016. 379387[14] SINGH B, LI H, SHARMA A, et al.R-FCN-3000 at 30fps: decouplingdetection and classification[J]. arXivpreprint arXiv:1712.01802v1, 2017.[15] HE K, GKIOXARI G, P DOLLAR, et al.Mask R-CNN[C]//. 2017 IEEEInternational Conference on ComputerVision, 2017, 2980-2988.[16] LIU W, ANGUELOV D, ERHAN D, et al.SSD: single shot multiBox detector[C]//.European Conference on ComputerVision, 2016, 21-37.[17] LIN T Y, GOYAL P, GIRSHICK R, et al.系统工程与电子技术Systems Engineering and Electronics13Focal loss for dense object detection[J].IEEE Transactions on Pattern Analysis &Machine Intelligence, 2017, 2999-3007.[18] REDMON J, DIVVALA S, GIRSHICK R,et al. You only look once: unified,real-time object detection[C]//. 2016IEEE Conference on Computer Visionand Pattern Recognition, 2016, 779-788.[19] REDMON J, FARHADI A.YOLO9000:better, faster, stronger[C]//. 2017 IEEEConference on Computer Vision andPattern Recognition, 2017, 6517-6525.[20] YU H, ZHANG Z, QIN Z, et al. Lossrank mining: a general hard examplemining method for real-timedetectors[C]// 2018 International JointConference on Neural Networks, 2018,1-8.[21] REDMON J, FARHADI A. YOLOv3: anincremental improvement[J]. arXivpreprint arXiv:1804.02767v1, 2018.[22] BOCHKOVSKIV A, WANG C Y, LIAOH. YOLOv4: optimal speed and accuracyof object detection[J]. arXiv preprintarXiv:2004.10934v1, 2020.[23] 聂丰英.基于多特征联合稀疏表示的SAR 舰船目标识别方法[J]. 火力与指挥控制, 2020, 45(10):34-38.NIE F Y. SARship target recognition method using jointsparse representation of multiplefeatures[J]. Fire Control & CommandControl. 2020, 45(10):34-38. ()[24] 吴映铮,杨柳涛. 基于HOG SVM 的船舶图像分类算法[J]. 上海船舶运输科学研究所学报, 2019, 42(1):58-64.WU Y Z, YANG L T. Ship imageclassification by combined use of HOGand SVM[J]. Journal of Shanghai Shipand Shipping Research Institute. 2019,42(1):58-64.[25] 李兆桐,孙浩云. 基于全卷积神经网络的船舶检测和船牌识别系统[J]. 计算机与现代化, 2019(12):72-77.LI Z T, SUN H Y. A ship detection andplate recognition system based on FCN[J].Computer and Modernization.2019(12):72-77.[26] 段敬雅. 基于深度学习的船舶目标识别算法研究[D]. 广州: 华南理工大学,2020.DUAN J Y. Research on ship recognitionalgorithm based on deep learning[D].Guangzhou: South China University ofTechnology. 2020.[27] 曲颖丽. 基于卷积神经网络的船舶识别[D]. 大连: 大连海事大学, 2020.QU L Y. Ship recognition based onconvolutional neural network[D]. Dalian:Dalian Maritime University. 2020.[28] HE K, ZHANG X, REN S , et al. Spatialpyramid pooling in deep convolutionalnetworks for visual recognition[J]. IEEETransactions on Pattern Analysis &Machine Intelligence, 2014, 37(9):1904-1916.[29] OUYANG W, ZENG X, WANG X, et al.DeepID-net: deformable deepconvolutional neural networks for objectdetection[J]. IEEE Trans. on PatternAnalysis & Machine Intelligence,2016:1-1.[30] LIU S, QI L, QIN H, et al. Pathaggregation network for instancesegmentation[C]// Proc. of the IEEEConference on Computer Vision andPattern Recognition 2018: 8759-8768[31] LIN T Y, DOLLAR P, GIRSHICK R, et al.Feature pyramid networks for objectdetection[C]// Proc. of the IEEEConference on Computer Vision andPattern Recognition, 2017: 936-944,[32] MD Z, FERGUS R. Stochastic poolingfor regularization of deep convolutionalneural networks[J]. arXiv preprintarXiv:1301.3557v1, 2013.[33] 高惠琳. 基于卷积神经网络的军事图像分类[J]. 计算机应用研究,2017(11):323-325.系统工程与电子技术Systems Engineering and Electronics14GAO H L. Military image classificationbased on convolutional neural network[J].Application Research of Computers.2017(11):323-325.[34] TAN M, PANG R, LE Q V. EfficientDet:scalable and efficient objectdetection[C]// Proc. of the IEEEConference on Computer Vision andPattern Recognition, 2020: 10778-10787[35] CLEVERT, DJORK-ARNE,UNTERTHINER T, HOCHREITER S.Fast and accurate deep network learningby exponential linear units (ELUs)[J].arXiv preprint arXiv:1511.07289v5,2016.[36] DUAN K, BAI S, XIE L, et al. CenterNet:keypoint triplets for object detection[J].arXiv preprint arXiv:1904.08189v3,2019.作者简介钱 坤(1986—),男,助理讲师,博士研究生,主要研究方向为图像处理、模式识别。李晨瑄(1996—),女,硕士研究生,主要研究方向为图像处理、模式识别。陈美杉(1991—),女,助理工程师,博士研究生,主要研究方向为作战仿真推演。王 瑶(1992—),女,博士研究生,主要研究方向为图像处理。

[返回]
上一篇:具有混合执行器故障的多智能体分布式有限时间自适应协同容错控制
下一篇:面向多无人机协同对地攻击的双层任务规划方法研究