系统工程与电子技术, 2023, 45(4): 1032-1039 doi: 10.12305/j.issn.1001-506X.2023.04.12

传感器与信号处理

基于特征增强网络的SAR图像舰船目标检测

张冬冬, 王春平, 付强

陆军工程大学石家庄校区电子与光学工程系, 河北 石家庄 050003

Ship target detection in SAR image based on feature-enhanced network

ZHANG Dongdong, WANG Chunping, FU Qiang

Department of Electronic and Optical Engineering, Army Engineering University Shijiazhuang Campus, Shijiazhuang 050003, China

通讯作者: 张冬冬

收稿日期: 2021-04-19  

Received: 2021-04-19  

作者简介 About authors

张冬冬(1993—),男,硕士研究生,主要研究方向为目标识别 。

王春平(1965—),男,教授,博士,主要研究方向为图像工程、火力与指挥控制 。

付强(1981—),男,讲师,博士,主要研究方向为智能视觉与目标检测 。

摘要

合成孔径雷达(synthetic aperture radar, SAR)图像场景复杂度高、舰船目标尺度小, 传统方法检测效率低、虚警概率大。针对以上问题, 提出一种特征增强网络用于SAR图像舰船目标检测。首先, 利用I-Darknet-53(improved Darknet-53)提取特征信息, 构建4层特征金字塔丰富低层特征。其次, 将多个特征层进行跨尺度连接, 使低层细节信息更易于向高层语义信息映射, 增强特征的传播和重用。最后, 利用多尺度注意力模型增强特征信息, 为检测器提供高质量的判断依据。试验结果表明, 所提算法在SSDD数据集上的平均检测精度为95%。相较于其他网络模型, 所提算法具有明显优势。

关键词: 合成孔径雷达图像 ; 目标检测 ; 特征增强 ; 多尺度融合 ; 多尺度注意力

Abstract

Traditional detection methods are inefficient and have a high probability of false alarm due to the high complexity of synthetic aperture radar (SAR) image scenes and small scale of ship targets. To address these problems, this paper proposes a feature-enhanced network for SAR image ship target detection is proposed. Firstly, feature information is extracted using I-Darknet53 (improved Darknet-53), and a four-layer feature pyramid is constructed to enrich low-level features. Secondly, multiple feature layers are connected across scales to make low-level detail information easier to map to high-level semantic information, thus enhancing the propagation and reuse of features. Finally, the feature information is enhanced using a multi-scale attention model to provide a high-quality judgment basis for the detector. The experimental results show that the average detection accuracy of the proposed algorithm on the SSDD dataset is 95%. The proposed algorithm has high precision compared with other network models.

Keywords: synthetic aperture radar (SAR) image ; target detection ; feature enhancement ; multi-scale fusion ; multi-scale attention

PDF (12299KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张冬冬, 王春平, 付强. 基于特征增强网络的SAR图像舰船目标检测. 系统工程与电子技术[J], 2023, 45(4): 1032-1039 doi:10.12305/j.issn.1001-506X.2023.04.12

ZHANG Dongdong. Ship target detection in SAR image based on feature-enhanced network. Systems Engineering and Electronics[J], 2023, 45(4): 1032-1039 doi:10.12305/j.issn.1001-506X.2023.04.12

0 引言

随着各国经济和军事装备的发展, 海上经济贸易和军事演习活动愈加频繁, 海域监测能力的重要性日益凸显。舰船检测作为海上交通动态检测、渔业管理、安全威胁监测、非法活动捕捉等领域的重要监测手段, 备受国内外研究人员的关注。目前海上主流的监测手段包括: 光学遥感雷达、远程红外、高光谱成像、合成孔径雷达(synthetic aperture radar, SAR)等。前3种检测手段易受雷雨、云层、沙尘、光照等多种复杂环境影响, 难以定点定时完成舰船检测任务。与传统的光学传感器成像模式不同, SAR通过将高频电磁波与合成孔径原理相结合, 主动对特定区域进行探测而生成的高分辨率图像, 可以对目标进行全天候、任时段、多角度的监测[1-2]。随着星载SAR技术的发展, SAR图像的质量得到进一步提升, 被广泛地应用到舰船目标检测领域, 并且已经成为当前舰船检测的研究热点。

针对SAR图像舰船检测, 传统方法[3-5]先进行海陆分割然后再进行目标检测, 并基于人工制作的特征进行识别。这类方法虚警概率高、耗时量大、近岸区域检测性能差。此外, SAR图像中的散斑噪声和运动模糊也严重制约着传统算法的性能提升。近年来, 深度学习方法逐步发展成熟, 基于深度学习[6]的目标检测技术已经成为目标检测领域的主流方法。当前用于目标检测的网络模型可大致分为两类: 双阶段网络和单阶段网络。双阶段网络将检测过程分为建议区域生成和边框分类与回归两个阶段, 检测精度高但速度慢不具备实时性。这类网络的典型代表有区域卷积神经网络(residual convolutional neural network, R-CNN)[7]、Fast R-CNN[8]、Faster R-CNN[9]、Mask R-CNN[10]等。单阶段网络模型摒弃了建议区域生成阶段, 直接在卷积神经网络(convolutional neural network, CNN)提取的特征图上进行目标预测, 典型网络有单次多盒检测器(single shot multibox detector, SSD)[11]、Retina-Net[12]、YOLO (you only look once)[13-15]。相较于双阶段网络, 其检测速度快但精度略有不足。

在光学图像目标检测领域中, YOLOv3[15]的出现改变了双阶段网络的精度高于单阶段网络的状况, 其同时兼顾了检测的速度和精度。但是SAR图像跟光学图像的成像原理存在着本质的差别。SAR图像中, 舰船目标特征少、尺寸变化大, 伴随着多种噪声的干扰。若将YOLOv3直接用于SAR图像目标检测会存在漏检、召回率低、精度不高等问题。基于以上分析, 本文在YOLOv3的基础上进行改进, 提出了一种YOLOv3的多尺度检测框架。通过在四尺度特征图上进行目标预测, 提升网络对小尺度目标的敏感度; 自下而上的建立增强型特征金字塔, 构建目标信息丰富的特征图; 利用注意力机制增强目标的显著性特征, 提升检测器对SAR图像多尺度舰船目标的检测性能。

1 算法

本文提出了一种基于YOLOv3的多尺度检测框架(multi-scale detection model based on YOLOv3, YOLO-M-DM), 其网络结构如图 1所示, 将对原YOLOv3的改进部分命名为I-YOLOv3(improved YOLOv3)。首先, YOLO-MDM利用I-Darknet-53(improved Darknet-53)进行特征提取, 并构建4层特征金字塔网络(feature pyramid network, FPN), 提高网络特征利用率以及对小尺度目标的敏感性。其次, 通过设计密集连接多尺度FPN(multi-scale FPN, MFPN)结构重构特征金字塔[16], 进一步丰富各特征层的语义特征和细粒度特征。最后, 引入多尺度注意力(multi-scale attention, MSA)模块融合相邻两层的空间特征, 提升目标的显著性特征, 为检测器提供强有力的判断依据, 提升预测结果的可信度。

图1

图1   基于YOLO-MDM的SAR图像舰船检测模型结构

Fig.1   Structure of SAR image ship detection model based on YOLO-MDM


1.1 I-YOLOv3模型

YOLOv3在特征提取上采用的是Darknet-53模型, 使用连续的3×3和1×1卷积以及shortcut连接前后特征层。Darknet-53网络特征提取能力强, 引入残差网络(residual network, ResNet), 解决了梯度消失的问题。但就YOLOv3而言, 因为其3层预测模式和无针对性的特征处理过程, 导致对小目标的检测效果并不理想。而一般星载SAR图像中包含大量的小尺度舰船目标, 因此进一步增大了YOLOv3预测层数, 提高低层特征丰富度, 并用Inception-ResNet[17]代替原模型输出降维前的残差结构, 构建了I-YOLOv3模型。

1.1.1 四尺度特征层

YOLOv3利用特征金字塔融合不同尺度的特征信息, 在一定程度上改善了多尺度目标的检测性能, 但是不适用于SAR图像舰船目标尺度差异大的情况。YOLOv3 3层下采样的步长分别为32、16、8, 在输入图片为416×416的情况下, 若舰船的长或宽小于8, 那么该目标用于预测的像素将不足一个像素, 该模型理论上能检测到的最小目标分辨率在8×8左右。以SAR图像舰船公开数据集SSDD[18]为例, 舰船目标的长、宽所占像素的分布如图 2所示, 可以看出, 有部分舰船目标的长或者宽小于8, 因此会很大几率造成漏检。基于上述分析, 重新设计特征提取网络, 将下采样步长为4且具有更高分辨率的P2层加入特征金字塔中, 在保留原深层语义信息的基础上获得更多的浅层细节信息, 进一步提高小尺度目标检测的细粒度, 形成四尺度目标预测网络。4层FPN的结构如图 3所示, C1、C2、C3、C4为I-Darknet-53的输出, P1、P2、P3、P4为经过特征融合后的输出。C4经过5个卷积层后得到P4, P4经过一个1×1卷积和2倍上采样后与C3按通道相加(concat)的方式进行融合, 经过5个卷积后得到P3。P2、P1的构建与P3相同。

图2

图2   SSDD数据集舰船目标尺度分布

Fig.2   Distribution of ship target scales in SSDD dataset


图3

图3   4层FPN网络结构图

Fig.3   Four-layer FPN network structure diagram


1.1.2 I-Darknet-53

残差网络结构最早在文献[19]中被提出, 主要是用于解决由卷积层堆积导致的性能下降问题。Darknet-53在网络连接中引入了大量的残差结构, 不仅解决了因卷积层数增加而出现的梯度消失问题, 并且加速了网络收敛。基于残差网络的强大功能和优势, 其结构也在不断地发生变化, 衍生出了一系列的变体残差结构, 典型代表有: ResNeXt[20]、Inception-ResNet[17]、DenseNet(dense convolutional network)[21]等。

本文用Inception-ResNet代替Darknet-53中输出降维前的残差构成, 构建I-Darknet-53模型, 如图 4所示。I-Darknet-53不仅具有原网络加速收敛过程、防止梯度弥散的功能, 同时具有在同一网络层可获取图像稀疏或非稀疏特征的优点, 使得模型能在更少的训练轮次内得到更高的准确率。图 5图 6分别展示了Darknet-53网络中的残差结构和Inception-ResNet网络结构。

图4

图4   I-Darknet-53网络结构图

Fig.4   I-Darknet-53 network structure diagram


图5

图5   残差结构

Fig.5   Residual structure


图6

图6   Inception-ResNet网络结构

Fig.6   Inception-ResNet network structure


1.2 MFPN

就目前而言, 对于多尺度目标的识别仍然是一个很大的挑战。为了保证尺度的不变性, 通常在网络中加入特征金字塔结构。浅层特征图包含丰富的细节信息, 而深层特征图包含的语义信息较为丰富。低层特征图更利于小尺度目标的检测, 因为随着池化层和卷积层的不断堆叠, 小尺度目标的特征被逐步综合成全局语义信息, 导致小目标的特征被覆盖甚至是丢失。针对以上问题, 本文提出了MFPN网络结构, 将低层特征信息与高层语义信息相融合, 丰富高层的特征信息, 同时提高了高层对小尺度目标的敏感度。通常, FPN结构将低层的细节信息传递到最高层需要经历多个卷积, 而本文提出的MFPN结构, 将细节信息传递到最高层只需要经过几个卷积层, 比路径聚合网络(path aggregation network, PANet)[22]还要高效。此种特征传递和融合方式解决了信息从低层特征图到高层特征图上的传递路径长以及细节信息从低层传到高层困难的问题。

MFPN的网络结构如图 7所示, F1经过一层1×1的卷积和2倍下采样, 转换为与P2通道数、分辨率一致, 然后将两者按元素位相加的方式进行融合。F2与P3经过相同操融合以后, 其输出再经过1×1的卷积和2倍下采样后的F1进行融合。F3、P4融合完以后再与F2相融, 然后再与经过1×1的卷积和2次2倍下采样后的F1进行融合。

图7

图7   MFPN网络结构

Fig.7   MFPN network structure


1.3 MSA网络结构

SAR图像舰船检测的一大难点就是场景复杂度高, 而训练数据集不可能包含所有的场景, 因此对于像素占比小的舰船目标而言, 如果能够对输入图像的物体空间信息自动定位, 就能减少背景对于检测的干扰, 从而提高模型的识别精度和鲁棒性。本文提出MSA模块用来突出感兴趣目标的显著性, 图 8是本文提出的注意力模型, 其在两组不同尺度特征图构建上下文联系, 是一种多尺度注意力模型。对于两路输入FnFn+1(FnFn+1是相邻的特征层, n=1, 2, 3), Fn+1首先进行2倍上采样, 经过1×1的卷积层变成与Fn分辨率和通道数相同, 再经过最大池化层后与经过平均池化的Fn+1融合, 并通过3×3的卷积生成注意力图, 最后经激活函数输出。Sigmoid所需的输入形式与激活函数的输出形式不同, 因此特征输入Sigmoid之前, 需要利用Flatten对其进行整合。Sigmoid将特征图各点的像素值转化至0~1之间, 由此得到各像素点显著性系数α。将显著性系数转化成与Fn分辨率相同的系数图。最后将系数图与Fn相乘, 生成显著性特征图。

图8

图8   MSA网络结构

Fig.8   MSA network structure


对于多尺度注意力模型, 通过利用不同尺度特征图的空间关系, 生成显著性系数。假设第n+1层特征为$x_1^{n+1} \in\bf{R}^{c_1\times H_1 \times W_1} $, 第n层特征为$x_1^n \in \bf{R}^{c_2 \times H_2 \times W_2}$, 其中H2=2H1, W2=2W1。显著性系数计算过程如下:

$x=\operatorname{AvgPool}\left(f_1^{1 \times 1}\left(g_{2 x-u p}\left(x_1^{n+1}\right)\right)\right) \oplus \operatorname{MaxPool}\left(f_2^{1 \times 1}\left(x_2^n\right)\right)$

$\alpha=\sigma_{\text {Sigmoid }}\left(F\left(\sigma_{\text {ReLU }}\left(f_3^{3 \times 3}(x)\right)\right)\right)$

式中: σSigmoidσReLU分别表示Sigmoid、ReLU激活函数函数; f1×1f3×3分别表示1×1、3×3卷积; AvgPool(·)、MaxPool(·)、g2xup(·)分别表示平均池化、最大池化和2倍上采样; ⊕表示concat特征融合方式。

1.4 检测网络

本文所提的YOLO-MDM在4个尺度的特征图(见图 1中的y1、y2、y3、y4)上独立地进行锚框的分类和回归, 进而预测出目标的位置和类别。

1.4.1 边框回归

图 1中的y1为例(y2、y3、y4与y1原理相同)即分辨率为13×13的特征图, 将其分成13×13个单元格, 每个单元格对应特征图上的一个像素点, 每个像素点的位置上产生3个不同宽高的锚框, 锚框的大小通过k-means集聚类得到。每个锚框负责预测回归一个目标, 边框回归示意图如图 9所示。

图9

图9   边框回归过程示意图

Fig.9   Schematic diagram of border regression process


边框回归的过程就是对锚框平移和缩放的过程, 平移参数为(σ(tx), σ(ty)), 缩放参数为(etw, eth)。训练中, 通过监督学习迭代调整网络参数使得网络输出的回归参数可以使预测边框尽量的接近真实边框。预测边框的坐标(bx, by, bw, bh)可按下式进行计算调整:

$\left\{\begin{array}{l}b_x=\sigma\left(t_x\right)+c_x \\b_y=\sigma\left(t_y\right)+c_y \\b_w=p_w e^{t_w} \\b_h=p_h e^{t_h}\end{array}\right.$

式中: (tx, ty, tw, th)表示检测网络预测目标边框坐标偏移量; σ(·)表示采用了sigmoid函数, 其作用是将调整的尺度范围限定在一个方格内。

1.4.2 置信度及分类

σ(t0)表示目标置信度, 反映了边框内是否存在目标, 以及包含目标时位置的准确性, 其表达式为

$\sigma\left(t_0\right)=P_r(\text { object }) \cdot \operatorname{IoU}\left(B_{\mathrm{pre}}, B_{\mathrm{gt}}\right)$

式中: Pr(object)表示边框内是否包含目标, 其值取0或1;IoU(Bpre, Bgt)为预测边框与真实边框的交并比。

由于本文研究的主要是SAR图像的舰船目标, 因此仅设置了一个分类标签, 即“ship”。Cship表示边框内目标是“ship”的概率, Cbg表示边框内区域是背景的概率, 其值为1-Cship

1.4.3 损失函数

损失函数由3部分组成: 边框损失、置信度损失和分类损失[23], 具体的计算如下所示:

$\begin{aligned}& \operatorname{Loss}(\text{object})=\lambda_{\text {coord }} \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\text {obj }}\left[\left(x_i-\hat{x}_i\right)^2+\left(y_i-\hat{y}_i\right)^2\right]+ \\& \lambda_{\text {coord }} \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\text {obj }}\left(2-w_i \cdot h_i\right)\left[\left(w_i-\hat{w}_i\right)^2+\left(h_i-\hat{h}_i\right)^2\right]-\end{aligned} \\ \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\text {obj }}\left[\hat{C}_i \ln \left(C_i\right)+\left(1-\hat{C}_i\right) \ln \left(1-C_i\right)\right]- \\ \lambda_{\text {noobj }} \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\text {noobj }}\left[\hat{C}_i \ln \left(C_i\right)+\left(1-\hat{C}_i\right) \ln \left(1-C_i\right)\right]- \\ \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\mathrm{obj}} \sum\limits_{c \in { class }}\left[\hat{p}_i(c) \ln \left(p_i(c)\right)+\left(1-\hat{p}_i(c)\right) \ln \left(1-p_i(c)\right)\right]$

式中: λcoordλnoobj是平衡常数; S×S表示单元格总数; B表示每个单元格对应的锚框的数量; Iijobj表示该边框是否负责预测目标, 是则值为1, 否则为0, 与Iijnoobj相反; (xi, yi, wi, hi)表示预测边框的中心点坐标和相应的宽高, $\left(\hat{x}_i, \hat{y}_i, \hat{w}_i, \hat{h}_i\right)$表示真实的中心点坐标及相应的宽高; Ci表示置信度, $\hat{C}_i$表示真实值; pi(c)表示物体为类别c的概率。

边框损失利用平方损失函数计算, 置信度和分类损失利用二元交叉熵损失函数计算。

2 试验相关设置

2.1 试验平台及超参数设置

本文所使用的环境为: Ubuntu18.04系统, IntelR Xeon(R) CPU E5-2630 v3@2.40 GHz×32处理器, NVIDIA GeForce GTX1080TiGPU。试验在Pytorch框架下运行, 编译语言是Python3.6, 并使用CUDA10.1和CUDNN加速训练。

训练的轮数取250, 批尺寸取8, 学习率为0.001, 迭代次数为174 000和232 000时, 学习率降为0.000 1和0.000 01, 非极大值抑制的阈值设为0.5, 参数更新的方法引入动量的梯度下降法, 动量因子取0.9。

2.2 数据集

为验证本文模型的有效性, 在SSDD数据集上进行了多组试验。公开的SAR舰船数据集SSDD以PASCAL VOC为模板进行构造的, 由来自卫星RadarSat-2、TerraSAR-X和Sentinel-1的1 160张图像构成, 共包含2 540个舰船目标。该数据集中的图像具有多种极化模式和分辨率, 场景复杂程度高, 能够有效的检验算法的性能。

检测时, 网络是在三尺度和四尺度的特征图上进行预测的, 在每个锚点上需要生成3的大小不同的锚框, 那么分别需9个、12个不同的锚框。针对SSDD数据集, 使用k-means聚类的方法来生成锚框的尺寸, 其结果如表 1所示。SSDD数据集按照训练集和测试集4:1的比例进行划分, 目标分布信息如表 2所示。

表1   SSDD数据集中锚框的宽高设置

Table 1  Width and height settings of anchor in SSDD dataset

数据集锚框
123456789101112
SSDD9, 1111, 2319, 1315, 2930, 1722, 5030, 2836, 6552, 2455, 7259, 118123, 39
9, 1212, 2417, 1218, 4027, 1730, 6148, 2459, 113103, 44---

新窗口打开| 下载CSV


表2   SSDD数据集分布信息

Table 2  Distribution information of SSDD dataset

数据集图像数量舰船数量
训练集9282 061
测试集232479

新窗口打开| 下载CSV


2.3 评价指标

为了验证网络的检测性能, 本文使用的评价指标为目标检测领域中的通用指标, 主要包括准确率P、召回率R和平均精度AP[24]。PR曲线描述了PR之间的关系, PR曲线下的面积即为AP。PR、AP的计算公式分别为

$P=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}$

$R=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}$

$\mathrm{AP}=\int_0^1 P(R) \mathrm{d} R$

式中: TP为正确分类分到正样本的样本个数; FP为错误分类分到正样本的样本个数; FN为错误分类分到负样本的样本个数。

3 试验结果与分析

3.1 验证试验

为验证本文提出的各模块的有效性, 以原始的YOLOv3网络为基准, 在SSDD数据集进行6组试验。第1组试验为原始的YOLOv3模型, 第2组试验为I-Darknet-53的YOLOv3(YOLOv3+I-Darknet-53), 第3组试验为四尺度的YOLOv3(YOLOv3+4Layers), 第4组试验为多尺度特征融合的YOLOv3(YOLOv3+MFPN), 第5组试验为带有注意力的YOLOv3(YOLOv3+MSA), 第6组试验为本文所提模型(YOLO-MDM)。各组试验的设置及结果比较如表 3所示。

表3   验证试验的设置及结果

Table 3  Setup and results of validation test

方法SSDD
TPFPFNPRAP
YOLOv343837410.922 10.914 40.864 1
YOLOv3+I-Darknet-5344250370.936 40.922 70.927 6
YOLOv3+4Layers45652230.897 60.952 00.932 8
YOLOv3+MFPN44332360.932 60.924 80.935 1
YOLOv3+MSA45034290.929 60.939 50.902 3
YOLO-MDM45333260.932 10.945 70.950 2

新窗口打开| 下载CSV


表 3可以看出, 本文提出的各模块在SSDD数据集上使原YOLOv3模型的检测性能进一步提高。其中, YOLOv3+4Layers检测的AP与YOLOv3相比提高了0.063 4, 表明更高分辨率的特征层预测可以更好地利用图像中的小目标信息, 能更好地检测出小尺度舰船目标。YOLOv3+MFPN检测的AP提高了0.071, 表明丰富特征图信息可以提高网络对小目标的检测能力; YOLOv3+MSA检测的AP提高了0.038 2, 表明提升显著性特征可以减少虚警数量, 提高检测准确率。图 10展示了各模块精度随轮数增加的差异性, 同时表明I-Darknet-53的引入提升了原YOLOv3模型的收敛速度。YOLO-MDM是嵌入了3个增强模块的综合检测模型, 在SSDD数据集上取得了较优的AP, 达到了0.950 2, 比YOLOv3高0.086 1。

图10

图10   AP变化曲线

Fig.10   Curves of AP


3.2 对比试验

为进一步验证所提网络的整体性能, 将本文算法与当前主流的一些目标检测算法进行对比试验。本文所使用的对比算法有YOLOv3、YOLOv4、Faster R-CNN、SSD, 各网络模型在SSDD数据集上的检测性能指标如表 4所示。

表4   不同网络模型检测结果

Table 4  Detection results of different network models

方法主干网络SSDD
PRAP
YOLOv3Darknet-530.922 10.914 40.864 1
YOLOv4Darknet-530.884 20.975 30.971 1
Faster R-CNNResNet-500.729 00.814 20.772 3
SSDMobilenet-v10.980 80.525 90.524 5
YOLO-MDMI-Darknet-530.932 10.945 70.950 2

新窗口打开| 下载CSV


由不同算法的PR曲线(见图 11)和检测结果可以看出, 相较于其他算法, 本文算法的检测性能最为优异并且PR曲线比较平稳。SSD和Faster R-CNN所采用的主干网络泛化能力差, 提取的舰船目标特征不够完善, 导致检测性能较差。YOLOv3虽然采用了特征金字塔结构, 但基于三尺度特征图的目标预测人不足以满足小尺度目标检测的要求。YOLOv4综合了诸多算法的优点, 在YOLOv3的基础上进行改进, 在SSDD数据集上的AP值高达0.971 1, 但对于小尺度目标其虚警概率会有所上升, 导致PR曲线的态势并不理想, 难以满足需求。

图11

图11   不同网络模型的PR曲线

Fig.11   PR curves of different network model


为更加直观地对以上5种方法进行对比, 图 12给出了不同算法在SSDD数据集上的检测结果图。其中, 正确检测的舰船目标用绿色框标示, 漏检目标用黄色框标示, 虚检目标用红色框标示。由图 12可知, SSD和Faster R-CNN的检测结果中存在较多的漏检目标, 尤其是对小尺度目标检测效果不佳; YOLOv3和YOLOv4在检测效能上有所提高, 但存在一定程度的虚检目标导致性能下降; YOLO-MDM在SSDD数据集的检测结果样图上的虚警和漏检数均为最少, 说明本文算法可以降低误检和漏检概率, 在相对复杂的环境背景下仍能保持较高的检测精度。

图12

图12   SSDD数据集上不同算法检测结果对比

Fig.12   Comparison of detection results with different algorithms in SSDD dataset


4 结论

针对SAR图像舰船检测中目标特征少、尺度差异大、小目标多等问题, 本文提出了一种新的网络模型YOLO-MDM。该算法通过增加特征信息的丰富度来增强网络对小目标的敏感度; 通过设计优化的主干网络和FPN, 提升网络模型的收敛速度以及对不同尺度舰船的适应能力; 利用MSA为检测器提供高质量的判断依据, 有效地消除虚假目标的影响, 降低虚警概率。以SSDD公开数据集为试验对象, 构建训练集和测试集, 通过大量的试验表明, 相较于SSD、Faster R-CNN、YOLOv3和YOLOv4算法, 所提算法能够高效的对SAR图像舰船目标进行检测。

从本文的试验结果中不难发现, 对于临岸以及毗邻船只目标的检测仍是一大难题, 下一步将着重对临岸以及毗邻船只的检测进行研究。

参考文献

刘洁瑜, 赵彤, 刘敏.

基于RetinaNet的SAR图像舰船目标检测

[J]. 湖南大学学报(自然科学版), 2020, 47 (2): 85- 91.

URL     [本文引用: 1]

LIU J Y , ZHAO T , LIU M .

Ship target detection in SAR image based on RetinaNet

[J]. Journal of Hunan University (Natural Science Edition), 2020, 47 (2): 85- 91.

URL     [本文引用: 1]

韩子硕, 王春平, 付强, .

基于超密集特征金字塔网络的SAR图像舰船检测

[J]. 系统工程与电子技术, 2020, 42 (10): 2214- 2222.

DOI:10.3969/j.issn.1001-506X.2020.10.09      [本文引用: 1]

HAN Z S , WANG C P , FU Q , et al.

Ship detection in SAR images based on super dense feature pyramid networks

[J]. Systems Engineering and Electronics, 2020, 42 (10): 2214- 2222.

DOI:10.3969/j.issn.1001-506X.2020.10.09      [本文引用: 1]

WANG C L , BI F K , ZHANG W P , et al.

An intensity-space domain CFAR method for ship detection in HR SAR images

[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14 (4): 529- 533.

DOI:10.1109/LGRS.2017.2654450      [本文引用: 1]

ZHAO Z , JI K F , XING X W , et al.

Ship surveillance by integration of space-borne SAR and AIS-review of current research

[J]. Journal of Navigation, 2014, 67 (1): 177- 189.

DOI:10.1017/S0373463313000659     

FINGAS M F , BROWN C E .

Review of ship detection from airborne platforms

[J]. Canadian Journal of Remote Sensing, 2001, 27 (4): 379- 385.

DOI:10.1080/07038992.2001.10854880      [本文引用: 1]

KRIZHEVSKY A , SUTSKEVER I , HINTON G E .

ImageNet classification with deep convolutional neural networks

[J]. Artificial Neural Network, 2017, 60 (6): 84- 90.

[本文引用: 1]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

[本文引用: 1]

GIRSHICK R. Fast R-CNN[C]//Proc. of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

[本文引用: 1]

REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proc. of the 28th International Conference on Neural Information Processing Systems, 2015: 91-99.

[本文引用: 1]

HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proc. of the IEEE International Conference on Computer Vision, 2017: 2980-2988.

[本文引用: 1]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proc. of the European Conference on Computer Vision, 2016: 21-37.

[本文引用: 1]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proc. of the IEEE Trans. on Pattern Analysis and Machine Intelligence, 2017: 318-327.

[本文引用: 1]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.

[本文引用: 1]

REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6517-6525.

REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-04-10]. https://arxiv.org/abs/1804.02767.

[本文引用: 2]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 936-944.

[本文引用: 1]

SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]//Proc. of the 31st AAAI Conference on Artificial Intelligence, 2017: 4278-4284.

[本文引用: 2]

LI J W, QU C W, SHAO J Q. Ship detection in SAR images based on an improved faster R-CNN[C]//Proc. of the SAR in Big Data Era: Models, Methods and Applications, 2017.

[本文引用: 1]

HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[本文引用: 1]

XIE S, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 5987-5995.

[本文引用: 1]

HUANG G, LIU Z, VAN D M L, et al. Densely connected convolutional networks[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2261-2269.

[本文引用: 1]

LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.

[本文引用: 1]

刘杰平, 温竣文, 梁亚玲.

基于多尺度注意力导向网络的单目图像深度估计

[J]. 华南理工大学学报(自然科学版), 2020, 48 (12): 52- 62.

URL     [本文引用: 1]

LIU J P , WEN J W , LIANG Y L .

Monocular image depth estimation based on multi-scale attention oriented networl

[J]. Journal of South China University of Technology (Natural Science Edition), 2020, 48 (12): 52- 62.

URL     [本文引用: 1]

刘元宁, 吴迪, 朱晓冬, .

基于YOLOv3改进的用户界面组件检测算法

[J]. 吉林大学学报(工学版), 2021, 51 (3): 1026- 1033.

URL     [本文引用: 1]

LIU Y N , WU D , ZHU X D , et al.

User interface components detection algorithm based on improved YOLOv3

[J]. Journal of Jilin University (Engineering and Technology Edition), 2021, 51 (3): 1026- 1033.

URL     [本文引用: 1]

/