基于特征增强网络的SAR图像舰船目标检测

图1 基于YOLO-MDM的SAR图像舰船检测模型结构

Fig.1 Structure of SAR image ship detection model based on YOLO-MDM

1.1 I-YOLOv3模型

YOLOv3在特征提取上采用的是Darknet-53模型, 使用连续的3×3和1×1卷积以及shortcut连接前后特征层。Darknet-53网络特征提取能力强, 引入残差网络(residual network, ResNet), 解决了梯度消失的问题。但就YOLOv3而言, 因为其3层预测模式和无针对性的特征处理过程, 导致对小目标的检测效果并不理想。而一般星载SAR图像中包含大量的小尺度舰船目标, 因此进一步增大了YOLOv3预测层数, 提高低层特征丰富度, 并用Inception-ResNet^[17]代替原模型输出降维前的残差结构, 构建了I-YOLOv3模型。

1.1.1 四尺度特征层

YOLOv3利用特征金字塔融合不同尺度的特征信息, 在一定程度上改善了多尺度目标的检测性能, 但是不适用于SAR图像舰船目标尺度差异大的情况。YOLOv3 3层下采样的步长分别为32、16、8, 在输入图片为416×416的情况下, 若舰船的长或宽小于8, 那么该目标用于预测的像素将不足一个像素, 该模型理论上能检测到的最小目标分辨率在8×8左右。以SAR图像舰船公开数据集SSDD^[18]为例, 舰船目标的长、宽所占像素的分布如图 2所示, 可以看出, 有部分舰船目标的长或者宽小于8, 因此会很大几率造成漏检。基于上述分析, 重新设计特征提取网络, 将下采样步长为4且具有更高分辨率的P2层加入特征金字塔中, 在保留原深层语义信息的基础上获得更多的浅层细节信息, 进一步提高小尺度目标检测的细粒度, 形成四尺度目标预测网络。4层FPN的结构如图 3所示, C1、C2、C3、C4为I-Darknet-53的输出, P1、P2、P3、P4为经过特征融合后的输出。C4经过5个卷积层后得到P4, P4经过一个1×1卷积和2倍上采样后与C3按通道相加(concat)的方式进行融合, 经过5个卷积后得到P3。P2、P1的构建与P3相同。

图2

图2 SSDD数据集舰船目标尺度分布

Fig.2 Distribution of ship target scales in SSDD dataset

图3

图3 4层FPN网络结构图

Fig.3 Four-layer FPN network structure diagram

1.1.2 I-Darknet-53

残差网络结构最早在文献[19]中被提出, 主要是用于解决由卷积层堆积导致的性能下降问题。Darknet-53在网络连接中引入了大量的残差结构, 不仅解决了因卷积层数增加而出现的梯度消失问题, 并且加速了网络收敛。基于残差网络的强大功能和优势, 其结构也在不断地发生变化, 衍生出了一系列的变体残差结构, 典型代表有: ResNeXt^[20]、Inception-ResNet^[17]、DenseNet(dense convolutional network)^[21]等。

本文用Inception-ResNet代替Darknet-53中输出降维前的残差构成, 构建I-Darknet-53模型, 如图 4所示。I-Darknet-53不仅具有原网络加速收敛过程、防止梯度弥散的功能, 同时具有在同一网络层可获取图像稀疏或非稀疏特征的优点, 使得模型能在更少的训练轮次内得到更高的准确率。图 5与图 6分别展示了Darknet-53网络中的残差结构和Inception-ResNet网络结构。

图4

图4 I-Darknet-53网络结构图

Fig.4 I-Darknet-53 network structure diagram

图5

图5 残差结构

Fig.5 Residual structure

图6

图6 Inception-ResNet网络结构

Fig.6 Inception-ResNet network structure

1.2 MFPN

就目前而言, 对于多尺度目标的识别仍然是一个很大的挑战。为了保证尺度的不变性, 通常在网络中加入特征金字塔结构。浅层特征图包含丰富的细节信息, 而深层特征图包含的语义信息较为丰富。低层特征图更利于小尺度目标的检测, 因为随着池化层和卷积层的不断堆叠, 小尺度目标的特征被逐步综合成全局语义信息, 导致小目标的特征被覆盖甚至是丢失。针对以上问题, 本文提出了MFPN网络结构, 将低层特征信息与高层语义信息相融合, 丰富高层的特征信息, 同时提高了高层对小尺度目标的敏感度。通常, FPN结构将低层的细节信息传递到最高层需要经历多个卷积, 而本文提出的MFPN结构, 将细节信息传递到最高层只需要经过几个卷积层, 比路径聚合网络(path aggregation network, PANet)^[22]还要高效。此种特征传递和融合方式解决了信息从低层特征图到高层特征图上的传递路径长以及细节信息从低层传到高层困难的问题。

MFPN的网络结构如图 7所示, F1经过一层1×1的卷积和2倍下采样, 转换为与P2通道数、分辨率一致, 然后将两者按元素位相加的方式进行融合。F2与P3经过相同操融合以后, 其输出再经过1×1的卷积和2倍下采样后的F1进行融合。F3、P4融合完以后再与F2相融, 然后再与经过1×1的卷积和2次2倍下采样后的F1进行融合。

图7

图7 MFPN网络结构

Fig.7 MFPN network structure

1.3 MSA网络结构

SAR图像舰船检测的一大难点就是场景复杂度高, 而训练数据集不可能包含所有的场景, 因此对于像素占比小的舰船目标而言, 如果能够对输入图像的物体空间信息自动定位, 就能减少背景对于检测的干扰, 从而提高模型的识别精度和鲁棒性。本文提出MSA模块用来突出感兴趣目标的显著性, 图 8是本文提出的注意力模型, 其在两组不同尺度特征图构建上下文联系, 是一种多尺度注意力模型。对于两路输入F_n和F_n+1(F_n和F_n+1是相邻的特征层, n=1, 2, 3), F_n+1首先进行2倍上采样, 经过1×1的卷积层变成与F_n分辨率和通道数相同, 再经过最大池化层后与经过平均池化的F_n+1融合, 并通过3×3的卷积生成注意力图, 最后经激活函数输出。Sigmoid所需的输入形式与激活函数的输出形式不同, 因此特征输入Sigmoid之前, 需要利用Flatten对其进行整合。Sigmoid将特征图各点的像素值转化至0~1之间, 由此得到各像素点显著性系数α。将显著性系数转化成与F_n分辨率相同的系数图。最后将系数图与F_n相乘, 生成显著性特征图。

图8

图8 MSA网络结构

Fig.8 MSA network structure

对于多尺度注意力模型, 通过利用不同尺度特征图的空间关系, 生成显著性系数。假设第n+1层特征为$x_1^{n+1} \in\bf{R}^{c_1\times H_1 \times W_1} $, 第n层特征为$x_1^n \in \bf{R}^{c_2 \times H_2 \times W_2}$, 其中H₂=2H₁, W₂=2W₁。显著性系数计算过程如下:

(1) $x=\operatorname{AvgPool}\left(f_1^{1 \times 1}\left(g_{2 x-u p}\left(x_1^{n+1}\right)\right)\right) \oplus \operatorname{MaxPool}\left(f_2^{1 \times 1}\left(x_2^n\right)\right)$

(2) $\alpha=\sigma_{\text {Sigmoid }}\left(F\left(\sigma_{\text {ReLU }}\left(f_3^{3 \times 3}(x)\right)\right)\right)$

式中: σ_Sigmoid、σ_ReLU分别表示Sigmoid、ReLU激活函数函数; f^1×1、f^3×3分别表示1×1、3×3卷积; AvgPool(·)、MaxPool(·)、g_2x－up(·)分别表示平均池化、最大池化和2倍上采样; ⊕表示concat特征融合方式。

1.4 检测网络

本文所提的YOLO-MDM在4个尺度的特征图(见图 1中的y1、y2、y3、y4)上独立地进行锚框的分类和回归, 进而预测出目标的位置和类别。

1.4.1 边框回归

以图 1中的y1为例(y2、y3、y4与y1原理相同)即分辨率为13×13的特征图, 将其分成13×13个单元格, 每个单元格对应特征图上的一个像素点, 每个像素点的位置上产生3个不同宽高的锚框, 锚框的大小通过k-means集聚类得到。每个锚框负责预测回归一个目标, 边框回归示意图如图 9所示。

图9

图9 边框回归过程示意图

Fig.9 Schematic diagram of border regression process

边框回归的过程就是对锚框平移和缩放的过程, 平移参数为(σ(t_x), σ(t_y)), 缩放参数为(e^t_w, e^t_h)。训练中, 通过监督学习迭代调整网络参数使得网络输出的回归参数可以使预测边框尽量的接近真实边框。预测边框的坐标(b_x, b_y, b_w, b_h)可按下式进行计算调整:

(3) $\left\{\begin{array}{l}b_x=\sigma\left(t_x\right)+c_x \\b_y=\sigma\left(t_y\right)+c_y \\b_w=p_w e^{t_w} \\b_h=p_h e^{t_h}\end{array}\right.$

式中: (t_x, t_y, t_w, t_h)表示检测网络预测目标边框坐标偏移量; σ(·)表示采用了sigmoid函数, 其作用是将调整的尺度范围限定在一个方格内。

1.4.2 置信度及分类

σ(t₀)表示目标置信度, 反映了边框内是否存在目标, 以及包含目标时位置的准确性, 其表达式为

(4) $\sigma\left(t_0\right)=P_r(\text { object }) \cdot \operatorname{IoU}\left(B_{\mathrm{pre}}, B_{\mathrm{gt}}\right)$

式中: P_r(object)表示边框内是否包含目标, 其值取0或1;IoU(B_pre, B_gt)为预测边框与真实边框的交并比。

由于本文研究的主要是SAR图像的舰船目标, 因此仅设置了一个分类标签, 即“ship”。C_ship表示边框内目标是“ship”的概率, C_bg表示边框内区域是背景的概率, 其值为1－C_ship。

1.4.3 损失函数

损失函数由3部分组成: 边框损失、置信度损失和分类损失^[23], 具体的计算如下所示:

(5) $\begin{aligned}& \operatorname{Loss}(\text{object})=\lambda_{\text {coord }} \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\text {obj }}\left[\left(x_i-\hat{x}_i\right)^2+\left(y_i-\hat{y}_i\right)^2\right]+ \\& \lambda_{\text {coord }} \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\text {obj }}\left(2-w_i \cdot h_i\right)\left[\left(w_i-\hat{w}_i\right)^2+\left(h_i-\hat{h}_i\right)^2\right]-\end{aligned} \\ \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\text {obj }}\left[\hat{C}_i \ln \left(C_i\right)+\left(1-\hat{C}_i\right) \ln \left(1-C_i\right)\right]- \\ \lambda_{\text {noobj }} \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\text {noobj }}\left[\hat{C}_i \ln \left(C_i\right)+\left(1-\hat{C}_i\right) \ln \left(1-C_i\right)\right]- \\ \sum\limits_{i=0}^{S \times S} \sum\limits_{j=0}^B I_{i j}^{\mathrm{obj}} \sum\limits_{c \in { class }}\left[\hat{p}_i(c) \ln \left(p_i(c)\right)+\left(1-\hat{p}_i(c)\right) \ln \left(1-p_i(c)\right)\right]$

式中: λ_coord和λ_noobj是平衡常数; S×S表示单元格总数; B表示每个单元格对应的锚框的数量; I_ij^obj表示该边框是否负责预测目标, 是则值为1, 否则为0, 与I_ij^noobj相反; (x_i, y_i, w_i, h_i)表示预测边框的中心点坐标和相应的宽高, $\left(\hat{x}_i, \hat{y}_i, \hat{w}_i, \hat{h}_i\right)$表示真实的中心点坐标及相应的宽高; C_i表示置信度, $\hat{C}_i$表示真实值; p_i(c)表示物体为类别c的概率。

边框损失利用平方损失函数计算, 置信度和分类损失利用二元交叉熵损失函数计算。

2 试验相关设置

2.1 试验平台及超参数设置

本文所使用的环境为: Ubuntu18.04系统, IntelR Xeon(R) CPU E5-2630 v3@2.40 GHz×32处理器, NVIDIA GeForce GTX1080TiGPU。试验在Pytorch框架下运行, 编译语言是Python3.6, 并使用CUDA10.1和CUDNN加速训练。

训练的轮数取250, 批尺寸取8, 学习率为0.001, 迭代次数为174 000和232 000时, 学习率降为0.000 1和0.000 01, 非极大值抑制的阈值设为0.5, 参数更新的方法引入动量的梯度下降法, 动量因子取0.9。

2.2 数据集

为验证本文模型的有效性, 在SSDD数据集上进行了多组试验。公开的SAR舰船数据集SSDD以PASCAL VOC为模板进行构造的, 由来自卫星RadarSat-2、TerraSAR-X和Sentinel-1的1 160张图像构成, 共包含2 540个舰船目标。该数据集中的图像具有多种极化模式和分辨率, 场景复杂程度高, 能够有效的检验算法的性能。

检测时, 网络是在三尺度和四尺度的特征图上进行预测的, 在每个锚点上需要生成3的大小不同的锚框, 那么分别需9个、12个不同的锚框。针对SSDD数据集, 使用k-means聚类的方法来生成锚框的尺寸, 其结果如表 1所示。SSDD数据集按照训练集和测试集4:1的比例进行划分, 目标分布信息如表 2所示。

表1 SSDD数据集中锚框的宽高设置

Table 1 Width and height settings of anchor in SSDD dataset

数据集	锚框
数据集	1	2	3	4	5	6	7	8	9	10	11	12
SSDD	9, 11	11, 23	19, 13	15, 29	30, 17	22, 50	30, 28	36, 65	52, 24	55, 72	59, 118	123, 39
SSDD	9, 12	12, 24	17, 12	18, 40	27, 17	30, 61	48, 24	59, 113	103, 44	-	-	-

表2 SSDD数据集分布信息

Table 2 Distribution information of SSDD dataset

数据集	图像数量	舰船数量
训练集	928	2 061
测试集	232	479

2.3 评价指标

为了验证网络的检测性能, 本文使用的评价指标为目标检测领域中的通用指标, 主要包括准确率P、召回率R和平均精度AP^[24]。PR曲线描述了P和R之间的关系, PR曲线下的面积即为AP。P、R、AP的计算公式分别为

(6) $P=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FP}}$

(7) $R=\frac{\mathrm{TP}}{\mathrm{TP}+\mathrm{FN}}$

(8) $\mathrm{AP}=\int_0^1 P(R) \mathrm{d} R$

式中: TP为正确分类分到正样本的样本个数; FP为错误分类分到正样本的样本个数; FN为错误分类分到负样本的样本个数。

3 试验结果与分析

3.1 验证试验

为验证本文提出的各模块的有效性, 以原始的YOLOv3网络为基准, 在SSDD数据集进行6组试验。第1组试验为原始的YOLOv3模型, 第2组试验为I-Darknet-53的YOLOv3(YOLOv3+I-Darknet-53), 第3组试验为四尺度的YOLOv3(YOLOv3+4Layers), 第4组试验为多尺度特征融合的YOLOv3(YOLOv3+MFPN), 第5组试验为带有注意力的YOLOv3(YOLOv3+MSA), 第6组试验为本文所提模型(YOLO-MDM)。各组试验的设置及结果比较如表 3所示。

表3 验证试验的设置及结果

Table 3 Setup and results of validation test

方法	SSDD
方法	TP	FP	FN	P	R	AP
YOLOv3	438	37	41	0.922 1	0.914 4	0.864 1
YOLOv3+I-Darknet-53	442	50	37	0.936 4	0.922 7	0.927 6
YOLOv3+4Layers	456	52	23	0.897 6	0.952 0	0.932 8
YOLOv3+MFPN	443	32	36	0.932 6	0.924 8	0.935 1
YOLOv3+MSA	450	34	29	0.929 6	0.939 5	0.902 3
YOLO-MDM	453	33	26	0.932 1	0.945 7	0.950 2

从表 3可以看出, 本文提出的各模块在SSDD数据集上使原YOLOv3模型的检测性能进一步提高。其中, YOLOv3+4Layers检测的AP与YOLOv3相比提高了0.063 4, 表明更高分辨率的特征层预测可以更好地利用图像中的小目标信息, 能更好地检测出小尺度舰船目标。YOLOv3+MFPN检测的AP提高了0.071, 表明丰富特征图信息可以提高网络对小目标的检测能力; YOLOv3+MSA检测的AP提高了0.038 2, 表明提升显著性特征可以减少虚警数量, 提高检测准确率。图 10展示了各模块精度随轮数增加的差异性, 同时表明I-Darknet-53的引入提升了原YOLOv3模型的收敛速度。YOLO-MDM是嵌入了3个增强模块的综合检测模型, 在SSDD数据集上取得了较优的AP, 达到了0.950 2, 比YOLOv3高0.086 1。

图10

图10 AP变化曲线

Fig.10 Curves of AP

3.2 对比试验

为进一步验证所提网络的整体性能, 将本文算法与当前主流的一些目标检测算法进行对比试验。本文所使用的对比算法有YOLOv3、YOLOv4、Faster R-CNN、SSD, 各网络模型在SSDD数据集上的检测性能指标如表 4所示。

表4 不同网络模型检测结果

Table 4 Detection results of different network models

方法	主干网络	SSDD
方法	主干网络	P	R	AP
YOLOv3	Darknet-53	0.922 1	0.914 4	0.864 1
YOLOv4	Darknet-53	0.884 2	0.975 3	0.971 1
Faster R-CNN	ResNet-50	0.729 0	0.814 2	0.772 3
SSD	Mobilenet-v1	0.980 8	0.525 9	0.524 5
YOLO-MDM	I-Darknet-53	0.932 1	0.945 7	0.950 2

由不同算法的PR曲线(见图 11)和检测结果可以看出, 相较于其他算法, 本文算法的检测性能最为优异并且PR曲线比较平稳。SSD和Faster R-CNN所采用的主干网络泛化能力差, 提取的舰船目标特征不够完善, 导致检测性能较差。YOLOv3虽然采用了特征金字塔结构, 但基于三尺度特征图的目标预测人不足以满足小尺度目标检测的要求。YOLOv4综合了诸多算法的优点, 在YOLOv3的基础上进行改进, 在SSDD数据集上的AP值高达0.971 1, 但对于小尺度目标其虚警概率会有所上升, 导致PR曲线的态势并不理想, 难以满足需求。

图11

图11 不同网络模型的PR曲线

Fig.11 PR curves of different network model

为更加直观地对以上5种方法进行对比, 图 12给出了不同算法在SSDD数据集上的检测结果图。其中, 正确检测的舰船目标用绿色框标示, 漏检目标用黄色框标示, 虚检目标用红色框标示。由图 12可知, SSD和Faster R-CNN的检测结果中存在较多的漏检目标, 尤其是对小尺度目标检测效果不佳; YOLOv3和YOLOv4在检测效能上有所提高, 但存在一定程度的虚检目标导致性能下降; YOLO-MDM在SSDD数据集的检测结果样图上的虚警和漏检数均为最少, 说明本文算法可以降低误检和漏检概率, 在相对复杂的环境背景下仍能保持较高的检测精度。

图12

图12 SSDD数据集上不同算法检测结果对比

Fig.12 Comparison of detection results with different algorithms in SSDD dataset

4 结论

针对SAR图像舰船检测中目标特征少、尺度差异大、小目标多等问题, 本文提出了一种新的网络模型YOLO-MDM。该算法通过增加特征信息的丰富度来增强网络对小目标的敏感度; 通过设计优化的主干网络和FPN, 提升网络模型的收敛速度以及对不同尺度舰船的适应能力; 利用MSA为检测器提供高质量的判断依据, 有效地消除虚假目标的影响, 降低虚警概率。以SSDD公开数据集为试验对象, 构建训练集和测试集, 通过大量的试验表明, 相较于SSD、Faster R-CNN、YOLOv3和YOLOv4算法, 所提算法能够高效的对SAR图像舰船目标进行检测。

从本文的试验结果中不难发现, 对于临岸以及毗邻船只目标的检测仍是一大难题, 下一步将着重对临岸以及毗邻船只的检测进行研究。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

刘洁瑜, 赵彤, 刘敏.

基于RetinaNet的SAR图像舰船目标检测

[J]. 湖南大学学报(自然科学版), 2020, 47 (2): 85- 91.

LIU

J Y

, ZHAO

, LIU

Ship target detection in SAR image based on RetinaNet

[J]. Journal of Hunan University (Natural Science Edition), 2020, 47 (2): 85- 91.

DOI:10.3969/j.issn.1001-506X.2020.10.09 [本文引用: 1]

[2]

韩子硕, 王春平, 付强, 等.

基于超密集特征金字塔网络的SAR图像舰船检测

[J]. 系统工程与电子技术, 2020, 42 (10): 2214- 2222.

HAN

Z S

, WANG

C P

, FU

, et al.

Ship detection in SAR images based on super dense feature pyramid networks

[J]. Systems Engineering and Electronics, 2020, 42 (10): 2214- 2222.

DOI:10.3969/j.issn.1001-506X.2020.10.09 [本文引用: 1]

[3]

WANG

C L

, BI

F K

, ZHANG

W P

, et al.

An intensity-space domain CFAR method for ship detection in HR SAR images

[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14 (4): 529- 533.

DOI:10.1109/LGRS.2017.2654450 [本文引用: 1]

[4]

ZHAO

, JI

K F

, XING

X W

, et al.

Ship surveillance by integration of space-borne SAR and AIS-review of current research

[J]. Journal of Navigation, 2014, 67 (1): 177- 189.

DOI:10.1017/S0373463313000659

[5]

FINGAS

M F

, BROWN

C E

Review of ship detection from airborne platforms

[J]. Canadian Journal of Remote Sensing, 2001, 27 (4): 379- 385.

DOI:10.1080/07038992.2001.10854880 [本文引用: 1]

[6]

KRIZHEVSKY

, SUTSKEVER

, HINTON

G E

ImageNet classification with deep convolutional neural networks

[J]. Artificial Neural Network, 2017, 60 (6): 84- 90.

[7]

GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

[8]

GIRSHICK R. Fast R-CNN[C]//Proc. of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

[9]

REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//Proc. of the 28th International Conference on Neural Information Processing Systems, 2015: 91-99.

[10]

HE K, GKIOXARI G, DOLLÁR P, et al. Mask R-CNN[C]//Proc. of the IEEE International Conference on Computer Vision, 2017: 2980-2988.

[11]

LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proc. of the European Conference on Computer Vision, 2016: 21-37.

[12]

LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]//Proc. of the IEEE Trans. on Pattern Analysis and Machine Intelligence, 2017: 318-327.

[13]

REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.

[14]

REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6517-6525.

[15]

REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. [2021-04-10]. https://arxiv.org/abs/1804.02767.

[本文引用: 2]

[16]

LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 936-944.

[17]

SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]//Proc. of the 31st AAAI Conference on Artificial Intelligence, 2017: 4278-4284.

[本文引用: 2]

[18]

LI J W, QU C W, SHAO J Q. Ship detection in SAR images based on an improved faster R-CNN[C]//Proc. of the SAR in Big Data Era: Models, Methods and Applications, 2017.

[19]

HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[20]

XIE S, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 5987-5995.

[21]

HUANG G, LIU Z, VAN D M L, et al. Densely connected convolutional networks[C]//Proc. of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2261-2269.

[22]

LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]//Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.

[23]

刘杰平, 温竣文, 梁亚玲.

基于多尺度注意力导向网络的单目图像深度估计

[J]. 华南理工大学学报(自然科学版), 2020, 48 (12): 52- 62.

LIU

J P

, WEN

J W

, LIANG

Y L

Monocular image depth estimation based on multi-scale attention oriented networl

[J]. Journal of South China University of Technology (Natural Science Edition), 2020, 48 (12): 52- 62.

[24]

刘元宁, 吴迪, 朱晓冬, 等.

基于YOLOv3改进的用户界面组件检测算法

[J]. 吉林大学学报(工学版), 2021, 51 (3): 1026- 1033.

LIU

Y N

, WU

, ZHU

X D

, et al.

User interface components detection algorithm based on improved YOLOv3

[J]. Journal of Jilin University (Engineering and Technology Edition), 2021, 51 (3): 1026- 1033.