基于深度分离卷积神经网络的高速高精度SAR舰船检测

张晓玲 张天文 师君 韦顺军

引用本文:
Citation:

基于深度分离卷积神经网络的高速高精度SAR舰船检测

    作者简介: 张晓玲(1964–),女,四川人,获电子科技大学工学博士学位,目前为电子科技大学教授/博导,主要从事SAR成像技术、雷达探测技术研究、3维SAR成像的目标散射特性(RCS)反演。E-mail: xlzhang@uestc.edu.cn;张天文(1994–),男,江苏人,现于电子科技大学信息与通信工程学院攻读博士学位,主要研究领域为SAR成像技术、遥感图像处理与智能识别解译。E-mail: twzhang@std.usetc.edn.cn;师 君(1979–),男,河南人,获电子科技大学工学博士学位,目前为电子科技大学副教授,主要从事SAR数据处理方面研究。E-mail: shijun@uestc.edu.cn;韦顺军(1983–),男,广西人,获电子科技大学工学博士学位,目前为电子科技大学副教授,主要从事SAR成像技术、干涉SAR技术研究。E-mail: weishunjun@uestc.edu.cn.
    通讯作者: 张晓玲 xlzhang@uestc.edu.cn
  • 基金项目:

    国家自然科学基金(61571099, 61501098, 61671113),国家重点研发计划(2017YFB0502700)

  • 中图分类号: TN957.52

High-speed and High-accurate SAR Ship Detection Based on a Depthwise Separable Convolution Neural Network

    Corresponding author: ZHANG Xiaoling, xlzhang@uestc.edu.cn
  • Fund Project: The National Natural Science Foundation of China (61571099, 61501098, 61671113), The National Key R&D Program of China (2017YFB0502700)

    CLC number: TN957.52

  • 摘要: 随着人工智能的兴起,利用深度学习技术实现SAR舰船检测,能够有效避免传统的复杂特征设计,并且检测精度获得了极大的改善。然而,现如今大多数检测模型往往以牺牲检测速度为代价来提高检测精度,限制了一些SAR实时性应用,如紧急军事部署、迅速海难救援、实时海洋环境监测等。为了解决这个问题,该文提出一种基于深度分离卷积神经网络(DS-CNN)的高速高精度SAR舰船检测方法SARShipNet-20,该方法取代传统卷积神经网络(T-CNN),并结合通道注意力机制(CA)和空间注意力机制(SA),能够同时实现高速和高精度的SAR舰船检测。该方法在实时性SAR应用领域具有一定的现实意义,并且其轻量级的模型有助于未来的FPGA或DSP的硬件移植。
  • 图 1  传统卷积神经网络和深度分离卷积神经网络示意图

    Figure 1.  Diagrammatic sketch of T-CNN and DS-CNN

    图 2  网络结构示意图 (SARShipNet-20)

    Figure 2.  Network structure (SARShipNet-20)

    图 3  卷积层内部操作流程

    Figure 3.  Internal operation flow in convolution layers

    图 4  通道注意力机制

    Figure 4.  Channel Attention (CA)

    图 5  空间注意力机制

    Figure 5.  Spatial Attention (SA)

    图 6  SARShipNet-20的SAR舰船检测结果

    Figure 6.  SAR ship detection results of SARShipNet-20

    图 7  SARShipNet-20性能评价曲线

    Figure 7.  Performance evaluation curve of SARShipNet-20

    表 1  SARShipNet-20的SAR舰船检测结果评价指标

    Table 1.  Evaluation index of SAR ship detection results of SARShipNet-20

    类型GTTPFNFPPd (%)Pm (%)Pf (%)Recall (%)Precision (%)mAP (%)Time (ms)
    T-CNN1841804897.832.174.2697.8395.7496.8810.14
    DS-CNN18417592395.114.8911.6295.1188.3893.644.54
    DS-CNN + CA18417952997.282.7213.9497.2889.0695.785.68
    DS-CNN + SA18417861196.743.265.8296.7494.1895.646.67
    DS-CNN + CA + SA1841804897.832.174.2697.8395.7496.938.72
    下载: 导出CSV

    表 2  不同方法的检测性能对比

    Table 2.  Comparison of detection performance of different methods

    方法Pd (%)Pm (%)Pf (%)Recall (%)Precision (%)mAP (%)Time (ms)
    Faster R-CNN[16]85.1614.8418.8585.1681.1582.66327.48
    RetinaNet[34]96.703.306.8896.7093.1295.68314.43
    R-FCN[35]95.654.357.3795.6592.6395.15178.16
    SSD[18]94.515.4914.8594.5185.1592.6748.86
    YOLOv3[20]96.703.306.3896.7093.6295.3422.30
    YOLOv1[28]84.0715.9315.4784.0784.5381.2421.95
    YOLOv2[29]92.867.1415.0892.8684.9290.0919.01
    YOLOv3-tiny[20]70.3329.1222.2970.3377.5864.6410.25
    YOLOv2-tiny[29]47.8052.2026.2747.8073.7344.409.43
    SARShipNet-20(本文方法)97.832.174.2697.8395.7496.938.72
    下载: 导出CSV

    表 3  不同方法的模型对比

    Table 3.  Model comparison of different methods

    方法网络参数的数量浮点运算量(FLOPs)模型大小 (MB)
    Faster R-CNN272,746,867545,429,460752.75
    RetinaNet61,576,342307,592,895235.44
    R-FCN50,578,686101,385,166193.04
    SSD47,663,80695,040,404181.24
    YOLOv336,382,95772,545,184139.25
    YOLOv128,342,19546,981,897,900108.54
    YOLOv223,745,908118,685,13390.73
    YOLOv3-tiny15,770,51031,608,36060.22
    YOLOv2-tiny8,676,24486,692,28433.20
    SARShipNet-20(本文方法)5,867,73711,699,79223.17
    下载: 导出CSV
  • [1] ZHANG Tianwen and ZHANG Xiaoling. High-speed ship detection in SAR images based on a grid convolutional neural network[J]. Remote Sensing, 2019, 11(10): 1206. doi: 10.3390/rs11101206
    [2] ZHANG Tianwen, ZHANG Xiaoling, SHI Jun, et al. Depthwise separable convolution neural network for high-speed SAR ship detection[J]. Remote Sensing, 2019, 11(21): 2483. doi: 10.3390/rs11212483
    [3] GAO Gui. A parzen-window-kernel-based CFAR algorithm for ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2011, 8(3): 557–561. doi: 10.1109/LGRS.2010.2090492
    [4] AN Wentao, XIE Chunhua, and YUAN Xinzhe. An improved iterative censoring scheme for CFAR ship detection with SAR imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(8): 4585–4595. doi: 10.1109/TGRS.2013.2282820
    [5] HOU Biao, CHEN Xingzhong, and JIAO Licheng. Multilayer CFAR detection of ship targets in very high-resolution SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(4): 811–815. doi: 10.1109/LGRS.2014.2362955
    [6] YIN Kuiying, JIN Lin, ZHANG Changchun, et al. A method for automatic target recognition using shadow contour of SAR image[J]. IETE Technical Review, 2013, 30(4): 313–323. doi: 10.4103/0256-4602.116721
    [7] JIANG Shaofeng, WANG Chao, ZHANG Bo, et al. Ship detection based on feature confidence for high resolution SAR images[C]. 2012 IEEE International Geoscience and Remote Sensing Symposium, Munich, Germany, 2012: 6844–6847. doi: 10.1109/IGARSS.2012.6352591.
    [8] WANG Shigang, WANG Min, YANG Shuyuan, et al. New hierarchical saliency filtering for fast ship detection in high-resolution SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(1): 351–362. doi: 10.1109/TGRS.2016.2606481
    [9] WANG Chonglei, BI Funkun, CHEN Liang, et al. A novel threshold template algorithm for ship detection in high-resolution SAR images[C]. 2016 IEEE International Geoscience and Remote Sensing Symposium, Beijing, China, 2016: 100–103. doi: 10.1109/IGARSS.2016.7729016.
    [10] ZHU Jiwei, QIU Xiaolan, PAN Zongxu, et al. Projection shape template-based ship target recognition in TerraSAR-X images[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(2): 222–226. doi: 10.1109/LGRS.2016.2635699
    [11] LI Jianwei, QU Changwen, and SHAO Jiaqi. Ship detection in SAR images based on an improved faster R-CNN[C]. 2017 SAR in Big Data Era: Models, Methods and Applications, Beijing, China, 2017: 1–6. doi: 10.1109/BIGSARDATA.2017.8124934.
    [12] 李健伟, 曲长文, 彭书娟. 基于级联CNN的SAR图像舰船目标检测算法[J]. 控制与决策, 2019, 34(10): 2191–2197.LI Jianwei, QU Changwen, and PENG Shujuan. A ship detection method based on cascade CNN in SAR images[J]. Control and Decision, 2019, 34(10): 2191–2197.
    [13] CHENG Mingming, LIU Yun, LIN Wenyan, et al. BING: Binarized normed gradients for objectness estimation at 300fps[J]. Computational Visual Media, 2019, 5(1): 3–20. doi: 10.1007/s41095-018-0120-1
    [14] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv: 1409.1556v1, 2014.
    [15] 李健伟, 曲长文, 彭书娟, 等. 基于卷积神经网络的SAR图像舰船目标检测[J]. 系统工程与电子技术, 2018, 40(9): 1953–1959. doi: 10.3969/j.issn.1001-506X.2018.09.09LI Jianwei, QU Changwen, PENG Shujuan, et al. Ship detection in SAR images based on convolutional neural network[J]. Systems Engineering and Electronics, 2018, 40(9): 1953–1959. doi: 10.3969/j.issn.1001-506X.2018.09.09
    [16] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. doi: 10.1109/TPAMI.2016.2577031
    [17] 杨龙, 苏娟, 李响. 基于深度卷积神经网络的SAR舰船目标检测[J]. 系统工程与电子技术, 2019, 41(9): 1990–1997. doi: 10.3969/j.issn.1001-506X.2019.09.11YANG Long, SU Juan, LI Xiang. Ship detection in SAR images based on deep convolutional neural network[J]. Systems Engineering and Electronics, 2019, 41(9): 1990–1997. doi: 10.3969/j.issn.1001-506X.2019.09.11
    [18] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]. The 14th European Conference on Computer Vision, Amsterdam, Netherlands, 2016: 21–37. doi: 10.1007/978-3-319-46448-0_2.
    [19] 胡昌华, 陈辰, 何川, 等. 基于深度卷积神经网络的SAR图像舰船小目标检测[J]. 中国惯性技术学报, 2019, 27(3): 397–405, 414. doi: 10.13695/j.cnki.12-1222/o3.2019.03.018HU Changhua, CHEN Chen, HE Chuan, et al. Ship small target detection based on deep convolution neural network in SAR image[J]. Journal of Chinese Inertial Technology, 2019, 27(3): 397–405, 414. doi: 10.13695/j.cnki.12-1222/o3.2019.03.018
    [20] REDMON J and FARHADI A. YOLOv3: An incremental improvement[J]. arXiv: 1804.02767, 2018.
    [21] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 936–944. doi: 10.1109/CVPR.2017.106.
    [22] SIFRE L. Rigid-motion scattering for image classification[D]. [Ph.D. dissertation], Ecole Polytechnique, CMAP, 2014.
    [23] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 3–19. DOI: 10.1007/978-3-030-01234-2_1.
    [24] HU Jie, SHEN Li, and SUN Gang. Squeeze-and-excitation networks[C]. The 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake, USA, 2018: 7132–7141. doi: 10.1109/CVPR.2018.00745.
    [25] HUBEL D H and WIESEL T N. Receptive fields of single neurones in the cat’s striate cortex[J]. The Journal of Physiology, 1959, 148(3): 574–591. doi: 10.1113/jphysiol.1959.sp006308
    [26] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. doi: 10.1145/3065386
    [27] CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 1800–1807. doi: 10.1109/CVPR.2017.195.
    [28] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 779–788. doi: 10.1109/CVPR.2016.91.
    [29] REDMON J and FARHADI A. YOLO9000: Better, faster, stronger[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 6517–6525. doi: 10.1109/CVPR.2017.690.
    [30] IOFFE S and SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]. The 32nd International Conference on Machine Learning, Lille, French, 2015: 448–456.
    [31] MANASWI N K. Understanding and Working with Keras[M]. MANASWI N K. Deep Learning with Applications Using Python. Apress, Berkeley, CA: Springer, 2018: 31–43.
    [32] ABADI M, AGARWAL A, BARHAM P, et al. TensorFlow: Large-scale machine learning on heterogeneous systems. Software available from tensorflow.org[EB/OL]. https://www.bibsonomy.org/bibtex/2ba528cb1d5505ae48100cfc940c5fc3, 2015.
    [33] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv: 1706.05587, 2017.
    [34] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2999–3007. doi: 10.1109/ICCV.2017.324.
    [35] DAI Jifeng, HE Kaiming, and SUN Jian. R-FCN: Object detection via region-based fully convolutional networks[J]. arXiv: 1605.06409v2, 2016.
    [36] HE Kaiming, GIRSHICK R, and DOLLÁR P. Rethinking ImageNet pre-training[J]. arXiv: 1811.08883, 2018.
    [37] CUI Zongyong, LI Qi, CAO Zongjie, et al. Dense attention pyramid networks for multi-scale ship detection in SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 8983–8997. doi: 10.1109/TGRS.2019.2923988
    [38] 孙显, 王智睿, 孙元睿, 等. AIR-SARShip-1.0: 高分辨率SAR舰船检测数据集[J]. 雷达学报, 2019, 8(6): 852–862. doi: 10.12000/JR19097SUN Xian, WANG Zhirui, SUN Yuanrui, et al. AIR-SARShip-1.0: High resolution SAR ship detection dataset[J]. Journal of Radars, 2019, 8(6): 852–862. doi: 10.12000/JR19097
  • [1] 田壮壮占荣辉胡杰民张军 . 基于卷积神经网络的SAR图像目标识别研究. 雷达学报, 2016, 5(3): 320-325. doi: 10.12000/JR16037
    [2] 胡涛李卫华秦先祥王鹏余旺盛李军 . 基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法. 雷达学报, 2019, 8(4): 471-478. doi: 10.12000/JR18065
    [3] 计科峰王海波冷祥光邢相薇康利鸿 . 星载简缩极化SAR船舶目标检测技术研究. 雷达学报, 2016, 5(6): 607-619. doi: 10.12000/JR16083
    [4] 刘家麒陈渤介茜 . 基于注意力机制和双向GRU模型的雷达HRRP目标识别. 雷达学报, 2019, 8(5): 589-597. doi: 10.12000/JR19014
    [5] 周伟孙艳丽许成斌关键 . 一种多极化SAR舰船目标与方位向模糊鉴别方法. 雷达学报, 2015, 4(1): 84-92. doi: 10.12000/JR14147
    [6] 许成斌周伟丛瑜关键 . 基于峰值区域的高分辨率极化SAR舰船目标特征分析与鉴别. 雷达学报, 2015, 4(3): 367-373. doi: 10.12000/JR14093
    [7] 徐真王宇李宁张衡张磊 . 一种基于CNN的SAR图像变化检测方法. 雷达学报, 2017, 6(5): 483-491. doi: 10.12000/JR17075
    [8] 王思雨高鑫孙皓郑歆慰孙显 . 基于卷积神经网络的高分辨率SAR图像飞机目标检测方法. 雷达学报, 2017, 6(2): 195-203. doi: 10.12000/JR17009
    [9] 孟大地胡玉新石涛孙蕊李晓波 . 基于NVIDIA GPU 的机载SAR 实时成像处理算法CUDA 设计与实现. 雷达学报, 2013, 2(4): 481-491. doi: 10.3724/SP.J.1300.2013.13056
    [10] 陆萍萍杜康宁禹卫东王宇邓云凯 . 基于特征融合的HJ-1-C SAR 图像道路特征提取算法. 雷达学报, 2014, 3(3): 352-360. doi: DOI: 10.3724/SP.J.1300.2013.13059
    [11] 孙志军薛磊许阳明孙志勇 . 基于多层编码器的SAR目标及阴影联合特征提取算法. 雷达学报, 2013, 2(2): 195-202. doi: 10.3724/SP.J.1300.2012.20085
    [12] 陈慧元刘泽宇郭炜炜张增辉郁文贤 . 基于级联卷积神经网络的大场景遥感图像舰船目标快速检测方法. 雷达学报, 2019, 8(3): 413-424. doi: 10.12000/JR19041
    [13] 苏宁远陈小龙关键牟效乾刘宁波 . 基于卷积神经网络的海上微动目标检测与分类方法. 雷达学报, 2018, 7(5): 565-574. doi: 10.12000/JR18077
    [14] 赵娟萍郭炜炜柳彬崔世勇张增辉郁文贤 . 基于概率转移卷积神经网络的含噪标记SAR图像分类. 雷达学报, 2017, 6(5): 514-523. doi: 10.12000/JR16140
    [15] 师君阙钰佳周泽南周远远张晓玲孙铭芳 . 近场毫米波三维成像与异物检测方法. 雷达学报, 2019, 8(5): 578-588. doi: 10.12000/JR18089
    [16] 冷英李宁 . 一种改进的变化检测方法及其在洪水监测中的应用. 雷达学报, 2017, 6(2): 204-212. doi: 10.12000/JR16139
    [17] 田维徐旭卞小林柴勋王世昂宫华泽熊文成邵芸 . 环境一号C 卫星SAR 图像典型环境遥感应用初探. 雷达学报, 2014, 3(3): 339-351. doi: 10.3724/SP.J.1300.2014.13055
    [18] 文贡坚朱国强殷红成邢孟道杨虎马聪慧闫华丁柏圆钟金荣 . 基于三维电磁散射参数化模型的SAR目标识别方法. 雷达学报, 2017, 6(2): 115-135. doi: 10.12000/JR17034
    [19] 仇晓兰韩传钊刘佳音 . 一种基于持续运动模型的星载SAR 几何校正方法. 雷达学报, 2013, 2(1): 54-59. doi: 10.3724/SP.J.1300.2012.20072
    [20] 孟大地胡玉新丁赤飚 . 一种基于GPU 的SAR 高效成像处理算法. 雷达学报, 2013, 2(2): 210-217. doi: 10.3724/SP.J.1300.2013.20098
  • 加载中
图(7)表(3)
计量
  • 文章访问数:  502
  • HTML浏览量:  330
  • PDF下载量:  111
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-16
  • 录用日期:  2019-12-23
  • 网络出版日期:  2020-01-02
  • 刊出日期:  2019-12-28

基于深度分离卷积神经网络的高速高精度SAR舰船检测

    通讯作者: 张晓玲 xlzhang@uestc.edu.cn
    作者简介: 张晓玲(1964–),女,四川人,获电子科技大学工学博士学位,目前为电子科技大学教授/博导,主要从事SAR成像技术、雷达探测技术研究、3维SAR成像的目标散射特性(RCS)反演。E-mail: xlzhang@uestc.edu.cn;张天文(1994–),男,江苏人,现于电子科技大学信息与通信工程学院攻读博士学位,主要研究领域为SAR成像技术、遥感图像处理与智能识别解译。E-mail: twzhang@std.usetc.edn.cn;师 君(1979–),男,河南人,获电子科技大学工学博士学位,目前为电子科技大学副教授,主要从事SAR数据处理方面研究。E-mail: shijun@uestc.edu.cn;韦顺军(1983–),男,广西人,获电子科技大学工学博士学位,目前为电子科技大学副教授,主要从事SAR成像技术、干涉SAR技术研究。E-mail: weishunjun@uestc.edu.cn
  • 电子科技大学信息与通信工程学院 成都 611731
基金项目:  国家自然科学基金(61571099, 61501098, 61671113),国家重点研发计划(2017YFB0502700)

摘要: 随着人工智能的兴起,利用深度学习技术实现SAR舰船检测,能够有效避免传统的复杂特征设计,并且检测精度获得了极大的改善。然而,现如今大多数检测模型往往以牺牲检测速度为代价来提高检测精度,限制了一些SAR实时性应用,如紧急军事部署、迅速海难救援、实时海洋环境监测等。为了解决这个问题,该文提出一种基于深度分离卷积神经网络(DS-CNN)的高速高精度SAR舰船检测方法SARShipNet-20,该方法取代传统卷积神经网络(T-CNN),并结合通道注意力机制(CA)和空间注意力机制(SA),能够同时实现高速和高精度的SAR舰船检测。该方法在实时性SAR应用领域具有一定的现实意义,并且其轻量级的模型有助于未来的FPGA或DSP的硬件移植。

English Abstract

    • SAR是一种主动式的微波成像传感器,具有全天时、全天候的工作能力,对气候变幻无常的海洋进行监测具有良好的适应性[1]。其中,海洋上的舰船是一种需要重点监测的高价值对象,对其有效的检测有利于海洋交通管制、渔业管理、油污泄漏监察、战事部署等[2]

      传统的SAR舰船检测有恒虚警率(Constant False Alarm Rate, CFAR) 方法[3-5],该类方法根据预先建立的杂波统计模型来确定检测阈值,但这些模型容易受到洋流、气候等影响,存在应用场景受限的缺点,并且求解复杂的模型方程十分耗时,影响其检测速度。模版匹配[6-10]是另外一种常见的传统方法,此类方法通过人工设计多种模版,一种模板对应一种特征(舰船的长度、宽度、周长、面积、轮廓、纹理等),在实际检测时,用这些模版在图像上进行滑动搜索,从而获得检测结果。但该类方法建立全面的模板库耗费大量人力,并且常常依赖于专家经验,具有较差的泛化能力。特别地,在大场景的SAR图像中进行窗口滑动也耗费较长时间,对实时性带来一定的挑战。

      近些年来,随着人工智能的兴起,由于深度学习无需人工耗时耗力进行特征设计便能实现有效的目标检测,因此越来越多的学者将计算机视觉领域的目标检测器引入到SAR领域中。特别地,深度学习的方法不受场景限制,无需海陆分离,只要给定标注好的数据集,便能够自发有效地学习舰船特征,具有高效性、高准确性等优点。

      对于SAR图像中的舰船检测,自从海军航空大学提出了国内第一个公开的SAR舰船检测数据集(SAR Ship Detection Dataset, SSDD)以来[11],基于深度学习的SAR舰船检测发展日益迅速。文献[12]将候选区域提取的二值化赋范梯度方法(BInarized Normed Gradients, BING)[13]和快速区域卷积神经网络(Faster Region-Convolutional Neural Network, Fast R-CNN)[14]结合,采用级联CNN的形式检测精度达到了73.5%。文献[15]优化Faster R-CNN[16]来进行舰船检测,结合特征融合、迁移学习等方式在SSDD数据集上实现了78.8%的检测精度。文献[17]将单点多框检测器(Single Shot multi-box Detector, SSD)[18]应用到SAR舰船检测中,提出了基于上下文信息的迁移学习模型实现了87.1%的检测精度。文献[19]针对SAR图像中复杂的舰船背景提出了一种改进的“你只需看一遍”版本3 (You Only Look Once version 3, YOLOv3)[20]算法,并结合特征金字塔[21]结构,实现了多尺度的舰船检测,尤其对小尺寸舰船检测性能更佳,精度提高了6%,但是速度却从原始的27 ms降至32 ms。遗憾的是,以上文献中的检测模型都比较大,网络参数较多,在提高精测精度的同时往往牺牲了检测速度。因此,对于实时性要求高的SAR应用场合,存在一定的局限性,例如紧急军事部署、迅速海难救援、实时海洋环境监测等。

      因此,为解决上述缺陷,本文提出一种基于深度分离卷积神经网络(Depthwise Separable Convolution Neural Network, DS-CNN)[22]的高速高精度SAR舰船检测方法SARShipNet-20,该方法取代传统卷积神经网络(Traditional Convolution Neural Network, T-CNN),并结合通道注意力机制(Channel Attention, CA)[23,24]和空间注意力机制(Spatial Attention, SA)[23],能够同时实现高速和高精度的SAR舰船检测。该方法在实时性SAR应用领域具有一定的现实意义,并且其轻量级的模型有助于未来的FPGA或DSP的硬件移植。

      相比于先前研究成果[2],本文创新点如下:

      (1) 本文中的网络结构是全新的,和文献[2]中结构完全不同,并命名为SARShipNet-20,这里的20指有20个卷积层。该网络结构更加精简,层数更少,并且为前向流水线结构,无复杂多余的正向反馈或负向反馈支路。特别地,SARShipNet-20模型为23.17 MB,而文献[2]中网络模型为38.05 MB,网络轻了约40%;

      (2) SARShipNet-20中全部采用DS-CNN,而文献[2]中的方法为了避免较大的精度损失,采用DS-CNN和T-CNN相混合的机制;

      (3) 本文额外加入通道注意力(CA)和空间注意力(SA)机制,使检测精度得到了改善,而文献[2]没有采用注意力机制。

    • 卷积神经网络具有类似于人眼的感受野[25],能够更全面地观测目标信息,因此在目标检测领域得到了广泛地应用。不同于BP神经网络,卷积神经网络采用参数共享机制,能够实现更深网络的训练,从而达到深度学习的目的。特别地,自从AlexNet[26]网络在目标检测领域被成功应用,越来越多的学者开始使用卷积神经网络来实现目标检测任务。近年来,众多利用卷积神经网络的目标检测器已经被提出,例如Faster R-CNN, YOLO, SSD等,并且已经被众多学者成功地应用到SAR舰船检测领域。为便于阐述所提方法,本文称以上最初提出的卷积神经网络为传统卷积神经网络(T-CNN)。

      图1(a)为T-CNN的结构图,其中I1, I2, I3代表输入,K1, K2, K3代表卷积核,O1, O2, O3代表输出。在T-CNN中,每个卷积核需要对输入的所有通道进行卷积,卷积运算的过程融合了通道相关性和空间相关性。

      图  1  传统卷积神经网络和深度分离卷积神经网络示意图

      Figure 1.  Diagrammatic sketch of T-CNN and DS-CNN

      T-CNN的计算量为

      ${Q_{\rm T - CNN}} = {L^2} \cdot {k^2} \cdot {N_{{\rm{kernel}}}} \cdot {N_{{\rm{input}}}}$

      其中,L为输入图像的尺寸,k为卷积核的尺寸,Nkernel为卷积核数目,Ninput为输入通道数目。

    • 图1(b)为DS-CNN的结构图,其中I1, I2, I3代表输入,K1, K2, K3$K'_1 $, $K'_2 $, $K'_3 $代表卷积核,J1, J2, J3代表中间层输出,O1, O2, O3代表输出。DS-CNN由深度卷积(Depthwise Convolution, D-Conv)和点状卷积(Pointwise Convolution, P-Conv)组成。其中,D-Conv只卷积输入的一个通道,相比T-CNN能够大幅减少网络的参数量;P-Conv进行传统的卷积运算,但它的卷积核的尺寸为1×1,相比大尺寸的卷积核,也具有较少的参数量。DS-CNN能够成功解耦通道相关性和空间相关性[2,27],能够在不损失精度的条件下,大幅减少计算量,从而提高检测速度,这主要由于T-CNN存在一定的网络冗余[2,27]

      DS-CNN的计算量为

      ${Q_{{\rm{DS}} - {\rm{CNN}}}} = {L^2} \cdot {k^2} \cdot {N_{{\rm{input}}}} + {L^2} \cdot {N_{{\rm{kernel}}}} \cdot {N_{{\rm{input}}}}$

      式(2)和式(1)的比值为

      ${\rm{ratio}} = \frac{1}{{{N_{{\rm{kernel}}}}}} + \frac{1}{{{k^2}}}$

      其中,Nkernel >> 1, k > 1。

      因此,ratio <1,这从理论上证明了DS-CNN确实比T-CNN具有更少的计算量,这对提高舰船的检测速度具有促进作用。

    • 当前SAR舰船检测研究中大多采用计算机视觉领域现有的网络结构进行改进,这存在一定的缺陷。一方面,计算机视觉领域所提出的众多目标检测都针对光学图像,若直接应用在SAR图像中存在数据源不平衡的问题;另一方面,计算机视觉领域中的目标检测器都针对多种类别的目标,而SAR图像舰船检测只需检测舰船这一类目标,那么这些模型必然存在较大的冗余度。因此,不同于现有的其他研究,本文在借鉴YOLO[20,28,29]网络的基础上,从0开始构建了一个全新的网络结构,为便于叙述,本文将网络结构命名为SARShipNet-20,这里的20指有20个卷积层。

      图2为SARShipNet-20示意图。图2中,数字80, 40, 20, 10, 5代表不同层的特征图(feature maps)的尺寸,且所有的卷积层均采用DS-CNN。如图2所示,网络中均采用3×3的卷积核,这可减少网络参数量。由于网络越深,特征图的尺寸越小,可能导致丢失较多的舰船特征,因此网络后端的层数被设置逐渐增加。另外,为了能够检测不同尺寸的检测,网络中设置了3种不同的检测尺度,分别位于特征图尺寸为20的输出,特征图尺寸为10的输出,特征图尺寸为5的输出。计算机视觉领域中的目标检测器大多几十层甚至上百层,而本网络只有20层,结构清晰简单,更适合于SAR图像中舰船检测这种简单的任务,能够大幅降低网络的冗余度。

      图  2  网络结构示意图 (SARShipNet-20)

      Figure 2.  Network structure (SARShipNet-20)

      每个卷积层的内部详细操作流程如图3所示。

      图  3  卷积层内部操作流程

      Figure 3.  Internal operation flow in convolution layers

      为了使网络训练更充分,网络中每个卷积层后均进行批量归一化(Batch Normalization, BN)[30]操作,该操作将卷积层中的参数值归一化到[0, 1]的高斯分布,有助于避免训练过程中的梯度消失,其定义为

      ${{Y}} = \xi \cdot \frac{{{{X}} - m({{X}})}}{{\sqrt {{\sigma ^2}({{X}}) + \varepsilon } }} + \eta $

      其中,X为输入向量,Y为输出向量,m()为求均值,参数$\xi $$\eta $为超参数,这两个超参数无需手工设置,而是在训练过程中通过自动学习获得,$\varepsilon $为接近于0的常数,以避免分母为0的情况发生。

      为了加快激活速度,网络中的激活函数选择为ReLU,其定义为

      $ y = \left\{ \begin{aligned} & x,\quad x > 0 \\ & 0, \quad x \le 0 \\ \end{aligned} \right. $

    • SARShipNet-20无需产生候选区域,因此是一个单阶段目标检测器,其训练的损失函数可借鉴YOLOv3。实现SAR舰船检测任务就是获得舰船的以下参数:

      (1) 舰船检测框的坐上顶点的坐标(x, y);

      (2) 舰船检测框的宽度和高度(w, h);

      (3) 舰船检测框的置信得分。

      因此,训练SARShipNet-20的损失函数由以上3部分组成。

      检测框的坐标损失函数为

      $ {{\rm loss}_{x,y}} = {\lambda _{\rm{c}}} \cdot \sum\limits_{i = 0}^B {\sum\limits_{j = 0}^{{S^2}} {P_{{\rm{cel}}{{\rm{l}}_i}}^{{\rm{ship}}}\left[{{({x_i} - {{\tilde x}_{i,j}})}^2} + {{({y_i} - {{\tilde y}_{i,j}})}^2}\right]{\rm{ }}} } $

      其中,xiyi为第i个真实框的坐标,${\tilde x_{i,j}}$${\tilde y_{i,j}}$为第j个网格的第i个检测框的坐标(网格划分机制详见YOLOv3[20]);当网格中包含舰船或者舰船的一部分时$P_{{\rm{cel}}{{\rm{l}}_i}}^{{\rm{ship}}}$=1,否则$P_{{\rm{cel}}{{\rm{l}}_i}}^{{\rm{ship}}}$=0; ${\lambda _{\rm{c}}}$为坐标损失的权重系数,B为生成的检测框的数目,S为划分的网格数目。

      检测框的宽度和高度损失函数为

      $ \begin{split} { {\rm loss}_{w,h}} =\,& {\lambda _{w,h}} \cdot \sum\limits_{i = 0}^B \sum\limits_{j = 0}^{{S^2}} P_{{\rm{cel}}{{\rm{l}}_i}}^{{\rm{ship}}}\left[{{\left(\sqrt {{w_i}} - \sqrt {{{\tilde w}_{i,j}}} \right)}^2}\right. \\ & \left.+ {{\left(\sqrt {{h_i}} - \sqrt {{{\tilde h}_{i,j}}} \right)}^2}\right] \end{split} $

      其中,wihi为第i个真实框的宽度和高度,${\tilde w_{i,j}}$${\tilde h_{i,j}}$为第j个网格的第i个检测框的宽度和高度;${\lambda _{w,h}}$为宽度和高度损失函数的权重系数。

      检测框的置信得分损失函数为

      $ \begin{split} {y_s} =\,& {\lambda _{{s}}}\sum\limits_{i = 0}^B {\sum\limits_{j = 0}^{{S^2}} {P_{{\rm{cel}}{{\rm{l}}_i}}^{{\rm{ship}}}{{\bigr[{{\tilde s}_{i,j}} -{\rm IoU}({B_{\rm P}},{B_{\rm G}})\bigr]}^2}} } \\ &+{\lambda _{{p}}}\sum\limits_{i = 0}^B {\sum\limits_{j = 0}^{{S^2}} {\left(1 - P_{{\rm{cel}}{{\rm{l}}_i}}^{{\rm{ship}}}\right){{\bigr[{{\tilde s}_{i,j}} - {\rm IoU}({B_{\rm P}},{B_{\rm G}})\bigr]}^2}} } \\ \end{split} $

      其中,${\tilde s_{i,j}}$为第j个网格的第i个检测框的置信得分;${\lambda _{\rm{s}}}$为置信得分损失函数的权重系数;${\lambda _{{p}}}$为未检测到舰船的惩罚系数。

      IoU为预测框和真实框的交并比,定义为

      ${\rm{IoU}} = \frac{{{\rm{area}}({B_{\rm{P}}} \cap {B_{\rm{G}}})}}{{{\rm{area}}({B_{\rm{P}}} \cup {B_{\rm{G}}})}}$

      其中,BP为预测框,BG为真实框,即IoU为预测框和真实框区域交集和并集的面积比值。

    • SARShipNet-20采用DS-CNN来搭建网络模型,可能存在检测精度的损失。因此,为了提高检测精度,本文在此基础上增加了通道注意力机制模型(CA), CA加在图2黑色虚线框中的每两层之间。

      网络中的通道数目本质就是卷积核的个数,在网络中,并不是每个卷积核都起到关键的作用,有些甚至会对检测产生负面的影响。因此,CA可以关注到有效的通道和抑制无效的通道,从而能够提高网络中信息流动的效率[23]

      图4为通道注意力机制的示意图,通道注意力机制加在每一个卷积层的输出端。输入的特征图维度为N×H×W,其中N为通道数,H为高,W为宽,该通道注意力机制实现为

      图  4  通道注意力机制

      Figure 4.  Channel Attention (CA)

      $ {{{F}}_{\rm{c}}} = {\rm sg}\bigr\{ {{\rm{MLP}}[{\rm{GAP}}({{F}})] + {\rm{MLP}}[{\rm{GMP}}({{F}})]} \bigr\} $

      其中,F为输入特征图,MLP为多层感知机,GAP为全局平均池化,GMP为全局最大池化,sg为激活函数,定义为

      $ {\rm sg}(x) = \frac{1}{{1 + {e^{ - x}}}} $

      在注意力机制处理后得到一个维度为N×1×1的向量Fc

      $ {{{F}}_{\rm{c}}} = {({\alpha _1},{\alpha _2}, ··· ,{\alpha _N})^{\rm T}} $

      其中,${\alpha _i},i = 1,2, ··· ,N$代表第N个通道的重要等级。最后该向量点乘输入得到最终的输出,能够有效关注到有效的通道。

      通道注意力机制的详细原理可参考文献[23]。

    • SARShipNet-20中还增加了空间注意力机制(SA)来进一步提高检测精度,SA加在图2黑色虚线框中的每两层之间。在一幅SAR图像中,在空间上存在不同价值的信息,例如对于停靠于港口的舰船,舰船是重点关注的对象,而港口设备不是关注的对象,空间注意力机制能够有效地关注到舰船而抑制图像中其他不重要的信息,从而提高检测精度。

      图5为空间注意力机制的示意图,空间注意力机制加在通道注意力机制的输出端。输入的为被通道注意力机制处理后的特征图,该空间注意力机制实现为

      图  5  空间注意力机制

      Figure 5.  Spatial Attention (SA)

      $ {{{F}}_{\rm{s}}} = {\rm sg}\left\{ {{f^{7 \times 7}}[{\rm{GAP}}({ F}'),{\rm{GMP}}({ F}')]} \right\} $

      其中,${ F}' $为输入特征图,该特征图为通道注意力机制的输出;${f^{7 \times 7}}$为7×7的卷积。

      在注意力机制处理后得到一个维度为1×H×W的矩阵Fs

      ${{{F}}_{\rm{s}}} = \left( {\begin{array}{*{20}{c}} {{\beta _{1,1}}}&{{\beta _{1,2}}}& ··· &{{\beta _{1,W}}} \\ {{\beta _{2,1}}}&{{\beta _{2,2}}}& ··· &{{\beta _{2,W}}} \\ \vdots & \vdots & \ddots & \vdots \\ {{\beta _{H,1}}}&{{\beta _{H,2}}}& ··· &{{\beta _{H,W}}} \end{array}} \right) $

      其中,${\beta _{i,j}},i = 1,2, ··· ,\;H;\;j = 1,2, ··· ,W$代表空间中(i, j)坐标位置信息的重要等级。最后该矩阵点乘输入得到最终的输出,能够有效地关注到有效的空间信息。

      空间注意力机制的详细原理可参考文献[23]。

    • 本文基于Keras[31]编写程序,以Tensorflow[32]为程序后端,在Pycharm软件平台上进行。实验硬件配置的CPU为Intel(R) i9-9900K, GPU为NVIDIA RTX2080Ti,内存为32 G,使用CUDA10.0和CUDNN7.6调用GPU进行训练加速。本实验中,设置IoU等于0.5为检测阈值,即当检测框和真实框的重叠区域超过50%,才认为该检测框检测正确。

    • 本文方法在国内公开的SSDD数据集上进行验证,SSDD数据集中包含1160张SAR图像,共有2358只舰船,平均每张图像中有2.03只舰船,最小的舰船为7×7像素,最大的舰船为211×298像素。该数据集已被海军航空大学李健伟等学者[11,12,15]正确标注,另外,数据集中的SAR图像具有多种极化模型、多种分辨率、多种舰船场景,能够有效验证舰船检测器的鲁棒性,已被众多学者使用[1,2,11,12,15,17,19]

      SSDD数据集可在以下链接下载获取:https://pan.baidu.com/s/1vnTakmVkTuaVECCO-L5EyA;提取码:uduc。

    • SSDD数据集按照7:2:1的比例被随机划分为训练集、验证集和测试集。Adam优化器被用来进行网络参数迭代更新,并且训练2000个epoch,本文采用Poly[33]机制来动态调整学习率,定义为

      ${\rm{lr = l}}{{\rm{r}}_0} \cdot {\left( {1 - \frac{{{\rm{current\_epoch}}}}{{{\rm{max\_epoch}}}}} \right)^{{\rm{power}}}}$

      其中,lr为学习率,lr0为初始学习率,本文中设置为0.001,max_epoch为最大的迭代次数即2000,current_epoch为当前的迭代次数,power为超参数,本文中设置为0.9。

      训练过程中,Tensorboard[32]被用来监测训练信息,并且只有当前迭代得到的模型性能优于前一次迭代的模型时,才被保留,最后当完成2000轮训练,得到最优的检测模型。

    • 本文提供两种类型的评价指标,一种为传统的评价指标,例如检测概率Pd,漏检概率Pm和虚警概率Pf;另一种为深度学习中的评价指标,例如召回率Recall,精度Precision,平均精度mAP。

      检测概率Pd定义为

      ${P_{\rm{d}}} = \frac{{{\rm{TP}}}}{{{\rm{GT}}}}$

      其中,TP(True Positives)为正确的舰船检测数目,GT(Ground Truth)为真实的舰船数目。

      漏检概率Pm,定义为

      ${P_{\rm{m}}} = \frac{{{\rm{FN}}}}{{{\rm{GT}}}}$

      其中,FN(False Negatives)为漏检的舰船数目。

      虚警概率Pf,定义为

      ${P_{\rm{f}}} = \frac{{{\rm{FP}}}}{{{\rm{TP + FP}}}}$

      其中,FP(False Positives)为虚警的舰船数目。

      召回率(Recall),定义为

      ${\rm{Recall}} = \frac{{{\rm{TP}}}}{{{\rm{TP + FN}}}}$

      其中,本质上,Recall=Pd

      精度(Precision),定义为

      ${\rm{Presicion = }}\frac{{{\rm{TP}}}}{{{\rm{TP + FP}}}}$

      其中,本质上,Precision =1–Pf

      平均精度(mean Average Precision, mAP),定义为

      $ {\rm{mAP}} = \int\nolimits_0^1 {P(R){\rm{d}}R} $

      其中,P为精度,R为召回率,P(R)为精度和召回率曲线。

    • 图6为SARShipNet-20在SSDD数据集上部分样本的舰船检测结果,图6中白色框为真实的舰船,绿色框为检测的舰船,红色为漏检和虚警情况。从图6中可看出,多种背景下的多种尺寸的舰船均能够被成功地检测。为验证SARShipNet-20的泛化能力,本文在SSDD测试集上进行评估。表1为测试集上检测结果的定量评价指标。从表1中DS-CNN+CA+SA可知,SSDD测试集中有184只真实的舰船,180只舰船被成功地检测,检测率为97.83%,4只舰船被漏检,漏检率为2.17%,另外产生了8只虚警,虚警率为4.26%,深度学习领域中精度的评价指标mAP为96.93%。从以上检测结果表明SARShipNet-20具有高的检测精度,充分表明SARShipNet-20具有良好的泛化能力和强壮的鲁棒性(SSDD数据集外的SAR图像的泛化测试将在未来进行详细实验和分析讨论,这里不再详细展开,这不影响本文结论)。另外,完成一幅SAR图像的检测时间为8.72 ms,因此完成整个测试集中116张SAR图像的检测仅需要约0.1 s,这表明SARShipNet-20具有快的检测速度。另外,SARShipNet-20在CPU上的速度为16.79 ms/每张SAR图像,因此完成整个测试集中116张SAR图像的检测仅需要约1.95 s,也能基本满足实时性的应用需求。值得关注的,在SSDD数据集中,一些具有严重相干斑噪声的舰船样本也能被成功地检测,精度达到95%以上,这表明SARShipNet-20具有一定程度的抗斑点噪声性能(一般地,与传统方法相比,基于深度学习的SAR舰船方法大多具有较强的抗斑点噪声性能),该项工作可查阅笔者先前研究成果[2],本文不再详细展开分析和讨论。另外,由于缺少嵌入式设备,FPGA/DSP等移植工作未在本文体现,但可作为未来的研究工作。

      类型GTTPFNFPPd (%)Pm (%)Pf (%)Recall (%)Precision (%)mAP (%)Time (ms)
      T-CNN1841804897.832.174.2697.8395.7496.8810.14
      DS-CNN18417592395.114.8911.6295.1188.3893.644.54
      DS-CNN + CA18417952997.282.7213.9497.2889.0695.785.68
      DS-CNN + SA18417861196.743.265.8296.7494.1895.646.67
      DS-CNN + CA + SA1841804897.832.174.2697.8395.7496.938.72

      表 1  SARShipNet-20的SAR舰船检测结果评价指标

      Table 1.  Evaluation index of SAR ship detection results of SARShipNet-20

      图  6  SARShipNet-20的SAR舰船检测结果

      Figure 6.  SAR ship detection results of SARShipNet-20

      图7为SARShipNet-20的性能评价曲线。图7(a)Pd-Pf曲线,图7(b)为P-R(精度-召回率)曲线,图7(c)为mAP-IoU曲线。

      图  7  SARShipNet-20性能评价曲线

      Figure 7.  Performance evaluation curve of SARShipNet-20

    • 表1可知,尽管DS-CNN比T-CNN的检测精度低3.24%,但是检测速度快了约2倍;通道注意(CA)和空间注意(SA)机制可以改善精度,同时对速度受到轻微的负面影响,但仍快于T-CNN;最终DS-CNN同时结合CA和SA可以获得最高的检测精度96.93% mAP,并且还略微高于T-CNN的96.88%mAP,这表明CA和SA对精度确实起到了提升作用。

    • 表2为SARShipNet-20与其他目标检测器的对比结果。表2中的各种方法均经过超参数的调节和优化直至检测精度基本饱和(鉴于笔者精力有限,可能还有提升的余地),否则直接将计算机视觉领域的目标检测器直接使用,均导致不理想的检测性能。从表2中可以发现,SARShipNet-20的检测精度高于其他的所有方法,并且检测速度也高于其他所有的方法。一方面,RetinaNet的精度为95.68% mAP,接近SARShipNet-20的精度96.93% mAP,但是速度为314.43 ms/每张SAR图像,远慢于SARShipNet-20的速度8.72 ms/每张SAR图像;另外一方面,YOLOv2-tiny的检测速度为9.43 ms/每张SAR图像,但是它的检测精度仅为44.40% mAP远低于SARShipNet-20的精度。因此SARShipNet-20实现了真正地高速高精度的SAR舰船检测。

      方法Pd (%)Pm (%)Pf (%)Recall (%)Precision (%)mAP (%)Time (ms)
      Faster R-CNN[16]85.1614.8418.8585.1681.1582.66327.48
      RetinaNet[34]96.703.306.8896.7093.1295.68314.43
      R-FCN[35]95.654.357.3795.6592.6395.15178.16
      SSD[18]94.515.4914.8594.5185.1592.6748.86
      YOLOv3[20]96.703.306.3896.7093.6295.3422.30
      YOLOv1[28]84.0715.9315.4784.0784.5381.2421.95
      YOLOv2[29]92.867.1415.0892.8684.9290.0919.01
      YOLOv3-tiny[20]70.3329.1222.2970.3377.5864.6410.25
      YOLOv2-tiny[29]47.8052.2026.2747.8073.7344.409.43
      SARShipNet-20(本文方法)97.832.174.2697.8395.7496.938.72

      表 2  不同方法的检测性能对比

      Table 2.  Comparison of detection performance of different methods

      表3为SARShipNet-20与其他目标检测器的模型比较。从表3中可以发现,SARShipNet-20的网络参数、浮点运算量和模型都是最少的,这是其能够实现高速检测的本质原因。SARShipNet-20的模型仅有23.17 MB,如此轻量级的模型可便于未来的FPGA或DSP移植。

      方法网络参数的数量浮点运算量(FLOPs)模型大小 (MB)
      Faster R-CNN272,746,867545,429,460752.75
      RetinaNet61,576,342307,592,895235.44
      R-FCN50,578,686101,385,166193.04
      SSD47,663,80695,040,404181.24
      YOLOv336,382,95772,545,184139.25
      YOLOv128,342,19546,981,897,900108.54
      YOLOv223,745,908118,685,13390.73
      YOLOv3-tiny15,770,51031,608,36060.22
      YOLOv2-tiny8,676,24486,692,28433.20
      SARShipNet-20(本文方法)5,867,73711,699,79223.17

      表 3  不同方法的模型对比

      Table 3.  Model comparison of different methods

      SARShipNet-20能够用更少参数和更轻的模型实现更高的检测精度和更快的检测速度,核心原因主要如下:

      (1) 通道注意力机制和空间注意力机制可以有效提高检测精度;

      (2) 与计算机视觉领域中的多类别检测任务相比,SAR图像中的舰船检测更加简单,只包含背景和舰船的二分类任务;

      (3) 与光学图像中的舰船相比(RGB图),SAR图像中的舰船具有相对简单的背景(灰度图),并且特征相对单一,因此无需复杂的网络模型去实现;

      (4) 如果将计算机视觉领域中的模型直接应用到SAR舰船检测领域,由于其网络规模巨大,但是SSDD数据集中图像数量过少,可能会过拟合,导致检测精度变差;但SARShipNet-20模型小,可以避免该问题的出现;

      (5) 在训练过程中,更轻的模型可以得到充分训练,网络中的所有参数迭代更新的速度较快,可使网络得到充分的拟合。另外,SARShipNet-20无需在ImageNet[36]数据集上进行预训练,也能取得良好的检测性能,根本原因就是参数量少。

    • 根据文献调研发现,表2中不同方法在SSDD数据集上的舰船检测精度(mAP)大多高于现有的其它公开文献报道,出现此种现象的可能原因如下:

      (1) 测试集随机划分的差异:海军航空大学李健伟等学者[11]提供给笔者的SSDD数据集并未明确规定具体的训练集、验证集和测试集,仅提供7:2:1的划分比例。尽管本文采用随机划分获得测试集(类似于Matlab/Python中的random函数,非人为随机),但SSDD数据集仅有1160张SAR图像,并且远离海岸场景的简单样本占据多数,靠岸和密集排列场景的困难样本占据少数,因此从中获得116张测试样本(1160×10%),存在较大的随机性。若测试集中远离海岸的舰船样本占据多数,根据文献[37]报道检测精度已高达95%以上。因此,李健伟等学者目前已意识到该问题可能会导致学术研究上的对比不严谨,因此其已联合武汉大学对SSDD数据集进行更加严格的使用规定,并在将来提供更加公正的方法基准(baseline)。笔者感谢并期待李健伟等学者未来的研究成果。另外,增加SSDD数据集中SAR图像的数量可减弱这种由于随机划分带来的结果偏差,毕竟SSDD数据集中仅有1160张SAR图像,这远远小于计算机视觉中约17 k的Pascal VOC数据集,328 k的COCO数据集,30 w的ImageNet数据集。

      (2) 方法框架的差异。目前深度学习领域中具有众多不同的框架,例如Caffe, Theano, MXNet, PaddlePaddle, Keras, Tensorflow, PyTorch等。同种方法在不同框架上的实现存在一定的区别,导致结果的差异。因此,最公正合理的比较应该在同一种框架上执行,但是由于不同学者对不同框架的理解度和熟悉度不尽相同,给实际操作带来一定的困难。

      (3) 方法超参数优化的差异。目前深度学习领域中的目标检测器均针对光学图像,因此引入到SAR图像领域中,若直接使用在大多数情况下效果较差,因此需要进行超参数的调节,并且不同方法的超参数类型和数量存在较大的差异,不同学者设置的超参数也不尽相同,导致得出的方法结论也不尽相同。

      (4) 训练策略的差异。针对同一种方法,采用不同的训练策略会带来不同的实验结果,目前,如何使网络得到最充分的训练和最理想的优化,仍然是一个具有挑战性的问题。

      (5) 数据增强的差异。SSDD数据集中的SAR图像数量较少,可能会使计算机视觉中的目标检测器学习不充分,目前部分学者对训练数据进行增强,而不同的数据增强方式也可能给实验结果带来差异。

      (6) 编程语言的差异。例如Caffe广泛采用的是C/C++, PyTorch广泛采用的是Python,这两种不同的语言尽管在实现方法的流程上是相同的,但存在执行效率的区别,可能会带来结果的差异。并且不同学者的软件程序的优化也存在一定的差异,带来执行速度的不同。

      本文中的各种方法尽管大多高于现有的其他报道,但都是基于相同的测试集得到的,因此不影响本文的结论。若采用更复杂测试样本,那么所有方法的检测精度必然同时降低,甚至低于90%,但各方法之间差异的整体规律应该是基本保持恒定的。需要说明的是,表2中各种指标仅供验证本文所提方法的有效性,考虑到本文得到的实验结果的合理性受限(尽管测试样本是随机获取的,但由于SSDD数据集样本量少并且简单样本所占比例较大,导致测试集中背景简单舰船样本所占比例较高,而靠岸和密集分布的小尺寸困难舰船样本所占比例较低),因此不作为未来的研究基准。目前,李健伟等学者正联合武汉大学将对SSDD数据集提供严谨的使用规范和公正严谨的研究基准。

      目前SSDD数据集更公正的基准还未公布,但幸运的是,2019年12月16日,中国科学院空天信息创新研究院、中国科学院大学和中国科学院网络信息体系技术科技创新重点实验室在《雷达学报》公开了一个全新的高分辨率SAR舰船检测数据集AIR-SARShip-1.0[38] (可在《雷达学报》官网的数据子栏目下载),该数据集该包含31 景高分三号SAR图像,场景类型包含港口、岛礁、不同级别海况的海面等,背景涵盖近岸和远海等多样场景,数据集更加贴近实际应用[38];并且提供了公正的指标基准,不仅囊括深度学习的方法基准,还包含了传统不同类型CFAR的方法基准,这也将方便其他学者在此数据集基础上进一步展开SAR舰船检测相关研究。因此,笔者未来也将增加基于AIR-SARShip-1.0数据集的SAR舰船检测研究。

    • 本文基于深度分离卷积神经网络提出了一种高速高精度的SAR图像中舰船检测方法,即SARShipNet-20。其具有更少的参数数量、浮点计算量和更轻的检测模型。本方法结合通道注意力机制和空间注意力机制能够实现高速高精度的SAR舰船检测。与9种先进的目标检测器的性能比较结果,表明了本文所提方法的正确性和有效性,在实时性SAR应用领域具有一定的现实意义,并且其轻量级的模型有助于未来的FPGA或DSP的硬件移植。

参考文献 (38)

目录

    /

    返回文章
    返回