基于级联卷积神经网络的大场景遥感图像舰船目标快速检测方法

陈慧元 刘泽宇 郭炜炜 张增辉 郁文贤

引用本文:
Citation:

基于级联卷积神经网络的大场景遥感图像舰船目标快速检测方法

    作者简介: 陈慧元(1994–),女,内蒙古呼和浩特人,硕士,于2017年获南京理工大学学士学位,2017年9月至今,在上海交通大学电子信息与电气工程学院攻读硕士研究生。研究方向为基于深度学习的遥感图像目标检测。E-mail: chen940403@sjtu.edu.cn;刘泽宇(1993–),男,黑龙江哈尔滨人,博士,于2014年获上海交通大学学士学位,2014年9月至今,在上海交通大学电子信息与电气工程学院攻读博士研究生。研究方向为雷达图像解译、数据挖掘。E-mail: ribosomal@sjtu.edu.cn;郭炜炜(1983–),男,江苏南通人,博士,分别于2005, 2007, 2014年获得国防科技大学信息工程,信息与通信专业学士、硕士和博士学位。2008年—2010年在英国Queen Mary, University of London联合培养,2014年12月至2018年6月在上海交通大学电子信息与电气工程学院从事博士后研究工作,2018年12月至今为同济大学设计创意学院助理教授。研究方向为遥感图像理解、模式识别与机器学习、人机交互等。E-mail: weiweiguo@tongji.edu.cn;张增辉(1980–),男,山东金乡人,博士,分别于2001年、2003年和2008年在国防科技大学获得应用数学、计算数学、信息与通信工程专业学士、硕士和博士学位。2008年6月至2013年7月,为国防科技大学数学与系统科学系讲师;2014年2月至今,为上海交通大学电子信息与电气工程学院副研究员。研究方向为SAR图像解译、雷达信号处理等。E-mail: zenghui.zhang@sjtu.edu.cn;郁文贤(1964–),男,上海松江人,博士,教授,博士生导师,上海交通大学讲席教授,教育部长江学者特聘教授,上海市领军人才。现为上海交通大学信息技术与电气工程研究院院长,北斗导航与位置服务上海市重点实验室主任,智能探测与识别上海市高校重点实验室主任。研究方向为遥感信息处理、多源融合导航定位、目标检测识别等。E-mail: wxyu@sjtu.edu.cn.
    通讯作者: 郭炜炜, weiweiguo@tongji.edu.cn
  • 基金项目:

    国家自然科学基金(61331015, U1830103)

  • 中图分类号: TP183; TP751

Fast Detection of Ship Targets for Large-scale Remote Sensing Image Based on a Cascade Convolutional Neural Network

    Corresponding author: GUO Weiwei, weiweiguo@tongji.edu.cn ;
  • Fund Project: The National Natural Science Foundation of China (61331015, U1830103)

    CLC number: TP183; TP751

  • 摘要: 针对大场景遥感图像舰船目标的快速检测问题,该文设计了一种级联型卷积神经网络检测框架。该检测框架由目标预筛选全卷积网络(P-FCN)和目标精确检测全卷积网络(D-FCN)两个全卷积网络级联而成。P-FCN是一个轻量级的图像分类网络,负责对大场景图像中可能的舰船区域进行快速预筛选,其层数少、训练简单,候选框冗余较少,能够减少后续网络的计算负担;D-FCN是一个改进的U-Net网络,通过在传统U-Net结构中加入目标掩膜和舰船朝向估计层以进行多任务的学习,实现任意朝向舰船目标的精细定位。该文分别使用TerraSAR-X雷达遥感图像和从91卫图、DOTA数据集中获得的光学遥感图像对算法进行了测试,结果表明该方法的检测准确率分别为0.928和0.926,与传统滑窗法相当,但目标检测时间仅为滑窗法的1/3左右。该文所提的级联型卷积神经网络检测框架在保持检测精度的前提下能显著提高目标检测效率,可实现大场景遥感图像中舰船目标的快速检测。
  • 图 1  级联型网络总体架构图

    Figure 1.  The overall frame structure of cascading network

    图 2  P-FCN实验过程

    Figure 2.  The experimental process of P-FCN

    图 3  D-FCN结构图

    Figure 3.  The frame structure of D-FCN

    图 4  SAR图像与光学图像中真值目标掩膜与预测目标掩膜生成

    Figure 4.  The true target masks and the predictive target masks of SAR images and optical images

    图 5  旋转矩形框定位

    Figure 5.  Rotating rectangle positioning

    图 6  P-FCN训练TerraSAR-X数据集统计

    Figure 6.  The training TerraSAR-X dataset statistics of P-FCN

    图 7  resize参数与检测速度和准确率的关系

    Figure 7.  The relationship of resize parameter between detection speed and accuracy

    图 8  S=1, 3, 5时对应的热点图

    Figure 8.  The heat maps corresponding to S=1, 3, 5

    图 9  S=1, 3, 5时对应的候选区域

    Figure 9.  The probably proposals corresponding to S=1, 3, 5

    图 10  TerraSAR数据P-FCN测试结果

    Figure 10.  The test result of TerraSAR in P-FCN

    图 11  类型图1检测结果

    Figure 11.  The test results of type 1 image

    图 12  类型图2检测结果

    Figure 12.  The test results of type 2 image

    图 13  P-FCN 光学图像训练数据集统计

    Figure 13.  The training dataset statistics of P-FCN

    图 14  resize参数与检测速度和准确率的关系

    Figure 14.  The relationship of resize parameter between detection speed and accuracy

    图 15  S=1, 3, 5时对应的热点图

    Figure 15.  The heat maps corresponding to S=1, 3, 5

    图 16  S=1, 3, 5时对应的候选区域

    Figure 16.  The probably proposals corresponding to S=1, 3, 5

    图 17  级联型网络结构检测结果

    Figure 17.  The test results of the cascade network

    表 1  TerraSAR-X数据基本信息

    Table 1.  The basic information of TerraSAR-X

    Satellite极化方式分辨率(rg×az)(m)像元间距(rg×az)(m)
    TerraSAR-XHH1.03×1.171.25×1.25
    下载: 导出CSV

    表 2  级联型网络结构、滑窗法、YOLO3检测结果

    Table 2.  The test results of cascade network, sliding window method and YOLO3

    精确率召回率检测速度(s/1000×1000)
    级联网络0.9520.9280.142
    滑窗法0.9270.9310.334
    YOLO30.9220.7530.041
    下载: 导出CSV

    表 3  类型图1检测结果统计

    Table 3.  The test results of type 1 image

    TPFNFP精确率召回率检测时间(s)
    级联法38231140.9650.92518.882
    滑窗法38825290.9300.93964.859
    YOLO32291280.9200.7805.860
    下载: 导出CSV

    表 4  类型图2检测结果统计

    Table 4.  The test results of type 2 image

    TPFNFP精确率召回率检测时间(s)
    级联法25919160.9420.93219.853
    滑窗法25622190.9310.92162.208
    YOLO21068180.9210.7555.321
    下载: 导出CSV

    表 5  滑窗法与级联法检测结果对比

    Table 5.  Comparison of sliding window and cascade method

    召回率检测时间时间比
    级联法0.9260.2733.34
    滑窗法0.9180.911
    下载: 导出CSV
  • [1] 刘俊凯, 李健兵, 马梁, 等. 基于矩阵信息几何的飞机尾流目标检测方法[J]. 雷达学报, 2017, 6(6): 699–708. doi: 10.12000/JR17058LIU Junkai, LI Jianbing, MA Liang, et al. Radar target detection method of aircraft wake vortices based on matrix information geometry[J]. Journal of Radars, 2017, 6(6): 699–708. doi: 10.12000/JR17058
    [2] 陈小龙, 关键, 黄勇, 等. 雷达低可观测动目标精细化处理及应用[J]. 科技导报, 2017, 35(20): 19–27.CHEN Xiaolong, GUAN Jian, HUANG Yong, et al. Radar refined processing and its applications for low-observable moving target[J]. Science &Technology Review, 2017, 35(20): 19–27.
    [3] 苏宁远, 陈小龙, 关键, 等. 基于卷积神经网络的海上微动目标检测与分类方法[J]. 雷达学报, 2018, 7(5): 565–574. doi: 10.12000/JR18077SU Ningyuan, CHEN Xiaolong, GUAN Jian, et al. Detection and classification of maritime target with micro-motion based on CNNs[J]. Journal of Radars, 2018, 7(5): 565–574. doi: 10.12000/JR18077
    [4] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014.
    [5] GIRSHICK R. Fast R-CNN[C]. Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 2016.
    [6] UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154–171. doi: 10.1007/s11263-013-0620-5
    [7] JIANG Huaizu and LEARNED-MILLER E. Face detection with the faster R-CNN[C]. Proceedings of the 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017), Washington, USA, 2017: 650-657.
    [8] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]. Proceedings of the 28th International Conference on Neural Information Processing Systems, Montreal, Canada, 2015.
    [9] REDMON J and FARHADI A. YOLOv3: An incremental improvement[J]. arXiv: 1804. 02767, 2018.
    [10] ZHOU Xinyu, YAO Cong, WEN He, et al. EAST: An efficient and accurate scene text detector[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017.
    [11] 伍广明, 陈奇, SHIBASAKI R, 等. 基于U型卷积神经网络的航空影像建筑物检测[J]. 测绘学报, 2018, 47(6): 864–872. doi: 10.11947/j.AGCS.2018.20170651WU Guangming, CHEN Qi, SHIBASAKI R, et al. High precision building detection from aerial imagery using a U-Net like convolutional architecture[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(6): 864–872. doi: 10.11947/j.AGCS.2018.20170651
    [12] ZHANG Zenghui, GUO Weiwei, ZHU Shengnan, et al. Toward arbitrary-oriented ship detection with rotated region proposal and discrimination networks[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(11): 1745–1749. doi: 10.1109/LGRS.2018.2856921
    [13] ZHAO Juanping, GUO Weiwei, ZHANG Zenghui, et al. A coupled convolutional neural network for small and densely clustered ship detection in SAR images[J]. Science China Information Sciences, 2019, 62(4): 42301. doi: 10.1007/s11432-017-9405-6
    [14] XIA Guisong, BAI xiang, DING Jian, et al. DOTA: A large-scale dataset for object detection in aerial images[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, USA, 2018.
    [15] DING Jian, XUE Nan, LONG Yang, et al. Learning RoI transformer for detecting oriented objects in aerial images[C]. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
  • [1] 刘泽宇柳彬郭炜炜张增辉张波周月恒马高郁文贤 . 高分三号NSC模式SAR图像舰船目标检测初探. 雷达学报, 2017, 6(5): 473-482. doi: 10.12000/JR17059
    [2] 张金松邢孟道孙光才 . 一种基于密集深度分离卷积的SAR图像水域分割算法. 雷达学报, 2019, 8(3): 400-412. doi: 10.12000/JR19008
    [3] 苏宁远陈小龙关键牟效乾刘宁波 . 基于卷积神经网络的海上微动目标检测与分类方法. 雷达学报, 2018, 7(5): 565-574. doi: 10.12000/JR18077
    [4] 赵飞翔刘永祥霍凯 . 一种基于Dropout约束深度极限学习机的雷达目标分类算法. 雷达学报, 2018, 7(5): 613-621. doi: 10.12000/JR18048
    [5] 徐丰王海鹏金亚秋 . 深度学习在SAR目标识别与地物分类中的应用. 雷达学报, 2017, 6(2): 136-148. doi: 10.12000/JR16130
    [6] 王俊郑彤雷鹏魏少明 . 深度学习在雷达中的研究综述. 雷达学报, 2018, 7(4): 395-411. doi: 10.12000/JR18040
    [7] 赵飞翔刘永祥霍凯 . 基于栈式降噪稀疏自动编码器的雷达目标识别方法. 雷达学报, 2017, 6(2): 149-156. doi: 10.12000/JR16151
    [8] 王思雨高鑫孙皓郑歆慰孙显 . 基于卷积神经网络的高分辨率SAR图像飞机目标检测方法. 雷达学报, 2017, 6(2): 195-203. doi: 10.12000/JR17009
    [9] 胡涛李卫华秦先祥王鹏余旺盛李军 . 基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法. 雷达学报, 2019, (): 1-8. doi: 10.12000/JR18065
    [10] 田壮壮占荣辉胡杰民张军 . 基于卷积神经网络的SAR图像目标识别研究. 雷达学报, 2016, 5(3): 320-325. doi: 10.12000/JR16037
    [11] 郑世超宋红军刘亚波闫贺吴琨 . 广域监视动目标检测模式下动目标快速定位误差分析. 雷达学报, 2013, 2(4): 445-453. doi: 10.3724/SP.J.1300.2013.13076
    [12] 张增辉郁文贤 . 稀疏微波SAR图像特征分析与目标检测研究. 雷达学报, 2016, 5(1): 42-56. doi: 10.12000/JR15097
    [13] 赵娟萍郭炜炜柳彬崔世勇张增辉郁文贤 . 基于概率转移卷积神经网络的含噪标记SAR图像分类. 雷达学报, 2017, 6(5): 514-523. doi: 10.12000/JR16140
    [14] 邢相薇计科峰康利鸿詹明 . HRWS SAR图像舰船目标监视技术研究综述. 雷达学报, 2015, 4(1): 107-121. doi: 10.12000/JR14144
    [15] 郑明洁闫贺张冰尘赵凤军杨汝良 . 基于DBS 图像的双通道广域监视雷达动目标检测和参数估计方法. 雷达学报, 2012, 1(1): 36-42. doi: 10.3724/SP.J.1300.2013.20007
    [16] 闫华陈勇李胜胡利平李焕敏殷红成 . 基于弹跳射线法的海面舰船目标三维散射中心快速建模方法. 雷达学报, 2019, 8(1): 107-117. doi: 10.12000/JR18078
    [17] 董纯柱胡利平朱国庆殷红成 . 地面车辆目标高质量SAR图像快速仿真方法. 雷达学报, 2015, 4(3): 351-360. doi: 10.12000/JR15057
    [18] 王璐璐王宏强王满喜黎湘 . 雷达目标检测的最优波形设计综述. 雷达学报, 2016, 5(5): 487-498. doi: 10.12000/JR16084
    [19] 程子扬何子述王智磊鲁彦希 . 分布式MIMO雷达目标检测性能分析. 雷达学报, 2017, 6(1): 81-89. doi: 10.12000/JR16147
    [20] 董纯柱殷红成王超 . 基于射线管分裂方法的SAR 场景快速消隐技术. 雷达学报, 2012, 1(4): 436-440. doi: 10.3724/SP.J.1300.2012.20064
  • 加载中
图(17)表(5)
计量
  • 文章访问数:  427
  • HTML浏览量:  146
  • PDF下载量:  91
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-03-11
  • 录用日期:  2019-06-10
  • 网络出版日期:  1970-01-01
  • 刊出日期:  2019-06-28

基于级联卷积神经网络的大场景遥感图像舰船目标快速检测方法

    通讯作者: 郭炜炜, weiweiguo@tongji.edu.cn
    作者简介: 陈慧元(1994–),女,内蒙古呼和浩特人,硕士,于2017年获南京理工大学学士学位,2017年9月至今,在上海交通大学电子信息与电气工程学院攻读硕士研究生。研究方向为基于深度学习的遥感图像目标检测。E-mail: chen940403@sjtu.edu.cn;刘泽宇(1993–),男,黑龙江哈尔滨人,博士,于2014年获上海交通大学学士学位,2014年9月至今,在上海交通大学电子信息与电气工程学院攻读博士研究生。研究方向为雷达图像解译、数据挖掘。E-mail: ribosomal@sjtu.edu.cn;郭炜炜(1983–),男,江苏南通人,博士,分别于2005, 2007, 2014年获得国防科技大学信息工程,信息与通信专业学士、硕士和博士学位。2008年—2010年在英国Queen Mary, University of London联合培养,2014年12月至2018年6月在上海交通大学电子信息与电气工程学院从事博士后研究工作,2018年12月至今为同济大学设计创意学院助理教授。研究方向为遥感图像理解、模式识别与机器学习、人机交互等。E-mail: weiweiguo@tongji.edu.cn;张增辉(1980–),男,山东金乡人,博士,分别于2001年、2003年和2008年在国防科技大学获得应用数学、计算数学、信息与通信工程专业学士、硕士和博士学位。2008年6月至2013年7月,为国防科技大学数学与系统科学系讲师;2014年2月至今,为上海交通大学电子信息与电气工程学院副研究员。研究方向为SAR图像解译、雷达信号处理等。E-mail: zenghui.zhang@sjtu.edu.cn;郁文贤(1964–),男,上海松江人,博士,教授,博士生导师,上海交通大学讲席教授,教育部长江学者特聘教授,上海市领军人才。现为上海交通大学信息技术与电气工程研究院院长,北斗导航与位置服务上海市重点实验室主任,智能探测与识别上海市高校重点实验室主任。研究方向为遥感信息处理、多源融合导航定位、目标检测识别等。E-mail: wxyu@sjtu.edu.cn
  • ①. 上海交通大学电子信息与电气工程学院   上海   200240
  • ②. 同济大学同济–MIT城市科学国际联合实验室   上海   200243
基金项目:  国家自然科学基金(61331015, U1830103)

摘要: 针对大场景遥感图像舰船目标的快速检测问题,该文设计了一种级联型卷积神经网络检测框架。该检测框架由目标预筛选全卷积网络(P-FCN)和目标精确检测全卷积网络(D-FCN)两个全卷积网络级联而成。P-FCN是一个轻量级的图像分类网络,负责对大场景图像中可能的舰船区域进行快速预筛选,其层数少、训练简单,候选框冗余较少,能够减少后续网络的计算负担;D-FCN是一个改进的U-Net网络,通过在传统U-Net结构中加入目标掩膜和舰船朝向估计层以进行多任务的学习,实现任意朝向舰船目标的精细定位。该文分别使用TerraSAR-X雷达遥感图像和从91卫图、DOTA数据集中获得的光学遥感图像对算法进行了测试,结果表明该方法的检测准确率分别为0.928和0.926,与传统滑窗法相当,但目标检测时间仅为滑窗法的1/3左右。该文所提的级联型卷积神经网络检测框架在保持检测精度的前提下能显著提高目标检测效率,可实现大场景遥感图像中舰船目标的快速检测。

English Abstract

    • 遥感图像目标检测是遥感技术领域研究的重要课题之一,基于遥感图像的舰船检测在民用和军事领域得到广泛关注。传统的遥感图像目标检测方法主要采用从粗到细的多步骤策略,一般包括预处理、海陆分割、感兴趣区域提取、目标鉴别等[1,2]。这种多步骤策略各步骤之间相互独立,每一步骤需要针对具体问题,设计相应的解决方案,存在流程固化、自动化、智能化程度不足等问题。目前,深度学习技术由于其强大的特征表示和端到端的学习能力使得目标检测性能有了极大地提升[3]。通常,基于深度学习的目标检测方法首先也是从图像中提取候选区域,然后采用卷积神经网络(Convolution Neural Network, CNN)等深度神经网络对候选区域进行鉴别和边界框回归,例如,文献[4,5]提出的区域卷积神经网络(Region-based Convolutional Neural network method, RCN)、快速区域卷积神经网络(Fast Region-based Convolutional Neural network method, Fast-RCN),使用selective search的方法产生候选区域,然后用CNN网络对候选区域进行分类。但是selective search方法中候选区域重叠,产生冗余,且无法在GPU上训练,检测效率低[6]。随后,文献[7,8]提出Faster-RCNN检测网络,其首先通过一个区域生成网络 (Region Propsal Network, RPN)来产生候选区域,然后再采用一个分类网络对候选区域进行分类和边界框回归,并且RPN网络和分类网络共享底层的特征提取层,极大地提升了训练速率。文献[9]中提出的YOLO网络,将物体检测作为回归问题求解,完成从原始图像的输入到物体位置和类别的输出,提高了目标检测速度,但是对于小目标的检测效果较差。CNN的计算瓶颈主要在于高维全连接层,其不仅参数多,计算复杂度高,容易导致过拟合,而且需要同样大小的图像输入,因此文献[10,11]提出了基于全卷积网络结构(Fully Convolutional Neural network, FCN)的目标检测方法,其主要特点是去除了CNN中的全连接层并对末层特征进行多层的反卷积,生成与输入图像分辨率一致的输出层,实现了图像的像素级分类,可以达到更好的检测效果。

      针对大尺寸遥感图像的舰船检测,由于遥感图像尺寸较大(一般包含百万以上的像素点),而舰船目标在遥感图像中稀疏分布且相对尺寸较小,如果直接将图像输入到上述神经网络中进行处理,往往是不可行的。因此,目前针对大场景遥感图像下的舰船检测,主要使用滑窗的方法将大图分割为切片后送入到深度网络中检测。但是滑窗法存在大量的冗余计算,且对于滑窗参数(窗口大小、滑动间隔步长)的选择依赖性太高,影响目标的检测效率和检测精度[12,13]。因此,本文提出一种级联型的全卷积网络模型,将两个全卷积网络级联,第1个网络是一个简单的全卷积分类网络,实现大尺寸图像中船/非船区域的筛选;第2个网络是一个改进的U-Net 结构,通过在传统U-Net结构中加入目标掩膜和舰船朝向估计层以进行多任务的学习, 实现任意朝向舰船目标的精细定位。

    • 深度学习的方法在处理大尺寸遥感图像时,为了降低计算量、提高检测精度,首先采用滑窗的方法将大图分割为切片,然后将切片送入到Faster-RCNN, YOLO等神经网络模型中进行检测。但是滑窗法的使用出现大量冗余信息,严重影响检测效率,且对滑窗参数依赖性比较大,可能出现漏船、船体截断的现象。

      基于以上考虑,对于大场景遥感图像检测,本文设计了一种级联型的全卷积网络结构,图1为网络总体的框架图。目标预筛选全卷积网络(FCN for Prescreening, P-FCN)和目标精确检测全卷积网络(FCN for Detection, D-FCN)是两个级联的全卷积网络,P-FCN利用深度学习的方法实现了传统检测方法中的预筛选功能。将一张大尺寸的遥感图像输入P-FCN中后,得到包含舰船位置信息的热点图(heatmap),根据热点图得到疑似有船的候选区域,将候选区域送入到D-FCN网络中进行精确的舰船检测,最终通过两个级联的网络实现了对于大尺寸遥感图像下的目标快速检测。

      图  1  级联型网络总体架构图

      Figure 1.  The overall frame structure of cascading network

    • P-FCN主要完成传统目标检测步骤中的预筛选功能,是一个简单的图像分类网络。与传统FCN网络不同,P-FCN不需要像素级分类即可实现目标预筛选,因此P-FCN不包含反卷积过程。为了满足检测速度的要求,将P-FCN设计为一个简单的4层全卷积结构,包含3个卷积层和1个池化层。如图1所示,P-FCN结构图中,Conv1卷积核大小为5×5,步长为4, Padding模式为“SAME”; Conv2卷积核大小为5×5,步长为4, Padding模式为“SAME”; Conv3卷积核大小为4×4,步长为1, Padding模式为“VALID”; Pooling1中卷积核大小为2×2,步长为2, Padding模式为“SAME”。

      图2为P-FCN整体实验过程,主要分为测试和训练两个部分。训练时,将分为船和背景两类、尺寸为128×128的遥感图像输入到P-FCN网络中,得到包含船和背景特征的预训练模型。测试时,将尺寸为[W, H] (W为图像宽、H为图像长)图像,输入到预训练模型中,得到包含舰船位置信息的热点图。由于P-FCN中Conv1, Conv2, Pooling1中的Padding模式均为“SAME”,其输出特征图大小仅与步长有关。图像经过Conv2后,输出特征图尺寸见式(1)。Conv3中Padding模式为“VALID”,其输出尺寸与步长、卷积核尺寸均有关,图像经过Conv3后,最终输出热点图尺寸见式(2)。其中$[W,H]$为原图尺寸,$[{W_{{\rm{Conv2}}}},{H_{{\rm{Conv2}}}}]$为经过Conv2后特征图尺寸,$[{W_{{\rm{Conv3}}}},{H_{{\rm{Conv3}}}}]$为经过Conv3后特征图尺寸,$[{W_{{\rm{f3}}}},{H_{{\rm{f3}}}}]$为Conv3卷积核尺寸,${S_{{\rm{f3}}}}$为Conv3卷积步长,$\left\lceil {} \right\rceil $为向上取整符号。

      图  2  P-FCN实验过程

      Figure 2.  The experimental process of P-FCN

      $ [{W_{{\rm{Conv2}}}},{H_{{\rm{Conv2}}}}] = \left[ {\left\lceil {\frac{W}{{32}}} \right\rceil ,\left\lceil {\frac{H}{{32}}} \right\rceil } \right] \hspace{35pt} $

      $ \begin{aligned} [{W_{{\rm{Conv}}3}},{H_{{\rm{Conv3}}}}] =& \left[ \left\lceil {\frac{{{W_{{\rm{Conv2}}}} - {W_{{\rm{f3}}}} + 1}}{{{S_{{\rm{f3}}}}}}} \right\rceil ,\right. \\ {\rm{}}& \left.\left\lceil {\frac{{{H_{{\rm{Conv2}}}} - {W_{{\rm{f3}}}} + 1}}{{{S_{{\rm{f3}}}}}}} \right\rceil \right] \end{aligned} $

      为了得到原始图像中的舰船疑似位置,本文使用双线性插值方法将热点图变换到原图尺寸。最后对热点图进行连通域分析、候选框筛选等图像处理,得到疑似包含船的候选区域,实现快速预筛选功能。

      由于P-FCN网络测试过程中,输入图像尺寸较大(均包含百万像素点),因此,本文在测试前通过对不同分辨率的图像设置不同的resize参数值(S),使得在保证一定准确率的情况下提高检测速度。图像resize公式为

      $ [{W_{{\rm{new}}}},{H_{{\rm{new}}}}] = \left[ {\frac{W}{S},\frac{H}{S}} \right] $

      其中,S为resize参数,W, H为原图尺寸,Wnew, Hnew为resize后图像尺寸。

    • 由于网络是一个级联型的结构,两个网络结构单独训练,因此需要分别计算损失函数。P-FCN不是一个传统的FCN网络,不包含反卷积过程。训练时,输入图像尺寸为128×128,经过P-FCN后,输出尺寸为1×2,即实现舰船、背景的二分类。P-FCN使用交叉熵计算损失,式(4)为P-FCN中损失函数的计算公式,需要优化的目标函数是整个数据集中所有数据loss求和。其中N表示训练集中样本个数,$y$表示图像真实的标签,$\hat y$表示预测标签。

      $ {L_{{\rm{P {\tiny{-}} FCN}}}} = \sum\limits_{i = 0}^{N - 1} \bigr[ - {y_i}\log {{\hat y}_i} -\bigr(1 - {y_i}\bigr)\log \bigr(1 - {{\hat y}_i}\bigr) \bigr] $

    • D-FCN是一个改进的U-Net结构,图3为D-FCN结构图。D-FCN主要分为3个部分:特征提取、特征融合以及结果输出。在特征提取中为了避免训练过程中可能出现的过拟合以及梯度爆炸等问题,采用迁移学习的方法,通过借鉴ResNet50模型,完成对特征提取网络的初始化。特征融合部分借鉴了U-Net思想,在FCN的基础上,融合了卷积网络中高维和低维的特征,实现图像像素级分类的同时,提高了检测精度。结果输出部分,通过3个1×1的卷积层,分别得到1通道的置信分数图、4通道的矩形框边界信息图以及1通道的舰船旋转角度图。

      图  3  D-FCN结构图

      Figure 3.  The frame structure of D-FCN

      传统U-Net模型在训练中将网络中的底层特征与原图对比构建损失函数,再利用反向传播算法对模型参数进行迭代更新。但是根据反向传播算法原理,模型中最靠近损失约束的参数将优先得到更新,其他参数的更新幅度会随着传播距离的拉长而逐渐衰减,这就导致了传统的U-Net 模型在训练时偏重底层参数的更新,对顶层的参数优化程度相对较差[11]。据此,本文通过在模型顶层引入额外的损失约束,使不同层级的参数都能得到较好的优化,从而进一步提升检测精度。

    • 舰船目标旋转矩形框定位需要两个参数:舰船朝向角度和矩形框边界信息。在D-FCN网络中,首先对训练数据中的舰船目标按照顺时针方向,使用旋转矩形框对顶点坐标进行标注,然后根据标注信息生成目标掩膜,见图4,其中图4(a)为原始图像,图4(b)为根据真值坐标生成的目标掩膜,图4(c)为训练中得到的预测掩膜。最后对目标掩膜中的每个像素点定义为

      图  4  SAR图像与光学图像中真值目标掩膜与预测目标掩膜生成

      Figure 4.  The true target masks and the predictive target masks of SAR images and optical images

      $ G = \{ {d_{\rm{t}}},{d_{\rm{r}}},{d_{\rm{b}}},{d_{\rm{l}}},\theta \},\;\;\theta \in [0, {{π}}) $

      得到矩形框旋转角度信息和矩形框边界信息。其中${d_i}$表示判别为舰船的像素点到旋转矩形框4边的距离,$\theta $为矩形框旋转角度,即舰船朝向,定义为船头船尾连线与图像水平方向的夹角,见图5

      图  5  旋转矩形框定位

      Figure 5.  Rotating rectangle positioning

    • D-FCN是一个改进的U-Net结构,实现任意旋转方向的舰船检测,除了原有的底层损失外,加入了顶层损失,因此,D-FCN中总的损失函数为

      $ {L_{{\rm{D {\tiny{-}}FCN}}}} = {L_{{\rm{top}}}} + {L_{{\rm{bottom}}}} $

      其中,${L_{{\rm{bottom}}}}$为底层输出结果与真值图的损失值,${L_{{\rm{top}}}}$为顶层输出结果与相应低分辨率真值图的损失值。顶层损失与底层损失的计算过程相同,以底层约束为例,其损失约束分为分类损失和几何损失

      $ {L_{{\rm{bottom}}}} = {L_{{\rm{cls}}}} + {L_{{\rm{geo}}}} $

      其中,${L_{{\rm{cls}}}}$表示分类损失,在U-Net的预测图中,每个像素点的值代表舰船的置信分数,本文将大于0.5的值设置为255,得到预测掩模。使用Diss Loss方法通过将预测掩模与真实掩模作比较,构建分类损失函数见式(8),其中${y_{{\rm{cls}}}}$代表真实掩模,${\hat y_{{\rm{cls}}}}$代表预测掩模

      $ {L_{\rm cls}} = \frac{{2\left| {{y_{{\rm{cls}}}} \cap {{\hat y}_{{\rm{cls}}}}} \right|}}{{\left| {{y_{\rm cls}}} \right| + \left| {{{\hat y}_{{\rm{cls}}}}} \right|}} $

      几何损失包含矩形框定位损失和旋转角度损失,见式(9)

      $ {L_{\rm geo}} = {L_{\operatorname{bbox} }} + {L_{\rm{\theta }}} $

      其中,${L_{{\rm{bbox}}}}$为矩形框损失使用IoU计算矩形框损失,其表达式见式(10),其中$\hat R$代表预测的掩膜区域,$R$代表真实的掩膜区域。

      $ {L_{{\rm{bbox}}}} = - \log {\rm{IoU}}(\hat R,R) = - \log \frac{{\left| {\hat R \cap R} \right|}}{{\left| {\hat R \cup R} \right|}} $

      ${L_{\rm{\theta }}}$为旋转角度损失,计算方法为

      $ {L_{\rm{\theta }}} = 1 - \cos (\hat \theta - \theta ) $

      其中,$\hat \theta $代表预测的旋转角度,$\theta $代表真实的旋转角度。

    • 本文主要针对大尺寸遥感图像舰船检测设计一种级联型网络结构,实现舰船位置快速预筛选与舰船精确检测。本文分别使用SAR图像和高分辨率光学遥感图像对网络结构进行测试。在SAR舰船检测实验中,将级联型网络分别与滑窗法以及YOLO3网络进行比较,验证网络性能。在高分辨率光学遥感图像舰船检测中,由于YOLO3只能获得目标的正置边界框,无法估计有朝向的舰船目标,因此只将级联型网络与传统滑窗方法做对比,验证网络性能。

    • (1) 数据集构建

      在SAR图像目标检测实验中,主要包括从TerraSAR-X中获取的8景数据(包括上海港、横滨港、汕港等数据),具体图像信息见表1

      Satellite极化方式分辨率(rg×az)(m)像元间距(rg×az)(m)
      TerraSAR-XHH1.03×1.171.25×1.25

      表 1  TerraSAR-X数据基本信息

      Table 1.  The basic information of TerraSAR-X

      实验过程主要分为训练和测试两个部分,训练时,P-FCN使用包含船与背景的128×128尺寸图像,包括7773张舰船图片,11780张背景图片。D-FCN使用512×512尺寸共4731张SAR图像进行训练。测试时,使用TerraSAR-X中截取的10张大尺寸遥感图像(3000×3000以上)对网络结构进行测试分析。

      (2) P-FCN训练数据集分析

      P-FCN网络主要针对大尺寸遥感图像进行舰船位置预筛选,实现图像分类功能。P-FCN训练数据分为背景(负样本)与舰船(正样本)两类,其中背景数据包括陆地、海岸、海面等类型,舰船数据包括简单海洋背景目标、复杂海洋背景目标(包含海浪、浮标等)、靠岸目标、包含单个目标以及包含多个目标等类型。

      图6为P-FCN训练数据集统计,包括TerraSAR-X图像中单张图像包含目标数目统计以及目标像素尺寸统计。其中图6(a)表示TerraSAR-X目标数目统计,图6(b)表示TerraSAR-X目标像素尺寸统计。图6表明P-FCN训练数据集基本包含了所有舰船目标类型:包括不同目标数目、不同目标像素尺寸,满足训练要求。图6(b)显示训练样本中目标像素尺寸集中在128以内,对于尺寸大于128的目标类型,由于训练样本的作用是提取舰船特征,最终提取出的heatmap面积大于128,因此可以实现预筛选的功能。

      图  6  P-FCN训练TerraSAR-X数据集统计

      Figure 6.  The training TerraSAR-X dataset statistics of P-FCN

    • (1) P-FCN测试图像resize参数分析

      本文针对大尺寸遥感图像舰船检测设计了一种全卷积网络级联结构,见图1。其中P-FCN实现舰船位置快速预筛选,D-FCN实现舰船精确检测。由于输入图像尺寸较大,严重影响检测速度,因此,在P-FCN网络测试前加入了图像缩放过程,见图2,通过设置resize参数值,在保证一定检测精度的情况下,提高检测速度。

      为了得到最优的resize参数,选取10张不同尺寸的SAR图像进行测试。分别比较resize参数与检测速度和准确率的关系,见图7。其中图7(a)表示resize参数与检测速度的关系(检测速度用检测时间的倒数表示)。由于图片尺寸不同,单张图片测试速度差异较大,因此将检测时间的单位设为${\rm{s}}/1000\times$1000,即平均每1000×1000尺寸图像所用时间。图7(b)表示resize参数与准确率(召回率)的关系。

      图  7  resize参数与检测速度和准确率的关系

      Figure 7.  The relationship of resize parameter between detection speed and accuracy

      图8图9分别展示了resize参数(S)为1, 3, 5时对应的热点图以及候选区域。根据图7图9,对resize参数做如下分析:

      图  8  S=1, 3, 5时对应的热点图

      Figure 8.  The heat maps corresponding to S=1, 3, 5

      图  9  S=1, 3, 5时对应的候选区域

      Figure 9.  The probably proposals corresponding to S=1, 3, 5

      (a) 图8图9显示,S=1时,P-FCN网络能够较精确的估计舰船所在位置,但是候选区域较多,且存在大量虚警,影响D-FCN中的检测速度。S增大时,候选区域数量逐渐减少,且候选框面积增大。S=3时,候选区域相对较少,且能够筛选出图像中的所有船只,且虚警率较小,基本达到预筛选的要求。S=5时,候选框数量进一步减少,但是部分候选区域面积过大,影响D-FCN检测速度,且由于图像分辨率较低,预筛选时出现漏检现象,影响检测精度。

      (b) 从图7(a)中可以看出,在S=3之前,由于输入图像尺寸较大,影响检测速度的主要是P-FCN网络。进行图像缩放后,由于计算量大量减少,因此,检测速度加快。在S=3之后,P-FCN网络对检测速度的影响逐渐减小,D-FCN网络对检测速度的影响增大,根据(a)中的分析,随着S增大,候选框面积增大(可以达到3000×5000左右),D-FCN中计算量较大,因此检测速度增加相对平缓。从图6(b)中可以看到,检测准确率随着S增大而降低。

      根据以上分析,由于S=3时检测速度相对较高,且准确率为0.928,基本满足舰船检测要求,因此,在P-FCN网络中将resize参数值设为3。 由于resize的目的是在保证一定检测精度的前提下降低分辨率,提高检测速度。从目前实验结果中可以得到的结论为,分辨率降低为3 m时,不会影响检测效果,因此对于其他分辨率图像可按比例设置resize系数。

      (2) 预筛选结果分析

      本文用到的级联型网络结构中,P-FCN网络预筛选是针对大场景遥感图像目标检测的重要步骤,能够实现对大场景遥感图像中舰船位置快速预筛选功能,使得在保证检测精度的情况下提升检测速度。预筛选实验主要对TerrSAR-X中截取的10张大尺寸图片进行测试,实验结果展示了具有代表性的两张TerraSAR-X图像(包含简单环境与复杂环境下的目标),见图10图10(a)图片尺寸为14439×9484,预筛选时间为9.048 s(类型图1),图10(b)图片尺寸为14368×9484,预筛选时间为9.377 s(类型图2)。实验结果显示,P-FCN网络能够进行舰船位置的粗略预筛选,对海岸以及部分亮且细的海上建筑存在一定虚警,但是基本不存在漏检情况,满足检测需求。

      图  10  TerraSAR数据P-FCN测试结果

      Figure 10.  The test result of TerraSAR in P-FCN

      (3) 检测结果分析

      在舰船检测实验中,将级联型网络结构与滑窗法、YOLO3做对比。用召回率(Recall)、精确率(Precision)衡量检测精度,用检测时间衡量检测效率。表2为对比实验结果,由于测试图片尺寸不一致,因此检测时间单位设为s/1000×1000。其中级联网络检测时间包括预筛选时间与D-FCN精确检测时间之和;滑窗法检测时间包括滑窗时间与D-FCN精确检测时间之和;YOLO3检测时间为YOLO3网络目标精确检测时间。表2结果显示,级联法由于使用P-FCN网络进行预筛选,与滑窗法、YOLO3网络相比,虚警较少,精确率较高。而相比滑窗法由于检测冗余较少,检测速度是滑窗法的2.35倍,相比YOLO3网络,检测召回率为0.928,检测精度更高。

      精确率召回率检测速度(s/1000×1000)
      级联网络0.9520.9280.142
      滑窗法0.9270.9310.334
      YOLO30.9220.7530.041

      表 2  级联型网络结构、滑窗法、YOLO3检测结果

      Table 2.  The test results of cascade network, sliding window method and YOLO3

      图11图12为类型图1、类型图2检测结果,图11(a)(b)(c)图12(a)(b)(c)分别表示级联法、滑窗法、YOLO3检测结果,为了分析检测结果,将部分检测区域放大。其中绿色表示正确检测、红色表示漏警、蓝色表示虚警。表3表4为检测结果统计,使用TP(正确检测)、FN(漏警)、FP(虚警)、精确率、召回率、检测时间分别对级联法、滑窗法、YOLO3进行评价分析。根据检测结果可以看到,级联法相比滑窗法,召回率相似,但虚警较低,且检测速度具有明显的提升;相比YOLO3网络,YOLO3具有很高的检测速度,但图11(c)图12(c)显示,YOLO3对于复杂场景(并排、密集分布、小目标舰船)检测效果较差,召回率较低。

      TPFNFP精确率召回率检测时间(s)
      级联法38231140.9650.92518.882
      滑窗法38825290.9300.93964.859
      YOLO32291280.9200.7805.860

      表 3  类型图1检测结果统计

      Table 3.  The test results of type 1 image

      TPFNFP精确率召回率检测时间(s)
      级联法25919160.9420.93219.853
      滑窗法25622190.9310.92162.208
      YOLO21068180.9210.7555.321

      表 4  类型图2检测结果统计

      Table 4.  The test results of type 2 image

      图  11  类型图1检测结果

      Figure 11.  The test results of type 1 image

      图  12  类型图2检测结果

      Figure 12.  The test results of type 2 image

    • (1) 数据集构建

      在光学图像目标检测实验中,主要包括从91卫图和DOTA数据集中获取的数据,分辨率均为1 m左右[14,15]

      实验过程主要分为训练和测试两个部分,训练时,P-FCN均使用包含船与背景的128×128尺寸图像,包括4454张舰船图片,14524张背景图片。D-FCN使用512×512尺寸共3126张光学遥感图像进行训练,由于光学遥感图像目标特征相对SAR图像更加明显,因此,对光学遥感图像增加舰船旋转角度信息。测试时,使用大尺寸遥感图像(3000×3000以上)共50张光学遥感数据(包含10张DOTA数据和40张91卫图数据)。

      (2) P-FCN训练数据集分析

      针对光学图像P-FCN数据集构建时,与SAR图像相同,分为舰船与背景两类,并且对于正负样本的选择同样包括不同类型。

      图13为P-FCN训练数据集统计,包括光学遥感图像中单张图像包含目标数目统计、目标像素尺寸统计以及目标朝向统计。其中图13(a)表示光学图像中单个样本中目标数目统计,图13(b)表示光学图像中目标像素尺寸统计, 图13(c)表示光学图像中目标旋转角度统计。图13表明P-FCN训练数据集基本包含了所有舰船目标类型:不同目标数目、不同目标像素尺寸以及不同目标旋转方向,满足训练要求。

      图  13  P-FCN 光学图像训练数据集统计

      Figure 13.  The training dataset statistics of P-FCN

    • 针对大尺寸高分辨率光学遥感图像舰船检测,在P-FCN网络预筛选过程中,本文选取10张不同尺寸的光学遥感图像对resize参数的选取进行测试分析,分别比较了resize参数与检测速度、准确率的关系,见图14图14(a)表示resize参数与检测速度关系,检测速度用检测时间倒数表示,同样将检测时间单位设为s/1000×1000,图14(b)表示resize参数与准确率(召回率)的关系。图15图16分别表示不同resize参数对应的热点图与候选区域。图14图16显示,S=3时,对于光学遥感图像舰船检测,检测速度较高,且准确率为0.926,满足舰船检测要求。因此,在光学遥感图像舰船检测实验中将resize参数设为3。

      图  14  resize参数与检测速度和准确率的关系

      Figure 14.  The relationship of resize parameter between detection speed and accuracy

      图  15  S=1, 3, 5时对应的热点图

      Figure 15.  The heat maps corresponding to S=1, 3, 5

      图  16  S=1, 3, 5时对应的候选区域

      Figure 16.  The probably proposals corresponding to S=1, 3, 5

    • 实验过程中,使用50张尺寸不同的高分辨率光学遥感图像对网络性能进行验证。由于YOLO3只能获得目标的正置边界框,对于有朝向的舰船目标不能估计有方向的边界框,因此在光学图像实验中,只将级联型网络与传统滑窗方法做对比。其中滑窗尺寸设置为512×512,步长设置为256,在结果分析中使用召回率衡量检测精度,使用检测时间(s/1000×1000)衡量检测速度。检测结果见表5。结果显示,在大尺寸高分辨率光学遥感图像舰船检测中,级联法与滑窗法检测精度相似,但级联法的检测速度是滑窗法的3.34倍。

      召回率检测时间时间比
      级联法0.9260.2733.34
      滑窗法0.9180.911

      表 5  滑窗法与级联法检测结果对比

      Table 5.  Comparison of sliding window and cascade method

      实验结果中展示了具有代表性的3张大尺寸光学遥感图像(包括密集、并排、靠岸舰船),包括P-FCN网络生成的热点图、候选区域预筛选结果,以及D-FCN精确检测结果。由于光学图像训练时加入舰船旋转角度信息,因此,检测结果中包含舰船旋转角预测,见图17图17显示针对大场景光学遥感图像,级联型网络结构能够对舰船位置进行快速预筛选,并且实现任意朝向舰船的精确定位,检测速度较快,检测精度较高,基本满足目标检测要求。

      图  17  级联型网络结构检测结果

      Figure 17.  The test results of the cascade network

    • 本文针对大场景遥感图像下的舰船快速检测,设计了一种级联型的网络结构。整体框架包括两个全卷积网络,第1个全卷积网络(P-FCN)是一个简单的二分类网络,实现对于舰船位置的快速筛选功能;第2个网络(D-FCN)是一个改进的U-Net结构,在传统U-Net网络中加入了顶层损失约束,使不同层级的模型参数均能得到较好地优化,提高检测精度。为了降低大尺寸图像在网络中的计算量,测试时,在P-FCN网络中加入了图像缩放(resize)步骤,并且通过比较resize参数与检测速度和检测精度(召回率)的关系,找到最优参数,使得在满足一定检测精度的前提下,提高检测速度。

      实验过程中,对级联型网络结构同时在TerraSAR图像和光学图像中进行了测试。在SAR舰船检测实验中,使用10张TerraSAR图像,将级联法与滑窗法、YOLO3进行对比分析,实验结果表明:(1)级联型网络结构中P-FCN能够进行舰船位置的快速预筛选,排除大量背景冗余信息,虚警率较低;(2)TerraSAR数据测试结果表明,相对于滑窗法,在检测精度相当的情况下,本文的级联网络将检测耗时缩短为原来的1/3左右;(3)YOLO3本质上属于“one-step”的检测方法,在检测速度上有先天的优势,但对于复杂场景的适应性差。在舰船密集排布、舰船尺寸多样等场景中,检测精度低,无法达到级联网络和滑窗法相同的精度水平。在光学遥感图像舰船检测实验中,使用50张光学图像将级联法与滑窗法进行对比分析,结果显示,在光学图像中,级联法在与滑窗法检测精度相当的情况下,检测耗时同样缩短为原来的1/3左右。因此,本文所提级联型网络结构能够在保证一定检测精度的前提下,提升检测速度,满足检测需求。

参考文献 (15)

目录

    /

    返回文章
    返回