基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法

胡涛 李卫华 秦先祥 王鹏 余旺盛 李军

引用本文:
Citation:

基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法

    作者简介: 胡 涛(1994–),男,湖南浏阳人,空军工程大学信息与导航学院硕士,研究方向为计算机视觉。E-mail: 1862965@163.com;李卫华(1964–),男,空军工程大学信息与导航学院教授,研究方向为指挥信息系统。E-mail: lwh_kgd@163.com ;秦先祥(1986–),男,广西阳朔人,空军工程大学信息与导航学院讲师,研究方向为SAR图像处理与分析。E-mail: qinxianxiang@126.com;王 鹏(1985–),男,空军工程大学信息与导航学院副教授,硕士生导师,研究方向为信息融合处理与分布式协同控制。E-mail: wangpeng@163.com;余旺盛(1985–),男,湖南平江人,空军工程大学信息与导航学院讲师,研究方向为计算机视觉与图像处理。E-mail: 853994682@qq.com;李 军(1983–),男,湖南邵阳人,空军工程大学信息与导航学院讲师,研究方向为信息处理技术。E-mail: 108857769@qq.com.
    通讯作者: 秦先祥, qinxianxiang@126.com
  • 中图分类号: TP391

Terrain Classification of Polarimetric Synthetic Aperture Radar Images Based on Deep Learning and Conditional Random Field Model

    Corresponding author: QIN Xianxiang, qinxianxiang@126.com ;
  • CLC number: TP391

  • 摘要: 近年来,极化合成孔径雷达(PolSAR)图像地物分类得到了深入研究。传统的PolSAR图像地物分类方法采用的特征往往需要针对具体问题进行设计,特征表征性不强。因此,该文提出一种基于卷积神经网络(CNN)和条件随机场(CRF)模型的PolSAR图像地物分类方法。利用预训练好的实现图像分类任务的卷积神经网络模型(VGG-Net-16)提取表征能力更强的图像特征,再通过CRF模型对多特征及上下文信息的有效利用来实现图像的地物分类。实验结果表明,与3种利用传统经典特征的方法相比,该方法能够提取更有效的特征,取得了更高的总体分类精度和Kappa系数。
  • 图 1  深度CRF模型流程图

    Figure 1.  The flow chart of deep CRF model

    图 2  Flevoland数据分类结果对比图

    Figure 2.  Comparison of Flevoland data classification results

    图 3  Oberpfaffenhofen数据分类结果对比图

    Figure 3.  Comparison of Oberpfaffenhofendata classification results

    图 4  不同层特征分类精度对比图

    Figure 4.  Accuracy comparison results of different layer classification results

    表 1  传统方法中用到的特征

    Table 1.  The features used in the traditional methods

    Cloude分解 Freeman分解 协方差矩阵对角线
    $H,\alpha ,A,{\lambda _{{1}}},{\lambda _{{2}}},{\lambda _{{3}}}$ Ps, Pd, Pv C11, C22, C33
    下载: 导出CSV

    表 2  Flevoland数据分类精度

    Table 2.  The classification accuracy of Flevoland data

    类别 方法1 方法2 方法3 方法4 方法5 本文方法
    豆类 0.971 0.833 0.967 0.863 0.920 0.808
    森林 0.759 0.940 0.733 0.943 0.945 0.868
    土豆 0.680 0.840 0.821 0.578 0.872 0.808
    苜蓿 0.609 0.892 0.719 0.781 0.932 0.990
    小麦 0.934 0.881 0.864 0.792 0.936 0.981
    裸地 0.514 0.871 0.903 0.980 0.998 0.899
    甜菜 0.913 0.903 0.895 0.905 0.897 0.978
    油菜籽 0.572 0.782 0.627 0.758 0.934 0.964
    豌豆 0.589 0.821 0.820 0.801 0.901 0.854
    草地 0.962 0.774 0.838 0.912 0.802 0.968
    水体 0.701 0.970 0.526 0.703 0.988 0.888
    总精度 0.751 0.870 0.778 0.797 0.933 0.905
    Kappa系数 0.720 0.854 0.752 0.774 0.911 0.890
    训练(s) 798 771 877 1211 7066 1052
    测试(s) 2.9 2.7 3.0 4.1 8.4 3.8
    下载: 导出CSV

    表 3  Oberpfaffenhofen数据分类精度

    Table 3.  The classification accuracy of Oberpfaffenhofen data

    类别 方法1 方法2 方法3 本文方法
    建筑区域 0.696 0.645 0.712 0.903
    林地 0.895 0.896 0.700 0.777
    开放区域 0.622 0.843 0.874 0.947
    总精度 0.691 0.804 0.800 0.903
    Kappa系数 0.529 0.680 0.668 0.834
    下载: 导出CSV
  • [1] NOVAK L M and BURL M C. Optimal speckle reduction in polarimetric SAR imagery[J]. IEEE Transactions on Aerospace and Electronic Systems, 1990, 26(2): 293–305 doi: 10.1109/7.53442
    [2] RANSON K J, SUN G, WEISHAMPEL J F, et al. An evaluation of AIRSAR and SIR-C/XSAR images for northern forest ecological studies in Maine, USA[C]. Proceedings of 1995 International Geoscience and Remote Sensing Symposium, IGARSS’95. Quantitative Remote Sensing for Science and Applications, Firenze, Italy, 1995: 994–996. doi: 10.1109/IGARSS.1995.521118.
    [3] YANG W, ZHANG X, CHEN L J, et al. Semantic segmentation of polarimetric SAR imagery using conditional random fields[C]. Proceedings of 2010 IEEE International Geoscience and Remote Sensing Symposium, Honolulu, HI, USA, 2010: 1593–1596. doi: 10.1109/IGARSS.2010.5652378.
    [4] CLOUDE S R and POTTIER E. An entropy based classification scheme for land applications of polarimetric SAR[J]. IEEE Transactions on Geoscience and Remote Sensing, 1997, 35(1): 68–78 doi: 10.1109/36.551935
    [5] ZHAO L W, ZHOU X G, JIANG Y M, et al. Iterative classification of polarimetric SAR image based on the freeman decomposition and scattering entropy[C]. Proceedings of the 1st Asian and Pacific Conference on Synthetic Aperture Radar, Huangshan, China, 2007: 473–476. doi: 10.1109/APSAR.2007.4418653.
    [6] LEE J S, GRUNES M R, and KWOK R. Classification of multi-look polarimetric SAR imagery based on complex wishart distribution[J]. International Journal of Remote Sensing, 1994, 15(11): 2299–2311 doi: 10.1080/01431169408954244
    [7] BEAULIEU J M and TOUZI R. Segmentation of textured polarimetric SAR scenes by likelihood approximation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(10): 2063–2072 doi: 10.1109/tgrs.2004.835302
    [8] WU Y H, JI K F, YU W X, et al. Region-based classification of polarimetric SAR images using wishart MRF[J]. IEEE Geoscience and Remote Sensing Letters, 2008, 5(4): 668–672 doi: 10.1109/LGRS.2008.2002263
    [9] 周晓光, 匡纲要, 万建伟. 极化SAR图像分类综述[J]. 信号处理, 2008, 24(5): 806–812 doi: 10.3969/j.issn.1003-0530.2008.05.023ZHOU Xiao-guang, KUANG Gang-yao, and WAN Jian-wei. A review of polarimetric SAR image classification[J]. Signal Processing, 2008, 24(5): 806–812 doi: 10.3969/j.issn.1003-0530.2008.05.023
    [10] 胡涛, 李卫华, 秦先祥, 等. 基于深度CRF模型的图像语义分割方法[J]. 空军工程大学学报(自然科学版), 2018, 19(5): 52–57HU Tao, LI Wei-hua, QIN Xian-xiang, et al. An image semantic segmentation based on deep CRF model[J]. Journal of Air Force Engineering University(Natural Science Edition), 2018, 19(5): 52–57
    [11] XIE W, JIAO L C, HOU B, et al. POLSAR image classification via wishart-AE model or wishart-CAE model[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(8): 3604–3615 doi: 10.1109/JSTARS.2017.2698076
    [12] ZHAO Z Q, JIAO L C, ZHAO J Q, et al. Discriminant deep belief network for high-resolution SAR image classification[J]. Pattern Recognition, 2017, 61: 686–701 doi: 10.1016/j.patcog.2016.05.028
    [13] GAO F, HUANG T, WANG J, et al. Dual-branch deep convolution neural network for polarimetric SAR image classification[J]. Applied Sciences, 2017, 7(5): 447 doi: 10.3390/app7050447
    [14] ZHOU Y, WANG H P, XU F, et al. Polarimetric SAR image classification using deep convolutional neural networks[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(12): 1935–1939 doi: 10.1109/LGRS.2016.2618840
    [15] ZHANG Z M, WANG H P, XU F, et al. Complex-valued convolutional neural network and its application in polarimetric SAR image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(12): 7177–7188 doi: 10.1109/TGRS.2017.2743222
    [16] WANG L, XU X, DONG H, et al. Multi-pixel simultaneous classification of PolSAR image using convolutional neural networks[J]. Sensors, 2018, 18(3): 769 doi: 10.3390/s18030769
    [17] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. ImageNet classification with deep convolutional neural networks[C]. Proceedings of the 25th International Conference on Neural Information Processing Systems, Lake Tahoe, Nevada, USA, 2012: 1097–1105. doi: 10.1145/3065386.
    [18] SZEGEDY C, LIU W, JIA Y Q, et al.. Going deeper with convolutions[C]. Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 2015: 1–9. doi: 10.1109/CVPR.2015.7298594.
    [19] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
    [20] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: An astounding baseline for recognition[C]. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops, Columbus, OH, USA, 2014: 512–519. doi: 10.1109/CVPRW.2014.131.
    [21] MIKA S, SCHÖLKOPF B, SMOLA A, et al.. Kernel PCA and de-noising in feature spaces[C]. Proceedings of 1998 Conference on Advances in Neural Information Processing Systems II, Cambridge, MA, USA, 1999: 536–542.
    [22] LAFFERTY J D, MCCALLUM A, and PEREIRA F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]. Proceedings of the 18th International Conference on Machine Learning, San Francisco, CA, USA, 2001: 282–289.
    [23] LI S Z. Markov Random Field Modeling in Computer Vision[M]. New York: Springer, 1995.
    [24] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[C]. Proceedings of the Advances in large Margin Classifiers, Cambrige, MA, USA, 1999: 61–74.
    [25] DOMKE J. Learning graphical model parameters with approximate marginal inference[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(10): 2454–2467 doi: 10.1109/TPAMI.2013.31
    [26] VEDALDI A and LENC K. MatConvNet: Convolutional neural networks for MATLAB[C]. Proceedings of the 23rd ACM International Conference on Multimedia, Brisbane, Australia, 2015: 689–692. doi: 10.1145/2733373.2807412.
    [27] 韩萍, 韩宾宾. 基于典型散射差异指数的PolSAR图像Lee滤波[J]. 系统工程与电子技术, 2018, 40(2): 287–294HAN Ping and HAN Bin-bin. Lee filter of PolSAR image based on typical scattering difference index[J]. Systems Engineering and Electronics, 2018, 40(2): 287–294
  • [1] 滑文强王爽郭岩河谢雯 . 基于邻域最小生成树的半监督极化SAR图像分类方法. 雷达学报, doi: 10.12000/JR18104
    [2] 祝晓静李飞王宇王伟孙翔 . 基于改进方位相位编码的全极化SAR距离模糊抑制方法. 雷达学报, doi: 10.12000/JR17015
    [3] 张新勋周生华刘宏伟 . 目标极化散射特性对极化分集雷达检测性能的影响. 雷达学报, doi: 10.12000/JR18112
    [4] 王福来庞晨李永祯王雪松 . 一种同时全极化雷达正交多相编码波形设计方法. 雷达学报, doi: 10.12000/JR16150
    [5] 刘宁赵博黄磊 . 单通道SAR抗欺骗干扰方法. 雷达学报, doi: 10.12000/JR18072
    [6] 王宇航杨敏种劲松 . 一种海洋涡旋SAR图像仿真方法. 雷达学报, doi: 10.12000/JR18052
    [7] 李亮洪峻明峰 . 电离层对中高轨SAR影响机理研究. 雷达学报, doi: 10.12000/JR17016
    [8] Wu YiquanWang Zhilai . SAR and Infrared Image Fusion in Complex Contourlet Domain Based on Joint Sparse Representation. 雷达学报, doi: 10.12000/JR17019
    [9] 赵耀邓云凯王宇李宁王伟 . 原始数据压缩对方位向多通道SAR系统影响研究. 雷达学报, doi: 10.12000/JR17030
    [10] 周阳毕大平沈爱国房明星 . 基于运动调制的SAR-GMTI间歇采样遮蔽干扰方法. 雷达学报, doi: 10.12000/JR16075
    [11] 叶恺禹卫东王伟 . 一种基于短偏移正交波形的MIMO SAR处理方案研究. 雷达学报, doi: 10.12000/JR17048
    [12] 林玉川张剑云武拥军周青松 . 双基星载HRWS-SAR系统方位向信号重构的矩阵求逆算法. 雷达学报, doi: 10.12000/JR17060
    [13] 李杭梁兴东张福博吴一戎 . 基于高斯混合聚类的阵列干涉SAR三维成像. 雷达学报, doi: 10.12000/JR17020
    [14] 陈世阳黄丽佳俞雷 . 基于改进sinc插值的变PRF采样聚束SAR成像. 雷达学报, doi: 10.12000/JR18095
    [15] 孟智超卢景月张磊 . 前视多通道SAR自适应鉴别抑制欺骗干扰. 雷达学报, doi: 10.12000/JR18081
    [16] 斯奇王宇邓云凯李宁张衡 . 一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法. 雷达学报, doi: 10.12000/JR17043
    [17] 王超王岩飞刘畅刘碧丹 . 基于参数估计的高分辨率SAR运动目标距离徙动校正方法. 雷达学报, doi: 10.12000/JR18054
    [18] 赵庆超张毅王宇王伟王翔宇 . 基于多帧超分辨率的方位向多通道星载SAR非均匀采样信号重建方法. 雷达学报, doi: 10.12000/JR17035
  • 加载中
图(4)表(3)
计量
  • 文章访问数:  60
  • HTML浏览量:  6
  • PDF下载量:  22
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-08-31
  • 录用日期:  2018-12-26

基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法

    通讯作者: 秦先祥, qinxianxiang@126.com
    作者简介: 胡 涛(1994–),男,湖南浏阳人,空军工程大学信息与导航学院硕士,研究方向为计算机视觉。E-mail: 1862965@163.com;李卫华(1964–),男,空军工程大学信息与导航学院教授,研究方向为指挥信息系统。E-mail: lwh_kgd@163.com ;秦先祥(1986–),男,广西阳朔人,空军工程大学信息与导航学院讲师,研究方向为SAR图像处理与分析。E-mail: qinxianxiang@126.com;王 鹏(1985–),男,空军工程大学信息与导航学院副教授,硕士生导师,研究方向为信息融合处理与分布式协同控制。E-mail: wangpeng@163.com;余旺盛(1985–),男,湖南平江人,空军工程大学信息与导航学院讲师,研究方向为计算机视觉与图像处理。E-mail: 853994682@qq.com;李 军(1983–),男,湖南邵阳人,空军工程大学信息与导航学院讲师,研究方向为信息处理技术。E-mail: 108857769@qq.com
  • ①. 空军工程大学信息与导航学院   西安   710077
  • ②. 国防科技大学电子对抗学院   合肥   230037

摘要: 近年来,极化合成孔径雷达(PolSAR)图像地物分类得到了深入研究。传统的PolSAR图像地物分类方法采用的特征往往需要针对具体问题进行设计,特征表征性不强。因此,该文提出一种基于卷积神经网络(CNN)和条件随机场(CRF)模型的PolSAR图像地物分类方法。利用预训练好的实现图像分类任务的卷积神经网络模型(VGG-Net-16)提取表征能力更强的图像特征,再通过CRF模型对多特征及上下文信息的有效利用来实现图像的地物分类。实验结果表明,与3种利用传统经典特征的方法相比,该方法能够提取更有效的特征,取得了更高的总体分类精度和Kappa系数。

English Abstract

    • 极化合成孔径雷达(Polarimetric Synthetic Aperture Radar, PolSAR)是一种先进的遥感信息获取手段[1]。与单极化相比,它通过测量每个分辨单元在不同收发极化组合下的散射特性,更完整地记录了目标后向散射信息,为详尽分析目标散射特性提供了良好的数据支持[2]。PolSAR图像地物分类的目的在于将图像划分成一系列具有特定语义信息的图像区域,是PolSAR图像理解和解译过程中的重要内容[3]

      传统的PolSAR图像地物分类方法主要通过目标分解和统计分布来实现。极化数据的目标分解方法有很多,如Cloude分解[4]和Freeman分解等[5]。统计分布模型主要有Wishart分布[6]和K分布[7]等。Lee等人[6]将目标分解和分布模型结合,提出了 $H/\alpha$ -Wishart方法,有效提高了地物分类精度。然而,这类方法没有考虑图像的上下文信息,易受相干斑噪声影响,因此很多研究者开始关注利用上下文信息的地物分类方法[3,8]。文献[3]在融合极化特征的基础上通过条件随机场(Conditional Random Field, CRF)模型利用上下文信息,能够得到区域一致性好的结果。上述方法利用的特征主要包括基于极化矩阵的组合变换、基于目标分解理论的特征参数和纹理特征等[9]。这些特征通常是针对具体问题进行设计,对先验知识的依赖程度较高,在很多情况下其表征能力往往不尽人意。解决该问题的一种常用思路是从PolSAR图像中提取多种特征向量堆叠成一个高维特征向量用于地物分类,但提取的高维特征往往包含大量冗余不相关信息,将导致部分特征向量的分类能力减弱或丧失[10]。因此,如何提取更具表达性的特征是当前提高图像地物分类方法性能的关键途径。

      目前,深度学习技术在PolSAR图像处理任务上的应用受到普遍关注,自编码器[11](Auto Encoders, AE)、深度信念网络[12] (Deep Belief Network, DBN)和卷积神经网络[13](Convolutional Neural Network, CNN)等多种深度神经网络模型相继用于PolSAR图像处理,其中CNN在图像处理中应用最为广泛。近年来有很多学者将CNN用于PolSAR图像地物分类[1416]。由于CNN网络输入一般为实数,在考虑相干矩阵各元素的基础上,文献[14]将PolSAR图像的复数相干矩阵转换为6维实向量来作为CNN模型的输入,提升了地物分类精度。文献[15]将CNN推广到复数域,有效利用了PolSAR图像通道间相干相位差蕴含的丰富信息。尽管上述基于深度学习的方法在地物分类精度上取得了显著提升,但与基于传统人工特征的方法相比,这些方法实现地物分类的速度普遍较慢。

      针对图像地物分类问题,一些学者设计了直接实现光学图像地物分类的CNN模型,并展现出优异的性能[1719]。考虑到不同类型图像之间往往存在共性,可认为,一个经过大型数据量训练好的CNN的前端网络可以作为图像特征提取的有效模型[20]。基于此并考虑到CRF的多特征和上下文信息利用优势,本文提出一种结合预训练CNN和CRF模型的图像地物分类方法。首先利用经典的CNN模型—VGG-Net-16来提取图像深层次特征,再通过CRF对多特征及上下文信息有效利用来完成图像的地物分类。

    • 针对传统图像地物分类方法受限于人工特征表征能力不强的问题,本文提出一种基于深度CRF模型的图像地物分类方法,采用VGG-Net-16提取图像深度特征,将提取到的特征用于训练CRF模型,实现图像地物分类。具体流程如图1所示,主要包含图像预处理、深度特征提取和分类3个阶段。

      图  1  深度CRF模型流程图

      Figure 1.  The flow chart of deep CRF model

    • 对于PolSAR数据, 每个像素点用T矩阵的9维向量来表示如式(1)

      $ \begin{align} V =& \{ {{T}}11, \; {{T}}22, \; {{T}}33, \; R({{T}}12), \; S({{T}}12), \; \\ {\rm{}}&R({{T}}13), \; S({{T}}13), \; R({{T}}23), \; S({{T}}23)\} \end{align} $

      其中, $R(\!\!{\raisebox{-1pt}{ {·}}} )$ $S(\!\!{\raisebox{-1pt}{ {·}}} )$ 分别为求实部和虚部。采用在普通光学图像上预训练好的VGG-Net-16模型作为特征提取器,其要求输入为3个通道的归一化图像[19],所以对滤波后的PolSAR图像采用文献[17]的方法实现归一化,然后对T矩阵的9维向量进行主成分分析(Principal Component Analysis, PCA)变换[21]实现数据降维,选择前3个主成分作为输入图像进行特征提取。

    • VGG-Net-16[19]是一种用于实现图像分类任务的卷积神经网络。其中的“16”表示该模型需要学习参数的层数。VGG-Net-16主要由5个卷积层(conv)(共13层)和3个连接层组成。其中,从conv1到conv5每组卷积层分别包含2, 2, 3, 3, 3层卷积,每个卷积层都使用尺寸为3×3的卷积核。在ImageNet数据集上训练后,VGG-Net-16中每个卷积层都可以作为一个特征提取器,提取目标不同层级的特征表达。

      VGG-Net-16模型要求输入图像尺寸为224×224,因此,需要将其分割为多个不重叠的尺寸为224×224的小图像,再将这些图像输入到VGG-Net-16中提取深度特征,其中,VGG-Net-16是在ImageNet数据集上已经完成预训练的网络。当输入图像尺寸小于224×224时,需要在输入数据的边界进行补0操作。将所有小图像利用VGG-Net-16提取完特征后,由于VGG-Net-16模型中的池化(pooling)操作,会使得提取到的深度特征的尺寸小于输入图像。采用的CRF模型需将提取到的特征与输入图像每个像素点逐一对应,因此将VGG-Net-16模型中提取到的特征图采用双线性插值方法上采样到原图像大小,然后将这些特征图重新拼接,最终得到与实验图像同尺寸的多维特征图,即可认为,为实验图像中的每个像素点提取到多维深度特征。在VGG-Net-16前5层提取的特征都是由多张特征图组成,故前5层都可作为特征提取层。VGG-Net-16后3层为全连接层,提取到的特征都是1维列向量,不适合作为训练本文CRF模型的特征。

    • CRF是Lafferty等人[22]提出的一种概率图模型,可表示为一个无向图模型 $G = \{ V,E\} $ ,其中 $V\;$ 表示图中节点集合, $E$ 表示节点间无向边的集合。

      假设图像观测向量为 ${{x}}$ ,类别标签 ${{y}}$ ,根据Hammersley-Clifford[23]定理,标记场的后验概率 $P\left( {{{y}}|{{x}}} \right)$ 服从Gibbs分布

      $ P\left( {{{y}}|{{x}},{{θ}}} \right) = \frac{1}{{Z\left( {{{x}},{{θ}}} \right)}}\prod\limits_{c \ \in C} {{\psi _c}} \left( {{y_c}|{{x}},{{θ}}} \right) $

      其中,归一化函数 $Z({{x}},{{θ}}) = \displaystyle\sum\nolimits_y {P({{y}}|{{x}},{{θ}})} $ , ${\psi _c}$ 为定义在集团 $c$ 上的势函数。

      势函数阶数的确定与实验需求紧密相关,阶数越高,可表征越大范围节点间的相关性,但模型复杂度也会随之提升。常用做法是仅定义单位置和双位置势函数[3,24],既可兼顾性能,模型复杂度也不会过高。因此,式(2)可改写为

      $ \begin{align} P\left( {{{y}}|{{x}},{{θ}}} \right) =& \frac{1}{{Z\left( {{{x}},{{θ}}} \right)}}\exp \left\{ {\sum\limits_{i \in \varOmega } {{\psi _i}\left( {{x_i},{{y}},{{{θ}}_A}} \right)} } \right. \\ {\rm{}}&\left. { + \sum\limits_{i \in \varOmega } {\sum\limits_{j \in {N_i}} {{\psi _{ij}}\left( {{x_i},{x_j},{{y}},{{{θ}}_I}} \right)} } } \right\} \end{align} $

      其中, $\varOmega $ 为所有节点的集合; ${N_i}$ 为节点 $i$ 的邻域, ${{θ}} = \{ {{{θ}}_A},{{{θ}}_I}\} $ 为模型参数, ${\psi _i}$ ${\psi _i}_j$ 分别表示单位置和双位置势函数。

      CRF模型中的单位置势函数 ${\psi _i}$ 用于对已知位置 $i$ 属于某一类的概率进行决策,只与位置 $i$ 的特征有关,邻域中相邻点的特征对语义类别标号不产生影响。本文采用广义线性模型定义单位置势函数[25]

      $ {\psi _i}\left( {{{{y}}_i},{{x}},{{{θ}}_A}} \right) = \exp \left\{ {{{{y}}_i}{{{θ}}_A}^{\!\! T}{{{g}}_i}({{x}})} \right\} $

      其中, ${{{θ}}_A}$ 为特征向量 ${{{g}}_i}({{x}})$ 包含的特征所对应的权值,其值在参数估计中确定。 ${{{g}}_i}({{x}})$ 表示第 $i$ 个点的特征。双位置势函数 ${\psi _i}_j$ 不仅要考虑邻域中相邻位置 $i$ $j$ 的特征对这两点的语义标签 ${{{y}}_i}$ ${{{y}}_j}$ 的作用,还应考虑对应语义标签之间的相互关系。本文双位置势函数同样采用广义线性模型

      $ {\psi _{ij}}\left( {{y_i},{y_j},{{θ} _I}} \right) = \exp \left( {{y_i}{y_j}{{θ} _I}^{\!\! T}{{{u}}_{ij}}({{x}})} \right) $

      $ {{{u}}_{ij}}({{x}}) = \left| {{g_i}({{x}}) - {g_j}({{x}})} \right| $

      其中, ${{{u}}_{ij}}({{x}})$ 为联合特征向量,表示特征向量间的差异对标号的影响, ${{θ} _I}$ 为向量 ${{{u}}_{ij}}({{x}})$ 的权重,其值在参数估计中确定。 ${y_i}$ ${y_j}$ 分别为相邻像素点的标号,当 ${y_i}$ ${y_j}$ 相同时, ${y_i}{y_j}$ 的值为1,当 ${y_i}$ ${y_j}$ 不相同时, ${y_i}{y_j}$ 的值为–1。从式(5)和式(6)可见,相邻像素点的特征越相似,则越可能被赋予相同的标号。确定CRF模型后需在训练阶段估计模型参数 ${θ}$ ,CRF模型参数估计方法有很多,如梯度上升和树重置信传播算法等[2627],本文采用树重置信传播算法估计模型参数。参数估计是迭代的过程,可以通过设置最大迭代次数来避免长时间无法收敛的情况。参数确定后,在固定的参数下搜索使得式(2)中的后验概率最大的最优解 ${{{y}}^ * }$ ,即 ${{{y}}^ * } \!=\! \arg {\max _{y}}\lg P\left( {{{y}}|{{x}},{{θ}}} \right)$ ,从而确定每个像素的类别标签,实现图像地物分类。

    • 为验证本算法有效性,在实验中主要选取以下与文中方法进行对比:基于Cloude分解和Freeman分解所得特征的CRF分类(简称方法1);基于Freeman分解和协方差矩阵对角线元素所得特征的CRF分类(简称方法2);将上述两种方法中的特征串联融合所得特征的CRF分类(简称方法3);基于Freeman分解和协方差矩阵对角线元素所得特征的SVM分类[24](简称方法4);一种基于CNN的方法[14](简称方法5)。

      表1给出了实验中传统方法用到的特征类型。本文方法选择提取VGG-Net-16模型conv5-3层特征进行对比实验。有关不同卷积层特征对算法性能的影响将在第3.3节进行分析。本文方法的特征提取在MatConvNet[26]深度学习平台上完成。参数估计过程中的最大迭代次数设置为1000次。分类性能综合评估指标为总体分类精度(Overall Accuracy, OA)、Kappa系数[9]、训练时间和测试时间。为减少相干斑噪声的影响,本文实验数据经过Lee滤波处理[27] 。所有实验在配置为Intel Core i7 2.80 GHz处理器和8 GB内存的计算机上完成。

      Cloude分解 Freeman分解 协方差矩阵对角线
      $H,\alpha ,A,{\lambda _{{1}}},{\lambda _{{2}}},{\lambda _{{3}}}$ Ps, Pd, Pv C11, C22, C33

      表 1  传统方法中用到的特征

      Table 1.  The features used in the traditional methods

    • 第1个实验数据是1989年NASA/JP实验AIRSAR系统获得的L波段完整PolSAR图像的一部分,该数据被广泛用于评估PolSAR图像地物分类算法性能。图2(a)为其Pauli RGB合成图,其尺寸为750×1024像素。包括11类作物,分别为:豆类、森林、油菜籽、裸地、土豆、甜菜、小麦、豌豆、苜蓿、草地和水域。真实地物分布参考图如图2(b)所示,空白区域为未标记类别,选取10%的有标记数据用于训练,所有带标记的数据作为测试数据。实验结果如图2所示。

      图  2  Flevoland数据分类结果对比图

      Figure 2.  Comparison of Flevoland data classification results

      图2可见,本文所提方法相对其他4种基于传统特征方法明显错分较少。方法1对油菜籽和豌豆分类效果较差,方法3对油菜籽和水体的分类效果较差。方法4对土豆的分类效果较差。方法2相较于方法1、方法3和方法4取得了更好的分割效果,其中方法2和方法4采用相同的特征,而利用CRF分类的方法2精度要高于利用SVM分类的方法4,说明CRF模型对多特征和上下文信息的利用有助于提高分类精度。而从目视效果上看,本文方法要优于方法2,方法5的分类效果最好。

      表2给出了定量评估数据,可见本文所提方法取得了高于传统方法的总体分类精度0.905和Kappa系数0.890,所有类别的分类精度都在0.8以上,大部分在0.9以上。并且在苜蓿、小麦、甜菜、油菜籽、豌豆和草地均取得了高于传统方法的分类精度。此外,从表2可见,与方法5相比,本文所提方法的总体分类精度稍低,这可能是由于本方法所用的特征提取模型是预训练模型,对总体分类精度存在一定程度的影响,但本方法需训练的参数少于方法5,训练时间和测试时间都远比方法5短,说明本文所提方法具有更高的实时性。

      类别 方法1 方法2 方法3 方法4 方法5 本文方法
      豆类 0.971 0.833 0.967 0.863 0.920 0.808
      森林 0.759 0.940 0.733 0.943 0.945 0.868
      土豆 0.680 0.840 0.821 0.578 0.872 0.808
      苜蓿 0.609 0.892 0.719 0.781 0.932 0.990
      小麦 0.934 0.881 0.864 0.792 0.936 0.981
      裸地 0.514 0.871 0.903 0.980 0.998 0.899
      甜菜 0.913 0.903 0.895 0.905 0.897 0.978
      油菜籽 0.572 0.782 0.627 0.758 0.934 0.964
      豌豆 0.589 0.821 0.820 0.801 0.901 0.854
      草地 0.962 0.774 0.838 0.912 0.802 0.968
      水体 0.701 0.970 0.526 0.703 0.988 0.888
      总精度 0.751 0.870 0.778 0.797 0.933 0.905
      Kappa系数 0.720 0.854 0.752 0.774 0.911 0.890
      训练(s) 798 771 877 1211 7066 1052
      测试(s) 2.9 2.7 3.0 4.1 8.4 3.8

      表 2  Flevoland数据分类精度

      Table 2.  The classification accuracy of Flevoland data

    • 为进一步验证本文所提方法提取深度特征的有效性,在Oberpfaffenhofen数据下将本文方法与3种基于传统特征和CRF模型的方法进行对比。图3(a)为Oberpfaffenhofen数据Pauli RGB合成图,图像的大小为1300×1200像素。真实地物分布参考图如图3(b)所示。包括3类语义类别:建筑区域、林地和开放区域。空白区域为未标记类别,实验中选取10%的有标记数据用于训练,所有带标记的数据作为测试数据。实验结果如图3所示。

      图  3  Oberpfaffenhofen数据分类结果对比图

      Figure 3.  Comparison of Oberpfaffenhofendata classification results

      图3可见,本文所提方法整体效果优于其他3种对比方法。对于开放区域,本文方法最好,由于开放区域的散射机制与建筑区域相对接近,其余3种方法一定程度上都将其错分为建筑区域,如图中三角形区域所示。本文方法由于提取的是图像不同层次的抽象特征,有效地避免了这种现象。对于建筑区域,本文同样得到最好的分割效果,其余3种方法均不同程度将该区域错分为林地或开放区域,如图中椭圆区域所示。对于林地区域,3种方法均取得较好结果,其中方法3的效果最差,可能是由于融合的高维特征存在一定冗余,对该类别的区分性低于其他特征。

      本文计算了各个方法中每类地物分类的准确率,并用总体分类精度和Kappa系数进行综合评估,如表3所示。从表中可见,本文方法取得了最高的分类精度0.903和Kappa系数0.834,并且在建筑和开放区域上的分类精度均为最高。

      类别 方法1 方法2 方法3 本文方法
      建筑区域 0.696 0.645 0.712 0.903
      林地 0.895 0.896 0.700 0.777
      开放区域 0.622 0.843 0.874 0.947
      总精度 0.691 0.804 0.800 0.903
      Kappa系数 0.529 0.680 0.668 0.834

      表 3  Oberpfaffenhofen数据分类精度

      Table 3.  The classification accuracy of Oberpfaffenhofen data

      从上面两个实验结果可见,将多组特征串联所得高维特征的表征能力可能低于低维特征的表征能力。例如,在第1个实验中,方法3的性能要低于方法1,在第2个实验中,方法3的性能要低于方法2。说明提取的高维特征包含了冗余信息,导致了部分特征向量的分类能力减弱。而本文所提方法在两组实验中均取得了最优的分类结果,说明CNN特征相对于传统特征具有更强的表征能力,利用CNN特征可以有效提升分类性能。

    • 为了比较VGG-Net-16模型中哪一层特征更具表达力,以便选择合适的特征提取层,提取conv5-3, conv4-3, conv3-3, conv2-2和conv1-2层特征进行实验并做精度评价,在Oberpfaffenhofen数据集下进行测试的结果如图4所示。实验中,采取同样的方式将实验数据分割成多个尺寸为224×224的不重叠的图像,再输入到VGG-Net-16模型中提取特征。特征提取在MatConvNet深度学习平台上完成。VGG-Net-16前5层中,每层提取的特征都是由多张特征图组成,如conv2-2层的特征为128张尺寸为112×112的特征图,插值到输入图像大小后,得到128张尺寸为224×224的特征图,相当于对输入图像的每一个像素点提取一个128维的特征向量。

      图  4  不同层特征分类精度对比图

      Figure 4.  Accuracy comparison results of different layer classification results

      图4的分类结果精度对比图可见:在Oberpfaffenhofen数据下,随着卷积层层数深度增加,分类精度呈上升趋势,在conv5-3层达到最高。这是因为VGG-Net-16模型中更深层特征更抽象,具有更高层次的语义信息。此外,conv1层特征对应的分类精度远低于其他几层特征对应的分类精度,甚至低于一些利用传统特征的方法,这是因为第1层提取的特征都是些低级特征,如边缘、角点等。因此,在本文所提方法中,VGG-Net-16模型特征提取层选择conv5-3层。由于Oberpfaffenhofen数据与Flevoland数据中的图像存在一定共性,因此不再针对Flevoland数据进行不同层特征精度比较,同样选择conv5-3层作为特征提取层。

    • 本文提出一种基于深度卷积神经网络和条件随机场的PolSAR图像地物分类方法。本方法利用卷积神经网络提取深度特征,再通过条件随机场对多特征及上下文信息有效利用来实现PolSAR图像地物分类。实验结果表明,在利用VGG-Net-16模型提取特征进行图像地物分类时,conv5-3层为最有效的特征提取层。此外,与3种利用传统经典特征的方法相比,本文得到了精度最高的分割结果,说明了本文所提方法的有效性。

参考文献 (27)

目录

    /

    返回文章
    返回