基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法

胡涛 李卫华 秦先祥 王鹏 余旺盛 李军

引用本文:
Citation:

基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法

    作者简介: 胡 涛(1994–),男,湖南浏阳人,空军工程大学信息与导航学院硕士,研究方向为计算机视觉。E-mail: 1862965@163.com;李卫华(1964–),男,空军工程大学信息与导航学院教授,研究方向为指挥信息系统。E-mail: lwh_kgd@163.com ;秦先祥(1986–),男,广西阳朔人,空军工程大学信息与导航学院讲师,研究方向为SAR图像处理与分析。E-mail: qinxianxiang@126.com;王 鹏(1985–),男,空军工程大学信息与导航学院副教授,硕士生导师,研究方向为信息融合处理与分布式协同控制。E-mail: wangpeng@163.com;余旺盛(1985–),男,湖南平江人,空军工程大学信息与导航学院讲师,研究方向为计算机视觉与图像处理。E-mail: 853994682@qq.com;李 军(1983–),男,湖南邵阳人,空军工程大学信息与导航学院讲师,研究方向为信息处理技术。E-mail: 108857769@qq.com.
    通讯作者: 秦先祥, qinxianxiang@126.com
  • 基金项目:

    国家自然科学基金(41601436, 61403414, 61703423),陕西省自然科学基础研究计划(2018JM4029)

  • 中图分类号: TP391

Terrain Classification of Polarimetric Synthetic Aperture Radar Images Based on Deep Learning and Conditional Random Field Model

    Corresponding author: QIN Xianxiang, qinxianxiang@126.com ;
  • Fund Project: The National Natural Science Foundation of China (41601436, 61403414, 61703423), The Natural Science Foundation Research Project of Shaanxi Province (2018JM4029)

    CLC number: TP391

  • 摘要: 近年来,极化合成孔径雷达(PolSAR)图像地物分类得到了深入研究。传统的PolSAR图像地物分类方法采用的特征往往需要针对具体问题进行设计,特征表征性不强。因此,该文提出一种基于卷积神经网络(CNN)和条件随机场(CRF)模型的PolSAR图像地物分类方法。利用预训练好的实现图像分类任务的卷积神经网络模型(VGG-Net-16)提取表征能力更强的图像特征,再通过CRF模型对多特征及上下文信息的有效利用来实现图像的地物分类。实验结果表明,与3种利用传统经典特征的方法相比,该方法能够提取更有效的特征,取得了更高的总体分类精度和Kappa系数。
  • 图 1  深度CRF模型流程图

    Figure 1.  The flow chart of deep CRF model

    图 2  Flevoland数据分类结果对比图

    Figure 2.  Comparison of Flevoland data classification results

    图 3  Oberpfaffenhofen数据分类结果对比图

    Figure 3.  Comparison of Oberpfaffenhofendata classification results

    图 4  不同层特征分类精度对比图

    Figure 4.  Accuracy comparison results of different layer classification results

    表 1  传统方法中用到的特征

    Table 1.  The features used in the traditional methods

    Cloude分解Freeman分解协方差矩阵对角线
    $H,\alpha ,A,{\lambda _{1}},{\lambda _{{2}}},{\lambda _{{3}}}$Ps, Pd, PvC11, C22, C33
    下载: 导出CSV

    表 2  Flevoland数据分类精度

    Table 2.  The classification accuracy of Flevoland data

    类别方法1方法2方法3方法4方法5本文方法
    豆类0.9710.8330.9670.8630.9200.808
    森林0.7590.9400.7330.9430.9450.868
    土豆0.6800.8400.8210.5780.8720.808
    苜蓿0.6090.8920.7190.7810.9320.990
    小麦0.9340.8810.8640.7920.9360.981
    裸地0.5140.8710.9030.9800.9980.899
    甜菜0.9130.9030.8950.9050.8970.978
    油菜籽0.5720.7820.6270.7580.9340.964
    豌豆0.5890.8210.8200.8010.9010.854
    草地0.9620.7740.8380.9120.8020.968
    水体0.7010.9700.5260.7030.9880.888
    总精度0.7510.8700.7780.7970.9330.905
    Kappa系数0.7200.8540.7520.7740.9110.890
    训练(s)798771877121170661052
    测试(s)2.92.73.04.18.43.8
    下载: 导出CSV

    表 3  Oberpfaffenhofen数据分类精度

    Table 3.  The classification accuracy of Oberpfaffenhofen data

    类别方法1方法2方法3本文方法
    建筑区域0.6960.6450.7120.903
    林地0.8950.8960.7000.777
    开放区域0.6220.8430.8740.947
    总精度0.6910.8040.8000.903
    Kappa系数0.5290.6800.6680.834
    下载: 导出CSV
  • [1] NOVAK L M and BURL M C. Optimal speckle reduction in polarimetric SAR imagery[J]. IEEE Transactions on Aerospace and Electronic Systems, 1990, 26(2): 293–305. doi: 10.1109/7.53442
    [2] RANSON K J, SUN G, WEISHAMPEL J F, et al. An evaluation of AIRSAR and SIR-C/XSAR images for northern forest ecological studies in Maine, USA[C]. Proceedings of 1995 International Geoscience and Remote Sensing Symposium, IGARSS’95. Quantitative Remote Sensing for Science and Applications, Firenze, Italy, 1995: 994–996. doi: 10.1109/IGARSS.1995.521118.
    [3] YANG W, ZHANG X, CHEN L J, et al. Semantic segmentation of polarimetric SAR imagery using conditional random fields[C]. Proceedings of 2010 IEEE International Geoscience and Remote Sensing Symposium, Honolulu, HI, USA, 2010: 1593–1596. doi: 10.1109/IGARSS.2010.5652378.
    [4] CLOUDE S R and POTTIER E. An entropy based classification scheme for land applications of polarimetric SAR[J]. IEEE Transactions on Geoscience and Remote Sensing, 1997, 35(1): 68–78. doi: 10.1109/36.551935
    [5] ZHAO L W, ZHOU X G, JIANG Y M, et al. Iterative classification of polarimetric SAR image based on the freeman decomposition and scattering entropy[C]. Proceedings of the 1st Asian and Pacific Conference on Synthetic Aperture Radar, Huangshan, China, 2007: 473–476. doi: 10.1109/APSAR.2007.4418653.
    [6] LEE J S, GRUNES M R, and KWOK R. Classification of multi-look polarimetric SAR imagery based on complex wishart distribution[J]. International Journal of Remote Sensing, 1994, 15(11): 2299–2311. doi: 10.1080/01431169408954244
    [7] BEAULIEU J M and TOUZI R. Segmentation of textured polarimetric SAR scenes by likelihood approximation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(10): 2063–2072. doi: 10.1109/tgrs.2004.835302
    [8] WU Y H, JI K F, YU W X, et al. Region-based classification of polarimetric SAR images using wishart MRF[J]. IEEE Geoscience and Remote Sensing Letters, 2008, 5(4): 668–672. doi: 10.1109/LGRS.2008.2002263
    [9] 周晓光, 匡纲要, 万建伟. 极化SAR图像分类综述[J]. 信号处理, 2008, 24(5): 806–812. doi: 10.3969/j.issn.1003-0530.2008.05.023ZHOU Xiao-guang, KUANG Gang-yao, and WAN Jian-wei. A review of polarimetric SAR image classification[J]. Signal Processing, 2008, 24(5): 806–812. doi: 10.3969/j.issn.1003-0530.2008.05.023
    [10] 胡涛, 李卫华, 秦先祥, 等. 基于深度CRF模型的图像语义分割方法[J]. 空军工程大学学报(自然科学版), 2018, 19(5): 52–57.HU Tao, LI Wei-hua, QIN Xian-xiang, et al. An image semantic segmentation based on deep CRF model[J]. Journal of Air Force Engineering University (Natural Science Edition), 2018, 19(5): 52–57.
    [11] XIE W, JIAO L C, HOU B, et al. POLSAR image classification via wishart-AE model or wishart-CAE model[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(8): 3604–3615. doi: 10.1109/JSTARS.2017.2698076
    [12] ZHAO Z Q, JIAO L C, ZHAO J Q, et al. Discriminant deep belief network for high-resolution SAR image classification[J]. Pattern Recognition, 2017, 61: 686–701. doi: 10.1016/j.patcog.2016.05.028
    [13] GAO F, HUANG T, WANG J, et al. Dual-branch deep convolution neural network for polarimetric SAR image classification[J]. Applied Sciences, 2017, 7(5): 447. doi: 10.3390/app7050447
    [14] ZHOU Y, WANG H P, XU F, et al. Polarimetric SAR image classification using deep convolutional neural networks[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(12): 1935–1939. doi: 10.1109/LGRS.2016.2618840
    [15] ZHANG Z M, WANG H P, XU F, et al. Complex-valued convolutional neural network and its application in polarimetric SAR image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(12): 7177–7188. doi: 10.1109/TGRS.2017.2743222
    [16] WANG L, XU X, DONG H, et al. Multi-pixel simultaneous classification of PolSAR image using convolutional neural networks[J]. Sensors, 2018, 18(3): 769. doi: 10.3390/s18030769
    [17] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. ImageNet classification with deep convolutional neural networks[C]. Proceedings of the 25th International Conference on Neural Information Processing Systems, Lake Tahoe, Nevada, USA, 2012: 1097–1105. doi: 10.1145/3065386.
    [18] SZEGEDY C, LIU W, JIA Y Q, et al.. Going deeper with convolutions[C]. Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, MA, USA, 2015: 1–9. doi: 10.1109/CVPR.2015.7298594.
    [19] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
    [20] RAZAVIAN A S, AZIZPOUR H, SULLIVAN J, et al. CNN features off-the-shelf: An astounding baseline for recognition[C]. Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition Workshops, Columbus, OH, USA, 2014: 512–519. doi: 10.1109/CVPRW.2014.131.
    [21] MIKA S, SCHÖLKOPF B, SMOLA A, et al.. Kernel PCA and de-noising in feature spaces[C]. Proceedings of 1998 Conference on Advances in Neural Information Processing Systems II, Cambridge, MA, USA, 1999: 536–542.
    [22] LAFFERTY J D, MCCALLUM A, and PEREIRA F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]. Proceedings of the 18th International Conference on Machine Learning, San Francisco, CA, USA, 2001: 282–289.
    [23] LI S Z. Markov Random Field Modeling in Computer Vision[M]. New York: Springer, 1995.
    [24] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods[C]. Proceedings of the Advances in large Margin Classifiers, Cambrige, MA, USA, 1999: 61–74.
    [25] DOMKE J. Learning graphical model parameters with approximate marginal inference[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(10): 2454–2467. doi: 10.1109/TPAMI.2013.31
    [26] VEDALDI A and LENC K. MatConvNet: Convolutional neural networks for MATLAB[C]. Proceedings of the 23rd ACM International Conference on Multimedia, Brisbane, Australia, 2015: 689–692. doi: 10.1145/2733373.2807412.
    [27] 韩萍, 韩宾宾. 基于典型散射差异指数的PolSAR图像Lee滤波[J]. 系统工程与电子技术, 2018, 40(2): 287–294.HAN Ping and HAN Bin-bin. Lee filter of PolSAR image based on typical scattering difference index[J]. Systems Engineering and Electronics, 2018, 40(2): 287–294.
  • [1] 邹焕新罗天成张月周石琳 . 基于组合条件随机场的极化SAR图像监督地物分类. 雷达学报, 2017, 6(5): 541-553. doi: 10.12000/JR16109
    [2] 滑文强王爽侯彪 . 基于半监督学习的SVM-Wishart极化SAR图像分类方法. 雷达学报, 2015, 4(1): 93-98. doi: 10.12000/JR14138
    [3] 田壮壮占荣辉胡杰民张军 . 基于卷积神经网络的SAR图像目标识别研究. 雷达学报, 2016, 5(3): 320-325. doi: 10.12000/JR16037
    [4] 邢艳肖张毅李宁王宇胡桂香 . 一种联合特征值信息的全极化SAR图像监督分类方法. 雷达学报, 2016, 5(2): 217-227. doi: 10.12000/JR16019
    [5] 陶臣嵩陈思伟李永祯肖顺平 . 结合旋转域极化特征的极化SAR地物分类. 雷达学报, 2017, 6(5): 524-532. doi: 10.12000/JR16131
    [6] 徐丰王海鹏金亚秋 . 深度学习在SAR目标识别与地物分类中的应用. 雷达学报, 2017, 6(2): 136-148. doi: 10.12000/JR16130
    [7] 滑文强王爽郭岩河谢雯 . 基于邻域最小生成树的半监督极化SAR图像分类方法. 雷达学报, 2019, 8(4): 458-470. doi: 10.12000/JR18104
    [8] 杨文钟能严天恒杨祥立 . 基于黎曼流形的极化SAR图像分类. 雷达学报, 2017, 6(5): 433-441. doi: 10.12000/JR17031
    [9] 张向荣于心源唐旭侯彪焦李成 . 基于马尔科夫判别谱聚类的极化SAR图像分类方法. 雷达学报, 2019, 8(4): 425-435. doi: 10.12000/JR19059
    [10] 张腊梅张思雨董洪伟朱厦 . 基于Pinball损失函数支持向量机的极化SAR图像鲁棒分类. 雷达学报, 2019, 8(4): 448-457. doi: 10.12000/JR19055
    [11] 肖东凌刘畅 . 基于精调的膨胀编组-交叉CNN的PolSAR地物分类. 雷达学报, 2019, 8(4): 479-489. doi: 10.12000/JR19039
    [12] 徐真王宇李宁张衡张磊 . 一种基于CNN的SAR图像变化检测方法. 雷达学报, 2017, 6(5): 483-491. doi: 10.12000/JR17075
    [13] 洪文 . 基于混合极化架构的极化SAR:原理与应用(中英文). 雷达学报, 2016, 5(6): 559-595. doi: 10.12000/JR16074
    [14] 张杰张晰范陈清孟俊敏 . 极化SAR在海洋探测中的应用与探讨. 雷达学报, 2016, 5(6): 596-606. doi: 10.12000/JR16124
    [15] 赵娟萍郭炜炜柳彬崔世勇张增辉郁文贤 . 基于概率转移卷积神经网络的含噪标记SAR图像分类. 雷达学报, 2017, 6(5): 514-523. doi: 10.12000/JR16140
    [16] 计科峰王海波冷祥光邢相薇康利鸿 . 星载简缩极化SAR船舶目标检测技术研究. 雷达学报, 2016, 5(6): 607-619. doi: 10.12000/JR16083
    [17] 陈诗强洪文 . 基于极化轴比参数的圆极化波发射误差分析方法. 雷达学报, 2019, 8(): 1-11. doi: 10.12000/JR19063
    [18] 师君阙钰佳周泽南周远远张晓玲孙铭芳 . 近场毫米波三维成像与异物检测方法. 雷达学报, 2019, 8(): 1-11. doi: 10.12000/JR18089
    [19] 苏宁远陈小龙关键牟效乾刘宁波 . 基于卷积神经网络的海上微动目标检测与分类方法. 雷达学报, 2018, 7(5): 565-574. doi: 10.12000/JR18077
    [20] 王思雨高鑫孙皓郑歆慰孙显 . 基于卷积神经网络的高分辨率SAR图像飞机目标检测方法. 雷达学报, 2017, 6(2): 195-203. doi: 10.12000/JR17009
  • 加载中
图(4)表(3)
计量
  • 文章访问数:  794
  • HTML浏览量:  33
  • PDF下载量:  124
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-08-31
  • 录用日期:  2018-12-26
  • 刊出日期:  2019-08-28

基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法

    通讯作者: 秦先祥, qinxianxiang@126.com
    作者简介: 胡 涛(1994–),男,湖南浏阳人,空军工程大学信息与导航学院硕士,研究方向为计算机视觉。E-mail: 1862965@163.com;李卫华(1964–),男,空军工程大学信息与导航学院教授,研究方向为指挥信息系统。E-mail: lwh_kgd@163.com ;秦先祥(1986–),男,广西阳朔人,空军工程大学信息与导航学院讲师,研究方向为SAR图像处理与分析。E-mail: qinxianxiang@126.com;王 鹏(1985–),男,空军工程大学信息与导航学院副教授,硕士生导师,研究方向为信息融合处理与分布式协同控制。E-mail: wangpeng@163.com;余旺盛(1985–),男,湖南平江人,空军工程大学信息与导航学院讲师,研究方向为计算机视觉与图像处理。E-mail: 853994682@qq.com;李 军(1983–),男,湖南邵阳人,空军工程大学信息与导航学院讲师,研究方向为信息处理技术。E-mail: 108857769@qq.com
  • ①. 空军工程大学信息与导航学院   西安   710077
  • ②. 国防科技大学电子对抗学院   合肥   230037
基金项目:  国家自然科学基金(41601436, 61403414, 61703423),陕西省自然科学基础研究计划(2018JM4029)

摘要: 近年来,极化合成孔径雷达(PolSAR)图像地物分类得到了深入研究。传统的PolSAR图像地物分类方法采用的特征往往需要针对具体问题进行设计,特征表征性不强。因此,该文提出一种基于卷积神经网络(CNN)和条件随机场(CRF)模型的PolSAR图像地物分类方法。利用预训练好的实现图像分类任务的卷积神经网络模型(VGG-Net-16)提取表征能力更强的图像特征,再通过CRF模型对多特征及上下文信息的有效利用来实现图像的地物分类。实验结果表明,与3种利用传统经典特征的方法相比,该方法能够提取更有效的特征,取得了更高的总体分类精度和Kappa系数。

English Abstract

    • 极化合成孔径雷达(Polarimetric Synthetic Aperture Radar, PolSAR)是一种先进的遥感信息获取手段[1]。与单极化相比,它通过测量每个分辨单元在不同收发极化组合下的散射特性,更完整地记录了目标后向散射信息,为详尽分析目标散射特性提供了良好的数据支持[2]。PolSAR图像地物分类的目的在于将图像划分成一系列具有特定语义信息的图像区域,是PolSAR图像理解和解译过程中的重要内容[3]

      传统的PolSAR图像地物分类方法主要通过目标分解和统计分布来实现。极化数据的目标分解方法有很多,如Cloude分解[4]和Freeman分解等[5]。统计分布模型主要有Wishart分布[6]和K分布[7]等。Lee等人[6]将目标分解和分布模型结合,提出了$H/\alpha$-Wishart方法,有效提高了地物分类精度。然而,这类方法没有考虑图像的上下文信息,易受相干斑噪声影响,因此很多研究者开始关注利用上下文信息的地物分类方法[3,8]。文献[3]在融合极化特征的基础上通过条件随机场(Conditional Random Field, CRF)模型利用上下文信息,能够得到区域一致性好的结果。上述方法利用的特征主要包括基于极化矩阵的组合变换、基于目标分解理论的特征参数和纹理特征等[9]。这些特征通常是针对具体问题进行设计,对先验知识的依赖程度较高,在很多情况下其表征能力往往不尽人意。解决该问题的一种常用思路是从PolSAR图像中提取多种特征向量堆叠成一个高维特征向量用于地物分类,但提取的高维特征往往包含大量冗余不相关信息,将导致部分特征向量的分类能力减弱或丧失[10]。因此,如何提取更具表达性的特征是当前提高图像地物分类方法性能的关键途径。

      目前,深度学习技术在PolSAR图像处理任务上的应用受到普遍关注,自编码器[11](Auto Encoders, AE)、深度信念网络[12] (Deep Belief Network, DBN)和卷积神经网络[13](Convolutional Neural Network, CNN)等多种深度神经网络模型相继用于PolSAR图像处理,其中CNN在图像处理中应用最为广泛。近年来有很多学者将CNN用于PolSAR图像地物分类[1416]。由于CNN网络输入一般为实数,在考虑相干矩阵各元素的基础上,文献[14]将PolSAR图像的复数相干矩阵转换为6维实向量来作为CNN模型的输入,提升了地物分类精度。文献[15]将CNN推广到复数域,有效利用了PolSAR图像通道间相干相位差蕴含的丰富信息。尽管上述基于深度学习的方法在地物分类精度上取得了显著提升,但与基于传统人工特征的方法相比,这些方法实现地物分类的速度普遍较慢。

      针对图像地物分类问题,一些学者设计了直接实现光学图像地物分类的CNN模型,并展现出优异的性能[1719]。考虑到不同类型图像之间往往存在共性,可认为,一个经过大型数据量训练好的CNN的前端网络可以作为图像特征提取的有效模型[20]。基于此并考虑到CRF的多特征和上下文信息利用优势,本文提出一种结合预训练CNN和CRF模型的图像地物分类方法。首先利用经典的CNN模型—VGG-Net-16来提取图像深层次特征,再通过CRF对多特征及上下文信息有效利用来完成图像的地物分类。

    • 针对传统图像地物分类方法受限于人工特征表征能力不强的问题,本文提出一种基于深度CRF模型的图像地物分类方法,采用VGG-Net-16提取图像深度特征,将提取到的特征用于训练CRF模型,实现图像地物分类。具体流程如图1所示,主要包含图像预处理、深度特征提取和分类3个阶段。

      图  1  深度CRF模型流程图

      Figure 1.  The flow chart of deep CRF model

    • 对于PolSAR数据, 每个像素点用T矩阵的9维向量来表示如式(1)

      $ \begin{align} V =& \{ {{T}}11, \; {{T}}22, \; {{T}}33, \; R({{T}}12), \; S({{T}}12), \; \\ {\rm{}}&R({{T}}13), \; S({{T}}13), \; R({{T}}23), \; S({{T}}23)\} \end{align} $

      其中,$R(\!\!{\raisebox{-1pt}{ {·}}} )$$S(\!\!{\raisebox{-1pt}{ {·}}} )$分别为求实部和虚部。采用在普通光学图像上预训练好的VGG-Net-16模型作为特征提取器,其要求输入为3个通道的归一化图像[19],所以对滤波后的PolSAR图像采用文献[17]的方法实现归一化,然后对T矩阵的9维向量进行主成分分析(Principal Component Analysis, PCA)变换[21]实现数据降维,选择前3个主成分作为输入图像进行特征提取。

    • VGG-Net-16[19]是一种用于实现图像分类任务的卷积神经网络。其中的“16”表示该模型需要学习参数的层数。VGG-Net-16主要由5个卷积层(conv)(共13层)和3个连接层组成。其中,从conv1到conv5每组卷积层分别包含2, 2, 3, 3, 3层卷积,每个卷积层都使用尺寸为3×3的卷积核。在ImageNet数据集上训练后,VGG-Net-16中每个卷积层都可以作为一个特征提取器,提取目标不同层级的特征表达。

      VGG-Net-16模型要求输入图像尺寸为224×224,因此,需要将其分割为多个不重叠的尺寸为224×224的小图像,再将这些图像输入到VGG-Net-16中提取深度特征,其中,VGG-Net-16是在ImageNet数据集上已经完成预训练的网络。当输入图像尺寸小于224×224时,需要在输入数据的边界进行补0操作。将所有小图像利用VGG-Net-16提取完特征后,由于VGG-Net-16模型中的池化(pooling)操作,会使得提取到的深度特征的尺寸小于输入图像。采用的CRF模型需将提取到的特征与输入图像每个像素点逐一对应,因此将VGG-Net-16模型中提取到的特征图采用双线性插值方法上采样到原图像大小,然后将这些特征图重新拼接,最终得到与实验图像同尺寸的多维特征图,即可认为,为实验图像中的每个像素点提取到多维深度特征。在VGG-Net-16前5层提取的特征都是由多张特征图组成,故前5层都可作为特征提取层。VGG-Net-16后3层为全连接层,提取到的特征都是1维列向量,不适合作为训练本文CRF模型的特征。

    • CRF是Lafferty等人[22]提出的一种概率图模型,可表示为一个无向图模型$G = \{ V,E\} $,其中$V\;$表示图中节点集合,$E$表示节点间无向边的集合。

      假设图像观测向量为${{x}}$,类别标签${{y}}$,根据Hammersley-Clifford[23]定理,标记场的后验概率$P\left( {{{y}}|{{x}}} \right)$服从Gibbs分布

      $ P\left( {{{y}}|{{x}},{{θ}}} \right) = \frac{1}{{Z\left( {{{x}},{{θ}}} \right)}}\prod\limits_{c \ \in C} {{\psi _c}} \left( {{y_c}|{{x}},{{θ}}} \right) $

      其中,归一化函数$Z({{x}},{{θ}}) = \displaystyle\sum\nolimits_y {P({{y}}|{{x}},{{θ}})} $, ${\psi _c}$为定义在集团$c$上的势函数。

      势函数阶数的确定与实验需求紧密相关,阶数越高,可表征越大范围节点间的相关性,但模型复杂度也会随之提升。常用做法是仅定义单位置和双位置势函数[3,24],既可兼顾性能,模型复杂度也不会过高。因此,式(2)可改写为

      $ \begin{align} P\left( {{{y}}|{{x}},{{θ}}} \right) =& \frac{1}{{Z\left( {{{x}},{{θ}}} \right)}}\exp \left\{ {\sum\limits_{i \in \varOmega } {{\psi _i}\left( {{x_i},{{y}},{{{θ}}_A}} \right)} } \right. \\ {\rm{}}&\left. { + \sum\limits_{i \in \varOmega } {\sum\limits_{j \in {N_i}} {{\psi _{ij}}\left( {{x_i},{x_j},{{y}},{{{θ}}_I}} \right)} } } \right\} \end{align} $

      其中,$\varOmega $为所有节点的集合;${N_i}$为节点$i$的邻域,${{θ}} = \{ {{{θ}}_A},{{{θ}}_I}\} $为模型参数, ${\psi _i}$${\psi _i}_j$分别表示单位置和双位置势函数。

      CRF模型中的单位置势函数${\psi _i}$用于对已知位置$i$属于某一类的概率进行决策,只与位置$i$的特征有关,邻域中相邻点的特征对语义类别标号不产生影响。本文采用广义线性模型定义单位置势函数[25]

      $ {\psi _i}\left( {{{{y}}_i},{{x}},{{{θ}}_A}} \right) = \exp \left\{ {{{{y}}_i}{{{θ}}_A}^{\!\! T}{{{g}}_i}({{x}})} \right\} $

      其中,${{{θ}}_A}$为特征向量${{{g}}_i}({{x}})$包含的特征所对应的权值,其值在参数估计中确定。${{{g}}_i}({{x}})$表示第$i$个点的特征。双位置势函数${\psi _i}_j$不仅要考虑邻域中相邻位置$i$$j$的特征对这两点的语义标签${{{y}}_i}$${{{y}}_j}$的作用,还应考虑对应语义标签之间的相互关系。本文双位置势函数同样采用广义线性模型

      $ {\psi _{ij}}\left( {{y_i},{y_j},{{θ} _I}} \right) = \exp \left( {{y_i}{y_j}{{θ} _I}^{\!\! T}{{{u}}_{ij}}({{x}})} \right) $

      $ {{{u}}_{ij}}({{x}}) = \left| {{g_i}({{x}}) - {g_j}({{x}})} \right|\hspace{49pt} $

      其中,${{{u}}_{ij}}({{x}})$为联合特征向量,表示特征向量间的差异对标号的影响,${{θ} _I}$为向量${{{u}}_{ij}}({{x}})$的权重,其值在参数估计中确定。${y_i}$${y_j}$分别为相邻像素点的标号,当${y_i}$${y_j}$相同时,${y_i}{y_j}$的值为1,当${y_i}$${y_j}$不相同时,${y_i}{y_j}$的值为–1。从式(5)和式(6)可见,相邻像素点的特征越相似,则越可能被赋予相同的标号。确定CRF模型后需在训练阶段估计模型参数${θ}$,CRF模型参数估计方法有很多,如梯度上升和树重置信传播算法等[26,27],本文采用树重置信传播算法估计模型参数。参数估计是迭代的过程,可以通过设置最大迭代次数来避免长时间无法收敛的情况。参数确定后,在固定的参数下搜索使得式(2)中的后验概率最大的最优解${{{y}}^ * }$,即${{{y}}^ * } \!=\! \arg {\max _{y}}\lg P\left( {{{y}}|{{x}},{{θ}}} \right)$,从而确定每个像素的类别标签,实现图像地物分类。

    • 为验证本算法有效性,在实验中主要选取以下与文中方法进行对比:基于Cloude分解和Freeman分解所得特征的CRF分类(简称方法1);基于Freeman分解和协方差矩阵对角线元素所得特征的CRF分类(简称方法2);将上述两种方法中的特征串联融合所得特征的CRF分类(简称方法3);基于Freeman分解和协方差矩阵对角线元素所得特征的SVM分类[24](简称方法4);一种基于CNN的方法[14](简称方法5)。

      表1给出了实验中传统方法用到的特征类型。本文方法选择提取VGG-Net-16模型conv5-3层特征进行对比实验。有关不同卷积层特征对算法性能的影响将在第3.3节进行分析。本文方法的特征提取在MatConvNet[26]深度学习平台上完成。参数估计过程中的最大迭代次数设置为1000次。分类性能综合评估指标为总体分类精度(Overall Accuracy, OA)、Kappa系数[9]、训练时间和测试时间。为减少相干斑噪声的影响,本文实验数据经过Lee滤波处理[27] 。所有实验在配置为Intel Core i7 2.80 GHz处理器和8 GB内存的计算机上完成。

      Cloude分解Freeman分解协方差矩阵对角线
      $H,\alpha ,A,{\lambda _{1}},{\lambda _{{2}}},{\lambda _{{3}}}$Ps, Pd, PvC11, C22, C33

      表 1  传统方法中用到的特征

      Table 1.  The features used in the traditional methods

    • 第1个实验数据是1989年NASA/JP实验AIRSAR系统获得的L波段完整PolSAR图像的一部分,该数据被广泛用于评估PolSAR图像地物分类算法性能。图2(a)为其Pauli RGB合成图,其尺寸为750×1024像素。包括11类作物,分别为:豆类、森林、油菜籽、裸地、土豆、甜菜、小麦、豌豆、苜蓿、草地和水域。真实地物分布参考图如图2(b)所示,空白区域为未标记类别,选取10%的有标记数据用于训练,所有带标记的数据作为测试数据。实验结果如图2所示。

      图  2  Flevoland数据分类结果对比图

      Figure 2.  Comparison of Flevoland data classification results

      图2可见,本文所提方法相对其他4种基于传统特征方法明显错分较少。方法1对油菜籽和豌豆分类效果较差,方法3对油菜籽和水体的分类效果较差。方法4对土豆的分类效果较差。方法2相较于方法1、方法3和方法4取得了更好的分割效果,其中方法2和方法4采用相同的特征,而利用CRF分类的方法2精度要高于利用SVM分类的方法4,说明CRF模型对多特征和上下文信息的利用有助于提高分类精度。而从目视效果上看,本文方法要优于方法2,方法5的分类效果最好。

      表2给出了定量评估数据,可见本文所提方法取得了高于传统方法的总体分类精度0.905和Kappa系数0.890,所有类别的分类精度都在0.8以上,大部分在0.9以上。并且在苜蓿、小麦、甜菜、油菜籽、豌豆和草地均取得了高于传统方法的分类精度。此外,从表2可见,与方法5相比,本文所提方法的总体分类精度稍低,这可能是由于本方法所用的特征提取模型是预训练模型,对总体分类精度存在一定程度的影响,但本方法需训练的参数少于方法5,训练时间和测试时间都远比方法5短,说明本文所提方法具有更高的实时性。

      类别方法1方法2方法3方法4方法5本文方法
      豆类0.9710.8330.9670.8630.9200.808
      森林0.7590.9400.7330.9430.9450.868
      土豆0.6800.8400.8210.5780.8720.808
      苜蓿0.6090.8920.7190.7810.9320.990
      小麦0.9340.8810.8640.7920.9360.981
      裸地0.5140.8710.9030.9800.9980.899
      甜菜0.9130.9030.8950.9050.8970.978
      油菜籽0.5720.7820.6270.7580.9340.964
      豌豆0.5890.8210.8200.8010.9010.854
      草地0.9620.7740.8380.9120.8020.968
      水体0.7010.9700.5260.7030.9880.888
      总精度0.7510.8700.7780.7970.9330.905
      Kappa系数0.7200.8540.7520.7740.9110.890
      训练(s)798771877121170661052
      测试(s)2.92.73.04.18.43.8

      表 2  Flevoland数据分类精度

      Table 2.  The classification accuracy of Flevoland data

    • 为进一步验证本文所提方法提取深度特征的有效性,在Oberpfaffenhofen数据下将本文方法与3种基于传统特征和CRF模型的方法进行对比。图3(a)为Oberpfaffenhofen数据Pauli RGB合成图,图像的大小为1300×1200像素。真实地物分布参考图如图3(b)所示。包括3类语义类别:建筑区域、林地和开放区域。空白区域为未标记类别,实验中选取10%的有标记数据用于训练,所有带标记的数据作为测试数据。实验结果如图3所示。

      图  3  Oberpfaffenhofen数据分类结果对比图

      Figure 3.  Comparison of Oberpfaffenhofendata classification results

      图3可见,本文所提方法整体效果优于其他3种对比方法。对于开放区域,本文方法最好,由于开放区域的散射机制与建筑区域相对接近,其余3种方法一定程度上都将其错分为建筑区域,如图中三角形区域所示。本文方法由于提取的是图像不同层次的抽象特征,有效地避免了这种现象。对于建筑区域,本文同样得到最好的分割效果,其余3种方法均不同程度将该区域错分为林地或开放区域,如图中椭圆区域所示。对于林地区域,3种方法均取得较好结果,其中方法3的效果最差,可能是由于融合的高维特征存在一定冗余,对该类别的区分性低于其他特征。

      本文计算了各个方法中每类地物分类的准确率,并用总体分类精度和Kappa系数进行综合评估,如表3所示。从表中可见,本文方法取得了最高的分类精度0.903和Kappa系数0.834,并且在建筑和开放区域上的分类精度均为最高。

      类别方法1方法2方法3本文方法
      建筑区域0.6960.6450.7120.903
      林地0.8950.8960.7000.777
      开放区域0.6220.8430.8740.947
      总精度0.6910.8040.8000.903
      Kappa系数0.5290.6800.6680.834

      表 3  Oberpfaffenhofen数据分类精度

      Table 3.  The classification accuracy of Oberpfaffenhofen data

      从上面两个实验结果可见,将多组特征串联所得高维特征的表征能力可能低于低维特征的表征能力。例如,在第1个实验中,方法3的性能要低于方法1,在第2个实验中,方法3的性能要低于方法2。说明提取的高维特征包含了冗余信息,导致了部分特征向量的分类能力减弱。而本文所提方法在两组实验中均取得了最优的分类结果,说明CNN特征相对于传统特征具有更强的表征能力,利用CNN特征可以有效提升分类性能。

    • 为了比较VGG-Net-16模型中哪一层特征更具表达力,以便选择合适的特征提取层,提取conv5-3, conv4-3, conv3-3, conv2-2和conv1-2层特征进行实验并做精度评价,在Oberpfaffenhofen数据集下进行测试的结果如图4所示。实验中,采取同样的方式将实验数据分割成多个尺寸为224×224的不重叠的图像,再输入到VGG-Net-16模型中提取特征。特征提取在MatConvNet深度学习平台上完成。VGG-Net-16前5层中,每层提取的特征都是由多张特征图组成,如conv2-2层的特征为128张尺寸为112×112的特征图,插值到输入图像大小后,得到128张尺寸为224×224的特征图,相当于对输入图像的每一个像素点提取一个128维的特征向量。

      图  4  不同层特征分类精度对比图

      Figure 4.  Accuracy comparison results of different layer classification results

      图4的分类结果精度对比图可见:在Oberpfaffenhofen数据下,随着卷积层层数深度增加,分类精度呈上升趋势,在conv5-3层达到最高。这是因为VGG-Net-16模型中更深层特征更抽象,具有更高层次的语义信息。此外,conv1层特征对应的分类精度远低于其他几层特征对应的分类精度,甚至低于一些利用传统特征的方法,这是因为第1层提取的特征都是些低级特征,如边缘、角点等。因此,在本文所提方法中,VGG-Net-16模型特征提取层选择conv5-3层。由于Oberpfaffenhofen数据与Flevoland数据中的图像存在一定共性,因此不再针对Flevoland数据进行不同层特征精度比较,同样选择conv5-3层作为特征提取层。

    • 本文提出一种基于深度卷积神经网络和条件随机场的PolSAR图像地物分类方法。本方法利用卷积神经网络提取深度特征,再通过条件随机场对多特征及上下文信息有效利用来实现PolSAR图像地物分类。实验结果表明,在利用VGG-Net-16模型提取特征进行图像地物分类时,conv5-3层为最有效的特征提取层。此外,与3种利用传统经典特征的方法相比,本文得到了精度最高的分割结果,说明了本文所提方法的有效性。

参考文献 (27)

目录

    /

    返回文章
    返回