基于特征复用的膨胀-残差网络的SAR图像超分辨重建

李萌 刘畅

引用本文:
Citation:

基于特征复用的膨胀-残差网络的SAR图像超分辨重建

    作者简介:
    李 萌(1994–),女,甘肃庆阳人,中国科学院大学硕士研究生,研究方向为SAR图像处理、机器学习。E-mail: limeng173@mails.ucas.ac.cn;
    刘 畅(1978–),男,山东烟台人,研究员,博士生导师。2006年在中国科学院电子学研究所获得博士学位,现担任中国科学院空天信息创新研究院研究员、博士生导师。主要研究方向为SAR系统及其相关SAR成像处理。E-mail: cliu@mail.ie.ac.cn.
    通讯作者: 刘畅 cliu@mail.ie.ac.cn
  • 基金项目:

    国家重点研发计划(2017YFB0503001)

  • 中图分类号: TN958

Super-resolution Reconstruction of SAR Images Based on Feature Reuse Dilated-Residual Convolutional Neural Networks

    Corresponding author: LIU Chang, cliu@mail.ie.ac.cn
  • Fund Project: The State Key Research Development Program of China (2017YFB0503001)

    CLC number: TN958

  • 摘要: 对于合成孔径雷达(SAR)图像,传统的超分辨重建方法对视觉特征的人为构造十分依赖,基于普通卷积神经网络(CNN)的超分辨重建方法对微小目标的重建能力较弱,对边缘轮廓的保真度较差。针对以上问题,该文提出一种基于特征复用的膨胀-残差卷积超分辨网络模型,同时引入感知损失,实现了精确的SAR图像4倍语义级超分辨。该方法为增加网络感受野,采用膨胀-残差卷积(DR-CNN)结构用于限制模型中特征图分辨率的严重损失,提高网络对微小细节的敏感度;为实现不同层级的特征最大化利用,将不同层级的特征图进行级联,形成一种特征复用结构(FRDR-CNN),以此大幅度提升特征提取模块的效率,进一步提升超分辨精度;针对SAR图像特殊的相干斑噪声干扰,引入感知损失,使得该方法在恢复图像边缘和精细的纹理信息方面具有优越表现。文中实验表明,与传统算法以及目前较为流行的几种全卷积神经网络超分辨重建算法相比,该文采用的FRDR-CNN模型在视觉上对小物体的超分辨重建能力更强,对边界等轮廓信息的重建更准确,客观指标中的峰值信噪比(PSNR)和结构相似性指数(SSIM)分别为33.5023 dB和0.5127,边缘保持系数(EPD-ROA)在水平和垂直方向上分别为0.4243和0.4373。
  • 图 1  膨胀卷积原理图

    Figure 1.  Dilated convolution schematic

    图 2  残差单元结构

    Figure 2.  Structure of residual unit

    图 3  联合感知损失的FRDR-CNN网络结构

    Figure 3.  Structure of Feature Reuse Dilated-Resnet CNN(FRDR-CNN) with perceptual loss

    图 4  数据集中的典型场景图

    Figure 4.  Typical scene graphs in the dataset

    图 5  场景1的SAR图像超分结果及局部放大图

    Figure 5.  Super resolution results and partial enlargement images of scene 1

    图 6  场景2的SAR图像超分结果及局部放大图

    Figure 6.  Super resolution results and partial enlargement images of scene 2

    图 7  5张测试图像的平均SSIM与EPD-ROA值

    Figure 7.  Average SSIM and EPD-ROA values for five test images

    表 1  场景1和场景2的SAR图像重建结果表

    Table 1.  SAR image reconstruction results table of scene 1 and 2

    ResultsBicubicScSRSRResNetDR-CNNFRDR-CNN本文联合感知损失的FRDR-CNN
    场景1PSNR(dB)29.289729.986730.449230.592231.401532.4202
    SSIM0.47550.48430.49920.50230.51080.5218
    EPD-ROA(HD)0.33020.37730.42530.42980.43290.4498
    EPD-ROA(VD)0.34250.38810.43780.43800.44220.4556
    场景2PSNR(dB)29.357230.063430.625731.790132.471733.4925
    SSIM0.45320.46300.47680.47960.49340.5049
    EPD-ROA(HD)0.31890.35960.40020.40850.41420.4288
    EPD-ROA(VD)0.33490.37920.41980.42170.42160.4352
    下载: 导出CSV
  • [1] BI Zhaoqiang, LI Jian, and LIU Zhengshe. Super resolution SAR imaging via parametric spectral estimation methods[J]. IEEE Transactions on Aerospace and Electronic Systems, 1999, 35(1): 267–281. doi: 10.1109/7.745697
    [2] GUPTA I J, BEALS M J, and MOGHADDAR A. Data extrapolation for high resolution radar imaging[J]. IEEE Transactions on Antennas and Propagation, 1994, 42(11): 1540–1545. doi: 10.1109/8.362783
    [3] BROWN L G. A survey of image registration techniques[J]. ACM Computing Surveys, 1992, 24(4): 325–376. doi: 10.1145/146370.146374
    [4] YANG Siyoung, KIM Y, and JEONG J. Fine edge-preserving technique for display devices[J]. IEEE Transactions on Consumer Electronics, 2008, 54(4): 1761–1769. doi: 10.1109/TCE.2008.4711232
    [5] DUCHON C E. Lanczos filtering in one and two dimensions[J]. Journal of Applied Meteorology, 1979, 18(8): 1016–1022. doi: 10.1175/1520-0450(1979)018<1016:LFIOAT>2.0.CO;2
    [6] YANG Jianchao, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861–2873. doi: 10.1109/TIP.2010.2050625
    [7] DONG Chao, LOY C C, HE Kaiming, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295–307. doi: 10.1109/TPAMI.2015.2439281
    [8] KIM J, KWON LEE J, and MU LEE K. Accurate image super-resolution using very deep convolutional networks[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 1646–1654. doi: 10.1109/CVPR.2016.182.
    [9] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Identity mappings in deep residual networks[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 630–645. doi: 10.1007/978-3-319-46493-0_38.
    [10] WANG Longgang, ZHENG Mana, DU Wenbo, et al. Super-resolution SAR image reconstruction via generative adversarial network[C]. 2018 12th International Symposium on Antennas, Propagation and EM Theory, Hangzhou, China, 2018: 1–4.
    [11] LI Zhen, YANG Jinglei, LIU Zheng, et al. Feedback network for image super-resolution[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 3862–3871. doi: 10.1109/CVPR.2019.00399.
    [12] KIM J, KWON LEE J, and MU LEE K. Deeply-recursive convolutional network for image super-resolution[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 1637–1645. doi: 10.1109/CVPR.2016.181.
    [13] TAI Ying, YANG Jian, and LIU Xiaoming. Image super-resolution via deep recursive residual network[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2790–2798. doi: 10.1109/CVPR.2017.298.
    [14] LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 105–114. doi: 10.1109/CVPR.2017.19.
    [15] YU F and KOLTUN V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint arXiv: 1511.07122, 2015.
    [16] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 4700–4708. doi: 10.1109/CVPR.2017.243.
    [17] BENGIO Y, LECUN Y, NOHL C, et al. LeRec: A NN/HMM hybrid for on-line handwriting recognition[J]. Neural Computation, 1995, 7(6): 1289–1303. doi: 10.1162/neco.1995.7.6.1289
    [18] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014.
    [19] JOHNSON J, ALAHI A, and LI Feifei. Perceptual losses for real-time style transfer and super-resolution[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 694–711. doi: 10.1007/978-3-319-46475-6_43.
    [20] ZHANG Qiang, YUAN Qiangqiang, LI Jie, et al. Learning a dilated residual network for SAR image despeckling[J]. Remote Sensing, 2018, 10(2): 196. doi: 10.3390/rs10020196
    [21] WANG Panqu, CHEN Pengfei, YUAN Ye, et al. Understanding convolution for semantic segmentation[C]. 2018 IEEE Winter Conference on Applications of Computer Vision, Lake Tahoe, USA, 2018: 1451–1460. doi: 10.1109/WACV.2018.00163.
    [22] SHI Wenzhe, CABALLERO J, HUSZÁR F, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Lake Tahoe, USA, 2016: 1874–1883. doi: 10.1109/CVPR.2016.207.
    [23] ZEILER M D, TAYLOR G W, and FERGUS R. Adaptive deconvolutional networks for mid and high level feature learning[C]. 2011 International Conference on Computer Vision, Barcelona, Spain, 2011: 2018–2025. doi: 10.1109/ICCV.2011.6126474.
    [24] NAIR V and HINTON G E. Rectified linear units improve restricted boltzmann machines[C]. The 27th International Conference on Machine Learning, Haifa, Israel, 2010: 807–814.
    [25] 王振. 基于学习策略的SAR图像超分辨[D]. [硕士论文], 西安电子科技大学, 2018.WANG Zhen. SAR image super resolution based on learning strategy[D]. [Master dissertation], Xidian University, 2018.
    [26] WANG Qiang and BI Sheng. Prediction of the PSNR quality of decoded images in fractal image coding[J]. Mathematical Problems in Engineering, 2016, 2016: 2159703.
    [27] WANG Zhou, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600–612. doi: 10.1109/TIP.2003.819861
    [28] 唐伶俐, 江平, 戴昌达, 等. 星载SAR图象斑点噪声消除方法效果的比较研究[J]. 环境遥感, 1996, 11(3): 206–211.TANG Lingli, JIANG Ping, DAI Changda, et al. Evaluation of smoothing filters suppressing speckle noise on SAR images[J]. Remote Sensing of Environment China, 1996, 11(3): 206–211.
  • [1] 肖东凌刘畅 . 基于精调的膨胀编组-交叉CNN的PolSAR地物分类. 雷达学报, 2019, 8(4): 479-489. doi: 10.12000/JR19039
    [2] 任笑真杨汝良 . 一种基于幅度和相位迭代重建的四维合成孔径雷达成像方法. 雷达学报, 2016, 5(1): 65-71. doi: 10.12000/JR15135
    [3] 黄岩赵博陶明亮陈展野洪伟 . 合成孔径雷达抗干扰技术综述. 雷达学报, 2020, 9(1): 86-106. doi: 10.12000/JR19113
    [4] 邢孟道林浩陈溅来孙光才严棒棒 . 多平台合成孔径雷达成像算法综述. 雷达学报, 2019, 8(6): 732-757. doi: 10.12000/JR19102
    [5] 卫扬铠曾涛陈新亮丁泽刚范宇杰温育涵 . 典型线面目标合成孔径雷达参数化成像. 雷达学报, 2020, 9(1): 143-153. doi: 10.12000/JR19077
    [6] 李宁牛世林 . 基于局部超分辨重建的高精度SAR图像水域分割方法. 雷达学报, 2020, 9(1): 174-184. doi: 10.12000/JR19096
    [7] 金添 . 叶簇穿透合成孔径雷达增强成像方法. 雷达学报, 2015, 4(5): 503-508. doi: 10.12000/JR15114
    [8] 李晓峰张彪杨晓峰 . 星载合成孔径雷达遥感海洋风场波浪场. 雷达学报, 2020, 9(3): 425-443. doi: 10.12000/JR20079
    [9] 窦方正刁文辉孙显张跃付琨 . 基于深度形状先验的高分辨率SAR飞机目标重建. 雷达学报, 2017, 6(5): 503-513. doi: 10.12000/JR17047
    [10] 田壮壮占荣辉胡杰民张军 . 基于卷积神经网络的SAR图像目标识别研究. 雷达学报, 2016, 5(3): 320-325. doi: 10.12000/JR16037
    [11] 张金松邢孟道孙光才 . 一种基于密集深度分离卷积的SAR图像水域分割算法. 雷达学报, 2019, 8(3): 400-412. doi: 10.12000/JR19008
    [12] 顾福飞张群杨秋霍文俊王敏 . 基于NCS算子的大斜视SAR压缩感知成像方法. 雷达学报, 2016, 5(1): 16-24. doi: 10.12000/JR15035
    [13] 潘洁王帅李道京卢晓春 . 基于分布式压缩感知的高分宽幅SAR动目标成像技术. 雷达学报, 2020, 9(1): 166-173. doi: 10.12000/JR19060
    [14] 张增辉郁文贤 . 稀疏微波SAR图像特征分析与目标检测研究. 雷达学报, 2016, 5(1): 42-56. doi: 10.12000/JR15097
    [15] 韩萍王欢 . 基于改进的稀疏保持投影的SAR目标特征提取与识别. 雷达学报, 2015, 4(6): 674-680. doi: 10.12000/JR15068
    [16] 张新征谭志颖王亦坚 . 基于多特征-多表示融合的SAR图像目标识别. 雷达学报, 2017, 6(5): 492-502. doi: 10.12000/JR17078
    [17] 曾丽娜周德云李枭扬张堃 . 基于无训练单样本有效特征的SAR目标检测. 雷达学报, 2017, 6(2): 177-185. doi: 10.12000/JR16114
    [18] 范怀涛张志敏李宁 . 基于特征分解的方位向多通道SAR相位失配校正方法. 雷达学报, 2018, 7(3): 346-354. doi: 10.12000/JR17012
    [19] 周春晖李飞李宁郑慧芳王翔宇 . 改进的基于特征子空间的SAR图像射频干扰抑制算法. 雷达学报, 2018, 7(2): 235-243. doi: 10.12000/JR17025
    [20] 孙翔宋红军王宇李宁 . 基于高分辨率全极化SAR图像的取向角校正方法. 雷达学报, 2018, 7(4): 465-474. doi: 10.12000/JR18026
  • 加载中
图(7)表(1)
计量
  • 文章访问数:  1387
  • HTML浏览量:  407
  • PDF下载量:  99
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-12-06
  • 录用日期:  2020-03-05
  • 网络出版日期:  2020-03-28
  • 刊出日期:  2020-04-28

基于特征复用的膨胀-残差网络的SAR图像超分辨重建

    通讯作者: 刘畅 cliu@mail.ie.ac.cn
    作者简介:
    李 萌(1994–),女,甘肃庆阳人,中国科学院大学硕士研究生,研究方向为SAR图像处理、机器学习。E-mail: limeng173@mails.ucas.ac.cn;
    刘 畅(1978–),男,山东烟台人,研究员,博士生导师。2006年在中国科学院电子学研究所获得博士学位,现担任中国科学院空天信息创新研究院研究员、博士生导师。主要研究方向为SAR系统及其相关SAR成像处理。E-mail: cliu@mail.ie.ac.cn
  • 1. 中国科学院空天信息创新研究院 北京 100190
  • 2. 中国科学院电子学研究所 北京 100190
  • 3. 中国科学院大学 北京 100049
基金项目:  国家重点研发计划(2017YFB0503001)

摘要: 对于合成孔径雷达(SAR)图像,传统的超分辨重建方法对视觉特征的人为构造十分依赖,基于普通卷积神经网络(CNN)的超分辨重建方法对微小目标的重建能力较弱,对边缘轮廓的保真度较差。针对以上问题,该文提出一种基于特征复用的膨胀-残差卷积超分辨网络模型,同时引入感知损失,实现了精确的SAR图像4倍语义级超分辨。该方法为增加网络感受野,采用膨胀-残差卷积(DR-CNN)结构用于限制模型中特征图分辨率的严重损失,提高网络对微小细节的敏感度;为实现不同层级的特征最大化利用,将不同层级的特征图进行级联,形成一种特征复用结构(FRDR-CNN),以此大幅度提升特征提取模块的效率,进一步提升超分辨精度;针对SAR图像特殊的相干斑噪声干扰,引入感知损失,使得该方法在恢复图像边缘和精细的纹理信息方面具有优越表现。文中实验表明,与传统算法以及目前较为流行的几种全卷积神经网络超分辨重建算法相比,该文采用的FRDR-CNN模型在视觉上对小物体的超分辨重建能力更强,对边界等轮廓信息的重建更准确,客观指标中的峰值信噪比(PSNR)和结构相似性指数(SSIM)分别为33.5023 dB和0.5127,边缘保持系数(EPD-ROA)在水平和垂直方向上分别为0.4243和0.4373。

English Abstract

    • 合成孔径雷达(Synthetic Aperture Radar, SAR)具有的全天时、全天候特性使得SAR图像被广泛应用于各个领域,如目标检测、地物分类和变化检测等。图像分辨率作为评价SAR图像质量的一个重要指标,分辨率越高的图像会携带更多的语义信息,在后续的高级视觉任务中,能够产生更好的处理效果。然而由于经济因素的限制,以及SAR成像系统的本身硬件设备限制,大批SAR图像来自于低端图像采集设备或者未经过无损的保存,导致采集到的SAR图像数据多以低分辨率的形式存在,严重限制了后期的应用需求,因此需要进行SAR图像分辨率的提高。

      SAR图像分辨率提高通常有3种途径:其一是改进和更新硬件,如通过增大系统的发射带宽和合成大孔径来提高系统理论分辨率;其二是如现代谱估计法[1]和数据外推法[2]等在成像阶段对SAR成像系统采集的原始回波数据进行处理,但它们对信号模型的依赖性很强,且计算量十分庞大;其三为图像超分辨重建(Super Resolution, SR)方法,即对成像后的SAR图像运用图像处理方法,从而实现分辨率提高。受限于SAR相干成像原理,并且改进和更新硬件所需的周期长、成本高,图像超分辨重建算法的运行成本低,而可行性好,具有重要意义。

      插值作为最传统的SAR图像超分辨重建算法,其计算简单、复杂度低,结果计算十分迅速,能够满足实时任务需求。最常用的插值方法为最近邻插值法[3]、双线性插值方法[4]和双三次插值[5],但由于插值法只利用了图像邻域之间的相关信息,因此重建得到的图像精度很低。相较于插值法,Yang等人[6]提出的基于稀疏表示的图像重建方法ScSR (Super-Resolution Via Sparse Representation)可以得到效果较好的超分辨重建结果。其利用图像块的稀疏性训练得到高低分辨率图像块之间的一对字典,实现了高低分辨率图像映射关系的自主学习,然而由于训练集样本受限,因此使用范围较窄。相较于传统的SAR图像超分辨重建算法,卷积神经网络(Convolutional Neural Network, CNN)能够自适应地捕获特征,联合特征网络训练上采样模块,通过图像库直接训练低分辨率(Low Resolution, LR)图像到高分辨率(High Resolution, HR)图像的端对端的映射函数,具有更好的操作性和灵活性,因此能够得到更加准确的超分结果,是目前运用最广并且效果最好的超分辨重建算法。

      目前,CNN已被广泛运用到SAR图像超分辨重建领域。例如,Dong等人[7]设计的SRCNN(Super-Resolution Convolutional Neural Network)方法使用前馈的3层卷积神经网络做非线性映射,首次将CNN应用至超分辨领域,但该算法需要对原始高分辨率图像进行两次采样操作来生成输入图像,导致时间开销很大;由于输入的低分辨率图像和输出的高分辨率图像在很大程度上是相似的,也就是低分辨率图像携带的低频信息与高分辨率图像的低频信息相近,训练时带上低频信息部分会多花费大量的时间,Kim等人[8]提出的VDSR(Very Deep Super Resolution)模型将He等人[9]提出的残差结构添加进超分辨模型,在提升效率的同时进而解决了之前网络结构比较深时无法训练的问题;Wang等人[10]使用生成式对抗网络(Generative Adversarial Networks, GAN)来实现SAR图像超分辨重建;Li等人[11]进一步探索了基于反馈机制即权重共享的CNN在超分任务中的运用。

      在算法精度方面,全卷积超分辨算法[8-10]均选择普通残差结构作为特征提取模块。然而普通残差单元的感受野较小,因此对微小细节并不敏感,导致小目标的超分效果不够精细,甚至信息无法重建;为增加网络感受野,许多网络结构[12-14]会使用数量庞大的残差块结构,由于网络层数多、结构复杂,以致训练网络十分困难,难以快速达到收敛。而膨胀卷积(Dilated CNN)[15]通过存在空洞的卷积核实现尺寸不变的输出特征图,既能实现特征的快速提取,又能保持微小目标的信息重建。因此本文基于一种膨胀-残差卷积神经网络(Dilated-Resnet CNN, DR-CNN)来提升分类效率。该结构实质上是将残差单元中的普通卷积更替为膨胀卷积,因此很容易实现和迁移推广到复杂的网络结构中。

      另外,考虑到全卷积超分辨网络作为一个编码-解码框架,低等级的特征图包含更多的简单信息,比如边界、颜色,而高等级的特征图则可以捕获更抽象且强语义的高维特征,因此本文采用把不同等级上具有相同尺度的特征图叠加后再送入下一步的卷积操作,即特征复用[16]。这种设计可以使特征提取模块同时利用不同尺度上的低级特征和高级特征,从而来捕获更多空间上下文语义特征,进一步提升DR-CNN模型的超分辨精度,文中称该算法为特征复用的膨胀-残差卷积神经网络(Feature Reuse Dilated-Resnet CNN, FRDR-CNN)。同时,在网络中引入感知损失,以此克服SAR图像斑点噪声的干扰,实现了高精度的SAR图像图像重建。

      综上,后文的结构安排如下:第2节介绍卷积和感知损失等相关理论;第3节详细介绍DR-CNN结构以及FRDR-CNN结构;第4节为实验部分,基于某研究所所提供的某地区两对不同场景下相同空间分辨率的SAR图像,验证了本文采用算法的准确性和可行性。

    • 卷积神经网络通过使用局部操作按阶层对不同图像特征进行抽象,随后连接非线性激活层对图像进行去线性化[17]。随着数据的大规模化和计算机硬件的飞速发展,多层CNN模型展现了极大的优势。常见的多层CNN特征模型如VGG[18], ResNet[9]和DenseNet[16]等,并已应用于图像超分辨、图像降噪、目标检测与识别、地物分类和分割等诸多研究领域。

      膨胀卷积[15]通过设置不同大小的膨胀因子(dilation rate)对普通卷积窗进行空洞填充(hole padding),填充的元素不会随着学习做出调整,在不增加卷积核参数量的情况下使卷积核的感受野扩大。膨胀卷积的计算方式与普通卷积相同,卷积核逐像素滑动,当滑动至某个像素点后,计算该像素点的邻域像素矩阵与卷积核模板的滑动内积。膨胀卷积的感受野大小和产生的特征图分辨率计算公式为

      $ k' = d\left( {k - 1} \right) + 1 \hspace{29pt} $

      $h' = \left( {h + 2p - k'} \right)/s + 1$

      其中,$d$为膨胀因子,$k$, $k'$分别表示原始卷积核和膨胀后的卷积核尺寸,$h$, $h'$分别表示输入和输出特征图的分辨率大小,$p$表示边缘填充尺寸,$s$为滑动步长。

      图1为卷积核大小为3×3时,不同膨胀因子所对应的膨胀卷积核感受野大小示意,其中图1(a)对应膨胀因子为1的3×3卷积核,简记为1-Dilated conv,其感受野为3×3;类似地,图1(b)图对应2-Dilated conv,膨胀因子为2,虽然卷积核大小只有3×3,但感受野已扩大至5×5;图1(c)图对应5-Dilated conv,膨胀因子为5,感受野扩大至11×11。不难发现,当膨胀因子为1时,膨胀卷积等价于普通卷积。

      图  1  膨胀卷积原理图

      Figure 1.  Dilated convolution schematic

      膨胀卷积能够在不增加卷积核参数量的情况下扩大卷积核的感受野,因此,不需要通过池化操作降低特征图的分辨率,便可获取到比较高级的语义信息,从而能够有效避免特征图分辨率降低带来的图像局部细节信息损失严重的问题;另外,不同大小的膨胀因子的使用,能够形成不同尺寸的卷积感受野,从而注意到不同尺度的图像特征。

    • 卷积神经网络通过一系列网络层学习层次性特征,随着网络层数的加深,提取细节与抽象能力越丰富,语义信息越完整。因此,理论上深层网络模型的特征提取能力将优于浅层模型。但实际层数迭代的增加也极大地增加了网络权值的训练时间,而且容易出现梯度爆炸或梯度弥散,从而造成训练结果的准确率饱和甚至下降。针对以上问题,He等人[9]提出了残差网络ResNet,其利用拟合残差函数的思想,在保证网络结构足够深的同时,实现了训练过程的优化,有效克服了退化问题,结构如图2(a)所示。

      图  2  残差单元结构

      Figure 2.  Structure of residual unit

      简单而言,残差网络通过卷积神经网络学习残差函数$F(x)$,并与输入的特征图$x$相加,从而得到输出函数$H(x)$,可以表示为

      $H(x) = F(x) + x$

    • 利用卷积神经网络对图像进行超分辨重建时,基本都是通过最小化输出的重建图像和原始高分辨图像之间的平均平方误差(Mean Square Error, MSE)来衡量两者的相似性,这种基于像素点的损失函数虽能得到不错的超分辨率结果,但也会导致超分辨重建中细节等高频信息很难较好地恢复,感知质量较差。JOHNSON等人[19]提出了一种基于特征的损失函数,感知损失(perceptual loss)。在超分网络的后端接入一个权重不更新的VGG16网络[18],利用训练好的VGG16的某层输出作为高维抽象特征学习器,将VGG16提取的特征作为目标函数,通过对比重建图像和原始高分辨图像的特征值,从而判断超分辨率重建结果是否符合自然图像分布规律。感知损失的定义为

      $ l_{{\rm{feat}}}^{\phi ,j}\left( {\hat y,y} \right) = \frac{1}{{{C_j}{H_j}{W_j}}}\left\| {{\phi _j}\left( {\hat y} \right) - {\phi _j}\left( y \right)} \right\|_2^2 $

      其中,$\hat y$为超分辨的输出图像,$y$为目标图像,${\phi _j}$ 为VGG网络中第j层卷积层得到的特征图。

      值得注意的是,使用不同层的特征输出作为损失函数,将会产生不同的超分辨重建结果,选择低层的特征图,会导致感知损失无法提取到高级的特征,从而影响损失函数的判别结果。若单纯使用高层的特征,则会严重降低训练速度。针对超分任务,文献[19]在实验中证明使用VGG16中relu2_2特征图输出作为感知损失计算层时超分结果最佳,本文沿用该准则,将感知损失加入SAR图像超分辨重建的目标函数,期望重建图像在高层次的语义特征层面和原始高分辨率图像更加逼近。

    • 本节将详细地介绍基于特征复用的膨胀-残差卷积神经网络(FRDR-CNN)。本文的主要思想与文献[14]类似,设计了一种膨胀-残差单元结构(DR-CNN),并利用DR-CNN为主体框架,构造FRDR-CNN网络作为超分辨生成式对抗网络中的生成网络。鉴于生成式对抗网络的难以解释性,本文只使用生成模型来完成SAR图像的超分任务。

    • 图像超分辨问题是一个相对来说比较低级的图像语义问题,特征提取模块决定了图像超分辨效果的上界。作为最常用的特征提取网络,提升感受野通用的方式为增加网络层数,但会带来计算量的激增。另外,将原始图像输入到传统的ResNet网络模型[9]经过特征提取后,特征图的分辨率会缩小为输入图像的1/32,导致图像大量局部细节信息损失,严重影响图像边缘等微小结构信息的保留能力,这与超分辨任务的初衷是违背的。针对此问题,参考文献[20]的思路,本文设计了一种膨胀-残差单元结构,如图2(b)所示。通过膨胀卷积限制特征图分辨率的严重损失,有效保留更多的细节信息,同时改善了感受野与中低层网络不能并存的矛盾。

      DR-CNN结构抛弃传统残差单元中的普通卷积,使用膨胀卷积进行残差块的构建,为保证结构中卷积核的连续性,设计原则应满足混合膨胀卷积框架设计原则(Hybrid Dilated Convolution, HDC)[21]

      本文选择采用Dilation rate分别为[1, 2, 5],配合3×3大小的卷积核作为DR-CNN的构成元素,对比传统的残差单元,根据式(1)、式(2),可以计算出,DR-CNN使得一个残差单元的感受野由普通的5×5扩大至15×15。DR-CNN单元可以被视作独立的模块,因此能够很容易地加入各种全卷积神经网络中,具有很强的可迁移性。

    • DR-CNN作为变种的残差单元结构,单纯增加残差单元的个数,不能最大化利用不同尺度上的低级特征和高级特征,提取特征的效率较低。为了提升DR-CNN提取特征的精确度,本文将不同层级的DR-CNN对应的卷积层加入跳线连接结构,将两部分具有同样尺寸的特征图做相加操作后再输入到下一个卷积层,实现了高低维特征的特征复用,称为FRDR-CNN,结构图如图3所示。该结构能够让反向传播信号直接传递到底层,一定程度上解决梯度消失的问题,同时能够实现不同层级的特征最大化利用,从而大幅度提升SAR图像超分辨重建精度。

      图  3  联合感知损失的FRDR-CNN网络结构

      Figure 3.  Structure of Feature Reuse Dilated-Resnet CNN(FRDR-CNN) with perceptual loss

      为加深网络层数,本文在设计的特征提取模块中引入了16个DR-CNN单元。图3中的k表示卷积核大小,s表示卷积步长,n表示卷积核的通道数。为了保证特征复用时跳跃连接的可行性,FRDR-CNN网络要求DR-CNN单元内部的所有膨胀卷积核的边缘填充模式均使用“SAME”模式,且特征图数量和残差块中的特征图通道数均为64,也因此实现了经过FRDR-CNN网络的特征提取部分后输出特征图与输入图像尺寸一致。

      SAR图像超分辨任务中的上采样方式有许多种,例如插值(interpolating)、像素重组(pixel shuffle)[22]、转置卷积(deconvolution)[23]等。为保证重建过程参数的可训练性,同时实现信号复原,在FRDR-CNN模型的后端,接入转置卷积作为FRDR-CNN的上采样模块,以此建立LR图像到HR图像端到端的超分辨过程。为了减弱转置卷积带来的棋盘格效应,需要保证卷积核的尺寸大小可以被步长整除,本文采用的卷积核尺寸为4×4,步长为1,通道数为64。

      FRDR-CNN网络中首端的普通卷积负责将输入的LR图像进行初级特征提取,并进行通道扩增至64;末端的普通卷积对经过转置卷积实现尺寸放大后的特征图进行通道压缩,将输出置为单通道,即可得到最终的SAR图像超分辨重建结果。将输出结果与真实HR图像送入训练好的VGG16[18]网络,计算二者在高维特征上的均方误差,通过反向传播修正FRDR-CNN网络的参数。

      另外,FRDR-CNN中的所有激活函数均使用ReLU[24],为节省位置在结构图中并未画出。其具体形式为

      $S = {\rm{ReLU}}(I) = \max (0,I)$

      其中,I 表示输入图像,S 表示经ReLU激活后图像。FRDR-CNN模型的最后一层不使用激活函数。

    • 为了验证FRDR-CNN模型的超分辨重建能力,本节选择传统重建算法双三次插值(bicubic)[5]、基于稀疏编码的重建算法(ScSR)[6]、参数规模相当的SRResNet[14]与膨胀-残差卷积DR-CNN和采用特征复用后的FRDR-CNN进行对比试验,并尝试在实验中选择是否使用感知损失计算重建误差。本实验所用计算机配置为Intel(R) Xeon(R) CPU X5650 @ 2.67 GHz,内存为16 GB RAM, GPU为NVIDIA GEFORCE GTX 1070Ti,显存为8 G,实验环境为Pytorch深度学习框架。

    • 本章实验用到的数据来自某研究所提供的某地区两对不同分辨率的机载SAR图像,图像空间分辨率为0.5 m,图像大小为8192×16384,图像中有农田,道路以及少量建筑,包含的信息比较丰富,典型场景如图4所示。

      图  4  数据集中的典型场景图

      Figure 4.  Typical scene graphs in the dataset

      和光学图像超分辨的数据处理过程相同,参考Wang[25]的实验过程,本文将原始SAR图像视作高分辨图像(HR),使用三次方插值(bicubic)将HR的物理宽和高分辨率均缩小至1/4大小,以此作为低分辨数据(LR)。这种策略能够弥补SAR图像数据不足的缺陷,另外也解决了HR与LR严格配准难度大的问题。将一整幅HR的SAR图像裁剪为256×256像素的小图像作为标签图像,同样对应的LR的SAR图像裁剪为64×64像素的小图像,为扩充数据量,采用0, 90, 180和270°的图像旋转,图像翻转以及图像镜像等操作进行数据增广(data augmentation)。共生成6000对数据集,选取其中5对作为测试图像,其余数据作为训练数据。其中测试图像含有树木,河流、耕地等不同场景,以测试算法模型的鲁棒性。

    • 为了对SAR图像超分辨算法效果进行客观评价,本文选取峰值信噪比(Peak Signal to Noise Ratio, PSNR)[26]、结构相似性指数(Structural SIMilarity index, SSIM)[27]和边缘保持系数(Edge Preservation Degreebased on the Ratio Of Average, EPD-ROA)[28]作为重建图像质量的客观评价指标。

      PSNR由均方误差决定,以原始的高分辨率图像作为基准,定量对超分辨重建后的结果进行评价,其计算如式(6)所示

      ${\rm{PSNR}}(x,y) = 10\lg \left( {\frac{{{L^2}}}{{{\rm{MSE}}(x,y)}}} \right)$

      其中,${\rm{MSE}}(x,y)$表示x, y两幅图像之间的均方误差,L为图像的灰度级。PSNR值越大,表示两幅图像的相似度越高。

      SSIM可以有效反映图像整体结构相似性,其定义如式(7)所示

      $ {\rm{SSIM}}(x,y) = l{(x,y)^\alpha } \cdot s{(x,y)^\beta } \cdot c{(x,y)^\gamma } $

      其中,x, y分别代表原始图像和超分辨重建图像,$l(x,y)$表征亮度对比,$s(x,y)$表征结构信息对比,$c(x,y)$表征对比度对比,而α, βγ 3个指数用来调节亮度、结构信息及对比度3部分在SSIM指标中所占的比例大小。SSIM值越接近1,表示超分辨重建图像与原始图像的结构相似度越强。

      EPD-ROA的HD和VD计算值可以反映重建图像在水平和垂直方向的边缘保持度,有利于超分重建算法对边界等高频信息的恢复效果。其定义为

      $ {\rm{EPD}} {\text{-}} {\rm{ROA}} = \frac{{\displaystyle\sum\limits_{i = 1}^m {\left| {{X_1}\left( i \right)/{X_2}\left( i \right)} \right|} }}{{\displaystyle\sum\limits_{i = 1}^m {\left| {{Y_1}\left( i \right)/{Y_2}\left( i \right)} \right|} }} $

      其中,m为选定区域内的像素总数,${X_1}(i)$, ${X_2}(i)$代表重建图像沿水平和垂直方向上的两个相邻像素,${Y_1}(i)$, ${Y_2}(i)$代表原始高分辨图像中与${X_1}(i)$, ${X_2}(i)$相邻的两个像素。EPD-ROA的分子表示测试图像的边缘总量,分母表示真实的边缘总量,其值越接近1,表示超分辨重建图像的边缘保持性越好。

    • 图5图6给出了两幅SAR测试图像的4倍超分辨结果及局部放大图,其中下方小图为上方大图对应颜色框部分的细节放大展示。其中,图5(a)图6(a)为LR图像,图5(b)图6(b)为原始的HR图像,图5(c)图6(c)为Bicubic重建结果,图5(d)图6(d)为ScSR的超分辨结果,图5(e)图6(e)为SRResNet超分结果,图5(f)图6(f)为DR-CNN超分结果,图5(g)图6(g)为采用特征复用结构后的FRDR-CNN超分辨结果,图5(h)图6(h)为联合感知损失的FRDR-CNN的超分结果。

      图  5  场景1的SAR图像超分结果及局部放大图

      Figure 5.  Super resolution results and partial enlargement images of scene 1

      图  6  场景2的SAR图像超分结果及局部放大图

      Figure 6.  Super resolution results and partial enlargement images of scene 2

      主观上,从图5图6可以看出,Bicubic和ScSR的结果整体上十分模糊,边缘细节的恢复效果较差,如图5(c)5(d)中的耕地界限。DR-CNN与SRResNet超分算法的视觉效果比较接近,这两种方法均比传统算法得到的结果线条更为锐利,且能够恢复较多的小目标信息,如图6(f)红框中的树木。从图5(g)图6(g)可以看出,采用了特征复用结构后视觉效果提升十分明显,极大地增强了图像的纹理重建效果。联合了感知损失后的FRDR-CNN层次感比较分明,整体更加明朗,同时细节更为清晰,点线目标的保持性较好,在图5(h)图6(h)都有所体现。总体上,针对4×放大任务,本文提出的基于感知损失的FRDR-CNN与HR图像的差异性最小,在视觉上具有最理想的SAR图像重建效果。

      选择峰值信噪比PSNR[26]、结构相似性指数SSIM[27]和边缘保持系数EPD-ROA[28]作为图像质量的客观评价指标。与图5图6对应的两个场景的超分客观指标由表1给出。

      ResultsBicubicScSRSRResNetDR-CNNFRDR-CNN本文联合感知损失的FRDR-CNN
      场景1PSNR(dB)29.289729.986730.449230.592231.401532.4202
      SSIM0.47550.48430.49920.50230.51080.5218
      EPD-ROA(HD)0.33020.37730.42530.42980.43290.4498
      EPD-ROA(VD)0.34250.38810.43780.43800.44220.4556
      场景2PSNR(dB)29.357230.063430.625731.790132.471733.4925
      SSIM0.45320.46300.47680.47960.49340.5049
      EPD-ROA(HD)0.31890.35960.40020.40850.41420.4288
      EPD-ROA(VD)0.33490.37920.41980.42170.42160.4352

      表 1  场景1和场景2的SAR图像重建结果表

      Table 1.  SAR image reconstruction results table of scene 1 and 2

      表1结果可以看出,基于卷积神经网络的超分辨算法在指标上领先Bicubic方法很多;DR-CNN表现明显优于SRResNet,证明了膨胀-残差网络的有效性;采用特征复用结构后,使得FRDR-CNN算法的PSNR较DR-CNN提高了约0.80 dB,而SSIM和EPD-ROA计算值则提高了1.7%;感知损失的加入将FRDR-CNN算法的PSNR指标计算值提升了1.0 dB,而SSIM和EPD-ROA指标计算值分别提升了约0.010和0.015,这与图5图6的主观感受是一致的。

      为对所有场景进行客观评价,探讨模型的稳定性和鲁棒性,并进行算法的时间消耗评估,图7展示了6种算法对应的5张测试图像的平均PSNR,SSIM与EPD-ROA值。为便于展示,图7中将PSNR值除以了100。

      图  7  5张测试图像的平均SSIM与EPD-ROA值

      Figure 7.  Average SSIM and EPD-ROA values for five test images

      从5组测试集的评估图中可以看出,基于特征复用的膨胀-残差网络在联合了感知损失后,PSNR均值为33.5023 dB, SSIM均值为0.5127, EPD-ROA(HD)均值为0.4243, EPD-ROA(VD)均值为0.4373, 4个指标均为6种算法最高,说明该方法与原始HR图的相似度和边缘保持能力都达到了最优。基于特征复用的膨胀-残差网络能学习更多的上下文语义特征,并具有超大感受野,从而提升了微小目标和细节的超分效果。同时,感知损失由于使用了高级语义特征,能够根据像素的空间关联信息判断图像之间的相似度,使得FRDR-CNN的超分效果实现了进一步提升,在图像全局和边缘细节上都有最好表现。综上,上述实验验证了基于特征复用的膨胀-残差网络模型能够实现高精度的SAR图像超分辨重建。

    • 本文通过联合了感知损失的FRDR-CNN算法实现了精准的SAR图像超分辨重建。该算法首先提出一种膨胀-残差单元结构,在保留边缘结构信息的情形下仍可获得超大感受野;通过特征复用,实现了不同层级的特征最大化利用,以此捕获更多上下文强语义特征,进而提升小物体的超分精度;引入感知损失来约束超分辨率结果,实现了边缘信息的精准重建。实验表明,相较于Bicubic和普通残差超分辨网络,DR-CNN在主观感受和客观指标均取得了精度上的大幅度提升,同时,DR-CNN作为一种独立的单元模块,也具有很强的迁移性。使用特征复用结构构成的FRDR-CNN进一步提高了DR-CNN算法的精度,联合了感知损失的FRDR-CNN算法得到了更为逼真和准确的超分辨重建结果,因此具有很强的实用性。

参考文献 (28)

目录

    /

    返回文章
    返回