一种基于Dropout约束深度极限学习机的雷达目标分类算法

赵飞翔 刘永祥 霍凯

赵飞翔, 刘永祥, 霍凯. 一种基于Dropout约束深度极限学习机的雷达目标分类算法[J]. 雷达学报, 2018, 7(5): 613-621. doi: 10.12000/JR18048
引用本文: 赵飞翔, 刘永祥, 霍凯. 一种基于Dropout约束深度极限学习机的雷达目标分类算法[J]. 雷达学报, 2018, 7(5): 613-621. doi: 10.12000/JR18048
Zhao Feixiang, Liu Yongxiang, Huo Kai. A Radar Target Classification Algorithm Based on Dropout Constrained Deep Extreme Learning Machine[J]. Journal of Radars, 2018, 7(5): 613-621. doi: 10.12000/JR18048
Citation: Zhao Feixiang, Liu Yongxiang, Huo Kai. A Radar Target Classification Algorithm Based on Dropout Constrained Deep Extreme Learning Machine[J]. Journal of Radars, 2018, 7(5): 613-621. doi: 10.12000/JR18048

一种基于Dropout约束深度极限学习机的雷达目标分类算法

doi: 10.12000/JR18048
基金项目: 国家自然科学基金(61422114,61501481),湖南省杰出青年科学基金(2015JJ1003)
详细信息
    作者简介:

    赵飞翔(1989–),男,河南洛阳人,国防科技大学电子科学学院在读博士生,研究方向为雷达目标识别。E-mail: zfxkj123@sina.cn

    刘永祥(1976–),男,河北唐山人,博士,国防科技大学电子科学学院智能感知系主任,教授,博士生导师,主要研究方向为目标微动特性分析与识别。E-mail: lyx_bible@sina.com

    霍  凯(1983–),男,湖北黄冈人,博士,国防科技大学电子科学学院讲师,主要研究方向为雷达信号处理与目标识别。E-mail: huokai2001@163.com

    通讯作者:

    刘永祥  lyx_bible@sina.com

A Radar Target Classification Algorithm Based on Dropout Constrained Deep Extreme Learning Machine

Funds: The National Natural Science Foundation of China (61422114, 61501481), The Natural Science Fund for Distinguished Young Scholars of Hunan Province (2015JJ1003)
  • 摘要: 雷达目标分类在军事和民用领域发挥着重要作用。极限学习机(Extreme Learning Machine, ELM)因其学习速度快、泛化能力强而被广泛应用于分类任务中。然而,由于其浅层结构,ELM无法有效地捕获数据深层抽象信息。虽然许多研究者已经提出了深度极限学习机,它可以用于自动学习目标高级特征表示,但是当训练样本有限时,模型容易陷入过拟合。为解决此问题,该文提出一种基于Dropout约束的深度极限学习机雷达目标分类算法,在雷达测量数据上的实验结果表明所提算法在分类准确率上达到93.37%,相较栈式自动编码器算法和传统深度极限学习机算法分别提高了5.25%和8.16%,验证了算法有效性。
  • 图  1  ELM-AE框架

    Figure  1.  The framework of ELM-AE

    图  2  DELM训练过程

    Figure  2.  The training process of DELM

    图  3  Dropout神经网络模型

    Figure  3.  Dropout neural network model

    图  4  每一个飞机目标HRRP序列

    Figure  4.  The HRRP sequence for each aircraft target

    图  5  每一个飞机目标距离像

    Figure  5.  Range profiles of each aircraft target

    图  6  第1和第2隐藏层不同节点数对分类效果的影响

    Figure  6.  The effect of different number of nodes in the first and second hidden layers on the classification performance

    图  7  不同隐层节点对网络训练和测试时间的影响

    Figure  7.  The effect of different hidden nodes on training and test time of network

    图  8  不同岭参数 $C = [{C_1},{C_2},{C_3}]$ 对网络分类效果的影响

    Figure  8.  The effect of different ridge parameters $C = [{C_1},{C_2},{C_3}]$ on classification performance

    图  9  不同Dropout参数对分类效果的影响

    Figure  9.  The effect of Dropout parameters on the classification performance

    表  1  所提方法和其他算法分类准确率比较

    Table  1.   Comparison of classification accuracy between the proposed method and other algorithms

    方法 分类准确率(%) 训练时间(s)
    SAE 88.12 7.8746
    DELM 85.21 0.4121
    所提方法 93.37 0.4205
    下载: 导出CSV
  • [1] Liu Y X, Zhu D K, Li X, et al. Micromotion characteristic acquisition based on wideband radar phase[J]. IEEE Transactions on Geoscience and Remote Sensing, 2014, 52(6): 3650–3657. DOI:  10.1109/TGRS.2013.2274478
    [2] Bigdeli B and Pahlavani P. Quad-polarized synthetic aperture radar and multispectral data classification using classification and regression tree and support vector machine-based data fusion system[J]. Journal of Applied Remote Sensing, 2017, 11(1): 016007. DOI:  10.1117/1.JRS.11.016007
    [3] Shi J F, Li L L, Liu F, et al. Unsupervised polarimetric synthetic aperture radar image classification based on sketch map and adaptive Markov random field[J]. Journal of Applied Remote Sensing, 2016, 10(2): 025008. DOI:  10.1117/1.JRS.10.025008
    [4] Hinton G E and Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. DOI:  10.1126/science.1127647
    [5] Lecun Y, Bengio Y, and Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436–444. DOI:  10.1038/nature14539
    [6] Zhao F X, Liu Y X, Huo K, et al. Radar HRRP target recognition based on stacked autoencoder and extreme learning machine[J]. Sensors, 2018, 18(1): 173. DOI:  10.3390/s18010173
    [7] Abdel-Hamid O, Mohamed A R, Jiang H, et al. Convolutional neural networks for speech recognition[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing, 2014, 22(10): 1533–1545. DOI:  10.1109/TASLP.2014.2339736
    [8] Ding J, Chen B, Liu H W, et al. Convolutional neural network with data augmentation for SAR target recognition[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(3): 364–368. DOI:  10.1109/LGRS.2015.2513754
    [9] Wang X L, Guo R, and Kambhamettu C. Deeply-learned feature for age estimation[C]. Proceedings of 2015 IEEE Winter Conference on Applications of Computer Vision (WACV), Waikoloa, HI, USA, 2015: 534–541. DOI:  10.1109/WACV.2015.77.
    [10] Huang G B, Zhu Q Y, and Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70(1/3): 489–501. DOI:  10.1016/j.neucom.2005.12.126
    [11] Huang G, Huang G B, Song S J, et al. Trends in extreme learning machines: A review[J]. Neural Networks, 2015, 61: 32–48. DOI:  10.1016/j.neunet.2014.10.001
    [12] Liang N Y, Huang G B, Saratchandran P, et al. A fast and accurate online sequential learning algorithm for feedforward networks[J]. IEEE Transactions on Neural Networks, 2006, 17(6): 1411–1423. DOI:  10.1109/TNN.2006.880583
    [13] Zong W W and Huang G B. Face recognition based on extreme learning machine[J]. Neurocomputing, 2011, 74(16): 2541–2551. DOI:  10.1016/j.neucom.2010.12.041
    [14] Liu N and Wang H. Evolutionary extreme learning machine and its application to image analysis[J]. Journal of Signal Processing Systems, 2013, 73(1): 73–81. DOI:  10.1007/s11265-013-0730-x
    [15] Ding S F, Zhang N, Zhang J, et al. Unsupervised extreme learning machine with representational features[J]. International Journal of Machine Learning and Cybernetics, 2017, 8(2): 587–595. DOI:  10.1007/s13042-015-0351-8
    [16] Zhao F X, Liu Y X, Huo K, et al. Radar target classification using an evolutionary extreme learning machine based on improved quantum-behaved particle swarm optimization[J]. Mathematical Problems in Engineering, 2017: 7273061. DOI:  10.1155/2017/7273061
    [17] Kasun L L C, Zhou H M, Huang G B, et al. Representational learning with ELMs for big data[J]. IEEE Intelligent Systems, 2013, 28(6): 31–34.
    [18] Yu W C, Zhuang F Z, He Q, et al. Learning deep representations via extreme learning machines[J]. Neurocomputing, 2015, 149: 308–315. DOI:  10.1016/j.neucom.2014.03.077
    [19] Zhu W T, Miao J, Qing L Y, et al.. Hierarchical extreme learning machine for unsupervised representation learning[C]. Proceedings of 2015 International Joint Conference on Neural Networks (IJCNN), Killarney, Ireland, 2015: 1–8. DOI:  10.1109/IJCNN.2015.7280669.
    [20] Tang J X, Deng C W, and Huang G B. Extreme learning machine for multilayer perceptron[J]. IEEE Transactions on Neural Networks and Learning Systems, 2016, 27(4): 809–821. DOI:  10.1109/TNNLS.2015.2424995
    [21] Hinton G E, Srivastava N, Krizhevsky A, et al.. Improving neural networks by preventing co-adaptation of feature detectors[OL]. https://arxiv.org/abs/1207.0580.2012.07.
    [22] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929–1958.
    [23] Iosifidis A, Tefas A, and Pitas I. DropELM: Fast neural network regularization with dropout and dropconnect[J]. Neurocomputing, 2015, 162: 57–66. DOI:  10.1016/j.neucom.2015.04.006
    [24] Baldi P and Sadowski P. The dropout learning algorithm[J]. Artificial Intelligence, 2014, 201: 78–122.
    [25] Wager S, Wang S D, and Liang P. Dropout training as adaptive regularization[C]. Proceedings of the 26th International Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada, 2013: 351–359.
    [26] Yang W X, Jin L W, Tao D C, et al. DropSample: A new training method to enhance deep convolutional neural networks for large-scale unconstrained handwritten Chinese character recognition[J]. Pattern Recognition, 2016, 58: 190–203. DOI:  10.1016/j.patcog.2016.04.007
    [27] Baldi P and Sadowski P. Understanding dropout[C]. Proceedings of the 26th International Conference on Neural Information Processing Systems (NIPS), Lake Tahoe, Nevada, 2013: 2814–2822.
  • [1] 戴牧宸, 冷祥光, 熊博莅, 计科峰.  基于改进双边网络的SAR图像海陆分割方法 . 雷达学报, 2020, 9(5): 886-897. doi: 10.12000/JR20089
    [2] 郭炜炜, 张增辉, 郁文贤, 孙效华.  SAR图像目标识别的可解释性问题探讨 . 雷达学报, 2020, 9(3): 462-476. doi: 10.12000/JR20059
    [3] 郭倩, 王海鹏, 徐丰.  SAR图像飞机目标检测识别进展 . 雷达学报, 2020, 9(3): 497-513. doi: 10.12000/JR20020
    [4] 陈小龙, 陈唯实, 饶云华, 黄勇, 关键, 董云龙.  飞鸟与无人机目标雷达探测与识别技术进展与展望 . 雷达学报, 2020, 9(5): 803-827. doi: 10.12000/JR20068
    [5] 马琳, 潘宗序, 黄钟泠, 韩冰, 胡玉新, 周晓, 雷斌.  基于子孔径与全孔径特征学习的SAR多通道虚假目标鉴别 . 雷达学报, 2020, 9(): 1-14. doi: 10.12000/JR20106
    [6] 罗迎, 倪嘉成, 张群.  基于“数据驱动+智能学习”的合成孔径雷达学习成像 . 雷达学报, 2020, 9(1): 107-122. doi: 10.12000/JR19103
    [7] 胡涛, 李卫华, 秦先祥, 王鹏, 余旺盛, 李军.  基于深度卷积神经网络和条件随机场模型的PolSAR图像地物分类方法 . 雷达学报, 2019, 8(4): 471-478. doi: 10.12000/JR18065
    [8] 张金松, 邢孟道, 孙光才.  一种基于密集深度分离卷积的SAR图像水域分割算法 . 雷达学报, 2019, 8(3): 400-412. doi: 10.12000/JR19008
    [9] 陈慧元, 刘泽宇, 郭炜炜, 张增辉, 郁文贤.  基于级联卷积神经网络的大场景遥感图像舰船目标快速检测方法 . 雷达学报, 2019, 8(3): 413-424. doi: 10.12000/JR19041
    [10] 苏宁远, 陈小龙, 关键, 牟效乾, 刘宁波.  基于卷积神经网络的海上微动目标检测与分类方法 . 雷达学报, 2018, 7(5): 565-574. doi: 10.12000/JR18077
    [11] 王俊, 郑彤, 雷鹏, 魏少明.  深度学习在雷达中的研究综述 . 雷达学报, 2018, 7(4): 395-411. doi: 10.12000/JR18040
    [12] 康妙, 计科峰, 冷祥光, 邢相薇, 邹焕新.  基于栈式自编码器特征融合的SAR图像车辆目标识别 . 雷达学报, 2017, 6(2): 167-176. doi: 10.12000/JR16112
    [13] 赵飞翔, 刘永祥, 霍凯.  基于栈式降噪稀疏自动编码器的雷达目标识别方法 . 雷达学报, 2017, 6(2): 149-156. doi: 10.12000/JR16151
    [14] 徐丰, 王海鹏, 金亚秋.  深度学习在SAR目标识别与地物分类中的应用 . 雷达学报, 2017, 6(2): 136-148. doi: 10.12000/JR16130
    [15] 孙勋, 黄平平, 涂尚坦, 杨祥立.  利用多特征融合和集成学习的极化SAR图像分类 . 雷达学报, 2016, 5(6): 692-700. doi: 10.12000/JR15132
    [16] 钟金荣文贡坚, .  基于块稀疏贝叶斯学习的雷达目标压缩感知(英文) . 雷达学报, 2016, 5(1): 99-108. doi: 10.12000/JR15056
    [17] 赵晓辉, 姜义成, 朱同宇.  基于表征转换机的SAR图像目标分割方法 . 雷达学报, 2016, 5(4): 402-409. doi: 10.12000/JR16066
    [18] 滑文强, 王爽, 侯彪.  基于半监督学习的SVM-Wishart极化SAR图像分类方法 . 雷达学报, 2015, 4(1): 93-98. doi: 10.12000/JR14138
    [19] 孙志军, 薛磊, 许阳明, 孙志勇.  基于多层编码器的SAR目标及阴影联合特征提取算法 . 雷达学报, 2013, 2(2): 195-202. doi: 10.3724/SP.J.1300.2012.20085
    [20] 孟藏珍, 袁定波, 许稼, 彭石宝, 王晓军.  基于神经网络分类的异类传感器目标关联算法 . 雷达学报, 2012, 1(4): 399-405. doi: 10.3724/SP.J.1300.2012.20087
  • 加载中
图(9) / 表 (1)
计量
  • 文章访问数:  1447
  • HTML全文浏览量:  544
  • PDF下载量:  329
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-06-22
  • 修回日期:  2018-08-29
  • 刊出日期:  2018-10-28

一种基于Dropout约束深度极限学习机的雷达目标分类算法

doi: 10.12000/JR18048
    基金项目:  国家自然科学基金(61422114,61501481),湖南省杰出青年科学基金(2015JJ1003)
    作者简介:

    赵飞翔(1989–),男,河南洛阳人,国防科技大学电子科学学院在读博士生,研究方向为雷达目标识别。E-mail: zfxkj123@sina.cn

    刘永祥(1976–),男,河北唐山人,博士,国防科技大学电子科学学院智能感知系主任,教授,博士生导师,主要研究方向为目标微动特性分析与识别。E-mail: lyx_bible@sina.com

    霍  凯(1983–),男,湖北黄冈人,博士,国防科技大学电子科学学院讲师,主要研究方向为雷达信号处理与目标识别。E-mail: huokai2001@163.com

    通讯作者: 刘永祥  lyx_bible@sina.com

摘要: 雷达目标分类在军事和民用领域发挥着重要作用。极限学习机(Extreme Learning Machine, ELM)因其学习速度快、泛化能力强而被广泛应用于分类任务中。然而,由于其浅层结构,ELM无法有效地捕获数据深层抽象信息。虽然许多研究者已经提出了深度极限学习机,它可以用于自动学习目标高级特征表示,但是当训练样本有限时,模型容易陷入过拟合。为解决此问题,该文提出一种基于Dropout约束的深度极限学习机雷达目标分类算法,在雷达测量数据上的实验结果表明所提算法在分类准确率上达到93.37%,相较栈式自动编码器算法和传统深度极限学习机算法分别提高了5.25%和8.16%,验证了算法有效性。

English Abstract

赵飞翔, 刘永祥, 霍凯. 一种基于Dropout约束深度极限学习机的雷达目标分类算法[J]. 雷达学报, 2018, 7(5): 613-621. doi: 10.12000/JR18048
引用本文: 赵飞翔, 刘永祥, 霍凯. 一种基于Dropout约束深度极限学习机的雷达目标分类算法[J]. 雷达学报, 2018, 7(5): 613-621. doi: 10.12000/JR18048
Zhao Feixiang, Liu Yongxiang, Huo Kai. A Radar Target Classification Algorithm Based on Dropout Constrained Deep Extreme Learning Machine[J]. Journal of Radars, 2018, 7(5): 613-621. doi: 10.12000/JR18048
Citation: Zhao Feixiang, Liu Yongxiang, Huo Kai. A Radar Target Classification Algorithm Based on Dropout Constrained Deep Extreme Learning Machine[J]. Journal of Radars, 2018, 7(5): 613-621. doi: 10.12000/JR18048
    • 雷达目标分类[13]在军事和民用领域都发挥着重要的作用。传统的目标分类方法首先需要提取目标特征,然后通过分类器进行分类。其中特征提取是关键步骤,所提特征质量的好坏直接影响着分类性能的优劣。然而,传统的特征提取方法是浅层次的,且依赖于研究人员的专业知识和经验。因此如何自动地从数据中提取有利于目标分类的深层特征成了一个重要的问题。

      目前,深度学习[4,5]在模式识别和机器学习中得到了广泛关注。深度学习的本质是构建一个包含多个隐含层的神经网络来映射数据以获得高层抽象信息。在训练深度学习模型时,首先利用无监督学习逐层训练网络,并将每层输出作为下一层的输入,然后利用监督学习从上到下对网络进行微调。目前广泛应用的深度学习模型有深度信念网络(Deep Belief Network, DBN)[4],栈式自编码器(Stacked AutoEncoder, SAE)[6]和卷积神经网络(Convolutional Neural Networks, CNN)[7]。虽然这些模型在语音识别[7]、目标分类[8]和年龄估计[9]等领域有好的表现,但其微调过程需要耗费大量时间,从而降低网络训练速度。

      为了解决这个问题,黄广斌等人[10]提出了极限学习机(Extreme Learning Machine, ELM)算法。该算法的思想是随机生成输入权重和隐层偏置,然后通过求解输出权重的最小二乘范数解来训练网络[11]。ELM不仅具有比传统学习方法更快的学习速度,而且具有良好的泛化性能。由于这些优点,ELM被应用在很多领域,如在线序列学习[12]、人脸识别[13]、图像分析[14]、聚类[15]以及雷达目标分类[16]等。然而,我们知道,由于其浅层架构,ELM可能无法有效地捕获数据的高层抽象信息。文献[17]提出一种深度极限学习机(Deep Extreme Learning Machine, DELM)算法,多层网络结构使其能够在数据中提取高层抽象信息,此外,与其他深度网络相比,DELM可以获得更好的性能。文献[18]提出一种多层模型DrELM,该算法依据栈式泛化理论通过堆叠ELM能获得目标深层特征表达。在文献[19]中,极限学习机-自动编码器(ELM-AE)被用作学习单元以学习网络中每层的局部感受野,同时为了保留更多信息,低层的输出被传送到最后一层以形成更完整的特征表示。文献[20]提出了一种新的基于ELM的多层感知学习框架,并在公共数据集上进行了实验,结果表明,该算法比现有的分层学习算法具有更好的收敛速度。

      然而,在模型训练过程中,样本的数量和质量直接影响着网络权重参数的调整。当训练样本有限时,模型很容易陷入过拟合。因此有必要研究当训练样本有限时防止深度模型过拟合的方法。Dropout是Hinton[21]在2012提出的解决这一问题的新技术。该技术的核心是在网络训练时从网络中随机删除一些隐藏节点及其连接,从而防止由于特征间的共同作用而引起的过拟合[22]。研究结果表明,Dropout可以提高神经网络在计算机视觉、语音识别、文本分类等应用中的学习性能。文献[23]研究了Dropout的各种性质,包括收敛性质、优化性质和逼近性质。文献[24]从理论层面研究了Dropout能有效解决过拟合问题的原因。文献[25]提出了在深度神经网络中自适应Dropout参数的方法。在文献[26]中,Dropout被引入到深度卷积神经网络的训练过程中,并在中文字符识别中得到应用。文献[27]提出了理解Dropout的通用框架。虽然深度极限学习机可以获得目标的深层抽象信息,但在训练样本有限的情况下,模型容易过拟合。为了解决这一问题,本文提出了一种基于Dropout约束的深度极限学习机(DCDELM)算法。

      本文的主要内容如下:第2节介绍了深度极限学习机和Dropout的相关理论知识;在第3节中,提出基于Dropout约束的深度极限学习机。实验结果在第4部分进行了分析,第5部分对论文进行总结。

    • 基于梯度的学习算法存在训练速度慢、泛化性能差的缺点。为了解决这些问题,Huang等人[10]提出了极限学习机(ELM)算法。该算法模型由3层网络组成,分别为输入层、隐藏层和输出层。给定一个含有 $N$ 个训练样本的数据集 $({{{x}}_i},{{{t}}_i})$ ,其中 $i = 1,2, ·\!·\!· ,N$ , ${{x}_i} = {\left[ {{x_{i1}},{x_{i2}}, ·\!·\!· ,{x_{in}}} \right]^ {\rm{T}}} \in {{{R}}^n}$ , $ {{t}_i} = \left[ {t_{i1}}, \right.$ $\left. {t_{i2}},·\!·\!· ,{t_{im}} \right]^ {\rm{T}} \in {{{R}}^m}$ 。如果该模型结构有 $L$ 个隐藏层节点, $m$ 个输出节点,并且隐层激活函数为 $g(x)$ ,则隐层输出可用式(1)表示。如果这个含有 $L$ 个隐藏层节点的网络能够以0误差逼近输入的 $N$ 个训练样本,则网络输出可用式(2)表示。

      $$ {{h}} = {{g}}({{wx}} + {{b}}) $$ (1)
      $${{h}}({{{x}}_i}){{β}} = {{t}}_i^ {\rm{T}},\;i = 1,2, ·\!·\!· ,N$$ (2)

      其中, ${{β}} $ 是隐层节点和输出节点间的权重向量。

      式(2)可以转化为:

      $${{H}}{{β}} = {{T}}$$ (3)

      其中

      $$\begin{align} & {{H}}({{{w}}_1}, ·\!·\!· {{{w}}_L},{{{b}}_1}, ·\!·\!· {{{b}}_L},{{{x}}_1}, ·\!·\!· {{{x}}_N}) \\ & \quad ={\left[ \begin{gathered} g({{{w}}_1} \cdot {{{x}}_1} + {{{b}}_1}) ·\!·\!· g({{{w}}_L} \cdot {{{x}}_1} + {{{b}}_L}) \\ \; \vdots \quad\quad\quad ·\!·\!· \ \quad\quad\quad\vdots \\ g({{{w}}_1} \cdot {{{x}}_N} + {{{b}}_1}) ·\!·\!· g({{{w}}_L} \cdot {{{x}}_N} + {{{b}}_L}) \\ \end{gathered} \right]_{N \times L}} \\ \end{align} $$ (4)
      $${{β}} = {\left[ \begin{gathered} {{β}} _1^ {\rm{T}} \\ \; \vdots \\ {{β}} _L^ {\rm{T}} \\ \end{gathered} \right]_{L \times m}},\;\;\;{{T}} = {\left[ \begin{gathered} {{t}}_1^ {\rm{T}} \\ \; \vdots \\ {{t}}_N^ {\rm{T}} \\ \end{gathered} \right]_{N \times m}}$$ (5)

      因此训练ELM相当于求解 ${{β}} $ 的最小二乘范数解,其表达式为:

      $$\hat {{β}} = {{{H}}^ + }{{T}}$$ (6)

      其中, ${{{H}}^ + }$ 为隐层输出矩阵 ${{H}}$ 的Moore-Penrose广义逆。

      式(6)可转化为:

      $$ {{β}} = {\left(\frac{{{I}}}{C} + {{{H}}^ {\rm{T}}}{{H}}\right)^{ - 1}}{{{H}}^ {\rm{T}}}{{T}}$$ (7)

      其中, ${{I}}$ 为单位矩阵, $C$ 为岭参数(也称正则化系数)。

      ELM也可以用优化的方法解释。ELM理论的目标是使得训练误差 ${\left\| {{{H}}{{β}} - {{T}}} \right\|^2}$ 和输出权值的范数解 $\left\| {{β}} \right\|$ 达到最小。则式(3)可通过式(8)求解:

      $$\left. \begin{align} & {\rm{Minimize}}\!:\frac{1}{2}{\left\| {{β}} \right\|^2} + C\frac{1}{2}\sum\limits_{i = 1}^N {{{\left\| {{{ξ} _i}} \right\|}^2}} \\ & {\rm{Subject \ to}}\!:{{h}}({{{x}}_i}){{β}} = {{t}}_i^ {\rm{T}} - {ξ}_i^ {\rm{T}},\;i = 1, ·\!·\!· ,N \end{align} \!\!\!\!\! \right\} $$ (8)

      其中, ${{ξ}_i}$ $m$ 个输出节点相对于训练样本 ${{{x}}_i}$ 的训练误差向量。 ${{h}}({{{x}}_i})$ 是第 $i$ 个样本 ${{{x}}_i}$ 的隐层输出向量。基于Karush-Kuhn-Tucker (KKT)理论,可以获得和式(7)相同的解。

    • 自动编码器(AutoEncoder, AE)是一种无监督的神经网络。它通过对输入进行编码,然后再进行解码以重构该输入。极限学习机-自动编码器(ELM-AE)是一种新的神经网络方法,它可以像AE一样重构输入数据。ELM-AE也由3层网络组成,分别为输入层、隐藏层和输出层。ELM-AE的框架在图1中给出。ELM-AE和传统ELM的主要区别在于,ELM是一种监督学习算法,其输出是目标类别。而ELM-AE是一种无监督学习算法,它的输出即为其输入。给定一个含有 $N$ 个样本的数据集 ${{x}_i},i = $ $1,2, ·\!·\!· ,N,{{x}_i} \in {{{R}}^i}$ ,则ELM-AE的隐层输出可用式(9)表示,其网络输出可用式(10)表示。

      图  1  ELM-AE框架

      Figure 1.  The framework of ELM-AE

      $${{h}} = {{g}}({{wx}} + {{b}}),\;{{{w}}^ {\rm{T}}}{{w}} = {{I}},\;{{{b}}^ {\rm{T}}}{{b}} = {{I}} $$ (9)
      $$ {{h}}({{{x}}_i}){{β}} = {{x}}_i^ {\rm{T}},\;i = 1,2, ·\!·\!· ,N $$ (10)

      ELM-AE隐层参数在随机生成后需要进行正交化。这样可以有效地将输入数据映射到随机子空间。与ELM随机初始化输入权重和隐层偏置相比,正交化可以更好地捕获输入数据的各种边缘特征,从而使模型能够有效地学习数据的非线性结构。输出权重可通过式(11)进行计算:

      $${{β}} = {\left(\frac{{{I}}}{C} + {{{H}}^ {\rm{T}}}{{H}}\right)^{ - 1}}{{{H}}^ {\rm{T}}}{{X}}$$ (11)
    • 在训练深度学习模型时,需要首先采用无监督学习算法对各层的参数进行训练,然后利用监督学习对网络进行微调。其中微调的过程需要耗费很多时间。2013年,黄广斌等人[17]提出了深度极限学习机(Deep Extreme Learning Machine, DELM)。与其他深度学习模型一样,DELM使用无监督学习方法ELM-AE来训练每层的参数,但不同的是DELM不需要对网络进行微调。这样,与其他深度学习算法相比,DELM不需要花费很长的时间来训练网络。图2显示了DELM的训练过程。

      给定 $N$ 个训练样本集,网络隐层数为 $k$ ,网络需要学习的权重参数为 ${{W}} = \left\{ {{{W}}_1},{{{W}}_2}, ·\!·\!·,{{{W}}_k},\right. $ $ \left.{{{W}}_{k + 1}} \right\}$ , ${{{X}}_i}$ 表示第 $i$ 个ELM-AE的输入。通过最小化重构误差,我们可以获得输入数据的特征表达,并将其作为下一层网络的输入。正如图2所示,网络的输入被看做是第1个ELM-AE的输入和输出,即 ${{T}} = {{{X}}_1} = {{X}}$ ,然后根据式(11)可以求得输出权重 ${{{β}} _1}$ 。将第1个ELM-AE的隐层输出 ${{{H}}_1}\Bigr( $ 其中 ${{{H}}_k} = {{g}}\left({{{β}} _k}\!\!^ {\rm{T}}{{{H}}_{k - 1}}\right)\Bigr)$ 作为第2个ELM-AE的输入和输出,即 ${{T}} = {{{X}}_2} = {{{H}}_1}$ 。用相同的方法,第 $k$ 个隐层之前的网络连接权重均可求得。根据自动编码器理论,其编码层和解码层的权重互为转置,因此,深度极限学习机第 $k$ 个隐层之前的网络连接权重为 ${{{W}}_\tau } = {{β}} _\tau\!\!^ {\rm{T}}(\tau = 1, ·\!·\!· ,k)$ 。最后,将 ${{H}_k}$ 视为监督层极限学习机的隐层输出,则其输出权重 ${{{W}}_{k + 1}}$ 可根据式(7)求得。至此,完成深度极限学习机的训练过程。

      图  2  DELM训练过程

      Figure 2.  The training process of DELM

    • Dropout是提高网络泛化能力的有效途径。Dropout的意思是指在网络训练过程中将神经元随机移除。移除一个神经元,是将它连同它的所有输入和输出连接从网络中暂时丢弃。正如图3所示。选择将哪一个神经元丢弃是随机的,通常每一个神经元以独立于其他神经元的固定概率被保留。由于神经元是随机丢弃的,故而对于每一次训练,网络都在发生变化,这样的设计可以避免网络对于某一局部特征的过拟合。

      图  3  Dropout神经网络模型

      Figure 3.  Dropout neural network model

    • 虽然深度极限学习机(DELM)能够捕获目标的抽象信息,但当训练样本有限时,模型容易陷入过拟合。为了解决这一问题,本文提出一种基于Dropout约束的深度极限学习机(DCDELM)算法,将Dropout技术引入到DELM的训练过程中,以提高模型泛化能力。

      通过引入Dropout, ELM-AE的优化过程可改写为:

      $$ \left. \begin{align} & {\rm{Minimize\!: }}\ \frac{1}{2}{\left\| {{β}} \right\|^2} + C\frac{1}{2}\sum\limits_{i = 1}^N {{{\left\| {{{ξ}_i}} \right\|}^2}} \\ & {\rm{Subject \ to\!: }}\ {{h}}({{{x}}_i}){{β}} = {{x}}_i^ {\rm{T}} -{ξ}_i^ {\rm{T}},\;i = 1, ·\!·\!· ,N \\ & \quad\quad\quad\quad\quad\; {{h}}({{{x}}_i}){{β}} = {{h}}({{{x}}_{i,t}}){{β}} ,\;i = 1, ·\!·\!· ,N,\\ & \quad\quad\quad\quad\quad\quad\quad\quad t = 1, ·\!·\!· ,\hat N \end{align} \!\!\!\!\right\} $$ (12)

      其中, ${{h}}({{{x}}_{i,t}})$ 为引入Dropout后的隐层输出, ${{h}}({{{x}}_{i,t}}) = $ ${{{γ}} _{i,t}} * {{h}}({{{x}}_i})$ ${{{γ}} _{i,t}}$ 为服从Bernoulli分布的向量,其每一个元素以概率 $p$ 等于1,以概率 $1 - p$ 等于0。 $ * $ 表示两个向量的哈达玛乘积。 $\hat N$ 为迭代次数。

      定义 $\tilde {{h}}({{{x}}_{i,t}}) = {{h}}({{{x}}_i}) - {{h}}({{{x}}_{i,t}})$ ,则

      $${{h}}({{{x}}_i}){{β}} - {{h}}({{{x}}_{i,t}}){{β}} = \tilde {{h}}({{{x}}_{i,t}}){{β}} = 0$$ (13)

      其中, $\tilde {{h}}({{{x}}_{i,t}}) = {\tilde {{γ}} _{i,t}} * {{h}}({{{x}}_i})$ , ${\tilde {{γ}} _{i,t}}$ 为服从Bernoulli分布的向量,其每一个元素以概率 $p$ 等于0,以概率 $1 - p$ 等于1。

      通过定义Lagrange函数来解决式(12)的优化问题:

      $$ \begin{align} \min\! :{J_{\rm DCDELM}} =& \frac{1}{2}{\left\| {{β}} \right\|^2} + C\frac{1}{2}\sum\limits_{i = 1}^N {{{\left\| {{{ξ} _i}} \right\|}^2}} \\ &- \sum\limits_{i = 1}^N {{{{α}} _i}\left({{h}}({{{x}}_i}){{β}} - {{x}}_i^ {\rm{T}} + {ξ}_i^ {\rm{T}}\right)} \\ & + \frac{\lambda }{{2\hat N}}\sum\limits_{i = 1}^N {\sum\limits_{t = 1}^{\hat N} {{{\left\| {\tilde {{h}}({{{x}}_{i,t}}){{β}} } \right\|}^2}} } \end{align} $$ (14)

      $$\left. \begin{align} & \frac{{\partial {J_{\rm DCDELM}}}}{{\partial {{β}} }} = 0 \to {{β}} - {{{H}}^ {\rm{T}}}{{α}} + \lambda {{R}}{{β}} = 0 \\ & \frac{{\partial {J_{\rm DCDELM}}}}{{\partial {{ξ} _i}}} = 0 \to {{{α}} _i} = C\ {{ξ} _i},\;i = 1, ·\!·\!· ,N \\ & \frac{{\partial {J_{\rm DCDELM}}}}{{\partial {{{α}} _i}}} = 0 \to {{h}}({{{x}}_i}){{β}} - {{x}}_i^ {\rm{T}} + {ξ} _i^ {\rm{T}} = 0,\\ & \quad\quad\quad\quad\quad\quad\quad i = 1, ·\!·\!· ,N \\ \end{align} \!\!\!\!\! \right\} $$ (15)

      其中, ${{R}} = \displaystyle\frac{1}{{\hat N}}\displaystyle\sum\limits_{t = 1}^{\hat N} {\tilde {{H}}_t^ {\rm{T}}{{\tilde {{H}}}_t}} $

      则式(12)的解为:

      $${{β}} = {\left({{{H}}^ {\rm{T}}}{{H}} + \frac{{{I}}}{C} + \frac{\lambda }{C}{{R}}\right)^{ - 1}}{{{H}}^ {\rm{T}}}{{X}}$$ (16)

      需要注意的是,当 $\hat N$ 为有限值时,在求解输出权重 ${{β}} $ 时,还需要计算 ${\tilde {{H}}_t}$ ${{R}}$ ,这样势必会增加网络计算复杂度,从而增加网络训练时间。而当 $\hat N$ 趋于无穷大时,根据弱大数定律,计算 ${{R}}$ 的公式可转化为:

      $${{R}} = {\rm{E}}\left[ {\frac{1}{{\hat N}}\sum\limits_{t = 1}^{\hat N} {\tilde {{H}}_t^ {\rm{T}}{{\tilde {{H}}}_t}} } \right]$$ (17)

      因此 ${{R}}$ 可表示为:

      $${{R}} = {(1 - p)^2}{{{H}}^ {\rm{T}}}{{H}} + {(1 - p)^2}{{D}}$$ (18)

      其中, ${{D}} = \left({{{H}}^ {\rm{T}}}{{H}}\right) * {{I}}$

      通过转化,在计算 ${{R}}$ 时,我们只需要计算 ${{H}}$ 即可。当使用式(16)求解输出权重 ${{β}} $ 时,所提算法的计算复杂度和DELM是一样的。因此所提算法能在不增加网络计算复杂度的条件下提高模型泛化能力。

    • 在这一部分,我们使用雷达测量的5类飞机数据验证所提方法的有效性。其中飞机类型分别为轰炸机、战斗机、教练机、无人机以及运输机。雷达测量频段为34.7~35.7 GHz,频率间隔为2 MHz,方位角为0°~30°,步长为1°。在我们的实验中,每一个飞机目标共有31个HRRP样本,并且每一个HRRP样本为500维。图4图5分别显示的是每一个飞机目标的1维距离像序列和距离像的时域特征。我们从每一个目标样本中取奇数位的16个样本组成训练样本,其余偶数位的样本组成测试样本。接下来,我们将分析网络隐层节点数、岭参数以及Dropout参数对模型分类效果的影响。实验运行软件环境为Matlab R2013a,硬件环境为Intel(R) Core(TM), 3.60 GHz CPU, 8 GB内存的PC机。

      图  4  每一个飞机目标HRRP序列

      Figure 4.  The HRRP sequence for each aircraft target

      图  5  每一个飞机目标距离像

      Figure 5.  Range profiles of each aircraft target

    • 由于HRRP样本维数为500,所以将深度网络中可见层的节点数设置为500。众所周知,随着网络深度的增加,可以获得更多抽象的特征表示。然而,太多的隐藏层会使得网络难以有效训练,并带来更多的参数需要学习。因此,我们不能盲目追求网络深度,而应该根据样本大小和实验需求来设置网络隐藏层的数量。通过对实验数据和任务要求的分析,发现具有两个隐含层的网络能够满足实验需要。因此,我们将网络隐藏层的数量设为2。图6显示了第1和第2隐藏层不同节点数对分类效果的影响。从图6(a)图6(c)可以看出,在网络训练阶段,随着节点数的增加,两种算法(DELM和DCDELM)的分类准确率也在增加。而从图6(b)可知在测试阶段,随着节点数的增加,DELM算法的分类准确率出现波动,其变化趋势和训练效果不一致,表明该算法陷入了过拟合。由于引入了Dropout约束,所提算法(DCDELM)可以有效地解决训练样本有限时DELM的过拟合问题。在测试阶段,算法的分类精度随着隐藏节点数目的增加而增加,其结果如图6(d)所示。从图7可知,随着隐层节点数的增加,网络训练时间和测试时间也在增加。因此,在保证分类精度的前提下,有必要选择合适的隐含层节点。经过分析,我们选择隐藏层节点的数量分别为850和1000。

      图  6  第1和第2隐藏层不同节点数对分类效果的影响

      Figure 6.  The effect of different number of nodes in the first and second hidden layers on the classification performance

      图  7  不同隐层节点对网络训练和测试时间的影响

      Figure 7.  The effect of different hidden nodes on training and test time of network

    • 通过上面的实验,我们确定了网络隐藏层数和隐层节点数。接下来,我们需要确定岭参数 $C = [{C_1},{C_2},{C_3}]$ 的取值。我们在 $ \{10^{-10}, 10^{-9},·\!·\!· ,$ $ 10^9, 10^{10}\}$ 范围内进行网格搜索以确定合适的参数值。我们遵循如下规则:首先固定其他两个参数 ${C_2}$ ${C_3}$ ,然后在{10–10, 1010}范围内选择可取得最好分类效果的 ${C_1}$ 的值。照此方法可确定每一个合适的岭参数。图8展示了不同的岭参数 $C = [{C_1},{C_2},{C_3}]$ 对分类效果的影响。从图中可以看出,当 ${C_1} = 0.1$ , ${C_2} = {10^{10}}$ , ${C_3} = {10^8}$ 时,可以获得最好的分类结果。

      图  8  不同岭参数 $C = [{C_1},{C_2},{C_3}]$ 对网络分类效果的影响

      Figure 8.  The effect of different ridge parameters $C = [{C_1},{C_2},{C_3}]$ on classification performance

    • 所提算法模型中引入了Dropout约束,能够在训练样本较少的情况下解决模型过拟合的问题。其中约束参数 $\lambda $ 和Dropout概率 $p$ 影响着Dropout的效果。在这一部分,我们在 $\{10^{-10}, 10^{-9},·\!·\!· , 10^9, 10^{10}\}$ 范围内进行网格搜索以确定合适的 $\lambda $ 值,并在 $\{0.05,0.10,·\!·\!· ,0.95,1.00\}$ 范围内确定合适的 $p$ 值。这些参数对分类结果的影响在图9(a)中显示。从图中可以明显地看出,模型敏感于概率 $p$ 和参数 $\lambda $ 。由图9(b)可知,当 $\lambda $ 取值小于106时, $p = 0.50$ 时模型分类效果要优于 $p$ 等于其他值时的模型分类效果,这是由于 $p = 0.50$ 时Dropout随机生成的网络结构最多,能够使模型具有最高的泛化水平[21,22]。当 $\lambda $ 取值大于106时,模型分类效果下降较为明显,这是因为若 $\lambda $ 过大,将造成网络中其他参数变得很小,而使网络陷入欠拟合。因此可以得出结论,所提算法敏感于概率 $p$ 和参数 $\lambda $ ,只有选择合适的 $\lambda $ $p$ 的值,模型才能取得更好的分类效果。需要说明的是,当 $p = 1$ , DELM是所提算法的一种特殊形式。

      图  9  不同Dropout参数对分类效果的影响

      Figure 9.  The effect of Dropout parameters on the classification performance

    • 在之前的工作[1720]中,研究者已经验证了DELM相比传统常用的深度学习模型的优越性。在本文中,我们将重点考虑在训练样本有限时,所提算法相较SAE和DELM在分类效果上的提高。由于样本维数为500,我们设置3种算法结构的可见层节点数为500,隐藏层数为2。其中DELM和所提算法隐层激活函数为‘sigmoid’。SAE的隐层节点数分别为850和300, $\rho $ 取0.66,训练迭代次数为30。将每一个算法均运行10次,然后求其平均值做为最终的分类结果。实验结果在表1中给出。

      表 1  所提方法和其他算法分类准确率比较

      Table 1.  Comparison of classification accuracy between the proposed method and other algorithms

      方法 分类准确率(%) 训练时间(s)
      SAE 88.12 7.8746
      DELM 85.21 0.4121
      所提方法 93.37 0.4205

      表1中可以看出,所提方法的分类性能要优于DELM和SAE。这是因为所提出的算法在训练过程中引入了Dropout约束,可以有效地提高模型的泛化能力。SAE的分类准确率虽然高于DELM,但其训练时间更长,这是由于SAE模型在训练过程中需要进行迭代微调,而DELM模型在训练过程中无需微调操作,从而极大地减少了训练时间。另外,所提算法和DELM的训练时间差别不大,验证了所提算法在计算复杂度上与DELM相同。

    • 本文提出了一种基于Dropout约束的深度极限学习机算法。深度极限学习机能够有效地捕获目标的深度抽象特征表示,与其他深度学习模型相比,学习速度更快。然而,当训练样本有限时,模型容易陷入过拟合。Dropout是解决神经网络过拟合问题的一种有效方法。因此,将其应用到深度极限学习机的训练过程中,可以有效地提高模型的泛化能力。实测雷达数据验证了该算法的有效性。

参考文献 (27)

目录

    /

    返回文章
    返回