留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于随机森林的航天器电信号多分类识别方法

兰巍 贾素玲 宋世民 李可

兰巍, 贾素玲, 宋世民, 等 . 基于随机森林的航天器电信号多分类识别方法[J]. 北京航空航天大学学报, 2017, 43(9): 1773-1778. doi: 10.13700/j.bh.1001-5965.2016.0661
引用本文: 兰巍, 贾素玲, 宋世民, 等 . 基于随机森林的航天器电信号多分类识别方法[J]. 北京航空航天大学学报, 2017, 43(9): 1773-1778. doi: 10.13700/j.bh.1001-5965.2016.0661
LAN Wei, JIA Suling, SONG Shimin, et al. Multi-classification spacecraft electrical signal identification method based on random forest[J]. Journal of Beijing University of Aeronautics and Astronautics, 2017, 43(9): 1773-1778. doi: 10.13700/j.bh.1001-5965.2016.0661(in Chinese)
Citation: LAN Wei, JIA Suling, SONG Shimin, et al. Multi-classification spacecraft electrical signal identification method based on random forest[J]. Journal of Beijing University of Aeronautics and Astronautics, 2017, 43(9): 1773-1778. doi: 10.13700/j.bh.1001-5965.2016.0661(in Chinese)

基于随机森林的航天器电信号多分类识别方法

doi: 10.13700/j.bh.1001-5965.2016.0661
基金项目: 

航空科学基金 2012XX1043

中央高校基本科研业务费专项资金 YWF-16-HKXY-017

国家自然科学基金 61773039

详细信息
    作者简介:

    兰巍   女, 博士研究生; 主要研究方向:数据挖掘与机器学习

    贾素玲   女, 教授; 主要研究方向:信息系统

    宋世民   男, 高级工程师; 主要研究方向:卫星综合测试

    李可   男, 高级实验师; 主要研究方向:环境控制与计算机测试

    通讯作者:

    李可, E-mail:like@buaa.edu.cn

  • 中图分类号: V221+.3;TB553

Multi-classification spacecraft electrical signal identification method based on random forest

Funds: 

Aeronautical Science Foundation of China 2012XX1043

the Fundamental Research Funds for the Central Universities YWF-16-HKXY-017

National Natural Science Foundation of China 61773039

More Information
  • 摘要:

    针对航天器电特性信号数据存在数据量大、特征维数高、计算复杂度大和识别率低等问题,提出基于主成分分析(PCA)的特征提取方法和随机森林(RF)算法,对原始数据进行降维,提高计算效率和识别率,实现对航天器电信号数据的快速、准确识别分类。随机森林算法在处理高维数据上具有优越的性能,但是考虑到时间复杂度问题,利用主成分分析方法对数据进行压缩和降维,在保证准确率的同时提高了计算效率。实验结果表明:与其他算法相比,针对航天器电特性信号数据,本文方法在准确率、计算效率和稳定性等方面均显示出优异的性能。

     

  • 航天器进入轨道飞行阶段以后,完全工作在高真空、冷黑和太阳辐照强烈的环境中,航天器一次发射以后,在目前的技术水平上,不可能进行在轨维修,因此需要对可能出现的故障进行诊断和预测[1]。由于航天器电子负载系统内部元器件非线性化的高度耦合,且是一种开放性时变系统,使得其有着不确定且较为复杂的整体构造,导致经常出现内部负载信号的突变。当系统出现事故时,由于引起事故的原因各种各样,在没有准确的解析方式及可靠的信息情报时,仅靠推理和假设,很难对故障的起因做出准确的判断[2-3]。在识别故障的信号时,由于航天器电子负载系统过于复杂,仍然有很大的挑战。在诊断航天器故障信号方面,中国主要依靠专家的知识和经验,相同的故障通常不同领域的专家会给出不同的答案,因此航天器故障检测的实时性很难得到满足。利用模式识别算法,以知识库的方式记忆不同专家的经验,从而增强航天器电子负载系统故障判断的高效性和实时性[4]

    在识别过程中,航天器电特性检测系统仍然存在很多问题需要解决,这些问题主要有识别率比较低、特征维数较高、测试数据量大、计算较为复杂等。在之前的研究中,如Liu等[5-7]采用基于离线模糊聚类(FCM)和在线支持向量机(SVM)分类的方法对航天器电信号数据进行识别,还采用了加权近似支持向量机(WPSVM)的方法对电特性信号进行分类识别,在识别过程中也采用了主成分分析(PCA)的特征提取方法对数据进行降维,都得到了较好的分类识别结果。但是在电信号识别过程中,所用到的电信号样本集类别少,数据量小,分类精度一般。当实际诊断中输入过多电特性数据时,会极大地提高过拟合度和训练复杂度。对于复杂高维特征系统,数据量过大使得样本分类和训练效率以及识别准确率下降,怎么从高维状态特征中得到敏感特征是电特性信号快速准确识别的瓶颈之一[8-9]

    本文应用PCA与随机森林(Random Forest, RF)相结合的航天器电特性信号的识别诊断方式。PCA方法用来对采样样本进行分析,RF算法再作出分类识别。RF算法在当前的很多数据集上,相对其他算法有着很大的优势,这一算法对于非线性样本数据可以做到更好的分类和学习,并且在处理大样本数据时,有着非常棒的学习能力。PCA方法是一种有效的数据分析和处理方法,主要用于抽取局部特征,有着计算简单、存储容量小等特点,在图形处理、人类自然语言的处理研究中有着广泛的应用[10]。本文方法可以解决航天器电特性数据高维特征选取困难和计算效率低的问题,改善分类器识别效果,实验表明,该方法在航天器电特性信号的识别判断中具有优越的性能。

    本文算法设计流程包括数据采集、特征提取和信号识别3部分。在对数据进行采集以及预处理之后,采用PCA方法分别对训练集和测试集进行特征提取得到特征向量,然后采用RF算法针对训练集建立模型,再通过导入测试集,来对信号进行识别和分类,以此算出分类的准确率。设计流程如图 1所示。

    图  1  本文算法设计流程
    Figure  1.  Design flowchart of proposed algorithm

    PCA方法是统计学中分析数据的一种方法,作用是经过一个特别的向量矩阵,将数据从原来的高维空间投影到一个低维的向量空间中,经过降维后其数据的主要信息并没有损失,从而使数据更易于处理[11-12]图 2为本文提出的PCA方法流程。

    图  2  PCA方法流程
    Figure  2.  Flowchart of PCA method

    将航天器电特性数据序列中的每一段电特性表示成向量的形式:

    (1)

    式中:Xk=(xk, 1, xk, 2, …, xk, r)(1≤kn)为第k个样本,该样本的采样点数为r,总样本个数为n。可以得出其协方差阵为

    (2)

    式中:X为均值向量;Sr×r的矩阵。计算S的特征值[λ1, λ2, …, λn](λ1λ2≥…≥λn)以及对应的特征向量T=[u1, u2, …, un],航天器电特性数据的正交基即为以上特征向量,若想增大特征向量重构时的贡献,只需增大特征向量对应的特征值即可,通过归一化计算方法得出贡献度的值,量化特征值λk所对应的特征向量的贡献度Pk后得到:

    (3)

    所以,可以舍弃那些小特征值的特征向量。为了重建模型,可以使用前d个主分量,在此设定阈值为P,使得前d个分量的贡献度之和比P大,即,因此,电特性数据矩阵经过重构后的

    (4)

    式中:ui为特征值λi对应的特征向量。

    RF算法最初由Breiman和Cutler提出,其是一种统计学习理论的、自然的非线性建模工具,训练多个树状的分类器,组合多棵决策树的预测,最终通过投票得出预测结果。RF算法流程如图 3所示。

    图  3  RF算法流程
    Figure  3.  Flowchart of RF algorithm

    使用RF算法完成整个决策树分类器时,采用自助法重采样技术。单个决策树的生成过程如下:从最初的样本数据中抽取随机样本,使用有放回的抽样方法,反复k(树的数目ntree值为k)次得到一个新的训练数据集,从而得到一颗分类树。

    单个自助样本集生长为单棵分类树,单棵分类树的所有训练数据就是自助样本集。假设有N个输入特征,则在树的每个节点处,从N个特征中随机挑选m个特征,遵照节点不纯度最小的原则从这m个特征中选出一个特征进行分支生长,之后构造各个分支通过分别递归调用上述过程,直到使用过所有属性,或训练集能够被这棵树准确地分类[13-14]

    图 4表示了决策树的3个部分,分别为构成的分类、根源和终端节点,起点分类由根节点代表,而将数据分成2个不同部分的是分裂节点,得到数据分类最终结果的是终端节点。图 4中:A为分裂节点;Y为终端节点。

    图  4  决策树结构
    Figure  4.  Structure of decision tree

    RF是一种分类器,其集成了多个决策树,假如把一个决策树当作分类任务中的一个专家,那么RF就是多个专家共同对某种任务进行分类[15-17]。生成RF的步骤如下:

    1) 应用bootstrap方法从原始训练数据集中有放回地随机抽取K个新的自主样本集,并由此构建K棵决策树,每次未抽到的样本组成了K个袋外数据(Out-of-Bag, OOB)。

    2) 设有N个特征,则在每一棵树的每个节点处随机抽取mtry个特征(mtryN),通过计算每个特征蕴含的信息量,在mtry个特征中选择一个最具有分类能力的特征进行节点分裂。

    3) 每棵树最大限度地生长,不做任何裁剪。

    4) 将生成的多棵树组成RF,用RF对新的数据进行分类,分类结果按树分类器的投票多少而定。

    实验数据来源于航天器用电设备电子负载的典型供电电压电特性数据,在航天器负载测试过程中,通过电特性监测平台对航天器电子负载母线进行监测,记录原始数据,从航天器13种飞行模式产生的数据中选取19个不同信号的数据,并手动添加样本标签,获得22 800个样本,每个样本包含1 000个特性,部分样本数据的物理意义如图 5所示。

    图  5  部分电特性数据的物理意义
    Figure  5.  Physical meaning of some electrical characteristic data

    图 6为决策树数目与分类误差率的关系。可以看出,分类误差率随着决策树数目的增加而减小,在达到100棵树之后分类误差趋于稳定(在0.01左右)。然而,模型训练时间会随着决策树数目的增加而增加,因此,考虑到时间复杂度问题,选取100棵决策树组成RF对此电信号样本集进行分类预测,既保证了分类准确率,又缩短了训练和分类所需要的时间。

    图  6  决策树数目与分类误差率曲线
    Figure  6.  Curves for number of decision trees and classification error rate

    分类准确率和分类时间是评价算法优劣的重要标志。本文实验分别采用朴素贝叶斯(Naive Bayesian Model, NBM)、K最近邻(K-Nearest Neighbor, KNN)、SVM和RF等算法对航天器电信号数据进行分类预测,得到不同算法的分类结果。同时运用PCA方法对数据进行特征提取,使用降维后的数据采用以上算法对数据进行分类预测。比较不同算法在对数据进行特征提取前后的性能优劣。

    表 1为不同算法对本文多类数据的分裂结果。实验表明,在没有对数据进行PCA特征提取之前,RF算法较其他算法具有更高的准确性。由于数据的复杂性以及算法的复杂性,NBM算法和KNN算法训练所需时间较短,RF算法所需训练时间稍长,由于类与类之间均要建立分类器,增加了算法复杂度,所以SVM算法训练所需时间较长。在对数据进行PCA特征提取之后,减少了数据量,降低了数据维度,使得计算速度和准确率都有明显的提升,特征提取前后,RF算法均表现出优异的分类性能,在提升了运行速度的同时,准确率也得到了保证。综合算法运行结果的数据表明,RF算法具有较高的稳定性,在本文多类别电特性信号识别中具有最优的分类预测性能。

    表  1  训练时间和预测准确率对比
    Table  1.  Comparison of training time and prediction accuracy
    算法 准确率/% 训练时间/s
    NBM 79.02
    KNN 85.43 127.36
    SVM 88.23 1 873.80
    RF 98.90 189.93
    PCA-NBM 81.41
    PCA-KNN 94.34 11.33
    PCA-SVM 91.59 29.32
    PCA-RF 98.33 36.40
    下载: 导出CSV 
    | 显示表格

    本文利用数理统计的方法,在电特性识别过程中利用主成分分析方法对原始数据的主要进行了提取,实现了对高维航天器电特性数据的降维。然后采用随机森林算法对航天器电特性数据进行识别。

    1) 减少了计算所需的时间,进一步增强了分类器的性能,该算法是对某航天器的电信号测试采集数据进行的仿真实验,可以直接应用于航天器电信号数据的分类识别。

    2) 通过多次实验,可以验证PCA-RF的识别方法具有比较好的识别效率以及较高的分类准确率。

    3) 随机森林算法在对数据的处理上具有诸多优点,在处理具体规则模糊的数据上有很大的灵活性和自适应性。

    针对本文算法模型,计算复杂度依然较大,在未来的研究中,可以尝试与其他降维方法相结合,进一步优化对不同数据集测试方法的有效性,以构造更高性能的分类器。

  • 图 1  本文算法设计流程

    Figure 1.  Design flowchart of proposed algorithm

    图 2  PCA方法流程

    Figure 2.  Flowchart of PCA method

    图 3  RF算法流程

    Figure 3.  Flowchart of RF algorithm

    图 4  决策树结构

    Figure 4.  Structure of decision tree

    图 5  部分电特性数据的物理意义

    Figure 5.  Physical meaning of some electrical characteristic data

    图 6  决策树数目与分类误差率曲线

    Figure 6.  Curves for number of decision trees and classification error rate

    表  1  训练时间和预测准确率对比

    Table  1.   Comparison of training time and prediction accuracy

    算法 准确率/% 训练时间/s
    NBM 79.02
    KNN 85.43 127.36
    SVM 88.23 1 873.80
    RF 98.90 189.93
    PCA-NBM 81.41
    PCA-KNN 94.34 11.33
    PCA-SVM 91.59 29.32
    PCA-RF 98.33 36.40
    下载: 导出CSV
  • [1] 魏传锋, 贾阳, 王浚.航天器在轨自主热故障诊断专家系统研究[J].装备环境工程, 2006, 3(3):54-57. http://www.cnki.com.cn/Article/CJFDTOTAL-JSCX200603012.htm

    WEI C F, JIA Y, WANG J.Research on in-orbit spacecraft thermal fault diagnosis expert system[J].Equipment Environmental Engineering, 2006, 3(3):54-57(in Chinese). http://www.cnki.com.cn/Article/CJFDTOTAL-JSCX200603012.htm
    [2] SHAW S R.System identification techniques and modeling for nonintrusive load diagnostics[D].Cambrige:Massachusetts Institute of Technology, 2000.
    [3] 李可.多参数环境模拟系统的智能控制方法与仿真研究[J].北京航空航天大学学报, 2007, 33(5):535-538.

    LI K.System model simulation and control method used in environmental simulation chambers[J].Journal of Beijing University of Aeronautics and Astronautics, 2007, 33(5):535-538(in Chinese).
    [4] LUO R.Analysis of PHM technology for spacecraft[J].Spacecraft Engineering, 2013, 22(4):95-102.
    [5] LIU Y, LI K, HUANG Y.Spacecraft electrical characteristics identification study based on offline FCM clustering and online SVM classifier[C]//International Conference on Multisensor Fusion and Information Integration for Intelligent Systems (MFI).Piscataway, NJ:IEEE Press, 2014:1-4.
    [6] LI K, LIU Y, WANG Q.A spacecraft electrical characteristics multi-label classification method based on off-line FCM clustering and on-line WPSVM[J].Plos One, 2015, 10(11):1413-1423.
    [7] 李可, 刘祎, 杜少毅.基于PCA和WPSVM的航天器电特性识别方法[J].北京航空航天大学学报, 2015, 41(7):1177-1182.

    LI K, LIU Y, DU S Y.Spacecraft electrical characteristics identification method based on PCA feature extraction and WPSVM[J].Journal of Beijing University of Aeronautics and Astronautics, 2015, 41(7):1177-1182(in Chinese).
    [8] 鄢仁武, 叶轻舟, 周理.基于随机森林的电力电子电路故障诊断技术[J].武汉大学学报(工学版), 2013, 46(6):742-746. http://www.cnki.com.cn/Article/CJFDTOTAL-WSDD201306012.htm

    YAN R W, YE Q Z, ZHOU L.Application of random forests algorithm to fault diagnosis of power electronic circuit[J].Engineering Journal of Wuhan University, 2013, 46(6):742-746(in Chinese). http://www.cnki.com.cn/Article/CJFDTOTAL-WSDD201306012.htm
    [9] 庄进发, 罗键, 彭彦卿, 等.基于改进随机森林的故障诊断方法研究[J].计算机集成制造系统, 2009, 15(4):777-785. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJJ200904026.htm

    ZHUANG J F, LUO J, PENG Y Q, et al.Fault diagnosis method based on modified random forests[J].Computer Integrated Manufacturing Systems, 2009, 15(4):777-785(in Chinese). http://www.cnki.com.cn/Article/CJFDTOTAL-JSJJ200904026.htm
    [10] LI K, LIU W K, WANG J, et al.An intelligent control method for a large multi-parameter environmental simulation cabin[J].Chinese Journal of Aeronautics, 2013, 26(6):1360-1369. doi: 10.1016/j.cja.2013.07.006
    [11] LI K, LIU W K, WANG J, et al.Multi-parameter decoupling and slope tracking control strategy of a large-scale high altitude environment simulation test cabin[J].Chinese Journal of Aeronautics, 2014, 27(6):1390-1400. doi: 10.1016/j.cja.2014.10.005
    [12] LIU Y, LI K, SONG S M, et al.The research of spacecraft electrical characteristics identification and diagnosis using PCA feature extraction[C]//IEEE International Conference on Signal Processing.Piscataway, NJ:IEEE Press, 2014:1413-1417.
    [13] 刘小虎, 李生.决策树的优化算法[J].软件学报, 1998, 9(10):797-800.

    LIU X H, LI S.Optimization algorithm of decision tree[J].Journal of Software, 1998, 9(10):797-800(in Chinese).
    [14] PATAKI B, TOTH N.Classification confidence weighted majority voting using decision tree classifiers[J].International Journal of Intelligent Computing & Cybernetics, 2008, 1(2):169-192.
    [15] PAL M.Random forest classifier for remote sensing classification[J].International Journal of Remote Sensing, 2005, 26(1):217-222. doi: 10.1080/01431160412331269698
    [16] DENG H, RUNGER G.Gene selection with guided regularized random forest[J].Pattern Recognition, 2013, 46(12):3483-3489. doi: 10.1016/j.patcog.2013.05.018
    [17] KHAING H K T.Detection model for daniel-of-service attacks using random forest and k-nearest neighbors[J].International Journal of Advanced Research in Computer Engineering & Technology, 2013, 2(5):1855-1860.
  • 期刊类型引用(7)

    1. 陈强,蓝希先,刘祥洁. 基于PCA-RF算法的大数干扰信号识别. 机电工程技术. 2023(08): 176-180 . 百度学术
    2. 牛得清,伍友利,徐洋,吴鑫,张丹旭,杨鹏飞. 红外空空导弹抗干扰效能评估建模. 北京航空航天大学学报. 2021(09): 1874-1883 . 本站查看
    3. 魏葆春,甘发旺. 物联网多层设备信息通信数据分类识别仿真. 计算机仿真. 2019(01): 425-428+436 . 百度学术
    4. 白静,史燕燕,薛珮芸,郭倩岩. 融合非线性幂函数和谱减法的CFCC特征提取. 西安电子科技大学学报. 2019(01): 86-92 . 百度学术
    5. 李树卿,陈鼎,仇群辉,史建立,徐伟明,宋晓,陈兆权. 基于随机森林的电能质量综合评估. 现代电力. 2019(02): 81-87 . 百度学术
    6. 叶志鹏,贾睿,杨勇,齐欢,梁浩. 一种航天器图像分类模型快速学习方法. 宇航总体技术. 2019(03): 37-42 . 百度学术
    7. 王建永,廖丹,郭威,唐乐. 多媒体网络语音模糊音调数据准确识别方法. 电子设计工程. 2019(21): 50-53+58 . 百度学术

    其他类型引用(5)

  • 加载中
图(6) / 表(1)
计量
  • 文章访问数:  937
  • HTML全文浏览量:  174
  • PDF下载量:  376
  • 被引次数: 12
出版历程
  • 收稿日期:  2016-08-15
  • 录用日期:  2016-12-09
  • 网络出版日期:  2017-09-20

目录

/

返回文章
返回
常见问答