北京航空航天大学学报 ›› 2019, Vol. 45 ›› Issue (10): 2003-2010.doi: 10.13700/j.bh.1001-5965.2019.0050

• 论文 • 上一篇    下一篇

基于Gram-Schmidt变换的有监督变量聚类

刘瑞平1, 王惠文1,2, 王珊珊1,3   

  1. 1. 北京航空航天大学 经济管理学院, 北京 100083;
    2. 北京航空航天大学 大数据科学与脑机智能 高精尖创新中心, 北京 100083;
    3. 城市运行应急保障模拟技术北京市重点实验室, 北京 100083
  • 收稿日期:2019-02-16 出版日期:2019-10-20 发布日期:2019-10-31
  • 通讯作者: 王珊珊 E-mail:sswang@buaa.edu.cn
  • 作者简介:刘瑞平 女,博士研究生。主要研究方向:高维数据的降维方法及应用;王惠文 女,博士,教授,博士生导师。主要研究方向:经济管理中复杂数据统计分析的理论、方法与应用;王珊珊 女,博士,助理教授,硕士生导师。主要研究方向:高维复杂数据分析、半参数统计、机器学习、统计算法及应用。
  • 基金资助:
    国家自然科学基金(71420107025,11701023)

Supervised clustering of variables based on Gram-Schmidt transformation

LIU Ruiping1, WANG Huiwen1,2, WANG Shanshan1,3   

  1. 1. School of Economics and Management, Beihang University, Beijing 100083, China;
    2. Beijing Advanced Innovation Center for Big Data and Brain Computing, Beihang University, Beijing 100083, China;
    3. Beijing Key Laboratory of Emergency Support Simulation Technologies for City Operations, Beijing 100083, China
  • Received:2019-02-16 Online:2019-10-20 Published:2019-10-31
  • Supported by:
    National Natural Science Foundation of China (71420107025,11701023)

摘要: 为进一步研究回归模型中高维数据的降维方法,提出基于Gram-Schmidt变换的新的有监督变量聚类(SCV-GS)方法。该方法未采用以潜变量为聚类中心的层次聚类,而是借用变量扫描思想,依次挑出对响应变量有重要贡献的关键变量,并将其作为聚类中心。SCV-GS方法基于Gram-Schmidt变换,对变量之间的高度相关性进行批量处理,并得到聚类结果;同时,结合偏最小二乘思想,提出新的同一性度量,并以此来选取最佳聚合参数。SCV-GS不仅可以快速得到变量聚类结果,而且可识别出对响应变量的解释及预测起关键作用的变量类。仿真表明该聚类方法运算速度显著提升,而且所得潜变量对应的回归系数的估计结果与对照方法表现一致;实例分析表明该方法具有更好的解释性和预测能力。

关键词: 降维, 变量聚类, 回归, 高度相关, Gram-Schmidt变换

Abstract: In order to study the dimension reduction method of high-dimensional data based on regression model further, and the supervised clustering of variables algorithm based on Gram-Schmidt transformation (SCV-GS) is proposed. SCV-GS uses the key variables selected in turn by the variable screening idea as the clustering center, which is different from the hierarchical variable clustering around latent variables. High correlation among variables is processed based on Gram-Schmidt transformation and the clustering results are obtained. At the same time, combined with the concept of partial least squares, a new criterion for "homogeneity" is proposed to select the optimal clustering parameters. SCV-GS can not only get the variable clustering results quickly, but also identify the most relevant variable groups and in what kind of structure the variables work to influence the response variable. Simulation results show that the calculation speed is significantly improved by SCV-GS, and the estimated regression coefficients corresponding to the latent variables are consistent with the comparison method. Real data analysis shows that SCV-GS performs better in interpretation and prediction.

Key words: dimension reduction, variable clustering, regression, high correlation, Gram-Schmidt transformation

中图分类号: 


版权所有 © 《北京航空航天大学学报》编辑部
通讯地址:北京市海淀区学院路37号 北京航空航天大学学报编辑部 邮编:100191 E-mail:jbuaa@buaa.edu.cn
本系统由北京玛格泰克科技发展有限公司设计开发