留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

制造科学与工程的学科发展与前沿研究问题

刘强 李哲浩 唐晓青

刘科生, 王思洋. 含函数型自变量回归模型中的变量选择[J]. 北京航空航天大学学报, 2019, 45(10): 1990-1994. doi: 10.13700/j.bh.1001-5965.2019.0157
引用本文: 刘强, 李哲浩, 唐晓青等 . 制造科学与工程的学科发展与前沿研究问题[J]. 北京航空航天大学学报, 2004, 30(04): 283-289.
LIU Kesheng, WANG Siyang. Variable selection in regression models including functional data predictors[J]. Journal of Beijing University of Aeronautics and Astronautics, 2019, 45(10): 1990-1994. doi: 10.13700/j.bh.1001-5965.2019.0157(in Chinese)
Citation: Liu Qiang, Li Zhehao, Tang Xiaoqinget al. Development of manufacturing science and engineering and its up-to-date research directions[J]. Journal of Beijing University of Aeronautics and Astronautics, 2004, 30(04): 283-289. (in Chinese)

制造科学与工程的学科发展与前沿研究问题

详细信息
  • 中图分类号: TB 2; TH 16; TP 3

Development of manufacturing science and engineering and its up-to-date research directions

  • 摘要: 从制造技术的发展过程,讨论了制造科学与工程学科产生、形成、发展及其趋势,提出该学科的研究内容可以划分为4个部分:制造基础理论、现代制造技术、新兴制造学科分支和制造技术工程应用,总结了该学科系统性、复杂性、交叉性、创新性和实践性等特点,并综合介绍了制造科学与工程学科当前的11个前沿和热点研究方向.

     

  • 在目前的大数据时代,数据采集的途径越来越多样化,数据量越来越大,采集到的数据类型也日益丰富。在对这些数据进行分析的过程中,不可避免地会遇到混合类型的数据,无法直接使用已有方法进行分析处理。在已有方法的基础上,构建新方法对混合类型的数据进行统计分析具有理论和现实意义。例如,图像数据、音频数据和矩阵数据混合的数据分析问题,在图像处理、语音识别、推荐系统构建等领域中并不少见,且已引起广泛的关注。

    事实上,音频数据和图像数据分别可以采用一元和二元函数型数据进行表示,矩阵数据可以采用多元向量加以描述。因此,对函数型数据和多元向量数据混合的模型及其估计方法进行研究并加以推广,可解决一系列实际问题。

    对于函数型数据的研究成果众多[1],集中于函数型线性回归模型的参数估计和假设检验[2]、函数型数据的聚类分类等诸多方面[3-4]。多元统计分析的成果更是丰富,近年来围绕着高维情形下的多元统计分析,如变量选择、假设检验等也有一系列理论与实际结果。但对于函数型数据和多元向量数据混合的情形,研究成果相对较少。因为在处理该类混合数据时,需要考虑不同类型数据之间的相关性度量及对模型估计结果的影响,情况比较复杂。此外,由于函数型系数的存在,理论上研究估计量的渐近性质也具有难度。因此,通常在尽可能不过多损失信息的前提下,对混合数据进行转化,基于转化后的数据改进已有方法进行处理[5]

    基于此,本文对含有函数型和多元向量自变量的回归模型中变量选择和参数估计问题进行探讨。首先,对函数型自变量利用函数型主成分基函数进行投影,对模型加以转化。然后,采用L1损失函数并考虑组变量选择方法,同时进行变量选择和参数估计,其中调节参数的选择采用了自适应算法,目标函数的最优化借助于线性规划相关算法。最后,通过数值模拟验证了本文方法在变量选择和参数估计上的有效性。

    本节引入函数型和多元向量混合回归模型,并给出对模型进行变量选择和参数估计的方法。

    假设X1(t), X2(t), …, Xp(t)为p个函数型自变量,满足E(Xj(t))=0, E(Xj2(t)) < ∞, n个样本的取值分别为Xij(t), 1≤in, 1≤jp

    考虑如下模型:

    (1)

    式中:F为积分区域; Yi为响应变量;Xij(1≤jp)为函数型自变量;ZiRq为多元向量自变量;εi为随机误差项,满足E(εi)=0, E(εi2) < ∞;βj(t)(1≤jp)和γRq为待估参数。

    在模型中,如果βj≡0(1≤jp), 模型即为常见的多元线性回归模型;如果γ=0,模型退化为通常的多元函数型线性模型;进一步, 如果p=1, γ=0,模型则成为函数型线性模型。因此,该模型具有较强的泛化能力。

    本节先对函数型自变量在主成分基函数所张成的函数空间进行投影,再采用L1损失函数和组LASSO(Least Absolute Shrinkage and Selection Operator)[6]惩罚方法进行变量选择。

    假设任意函数型自变量Xj(t)(1≤jp),定义Xj(t)的协方差函数为Kj(s, t)=cov(Xj(s), Xj(t)),并进行如下谱分解[7]

    式中:κj1κj2≥…≥0为算子Kj的各个特征值;Φjk为特征值对应的特征函数。{Φjk}构成L2(F)空间的一组规范正交基,从而有

    式中:bjkξijk为系数。进一步,模型(1)可转化为

    以上是关于理论的探讨,当面对样本时,需要对Kj(s, t)进行估计,可使用样本协方差函数进行估计。类似地,可定义函数型自变量的样本协方差函数为

    式中:

    进行类似谱分解可得到,为函数型谱分解中的特征根。注意,{Xij(t), 1≤in}张成的空间中任意一组基函数的维数不超过样本量n,所以若{}以降序排列,则有

    在实际数据分析中,对样本协方差估计时通常会进行截断处理,最常用的做法是依据方差占比进行基函数个数选择。这里,函数型主成分基函数的个数可以通过累计方差占比CPV进行选择[8-10],如设定选取主成分基函数的个数后能保留CPV=85%的方差信息,根据

    来对Xj(t)选择Lj个函数型主成分基函数。

    模型(1)可转化为

    (2)

    式中:; bj=[bj1, bj2, …, bjLj]T

    本节基于模型(2)进行变量选择及参数估计的讨论。考虑到将每个函数型自变量展开为几个函数型主成分方向上的投影,若对原始的函数型自变量进行选择,自然会考虑组变量选择方法[11-13]。组变量选择方法不对单个变量的系数添加惩罚,而是对变量组的系数向量整体添加惩罚,从而达到变量选择的效果。构造如下目标函数:

    (3)

    式中:ρ(·)为损失函数;Pλ(t)=λt为惩罚函数,λ1j(1≤jp)、λ2j(1≤jq)为惩罚项的调节参数;||·||为针对bj的范数定义,||bj||=max{|bj1|, |bj2|, …, |bjLj|}。通过最小化目标函数Q(b, γ)可得到对应系数的估计量

    损失函数ρ(·)可以选择为任意常见损失函数或根据需要构造,如最小二乘损失、分位数损失函数等,或负的对数似然函数等。综合考虑效率及稳健性质,选择分位数损失函数[14],并以50%分位数为例,则ρ(t)=|t|。

    注意到,||bj|| < C等价于|bjk| < C, 1≤kLj。因此,最小化目标函数式(3)中的Q(b, γ),可通过引入松弛变量转化为线性规划问题[15]

    通过如下定义引入松弛变量(ui, vi)i=1n

    同样,待估参数向量(b, γ)的各个元素都可以表示成正部、负部相减的形式,即bjk=bjk+-bjk-, 1≤kLj, 1≤j≤p, γl=γl+-γl-, 1≤l≤q。最小化目标函数式(3)中的Q(b, γ),即转化为在如下约束条件下:

    最小化如下目标函数:

    该优化问题转化为线性优化问题,简化了目标函数的优化过程。充分利用了损失函数和惩罚函数的具体形式,对于其他损失函数和惩罚函数需要另行考虑。

    关于调节参数,主要涉及到损失函数和惩罚函数之间的权重选择。调节参数过小,损失函数权重较大,模型复杂度惩罚不足;调节参数过大,模型复杂度惩罚过重,模型过于简单,无法很好地拟合数据。调节参数选择有诸多准则供参考[16-17],本节采用SIC准则。

    引入不加惩罚项时的估计量,令, 只需对λ依据SIC准则进行选择即可。

    式中:dfλ表示调节参数为λ的样本数量。

    以上针对含有函数型和多元向量自变量的混合回归模型,从模型本身出发,利用函数型主成分分析、组变量选择方法、线性规划等,对模型实现了变量选择和参数估计。

    在不同误差分布、样本量和信噪比下,对函数型和多元向量混合回归模型进行变量选择和参数估计,考查其有限样本性质。

    关于函数型自变量及其函数型系数、多元向量自变量及其系数,参考1[10]进行如下设计:p=q=3, , Xijm=μij(tm(j))+εijm, εijm~N(0, 0.025rij2), μi1(t)=cos(2π(t-a1))+a2t, t∈[0, 1], μi2(t)=b1sin(2t)+b2, t∈(0, π/3), μi3(t)=c1t3+c2t2+c3t+c4, t∈[-1, 1], a1~N(-5, 32), a2~N(7, 1), b1~U(3, 7), b2~N(0, 1), c1~N(-3, 1.22), c2~N(2, 0.52), c3~N(-2, 1), c4~N(2, 1.52),

    按照如下公式生成因变量:

    式中:σ为标准差;β1(t)=sin(2πt), γ=[0.3, 0, 0]。为对比不同样本量、信噪比下的模型估计效果,分别设定n=100, 300, σ=0.05, 0.2。

    关于效果评价指标,分别使用将非零参数估计为非零的参数个数(TP)、将为零的参数估计为非零的参数个数(FP)来衡量变量选择的效果,TP=2, FP=0是最理想的结果。参数估计效果分别使用均方误差根(RMSE)和偏差(Bias)加以衡量:

    为保证结果的稳定性,将各情况均随机模拟200次,表 1表 2给出了各指标的均值(Mean)和标准差(Sd)。

    表  1  正态误差下的数据模拟结果
    Table  1.  Data simulation results with normal error
    (n, σ) 统计指标 TP FP RMSE Bias
    (100, 0.05) Mean 2 0.22 0.028 2 0.005 8
    Sd 0 0.52 0.007 6 0.004 4
    (100, 0.2) Mean 2 0.34 0.084 4 0.022 9
    Sd 0 0.61 0.033 0 0.017 9
    (300, 0.05) Mean 2 0.09 0.016 8 0.002 7
    Sd 0 0.30 0.004 8 0.002 0
    (300, 0.2) Mean 2 0.18 0.049 1 0.012 0
    Sd 0 0.42 0.019 5 0.009 8
    下载: 导出CSV 
    | 显示表格
    表  2  柯西误差下的数据模拟结果
    Table  2.  Data simulation results with Cauchy error
    (n, σ) 统计指标 TP FP RMSE Bias
    (100, 0.05) Mean 2 0.01 0.036 0 0.008 3
    Sd 0 0.07 0.007 6 0.004 4
    (100, 0.2) Mean 2 0.03 0.116 8 0.035 5
    Sd 0 0.16 0.054 7 0.030 1
    (300, 0.05) Mean 2 0 0.019 5 0.003 8
    Sd 0 0 0.006 5 0.002 8
    (300, 0.2) Mean 2 0.12 0.062 1 0.014 0
    Sd 0 0.32 0.026 6 0.011 6
    下载: 导出CSV 
    | 显示表格

    表 1可知,在正态误差项下能将非零参数都估计为非零,但某些情况下会将为零的参数估计为非零,在模型中引入了无关变量。在样本量大、信噪比低情形(n=300, σ=0.05),模型变量选择效果最好。根据RMSE和Bias可以看出,该方法对于函数型自变量的参数和多元向量自变量的参数均具有良好效果。表 2结果类似。由表 1表 2的结果对比可知,误差分布为厚尾分布时,变量选择的结果受到影响较小,而参数估计精度受到较大影响。

    1) 本文同时考虑了函数型自变量和多元向量自变量,拓展了函数型数据分析的应用领域,给出了一种新的数据混合回归模型。

    2) 引入惩罚函数同时进行变量选择和参数估计,对函数型自变量引入了组变量选择方法,对经过函数型主成分分析投影后的函数型自变量具有选择效果。

    3) 在变量选择过程中,将目标函数优化问题转化为线性优化问题,降低了参数估计的复杂性。

    4) 在参数估计过程中考虑了异常值的影响,采用了稳健变量选择方法,扩大了适用性。

  • [1] Wright P K. 21st century manufacturing[M]. Beijing:Tsinghua University Press, 2002 [2] 李哲浩. 求知践实求是录[M]. 北京:航空工业出版社,2002 Li Zhehao, Knowledge, practice and factualistics[M]. Beijing:Aviation Industry Press, 2002(in Chinese) [3] 王先逵. 广义制造论[J]. 机械工程学报. 2003,39(10):86~94 Wang Xiankui. Broad manufacturing theory[J].Chinese Journal of Mechanical Engineering, 2003,39(10):86~94(in Chinese) [4] Ostwald P F, Munoz J. Manufacturing processes and systems[M]. Ninth Edition. New York:John Wiley & Sons, 1996 [5] 杨叔子. 先进制造技术及其发展趋势[J].机械工程学报,2003,39(10):73~78 Yang Shuzi. Trends in the development of advanced manufacturing technology[J].Chinese Journal of Mechanical Engineering, 2003,39(10):73~78(in Chinese) [6] 雷源忠. 现代制造科学的新发展[J]. 中国机械工程,1999,10(9):962~965 Lei Yuanzhong. New developments of modern manufacturing science[J].Chinese Journal of Mechanical Engineering, 1999,10(9):962~965(in Chinese)
  • 加载中
计量
  • 文章访问数:  2789
  • HTML全文浏览量:  208
  • PDF下载量:  1098
  • 被引次数: 0
出版历程
  • 收稿日期:  2003-11-15
  • 网络出版日期:  2004-04-30

目录

/

返回文章
返回
常见问答