Interval data analysis based on empirical distribution function
-
摘要: 现有区间数据分析的方法通常假设数据在某一区间上服从均匀分布,这在实际数据分析中通常是不成立的.针对此问题,在原始数据来源于连续分布的简单假设下,利用经过分布函数变换后的随机变量服从(0,1)上的均匀分布,分别采用经验分布函数和核估计对原始数据的分布函数进行估计.基于此设计变换,对变换后的数据进行均匀分布的假设检验,通过检验后进行后续的区间数据分析,使得均匀分布的假定得以成立,保证了统计理论上的严谨性.数据模拟结果表明,将经验分布函数变换后的数据作为研究对象,进行区间数据分析,所得到的统计建模结果更加合理且具有较强的解释力.Abstract: Uniform distribution in some closed or tight interval is a basic assumption in the literature about interval data analysis, which is difficult to satisfy in real data processing. To solve this problem, the empirical cumulative distribution function (ECDF) and kernel estimation of cumulative distribution were studied, on the assumption that the date were from some continuous distribution. Based on ECDF and kernel estimation, a transformation to obtain new data was designed, which was uniformly distributed in theory. Then whether the distribution of transformed data was uniform distribution was tested. If the null hypothesis was not rejected, traditional methods in the field of interval data analysis could be utilized based on transformed data. The transform and the test were both for guaranteeing the transformed data were from some uniform distribution. Both simulation and real data example show that, the results based on ECDF and kernel estimation transformed data are more reasonable and with strong explanatory ability.
-
Key words:
- interval data /
- uniform distribution /
- kernel estimation /
- empirical distribution /
- hypothesis test
-
接收机自主完好性监测(RAIM)算法源于民航用户对卫星导航系统可靠性的苛刻要求[1]。目前,卫星导航完好性监测技术主要有3种:卫星自主完好性监测(SAIM)、利用接收机内部冗余信息的RAIM和外部辅助增强系统[2]。相对于其他2种完好性监测技术,RAIM是利用接收机的超定解对卫星测量值进行一致性校验的技术,其更能保证用户对告警时间的要求。早期的RAIM算法大多基于GPS单星座,可以满足民航航路到非精密进近阶段的完好性要求。目前,全球卫星导航系统(GNSS)发展为多星座多频点,参与定位的卫星成倍增加,接收机具有更多的冗余观测信息,可有效地减少RAIM空洞,也使RAIM技术可应用于一些对完好性性能要求更高的应用,如民航飞行中垂直引导进近(APV)Ⅰ、Ⅱ等阶段。
多星座RAIM算法是指使用2个或2个以上的卫星导航系统的冗余观测信息进行一致性校验,以检测和识别故障。单星座系统中至少观测到5颗卫星才能进行故障检测,考虑到不同星座的时间系统之间的偏差,对于多星座需要更多冗余观测量才能进行故障检测。文献[3]对RAIM的可用性预测进行了分析。文献[4-6]提出了针对多系统多故障情况下的完好性监测算法,其中文献[4]对GPS/Galileo/GLONASS组合导航在APV-Ⅰ、APV-Ⅱ阶段利用RAIM算法进行了分析。Ene等[7-8]分析了GPS/Galileo组合导航在APV阶段的RAIM可用性。文献[9]对GPS/Galileo组合导航RAIM算法中的截止高度角、用户等效距离误差等问题进行了分析。徐君毅等[10]对APV阶段的垂直保护水平在全球的分布情况进行了研究。Lee等[11]提出了最优加权平均解(OWAS)算法,国内的研究人员也对此算法进行了扩展,郭靖等[12]采用新的分组方法,满足双星座双故障的应用场景,王式太[13]设计了基于M估计的RAIM粗差探测和剔除算法。其中,OWAS算法能够方便地兼容不同的星座,避免了不同系统间时间系统、坐标系统转换带来的误差影响,具有处理速度快、可用性高的特点,因此,本文采用OWAS算法对BDS/GPS组合导航应用于APV阶段进行了研究。
OWAS算法是将卫星按星座分为2组,监测同时发生在同一星座中的多星故障,但此算法不能有效地对双星座同时发生故障进行检测。本文采用OWAS算法,通过优化加权因子,提高算法的可用性,并对OWAS算法进行了改进。通过实测数据验证了OWAS算法对APV阶段的可用性和双星座双故障的检测。
1. OWAS RAIM算法
OWAS RAIM算法原理如图 1所示。
加权平均后的定位结果为
(1) 式中:加权因子0≤r≤1;xn(n=1, 2)分别为BDS和GPS的定位结果。
图 1中:dn(n=1, 2)分别为xn与xA的间隔距离。对于加权平均解,要求以0.999的概率满足:|xA-x|≤|xA-xn|+|xn-x|≤T+an。其中:T(n=1, 2)为检验门限,an为无故障假设条件下定位误差上限。所以,无故障卫星时,每个导航系统内的保护水平为:PLn=T+an,PL=max(PL1, PL2)。OWAS算法在只考虑垂直方向上的定位精度与完好性要求时,可以归纳为如下问题:
(2) 式中:VPL为垂直保护级别。
同时,满足以下条件时,RAIM算法可用:
(3) (4) (5) (6) 式中:σV为垂直方向上的定位误差标准差;σV-max为垂直方向上的定位误差标准差的最大值;dmajor为最终定位解水平方向上的定位误差标准差;dmajor-max为飞行阶段规定的95%水平方向上的定位误差标准差的最大值;VAL为垂直保护门限;HPL为水平保护级别;HAL为水平保护门限[10]。
σV和dmajor的标准由以下2个操作需求推导:
1) 95%的导航系统误差(Navigation System Errors,NSE)边界:1.96σV=4m,1.96dmajor=16m(1.96对应于高斯分布假设的95%分布)。
2) NSE边界满足无故障条件完好性可用性时:KVσV≤VAL(垂直方向),KHdmajor≤HAL(水平方向),当Pr{HMI}=10-8/approach(Pr为概率, HMI为危险误导信息, approach为进近)时,KV=5.73,KH=6.47[10]。
σV-max和dmajor-max的值分别为
1.1 协方差矩阵
OWAS算法为
(7) 式中:w1为GPS定位解在最终解中所占权重;w2为BDS定位解在最终解中所占权重;
,且0≤r≤1。OWAS算法的位置误差与加权因子的关系如下:
(8) 式中:Δx1为GPS定位解与真实位置之间的误差;Δx2为BDS定位解与真实位置之间的误差;ΔxA为最终加权平均定位解与真实位置之间的误差。
加权最小二乘定位解的位置误差[14]表达式如下:
(9) (10) 式中:G为伪距误差与接收机位置及钟差的关联矩阵;W为加权矩阵;ΔR为伪距误差矢量;Pn为定位误差的协方差矩阵(n=1, 2分别表示GPS和BDS)。
最优解和各导航系统定位解误差互相关表达式如下:
(11) (12) 假设GPS与BDS伪距误差不相关,则E(ΔR2·ΔR1T)=0,E(ΔR1ΔR2T)=0。由此,得
(13) (14) 因此,E(ΔxAΔx1T)=rP1,E(ΔxAΔx2T)=(1-r)P2,即
(15) (16) 同理,加权平均解xA的定位误差协方差矩阵PA如下:
(17) 协方差矩阵Jn为
(18) 将式(10)、式(11)、式(15)、式(17)代入式(18)中,可得
(19) 式中:PS=P1+P2。
同理
(20) 1.1.1 加权因子确定保护级别
令
(21) (22) 式中:Q-1为标准单边累加分布函数的逆函数;Pfd为虚警率(参考国际民航不同进近阶段导航性能要求,虚警率与连续性保持一致。虚警率除以4是因为总的允许虚警率在垂直和水平方向上平均分配[10]);Pmd为最大允许漏警率(完好性风险等于漏警率与卫星故障率的乘积)。
令
(23) (24) (25) 由式(19)和式(20)可以得出
(26) (27) VPL1和VPL2分别为
(28) (29) 由图 2可以看出,VPL1是加权因子的一元线性递减函数;VPL2是加权因子的一元线性递增函数。在OWAS算法中,VPL=max(VPL1, VPL2),当VPL1=VPL2时,得到最小化的VPL,此时可得
(30) (31) 1.1.2 加权因子确定误差精度σV和dmajor
OWAS位置误差的协方差矩阵PA=E(ΔxAΔxAT)=r2P1+(1-r)2P2。
σV和dmajor为
(32) (33) 由式(3)、式(4)可知,RAIM算法可用要满足:
1.1.3 确定最优加权因子
OWAS最重要的是在降低保护水平的条件下满足精度的要求。
如图 3所示,rmin-VPL表示垂直保护水平最小时的加权因子,但此时不满足σV的标准,而rmin-σV满足最小化σV,却不满足VPL≤VAL,rbest-int表示在保证精度要求下修正加权因子rmin-VPL来最小化VPL,rbest-acc表示通过修正最小化精度加权因子σV保证可用性的要求。
APV飞行阶段时需更大可能的保证算法的可用性,故采用rbest-int作为最终加权因子,则
(34) 式(23)和式(24)代入到式(34)中,可得
(35) 由式(35)计算可得2个解,如下:
(36) (37) 由于r1≤r≤r2,且0≤r≤1,所以
(38) 式中:racc, min=max(r1, 0);racc, max=min(r2, 1)。
当racc, min≤rmin-VPL≤racc, max时,加权因子r如下:
(39) 当rmin-VPL≤racc, min时,加权因子r如下:
(40) 当racc, max≤rmin-VPL时,加权因子r如下:
(41) 1.2 故障检测与识别
OWAS RAIM算法是以GPS、BDS到xA的距离作为故障检测的检验统计量[15-16],按照国际民航组织(ICAO)要求的性能标准得到检验门限。当双星座同时出现故障时,2个检验统计量均会在故障产生的时刻超过检验门限。当单星座产生故障时,故障星座的定位解使得OWAS与无故障星座的距离增加,容易产生误警,此时采用加权最小二乘残差的故障检测对OWAS定位域的故障检测进行辅助,完成单星座故障的检测。
1.2.1 故障检测
GNSS伪距观测线性化方程为
(42) 式中:ε为观测噪声矢量。
对式(42)运用加权最小二乘法求解,得到的解为
(43) 式中:B=(GTWG)-1GTW。
伪距残差矢量v为
(44) 矩阵C的协因数矩阵为
伪距残差平方和为
(45) 在卫星导航系统正常工作的情况下,各卫星伪距残差都较小,伪距残差平方和也较小;当某个测量伪距存在较大偏差时,伪距残差平方和会变大。假设卫星导航系统正常工作时,观测噪声ε中的各个分量是均值为0、方差为σ2的正态分布随机误差,且它们相互独立。依据统计分布理论,若ε的均值为0,SSEWLS服从自由度为(n-4)的χ2分布;若ε的均值不为0,则SSEWLS服从自由度为(n-4)的非中心化χ2分布。对SSEWLS作二元假设:
1) 无故障假设H0:E(ε)=0,则SSEWLS~χ2(n-4)。
2) 有故障假设H1:E(ε)≠0,则SSEWLS~χ2(λ, n-4)。
(46) 由式(46)可以解得tWLS值。
1.2.2 故障识别
根据残差和观测误差的关系式,定义故障识别的检验统计量为
(47) 式中:i=1, 2, …, n,并且n为可见卫星数目;vi为利用加权最小二乘法求得的伪距残差;Qii为矩阵Q的第i行第i列;di~N(0, 1)。
对统计量di做二元假设:
1) H0(无故障):E(εi)=0,则di~N(0, 1)。
2) H1(有故障):E(εi)≠0,则di~N(δi, 1)。
其中,δi为统计量偏移参数。给定总体的误警率PFA,可计算出对应的检验门限T1WLS。计算如下:
(48) 由式(48)可解得门限值T1WLS。
设
为检验统计量,对应的检验门限值为T1WLS。比较检验统计量di与检验门限T1WLS进行卫星故障识别。2. 算法验证与结果分析
采用IGS(International GPS Service)2016年7月31日0时的BDS、GPS系统RINEX数据对本文算法进行仿真验证。
在GPS可见星中的第16颗卫星、BDS可见星中的第7颗卫星中,分别在500~900s时刻人为加入30、50、70m伪距偏差。
图 4(a)、(b)分别为未加伪距偏差时GPS和BDS的垂向定位域检验统计量。图 5(a)、(b)分别为在500 s开始加入30、50、70 m伪距偏差时GPS、BDS的检验统计量。可知,当加入伪距偏差时,检验统计量值会发生跳变; 未加入伪距偏差时,检验统计量值波动较小。
双故障卫星检测结果如图 6所示。
由图 6可知,在GPS和BDS系统的第16颗卫星和第7颗卫星中加入50m伪距偏差,检验统计量大于检验门限,可以对故障进行检测。
双星座双故障算法识别率结果如图 7所示。可知,当伪距偏差值较小时,不能识别出故障卫星;当故障卫星伪距偏差在30m以上时,BDS/GPS能识别全部故障。
3. 结论
本文研究了一种BDS/GPS组合导航RAIM算法,对算法进行了详细的理论分析,并利用IGS网站数据对算法进行验证。
1) 本文算法对BDS/GPS双卫星故障检测与识别是可用的。
2) 当伪距偏差在30m以上时可有效地检测与识别。
研究结果对多星座组合导航接收机自主完好性监测算法研究有一定的参考价值。
-
[1] Sankararaman S, Mahadevan S.Likelihood-based representation of epistemic uncertainty due to sparse point data and/or interval data[J].Reliability Engineering & System Safety,2011,96(7):814-824. [2] Diday E, Noirhomme-Fraiture M.Symbolic data analysis and the SODAS software[M].London:Wiley Online Library,2008:81-92. [3] Billard L. Symbolic data analysis:what is it [M].New York:Springer,2006:261-268. [4] Diday E, Esposito F.An introduction to symbollic data analysis and the SODAS software[J].Intelligent Data Analysis,2003,7(6): 583-601. [5] Wang H W, Guan R,Wu J J.CIPCA:complete-information-based principal component analysis for interval-valued data[J].Neurocomputing,2012,86:158-169. [6] Wang H W, Guan R,Wu J J.Linear regression of interval-valued data based on complete information in hypercubes[J].Journal of Systems Science and Systems Engineering,2012,21(4):422-442. [7] Yue Z L. A group decision making approach based on aggregating interval data into interval-valued intuitionistic fuzzy information[J].Applied Mathematical Modelling,2014,38(2):683-698. [8] Cerný M, Hladík M.The complexity of computation and approximation of the t-ratio over one-dimensional interval data[J].Computational Statistics and Data Analysis,2014,80:26-43. [9] Yang X J, Yan L L,Peng H,et al.Encoding words into cloud models from interval-valued data via fuzzy statistics and membership function fitting[J].Knowledge-Based Systems,2014,55:114-124. [10] 郭均鹏,陈颖, 李汶华.一般分布区间型符号数据的K均值聚类方法[J].管理科学学报,2013,16(3):21-28. Guo J P,Chen Y,Li W H.K-means clustering of generally distributed interval symbolic data[J].Journal of Management Sciences in China,2013,16(3):21-28(in Chinese). [11] 高飒. 一般分布区间型符号数据的聚类分析方法研究[D].天津:天津大学,2009. Gao S.The clustering analysis of generally distributed interval symbolic data[D].Tianjin:Tianjin University,2009(in Chinese). [12] Silverman B W. Density estimation for statistics and data analysis[M].London:Chapman and Hall,1986:34-48. [13] Fan J Q, Yao Q W.Nonlinear time series: nonparametric and parametric methods[M].New York:Springer Verlag,2003:193-212. [14] Marhuenda Y, Morales D,Pardo M C.Power results of tests for the uniform distribution,I-2005-09[R].Spain:Miguel Hernandez University of Elche,2005. [15] Kolmogorov A N. Sulla determinazione empirica di una legge di distribuzione[J].G Inst Ital Att,1933,4:83-91. [16] Sinclair C D, Spurr B D.Approximations to the distribution function of the anderson:darling test statistic[J].Journal of the American Statistical Association,1988,83(404):1190-1191. [17] Conover W J. Practical nonparametric statistics[M].New York:Wiley,1999:63-70. [18] Zhang J. Powerful goodness-of-fit tests based on the likelihood ratio[J].Journal of the Royal Statistical Society,Series B(Statistical Methodology),2002,64(2):281-294. -

计量
- 文章访问数: 1404
- HTML全文浏览量: 31
- PDF下载量: 1269
- 被引次数: 0