共查询到20条相似文献,搜索用时 109 毫秒
1.
基于稳健马氏距离的多元异常值检测 总被引:3,自引:0,他引:3
多元数据由于其复杂性而使其中的异常值检测问题成为一个研究难点.传统的多元统计方法由于受异常值影响使结果产生不稳定性.本文提出一种基于稳健马氏距离的异常值检测方法,并与其它一般的传统办法进行比较说明其优良性. 相似文献
2.
Bootstrap方法在非参数核估计中的研究与应用 总被引:1,自引:0,他引:1
当数据中存在异常值时,Bootstrap样本可能比原有样本舍有更多的"污染",这会影响要进行的统计推断的有效性.文章讨论了在非参数回归N-w估计中,如何利用影响函数(influencefunction)得到重新抽样的概率,使用调整后的非等概率Bootstrap抽样方法得到曲线的拟合,从而达到有效地抵制异常值对回归函数影响的目的.数值模拟的结果表明了这种处理方法的有效性. 相似文献
3.
4.
函数型数据本质上是一种复杂数据,其抽样、生成、结构和关联程度都会影响到数据的复杂性和描述性,有些情形甚至连基本的可视化描述都成为难点。在利用函数型数据的主成分得分、图基的数据深度和密度概念的基础上,引入函数型数据的打包图和箱线图,并针对函数型数据的图形分析提出了函数型数据异常值检测的三种方法。与已有的检测方法相比较,所提三种方法更易于识别函数型数据的异常值。 相似文献
5.
时间序列异常值检测是时间序列分析研究中的重要内容,然而,在实际检测中往往存在“遮蔽效应”问题。文章分析了已有研究提出的时间序列TC型异常值检测法的不稳健性,并从两个方面进行改进:第一,建立基于Huber权函数的稳健ARMA模型,得到无干扰AR系数与MA系数;第二,用绝对离差中位数作为残差稳健估计量。通过以上改进得到了TC型异常值稳健检测统计量,并通过模拟对比小样本、中样本、大样本,轻污染、中污染、重污染情形下传统检测法与稳健检测法的检测效力,结果发现:在小样本、轻污染率下,两种检测法相差不大,但随着样本量、污染率的增加,稳健检测法显著优于传统检测法。最后,稳健检测法的优良性在金融市场异常现象检测中得到进一步说明。 相似文献
6.
7.
政府统计数据质量是当前各界关注的热点问题,如何采用严谨的诊断方法,对我国统计数据进行科学的评估具有重要的现实意义。稳健回归方法可使求出的回归估计不受异常值的强烈影响,并且能更好的识别异常点。本文首次运用基于稳健MM估计的异常值诊断方法,在生产函数模型的框架下,分别使用两种不同的劳动投入数据,对改革以来我国GDP数据质量进行了评估。结果表明,基于稳健MM估计的异常值诊断方法可有效的解决传统方法容易出现的多个异常点的掩盖现象,改革以来我国的GDP数据是相对可靠的。 相似文献
8.
在经济计量建模过程中,异常值的影响评价与诊断问题越来越显得重要。本文旨在提供异常值对复共线性关系检验、序列相关性检验、异方差性检验、单位根检验等经济计量检验产生致命影响的典型案例,为经济计量学的教学与相关建模理论研究提供有说服力的数据资料。 相似文献
9.
混合地理加权回归模型作为一类能简单有效解决空间非平稳问题的数据分析方法已经得到了广泛的应用.在利用该模型分析实际数据时,一个或多个特殊观测点的存在能导致估计结果发生较大改变.为了能有效检测出异常点,系统研究这类半参数模型的统计诊断与影响分析.首先基于数据删除模型定义了参数分量对应的Cook统计量,其次,基于均值漂移模型讨论了异常点的检验问题,构造了相应的检验统计量. 相似文献
10.
为有效解决存在异常数据时传统Fisher判别分析(FDA)方法误判率高的问题,文章提出了一个简单而稳健的FDA方法.该方法首先用最小协方差行列式(MCD)稳健估计技术获得稳健的样本均值和协方差估计;然后再用FDA进行判别分析.为验证方法的有效性,文章将此方法应用于我国上市公司财务困境的预测问题.实证研究表明,在没有异常值的情况下,基于MCD的稳健FDA判别和传统的FDA判别结果基本一致;而在有异常值的情况下,新方法明显优于传统的FDA,不仅可有效抵御异常数据的干扰,而且仍保持较低的误判率. 相似文献
11.
考虑检测周期的两同型部件并联可修系统.假定系统的两个部件相同且相互互独立,每个部件都具有正常、异常和故障三个状态(其中正常和异常状态是工作状态),部件依次由正常经过异常到达故障状态,系统工作时,必须通过检测才知道部件是处于正常还是异常状态,并且部件的寿命、修理时间均服从指数分布.文章给出了一个系统模型,然后利用全概率分析、补充变量法等方法和Laphce变换、Laphce-Sdelties换等工具,求得了系统的一系列重要可靠性数量指标. 相似文献
12.
文章以试验数据证明,在单位根序列的趋势性检验中,F1统计量值会受常数项大小影响,只能检测出取值较大的常数项值;F2统计量值不受时间趋势项系数大小的影响,无法检测出时间趋势项的存在.这是由于共线性问题造成的. 相似文献
13.
14.
15.
文章分析了已有研究提出的时间序列新息异常值诊断法的不稳健性,并从以下两点对其进行稳健改进:一是构建稳健ARMA模型,确保基于该模型得到的残差不受异常值干扰;二是采用无偏Shamos估计量作为残差标准差σ的稳健估计量。通过以上改进,得到了新息异常值稳健诊断统计量。在模拟样本量分别为50、100、200、500,污染率分别为1%、5%、10%时比较传统诊断法与稳健诊断法的诊断效果,结果发现:传统诊断法受异常值干扰较大,在每种样本量下,随着污染率增加,诊断正确率急速下降,特别是在高污染率(10%)下,已基本无诊断力,而稳健诊断法不受异常值干扰,正确率均为100%。随后将稳健诊断法应用于金融时间序列异常值诊断,诊断结果与实际情况相吻合。 相似文献
16.
空间自回归模型的局部影响分析和运用 总被引:1,自引:0,他引:1
由于空间数据的相依特性,使得通常的删除点诊断异常值的方法不适合采用。为了寻找数据中的异常点和影响点,采用局部影响分析技术,通过引入扰动的方法来发现影响点,最后通过实例说明局部影响分析技术能够有效地发现模型中可能的影响点,并且能够揭示更多的细节信息。 相似文献
17.
稳健主成分回归(RPCR)是稳健主成分分析和稳健回归分析结合使用的一种方法,本文首次运用稳健的RPCR及异常值诊断方法,对2008年我国地区经济增长横截面数据可靠性做了评估。评估结果表明:稳健的RPCR方法能更好的克服异常值的影响,使估计结果更加可靠,并能有效的克服经典的主成分回归(CPCR)方法容易出现的多个异常点的掩盖现象;基本可以认为2008年地区经济增长与相关指标数据是匹配的,但部分地区的经济增长数据可能存在可靠性问题。 相似文献
18.
当质量过程呈现自相关现象时,残差控制图是解决其控制问题的有效方法之一.但是与常规控制图相比较,两者检测性能有很大不同.本文应用检测能力指数和平均链长两种衡量指标,评价了质量过程为AR(1)的残差控制图对异常状态的检测能力. 相似文献
19.
Cook距离公式常用于回归模型的异常值诊断,但由于公式中的样本方差■对异常值敏感,导致公式缺乏稳健性,使得诊断效果不理想。基于以上问题,文章选取绝对离差中位数作为样本标准差的稳健估计量,得到了样本方差■的稳健估计量,进而构造出稳健Cook距离公式;借鉴传统Cook距离的回归模型异常值诊断理论,将稳健Cook距离公式应用于时间序列异常值诊断,拓展了传统Cook距离公式的异常值诊断领域。通过选取模拟样本量分别为50、100、200,污染率分别为0、1%、5%、10%的ARMA(1,1)序列及金融时间序列进行实例分析,结果发现:(1)在无污染时,稳健Cook距离法与常规Cook距离法的诊断正确率均为100%,两者没有出现"误诊"现象;(2)在样本量、污染率同时增大时,常规Cook距离诊断正确率急剧下降,当污染率达到5%及以上时,已基本无诊断力,而稳健Cook距离法依然能保持较高的诊断力。稳健Cook距离法不仅能应用于时间序列异常值诊断,也能应用于回归分析的异常值诊断。 相似文献
20.
对于实证研究中经常遇到变量维数高和存在异常值的二分类问题,探索稳健的高维二分类方法显得尤为重要。本文提出基于Lasso惩罚的光滑0-1损失函数二分类法,并利用Fabs 算法高效地解决了变量选择和参数估计问题。数值模拟的结果表明,在不同异常值比例下该方法均具有良好的稳健性。基于CHIP 2013年度数据,利用该方法对农民工子女高中入学决定的影响因素进行了实证研究。分析发现,农民工父母的教育水平、教育水平与家庭经济状况的交互作用、农民工子女性别、性别与民族的交互作用均对农民工子女的入学决定有重要影响。 相似文献