首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
在实证分析中遇到缺失值是一个非常不幸但又非常普遍的问题,不完整的数据将会严重影响到分析结果的正确性和准确性,甚至是增加错误结果的风险,对缺失值的处理是一个不可避免而又富有挑战性的研究课题。牛顿搜索算法是一个优秀的数据设算法,不需要考虑数据的缺失状态,可充分利用已有数据对缺失值进行修补,在改善参数估计、减少标准误差、提高统计检验功效方面有良好效果。  相似文献   

2.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

3.
李璐 《统计与决策》2012,(17):72-74
数据缺失是一个在实验研究和调查研究中经常遇到的问题。文章先介绍了数据缺失机制的四种形式,指出解决数据缺失的一般性方法,即可以通过尽量引入更多的相关变量从而简化缺失机制;然后利用R语言对2006年中国健康与营养调查的部分数据进行了填补,介绍了各种填补方法在R中的应用,并在介绍热平台方法时提出运用R寻找匹配样本的新思路。  相似文献   

4.
缺失数据问题在抽样调查、社会科学、流行病等领域普遍存在,这一现象在高维情形下更为凸显;而与高维数据相伴的信息海量化、复杂化、异质化、缺失化等问题,给高维缺失数据理论建立及应用研究带来极大的挑战。如何建立一种稳健高效的高维缺失数据插补方法,已成为当今学者研究的焦点。为解决上述难题,创新性地将增强的逆概率加权(IPW)与加法模型融合,应用协变量平衡倾向评分法(CBPS)估计缺失概率,提出一种适用于高维缺失数据的可加协变量平衡倾向评分插补方法(CBPS-AM),期望对高维缺失问题提供更为有效的解决方案。CBPS-AM方法不仅具有多重稳健性,避免了模型误设带来的严重风险,还能够有效规避高维缺失数据具有厚尾分布而使得传统插补方法失效的问题,起到双重降维的作用,实现建模的灵活性与广泛适用性。其次借鉴广义矩估计方法和Backfitting算法给出了CBPS估计算法,该算法简洁有效,能够提高数据使用效率与插补精度,同时研究了估计量的理论性质,对比了所提方法与传统方法在数值模拟中的表现。最后将CBPS-AM方法分别应用于存在缺失的HIV临床试验数据和中国新冠病毒感染疫情数据中,建立科学的综合评价以及针对...  相似文献   

5.
基于聚类关联规则的缺失数据处理研究   总被引:2,自引:1,他引:2       下载免费PDF全文
 本文提出了基于聚类和关联规则的缺失数据处理新方法,通过聚类方法将含有缺失数据的数据集相近的记录归到一类,然后利用改进后的关联规则方法对各子数据集挖掘变量间的关联性,并利用这种关联性来填补缺失数据。通过实例分析,发现该方法对缺失数据处理,尤其是海量数据集具有较好的效果。  相似文献   

6.
从匹配模型法数据的缺失机理分析,匹配模型法编制的价格指数的质量偏差可分为两部分:一部分为样本内的质量偏差;一部分为样本外的质量偏差。文章对匹配模型框架下质量偏差的数据模式和数据缺失机理进行了探讨和研究,在此基础上针对不同的数据缺失机理,提出了均值插补法、交叠插补法和hedonic插补法三种质量调整方法。  相似文献   

7.
公共突发事件应急统计中纵向缺失数据的处理方法研究   总被引:1,自引:0,他引:1  
缺失数据在公共突发事件的应急统计数据分析中是一个非常普遍的问题,针对公共突发事件应急统计数据的纵向数据集,提出用一种得分匹配法来进行缺失值的借补处理,并将其与另外三种缺失值处理方法进行比较,即构造各种不同缺失率的随机缺失数据集,分别运用得分匹配法、LVCF借补法、无条件均值抽取法和多重借补法四种不同的缺失值处理方法对每一种缺失率的数据集缺失值进行处理。统计分析结果表明,少数缺失值发生时,LVCF法简单而有效;随着缺失率的增加,均值抽取法和多重借补法处理效果更稳定;得分匹配法借补缺失值考虑了变量之间的相关性,最大程度地利用了数据集包含的信息,同时考虑了含缺失值变量的实际变异程度,因此取得了最好的借补效果。  相似文献   

8.
文章提出了"权重新定"的一种缺失值处理方法,分析了带缺失值的顾客满意度指数测评步骤;详细阐述了Wold的PLS算法的求解过程,基于该算法实现了顾客满意度指数测评系统(简称MyPLS);最后,分别利用MyPLS与SmartPLS软件对某食品公司的带缺失值数据进行处理,在迭代次数上前者较SmartPLS少,在潜变量估计值相关系数、权重系数等方面与SmartPLS具有一致性,为国内带缺失值顾客满意度指数测评研究和应用提供了方法。  相似文献   

9.
针对数据库中存在缺失值的问题,文章建立了统计相关分析与机器学习相结合的缺失数据处理方法.首先利用统计相关性对原始数据进行分析,找出与缺失值属性相关度较大的属性,提取这些属性的已知值作为训练数据建立模型,再利用建立起来的模型估算缺失值.以UCI数据库真实的数据为例进行仿真,并对比分析了支持向量机、神经网络和决策树三种机器学习算法,实验结果表明利用相关度较大的已知属性值来训练学习,其估算值精度明显提高.  相似文献   

10.
文章通过多重插补方法对不同缺失率和缺失模式的多变量缺失样本进行插补,研究了多重插补误差与缺失率和缺失模式的依赖关系。结果表明,当缺失率为0~15%时,多重插补误差与缺失率呈线性关系;当缺失率大于15%时,两者呈偏离线性关系。多重插补误差与缺失模式的方差均值比呈正相关性,当方差均值比越大时,误差也越大。  相似文献   

11.
文章在简要介绍EM算法的基础上,对MCMC算法,特别是DA算法实现缺失数据补全做了深入探讨,介绍了DA算法迭代模拟过程,并对DA算法与EM算法进行了比较。  相似文献   

12.
文章针对林学研究中缺失数据下的线性模型,依据贝叶斯原理,推导出了基于MCMC方法参数估计的迭代公式。并以8个杉木固定样地观测资料的真实数据建立模型,通过s-plus软件编程,进行计算机模拟和有关的数据分析,得到了不同缺失率下参数的估计结果。  相似文献   

13.
于力超  金勇进 《统计研究》2016,33(1):95-102
抽样调查领域常采用对多个受访者进行跟踪调查得到面板数据,进而对总体特性进行统计推断,在面板数据中常含缺失数据,大多数处理面板缺失数据的软件都是直接删去含缺失值的受访者以得到完全数据集,当数据缺失机制为非随机缺失时会导致总体参数估计结果有偏。本文针对数据缺失机制为非随机缺失情形下,如何对面板数据进行统计分析进行了阐述,主要采用的是基于模型的似然推断法,对目标变量、缺失指示变量和随机效应向量的联合分布建模,在已有选择模型和模式混合模型的基础上,引入随机效应,研究目标变量期望的计算方法,并研究随机效应杂合模型下参数的估计方法,在变量分布相对简单的情形下给出了用极大似然法推断总体参数的估计步骤,最后通过模拟分析比较方法的优劣。  相似文献   

14.
对缺失数据的研究是当前国内外的热点问题,但是传统的局部影响分析方法却无法处理复杂的带有缺失数据的统计模型,尤其是带有不可忽略缺失数据的统计模型.文章通过考虑基于Q函数的保形法曲率并借助于Gibbs抽样和MH算法,就能够有效地对带有不可忽略缺失数据的非线性结构方程模型实施局部影响分析,且方法新颖,计算简单,结论可靠.  相似文献   

15.
插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。  相似文献   

16.
样本中的数据缺失势必会造成估计量精度的损失。为了尽可能减小损失,需要对缺失数据进行必要的弥补性处理。质量评估调查中出现的缺失数据有三种情况:住房单元未调查;个人的一部分人口统计特征遗漏;个人的匹配状态或住处状态悬而未决。对于上面说的数据缺失三种情况中的第三种情况,即由于悬而未决导致的数据缺失,在普查登记调查中也会存在,也要对其进行处理。因此,应用人口普查数据缺失插补方法技术,能解决上述问题。  相似文献   

17.
数据分布密度划分的聚类算法是数据挖掘聚类算法的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区,产生数据集的子簇空间,并进行子簇合并,形成理想的聚类结果;依据该算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

18.
提出基于最近邻插补和关联规则的缺失数据插补方法,将不含缺失数据的变量作为辅助变量,通过定义距离函数寻找与含缺失数据的样本单元距离较近的样本,然后利用挖掘得到的关联规则支持度和提升度乘积的倒数作为权重,对样本单元之间的距离进行加权处理,得到加权距离,再用加权距离最小的样本单元对应的属性值对缺失值进行插补。这种方法可以解决由不同最近距离样本单元得到不同插补值的问题,最后给出了该方法的实施步骤和应用范例。  相似文献   

19.
上市公司往往存在粉饰财务数据来美化企业经营状况的动机,这会降低财务风险预警模型预测的准确性。文章利用Benford律和Myer指数两种数据质量评估方法,构建Benford和Myer质量因子,引入BP神经网络模型,构造BM-BP神经网络财务风险预警模型;并进一步利用2000—2019年中国A股上市公司数据,评价数据质量因子对财务风险预警模型预测准确性的影响,分析新模型预测准确性的稳定性。实证分析结果显示:Benford和Myer质量因子提高了BP神经网络财务风险预警模型预测的准确性;在不同质量因子的比较结果中,包含评选指标Benford和Myer质量因子的BP神经网络财务风险预警模型具有较高的预测准确率和较低的二类误判率,稳定性良好;利用决策树算法筛选指标有效提高了新模型的预测准确性。  相似文献   

20.
文章结合基函数逼近以及惩罚最小二乘技术,对响应变量随机缺失下的部分线性模型,给出了一个变量选择方法.并结合局部二次逼近,得到了一个迭代算法.数据模拟表明该变量选择方法是可行的.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号