首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
于力超  金勇进 《统计研究》2018,35(11):93-104
大规模抽样调查多采用复杂抽样设计,得到具有分层嵌套结构的调查数据集,其中不可避免会遇到数据缺失问题,针对分层结构含缺失数据集的插补策略目前鲜有研究。本文将Gibbs算法应用到分层含缺失数据集的多重插补过程中,分别研究了固定效应模型插补法和随机效应模型插补法,进而通过理论推导和数值模拟,在不同组内相关系数、群组规模、数据缺失比例等情形下,从参数估计结果的无偏性和有效性两方面,比较不同方法的插补效果,给出插补模型的选择建议。研究结果表明,采用随机效应模型作为插补模型时,得到的参数估计结果更准确,而固定效应模型作为插补模型操作相对简便,在数据缺失比例较小、组内相关系数较大、群组规模较大等情形下,可以采用固定效应插补模型,否则建议采用随机效应插补模型。  相似文献   

2.
多重插补处理缺失数据方法的理论基础探析   总被引:4,自引:0,他引:4  
本文在比较单一插补法与多重插补法的基础上,对多重插补处理方法的理论基础做了深入探讨,并介绍了多重插补法处理缺失数据的基本思想.  相似文献   

3.
文章通过对缺失值处理方法分析,提出基于分类的三种缺失值处理方法:分类的均值插补法、分类的多重插补法和分类的K-means方法;该方法先对被调查对象问卷中的满意度关键字段按照分值进行分类,然后在同类中的缺失值用该类的平均值、多重插补值和聚类中心值替代.最后,以某食品公司为研究对象,对顾客满意度测评模型进行带缺失值的实证分析.结果表明:基于分类的三种缺失值处理方法优于均值插补法、多重插补法和K-means方法,为顾客满意度指数测评中的缺失值处理提供了实用方法.  相似文献   

4.
在分位回归中,自变量缺失是一种重要的数据缺失问题。尤其当自变量缺失与因变量有关时,已有的多重插补法会带来有偏估计。通过逆概率加权,将修正后的逆概率加权多重插补法用于模拟研究和应用研究。模拟研究表明,在不同的缺失相关程度下,逆概率加权多有效解决了同工作时间的数据缺失问题,同时重插补法能够有效减少估计偏差,并在一定程度上保证估计量的有效性。在中国综合社会调查(CGSS)的应用研究中,该方法有效解决了周工作时间的数据缺失问题,同时揭示了影响年收入的重要因素,说明该方法具有一定的应用价值。  相似文献   

5.
无回答在大数据应用中频繁发生。通常,实际数据的无回答率较低,在这样的情况下,采用倾向得分模型对无回答单元与回答单元进行匹配,易导致倾向得分匹配插补法的插补效果显著下降。为此,将合成少数类过采样算法的思想融入到倾向得分匹配插补法中,提出基于少数类过采样的倾向得分匹配插补法。利用统计模拟与实证研究,在不同无回答率、插补重数和误差分布情形下,演示新插补法的统计性质和应用效果。统计模拟显示,新插补法具有明显高于倾向得分匹配插补法的精度,统计性质受无回答率、插补重数和误差分布的影响小。实证结果显示,新插补法在实际数据中具有较好的应用性。基于少数类过采样的倾向得分匹配插补法提供了处理无回答问题的新思路,并具有较好的扩展性。  相似文献   

6.
文章研究了社会调查中导致样本数据缺失的单位无应答和项目无应答,分析了单位无应答的影响因素,并以德国主要城市报纸调查为例,比较了项目无应答的调整方法。研究发现,调查员对单位无应答的影响尤为重要,他有助于提升单位应答率;热卡插补法更能还原缺失数据的真实状态,对项目无应答有较好的调整作用。  相似文献   

7.
Data Augmentation(DA)插补法是最常用的MCMC多重插补法之一。利用模拟方法研究基于DA插补法的线性回归模型的系数估计值,分析估计值的统计性质受无回答机制、无回答率和插补重数的影响。模拟结果显示:在完全随机无回答机制下,选择较小插补重数常常会得到较好的回归系数估计值;在随机无回答机制下,随着无回答率增大而选择更大插补重数往往会得到更好的回归系数估计值;在非随机无回答机制下,选择更大插补重数并不一定总会得到更好的回归系数估计值。  相似文献   

8.
插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。  相似文献   

9.
文章就缺失数据处理中涉及到的相关问题做了初步探讨,并在比较单一插补法与多重插补法的基础上,举例说明多重插补法处理缺失数据的基本程序。  相似文献   

10.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号