共查询到20条相似文献,搜索用时 246 毫秒
1.
2.
缺失值是调查中普遍存在的问题,对缺失值进行插补是处理缺失值的较好方法.如果变量之间存在相关关系,可以通过正态线形模型利用不存在缺失值的变量对有存在缺失值的变量进行插补.较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用.文章借助Bootstrap法,让模型的参数和残差来自完全观测的Bootstrap样本的最小平法估计,可进一步准确估计总体方差.通过大量模拟试验,发现Bootstrap多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显. 相似文献
3.
插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。 相似文献
4.
5.
6.
数据缺失问题普遍存在于应用研究中。在随机缺失机制假定下,本文从模型推断角度出发,针对线性缺失分位回归模型,提出一种新的有效估计方法——逆概率多重加权(IPMW)估计。该方法是在逆概率加权(IPW)估计的基础上,结合倾向得分匹配及模型平均思想,经过多次估计,加权确定最终参数估计结果。该方法适用于响应变量是独立同分布或独立非同分布的情形,并适用于绝大多数缺失场景。经过理论推导及模拟研究发现,IPMW估计量在继承IPW估计量的优势上具有更稳健的性质。最后,将该方法应用于含有缺失数据的微观调查数据中,研究了经济较发达的准一线城市中等收入群体消费水平的影响因素,对比两种估计方法的估计结果及置信带,发现逆概率多重加权估计量的标准偏差更小,估计结果更稳健。 相似文献
7.
大数据下的样本大多为非概率样本,其入样概率未知,同时可能面临着协变量较多甚至是高维的情况,那么如何对这种情况下的非概率样本进行推断值得探索。针对该问题,文章考虑到Model-X Knockoffs的降维特点,提出采用Model-X Knockoffs筛选出重要变量,建立Logistic倾向得分模型来估计非概率样本的入样概率或倾向得分,对总体进行推断,从而提高估计的精度,同时可控制变量选择的错误发现率与功效。模拟与实证研究结果表明:基于Model-X Knockoffs的Logistic倾向得分模型的总体均值估计相比一般的Logistic倾向得分模型和广义线性回归模型的总体均值估计,偏差更小、效率更高、估计效果更好,并且能很好地控制错误发现率的水平,功效值也接近1。 相似文献
8.
在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较。结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计。 相似文献
9.
10.
11.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。 相似文献
12.
13.
14.
随着计算机技术的迅猛发展,高维成分数据不断涌现并伴有大量近似零值和缺失,数据的高维特性不仅给传统统计方法带来了巨大的挑战,其厚尾特征、复杂的协方差结构也使得理论分析难上加难。于是如何对高维成分数据的近似零值进行稳健的插补,挖掘潜在的内蕴结构成为当今学者研究的焦点。对此,本文结合修正的EM算法,提出基于R型聚类的Lasso-分位回归插补法(SubLQR)对高维成分数据的近似零值问题予以解决。与现有高维近似零值插补方法相比,本文所提出的SubLQR具有如下优势。①稳健全面性:利用Lasso-分位回归方法,不仅可以有效地探测到响应变量的整个条件分布,还能提供更加真实的高维稀疏模式;②有效准确性:采用基于R型聚类的思想进行插补,可以降低计算复杂度,极大提高插补的精度。模拟研究证实,本文提出的SubLQR高效灵活准确,特别在零值、异常值较多的情形更具优势。最后将SubLQR方法应用于罕见病代谢组学研究中,进一步表明本文所提出的方法具有广泛的适用性。 相似文献
15.
文章通过对样本数据缺失值问题的分析,在随机缺失模式下选择科学有效的插补法对数据缺失问题进行研究,然后以市场中顾客对商品的喜爱度作为调查对象,构建模型对其进行实证分析,并在与多重插补法结合运用的基础上研究不同缺失率下的插补效果。结果显示,随着缺失率的提高,调查中所获得的数据可用性减少,同时插补法的效果也随之降低。在四种插补法中,EM插补和多重插补的插补效果优于其余两种,同时运用模型与多重插补相结合的插补效果也不错。因此根据不同的缺失率,需要选择合适的插补法对数据进行插补。 相似文献
16.
文章将抽样调查中由于项目无回答所形成的缺失数据作为研究着眼点,从矩阵运算的角度分析了此类缺失数据带来的危害,在此基础上,对缺失数据插补处理方法的基本问题进行了讨论,分析了各种单一插补方法特点及局限性,并介绍了简单随机抽样、分层随机抽样条件下缺失数据多重插补的抽样推断方法,在此基础上,对常用的单一插补和多重插补方法进行了比较,并对简单随机抽样、分层随机抽样条件下缺失数据单一插补与多重插补方法的效率进行了实证研究与比较。 相似文献
17.
在协变量随机缺失时,文章利用加权拟似然方法给出了广义变系数模型中非参数函数系数的估计。由估计的渐近性质可知,当缺失概率未知时,本文提出的方法与缺失概率已知时的估计的渐近性质类似。通过模拟表明加权拟似然估计要比仅用完整个体的方法要好。 相似文献
18.
随着研究中对数据质量要求的提高,缺失数据相关问题也越来越受到重视.文章主要论述了处理缺失数据的方法之一——分数插补法的理论基础,并在此基础上研究了分数热卡插补法及其方差估计,同时使用模拟数据,对分数热卡插补法的实现过程做了模拟研究.通过对比实验,可以得到分数热卡插补法能够在保证原有数据分布的基础上,减少因插补造成的偏差,提供更加准确的插补结果. 相似文献
19.
20.
协变量平衡聚焦于消除处理变量和协变量的相关性,有助于在因果推断中减少极端权重的产生,提高估计量的稳定性和精度。目前二元处理变量下的协变量平衡相关研究较多,但连续处理变量下的协变量平衡研究有待进一步发展和完善。同时,现有研究直接基于平衡权重的角度实现协变量平衡,相应最优化为带等式和不等式约束的非线性规划,最优化求解相对复杂,导致方法对于大样本量数据尤其是微观数据的使用存在局限性。为避免上述不足,本文基于广义倾向得分的角度提出一种连续处理变量下的协变量平衡方法。该方法使得协变量逼近基的加权样本均值等于协变量逼近基的样本均值,平均剂量响应函数的估计量满足渐近无偏性和相合性。特别地,本文方法的最优化函数为严格凸函数且不带任何约束,从而最优化函数存在唯一解且求解相对简单,因此方法适用于大样本量数据尤其是微观数据的问题研究。此外,本文还提出一种特别的J折交叉验证方法,选择逼近基的阶数以实现数据驱动。数值模拟表明,本文提出方法的估计精度较高。将方法应用于中国家庭追踪调查微观数据,本文得出我国存在“年龄–储蓄率之谜”现象,即户主年龄与家庭储蓄率存在正U型关系,拐点约为42岁。 相似文献