首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
文章在响应变量随机缺失下,基于分位数回归研究了半参数模型的稳健估计问题。首先基于B样条基函数近似技术,将模型非参数函数的估计问题转化为样条系数向量估计问题;其次,在响应变量随机缺失下,提出了一种新的插补方法,对缺失的响应变量进行多重插补;再次,基于插补后的数据集,构造出新的分位数目标函数,得到模型非参数函数以及参数向量的稳健估计;最后给出了有效算法计算多重插补估计量。通过模拟研究验证了所提方法的有效性和稳健性。  相似文献   

2.
缺失值是调查中普遍存在的问题,对缺失值进行插补是处理缺失值的较好方法.如果变量之间存在相关关系,可以通过正态线形模型利用不存在缺失值的变量对有存在缺失值的变量进行插补.较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用.文章借助Bootstrap法,让模型的参数和残差来自完全观测的Bootstrap样本的最小平法估计,可进一步准确估计总体方差.通过大量模拟试验,发现Bootstrap多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显.  相似文献   

3.
插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。  相似文献   

4.
文章在响应变量随机缺失下研究非线性均值方差模型的参数估计问题.基于回归插补和随机回归插补两种缺失插补方法以及结合Gauss-Newton迭代计算算法给出该模型中未知参数的极大似然估计.并通过对两个随机模拟例子实际例子的研究分析,结果都表明了所提出的模型与统计方法具有可行性和实用性.  相似文献   

5.
研究缺失偏态数据下线性回归模型的参数估计问题,针对缺失偏态数据,为克服样本分布扭曲缺点和提高模型的回归系数、尺度参数和偏度参数的估计效果,提出了一种适合偏态数据下线性回归模型中缺失数据的修正回归插补方法.通过随机模拟和实例研究,并与均值插补、回归插补、随机回归插补方法比较,结果表明所提出的修正回归插补方法是有效可行的.  相似文献   

6.
大数据下的样本大多为非概率样本,其入样概率未知,同时可能面临着协变量较多甚至是高维的情况,那么如何对这种情况下的非概率样本进行推断值得探索。针对该问题,文章考虑到Model-X Knockoffs的降维特点,提出采用Model-X Knockoffs筛选出重要变量,建立Logistic倾向得分模型来估计非概率样本的入样概率或倾向得分,对总体进行推断,从而提高估计的精度,同时可控制变量选择的错误发现率与功效。模拟与实证研究结果表明:基于Model-X Knockoffs的Logistic倾向得分模型的总体均值估计相比一般的Logistic倾向得分模型和广义线性回归模型的总体均值估计,偏差更小、效率更高、估计效果更好,并且能很好地控制错误发现率的水平,功效值也接近1。  相似文献   

7.
邰凌楠等 《统计研究》2018,35(9):115-128
数据缺失问题普遍存在于应用研究中。在随机缺失机制假定下,本文从模型推断角度出发,针对线性缺失分位回归模型,提出一种新的有效估计方法——逆概率多重加权(IPMW)估计。该方法是在逆概率加权(IPW)估计的基础上,结合倾向得分匹配及模型平均思想,经过多次估计,加权确定最终参数估计结果。该方法适用于响应变量是独立同分布或独立非同分布的情形,并适用于绝大多数缺失场景。经过理论推导及模拟研究发现,IPMW估计量在继承IPW估计量的优势上具有更稳健的性质。最后,将该方法应用于含有缺失数据的微观调查数据中,研究了经济较发达的准一线城市中等收入群体消费水平的影响因素,对比两种估计方法的估计结果及置信带,发现逆概率多重加权估计量的标准偏差更小,估计结果更稳健。  相似文献   

8.
基于链式方程的收入变量 缺失值的多重插补   总被引:2,自引:0,他引:2       下载免费PDF全文
刘凤芹 《统计研究》2009,26(1):71-77
 在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较。结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计。  相似文献   

9.
在分位回归中,自变量缺失是一种重要的数据缺失问题。尤其当自变量缺失与因变量有关时,已有的多重插补法会带来有偏估计。通过逆概率加权,将修正后的逆概率加权多重插补法用于模拟研究和应用研究。模拟研究表明,在不同的缺失相关程度下,逆概率加权多有效解决了同工作时间的数据缺失问题,同时重插补法能够有效减少估计偏差,并在一定程度上保证估计量的有效性。在中国综合社会调查(CGSS)的应用研究中,该方法有效解决了周工作时间的数据缺失问题,同时揭示了影响年收入的重要因素,说明该方法具有一定的应用价值。  相似文献   

10.
提出基于最近邻插补和关联规则的缺失数据插补方法,将不含缺失数据的变量作为辅助变量,通过定义距离函数寻找与含缺失数据的样本单元距离较近的样本,然后利用挖掘得到的关联规则支持度和提升度乘积的倒数作为权重,对样本单元之间的距离进行加权处理,得到加权距离,再用加权距离最小的样本单元对应的属性值对缺失值进行插补。这种方法可以解决由不同最近距离样本单元得到不同插补值的问题,最后给出了该方法的实施步骤和应用范例。  相似文献   

11.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

12.
文章研究了响应变量随机缺失下超高维数据的特征筛选方法,Kolmogorov过滤方法被用于筛选构建倾向得分函数的重要协变量,据此推广逆概率加权技术构建响应变量随机缺失下的边际特征筛选过程.通过大样本理论证明了所提出的筛选方法在一些常规条件下具有确定性筛选性质,利用蒙特卡罗模拟研究了其有限样本性质,并将其应用于实际数据问题来验证评估其实用价值.  相似文献   

13.
文章通过多重插补方法对不同缺失率和缺失模式的多变量缺失样本进行插补,研究了多重插补误差与缺失率和缺失模式的依赖关系。结果表明,当缺失率为0~15%时,多重插补误差与缺失率呈线性关系;当缺失率大于15%时,两者呈偏离线性关系。多重插补误差与缺失模式的方差均值比呈正相关性,当方差均值比越大时,误差也越大。  相似文献   

14.
熊巍等 《统计研究》2020,37(5):104-116
随着计算机技术的迅猛发展,高维成分数据不断涌现并伴有大量近似零值和缺失,数据的高维特性不仅给传统统计方法带来了巨大的挑战,其厚尾特征、复杂的协方差结构也使得理论分析难上加难。于是如何对高维成分数据的近似零值进行稳健的插补,挖掘潜在的内蕴结构成为当今学者研究的焦点。对此,本文结合修正的EM算法,提出基于R型聚类的Lasso-分位回归插补法(SubLQR)对高维成分数据的近似零值问题予以解决。与现有高维近似零值插补方法相比,本文所提出的SubLQR具有如下优势。①稳健全面性:利用Lasso-分位回归方法,不仅可以有效地探测到响应变量的整个条件分布,还能提供更加真实的高维稀疏模式;②有效准确性:采用基于R型聚类的思想进行插补,可以降低计算复杂度,极大提高插补的精度。模拟研究证实,本文提出的SubLQR高效灵活准确,特别在零值、异常值较多的情形更具优势。最后将SubLQR方法应用于罕见病代谢组学研究中,进一步表明本文所提出的方法具有广泛的适用性。  相似文献   

15.
在协变量随机缺失时,文章利用加权拟似然方法给出了广义变系数模型中非参数函数系数的估计。由估计的渐近性质可知,当缺失概率未知时,本文提出的方法与缺失概率已知时的估计的渐近性质类似。通过模拟表明加权拟似然估计要比仅用完整个体的方法要好。  相似文献   

16.
文章将抽样调查中由于项目无回答所形成的缺失数据作为研究着眼点,从矩阵运算的角度分析了此类缺失数据带来的危害,在此基础上,对缺失数据插补处理方法的基本问题进行了讨论,分析了各种单一插补方法特点及局限性,并介绍了简单随机抽样、分层随机抽样条件下缺失数据多重插补的抽样推断方法,在此基础上,对常用的单一插补和多重插补方法进行了比较,并对简单随机抽样、分层随机抽样条件下缺失数据单一插补与多重插补方法的效率进行了实证研究与比较。  相似文献   

17.
随着研究中对数据质量要求的提高,缺失数据相关问题也越来越受到重视.文章主要论述了处理缺失数据的方法之一——分数插补法的理论基础,并在此基础上研究了分数热卡插补法及其方差估计,同时使用模拟数据,对分数热卡插补法的实现过程做了模拟研究.通过对比实验,可以得到分数热卡插补法能够在保证原有数据分布的基础上,减少因插补造成的偏差,提供更加准确的插补结果.  相似文献   

18.
为了研究缺失偏态数据下的联合位置与尺度模型,基于分布自身的特点,提出了一种适合缺失偏态数据下联合建模的插补方法———修正随机回归插补方法,该方法对缺失数据下模型偏度参数的调整十分显著。通过随机模拟和实例研究,并与回归插补和随机回归插补方法进行比较,结果表明,所提出的修正随机回归插补方法是有用和有效的。  相似文献   

19.
协变量平衡聚焦于消除处理变量和协变量的相关性,有助于在因果推断中减少极端权重的产生,提高估计量的稳定性和精度。目前二元处理变量下的协变量平衡相关研究较多,但连续处理变量下的协变量平衡研究有待进一步发展和完善。同时,现有研究直接基于平衡权重的角度实现协变量平衡,相应最优化为带等式和不等式约束的非线性规划,最优化求解相对复杂,导致方法对于大样本量数据尤其是微观数据的使用存在局限性。为避免上述不足,本文基于广义倾向得分的角度提出一种连续处理变量下的协变量平衡方法。该方法使得协变量逼近基的加权样本均值等于协变量逼近基的样本均值,平均剂量响应函数的估计量满足渐近无偏性和相合性。特别地,本文方法的最优化函数为严格凸函数且不带任何约束,从而最优化函数存在唯一解且求解相对简单,因此方法适用于大样本量数据尤其是微观数据的问题研究。此外,本文还提出一种特别的J折交叉验证方法,选择逼近基的阶数以实现数据驱动。数值模拟表明,本文提出方法的估计精度较高。将方法应用于中国家庭追踪调查微观数据,本文得出我国存在“年龄–储蓄率之谜”现象,即户主年龄与家庭储蓄率存在正U型关系,拐点约为42岁。  相似文献   

20.
吴浩  彭非 《统计研究》2020,37(4):114-128
倾向性得分是估计平均处理效应的重要工具。但在观察性研究中,通常会由于协变量在处理组与对照组分布的不平衡性而导致极端倾向性得分的出现,即存在十分接近于0或1的倾向性得分,这使得因果推断的强可忽略假设接近于违背,进而导致平均处理效应的估计出现较大的偏差与方差。Li等(2018a)提出了协变量平衡加权法,在无混杂性假设下通过实现协变量分布的加权平衡,解决了极端倾向性得分带来的影响。本文在此基础上,提出了基于协变量平衡加权法的稳健且有效的估计方法,并通过引入超级学习算法提升了模型在实证应用中的稳健性;更进一步,将前一方法推广至理论上不依赖于结果回归模型和倾向性得分模型假设的基于协变量平衡加权的稳健有效估计。蒙特卡洛模拟表明,本文提出的两种方法在结果回归模型和倾向性得分模型均存在误设时仍具有极小的偏差和方差。实证部分将两种方法应用于右心导管插入术数据,发现右心导管插入术大约会增加患者6. 3%死亡率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号