共查询到20条相似文献,搜索用时 11 毫秒
1.
插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。 相似文献
2.
文章讨论了基于多变量事后分层基础上的多重插补方法,分别就分层方法的选择、样本在各层的分配、插补模型的选择和参数估计进行了分析. 相似文献
3.
当对插补所得的“完整数据集”使用标准的完全数据统计方法的时候,往往会低估插补估计量的方差.Bootstrap方法(自助法)是非参数统计中的一种重要的统计方法,是基于原始观测数据进行重复抽样,能充分的利用已知数据,不需要对未知总体进行任何的分布假设或增加新的样本信息,进而再利用现有的统计模型对总体的分布特性进行统计推断.本文首先运用多重插补的方法对缺失数据进行了插补,之后利用Bootstrap方法对插补之后的数据进行了插补统计量的方差估计,结果表明运用Bootstrap方法进行插补统计量的方差估计更科学更准确. 相似文献
4.
分层随机抽样条件下缺失数据的多重插补方法 总被引:2,自引:1,他引:2
介绍分层随机抽样条件下多重插补法处理缺失数据的基本思想,分析可忽略无回答的分层随机抽样建立多重插补的常用方法,并通过实例加以说明. 相似文献
5.
多重插补处理缺失数据方法的理论基础探析 总被引:4,自引:0,他引:4
本文在比较单一插补法与多重插补法的基础上,对多重插补处理方法的理论基础做了深入探讨,并介绍了多重插补法处理缺失数据的基本思想. 相似文献
6.
文章在简要介绍EM算法的基础上,对MCMC算法,特别是DA算法实现缺失数据补全做了深入探讨,介绍了DA算法迭代模拟过程,并对DA算法与EM算法进行了比较。 相似文献
7.
分层抽样估计精度 控制方法的研究 总被引:1,自引:0,他引:1
在分层抽样实践中,经常遇到如何进行估计精度控制的问题。从具体的组织实施看,分层抽样估计的精度控制除了常规的总体控制法外,还有分层控制法和双重控制法。它们各具特色和应用价值。本文对此作一探讨。一、总体控制法所谓总体控制法,就是只控制总体参数(如总体均值)的抽样估计精度而不论各层参数(如层均值)的估计精度的高低。其一般过程是:先确定总体参数估计精度,再计算抽样估计所需的总样本容量,然后再分配备层样本容量。这样,各层参数抽样估计的精度事实上也就随之确定了。设总体分为K层,X;为第i层第j个单位的标志值(i… 相似文献
8.
9.
文章从道路客运实载率的定义和计算公式入手,研究推导了分层抽样条件下的两种估计方法,并以2008年陕西省班线客车运输量调查估计为例,对两种估计方法的异同点和优劣势进行了比较分析。文章不仅提出了科学合理的道路客运实载率分层抽样估计方法,同时也为里程利用率、客位利用率等其他运输效率指标的调查估计提供了新的思路和方法。 相似文献
10.
文章将抽样调查中由于项目无回答所形成的缺失数据作为研究着眼点,从矩阵运算的角度分析了此类缺失数据带来的危害,在此基础上,对缺失数据插补处理方法的基本问题进行了讨论,分析了各种单一插补方法特点及局限性,并介绍了简单随机抽样、分层随机抽样条件下缺失数据多重插补的抽样推断方法,在此基础上,对常用的单一插补和多重插补方法进行了比较,并对简单随机抽样、分层随机抽样条件下缺失数据单一插补与多重插补方法的效率进行了实证研究与比较。 相似文献
11.
缺失值是调查中普遍存在的问题,对缺失值进行插补是处理缺失值的较好方法.如果变量之间存在相关关系,可以通过正态线形模型利用不存在缺失值的变量对有存在缺失值的变量进行插补.较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用.文章借助Bootstrap法,让模型的参数和残差来自完全观测的Bootstrap样本的最小平法估计,可进一步准确估计总体方差.通过大量模拟试验,发现Bootstrap多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显. 相似文献
12.
在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较。结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计。 相似文献
13.
缺失数据问题在抽样调查、社会科学、流行病等领域普遍存在,这一现象在高维情形下更为凸显;而与高维数据相伴的信息海量化、复杂化、异质化、缺失化等问题,给高维缺失数据理论建立及应用研究带来极大的挑战。如何建立一种稳健高效的高维缺失数据插补方法,已成为当今学者研究的焦点。为解决上述难题,创新性地将增强的逆概率加权(IPW)与加法模型融合,应用协变量平衡倾向评分法(CBPS)估计缺失概率,提出一种适用于高维缺失数据的可加协变量平衡倾向评分插补方法(CBPS-AM),期望对高维缺失问题提供更为有效的解决方案。CBPS-AM方法不仅具有多重稳健性,避免了模型误设带来的严重风险,还能够有效规避高维缺失数据具有厚尾分布而使得传统插补方法失效的问题,起到双重降维的作用,实现建模的灵活性与广泛适用性。其次借鉴广义矩估计方法和Backfitting算法给出了CBPS估计算法,该算法简洁有效,能够提高数据使用效率与插补精度,同时研究了估计量的理论性质,对比了所提方法与传统方法在数值模拟中的表现。最后将CBPS-AM方法分别应用于存在缺失的HIV临床试验数据和中国新冠病毒感染疫情数据中,建立科学的综合评价以及针对... 相似文献
14.
分层抽样中,样本在各层中的不同获取方式会对估计量的精度和试验费用产生一定的影响,而已有的理论方法大多不能在提高精度的同时降低调查费用。为此,将排序抽样与分层抽样方法相结合,提出了辅以排序集样本的分层抽样方案,并得到了总体均值的估计量以及这一估计量的良好性质。这些结果表明,与单一的分层随机抽样相比,这种抽样设计的估计量具有更高的精度,同时也节约了各层抽样调查的费用。 相似文献
15.
在现代抽样调查中,校准估计方法能够通过有效利用辅助信息来提高估计量的精度,多重抽样框抽样调查则不仅可以解决单一抽样框覆盖不全的问题,还可以节约抽样设计阶段的成本。本文将这两种现代抽样估计与设计方法进行结合,将校准估计方法引入到基于多重抽样框的抽样调查体系中,在实现节约调查成本的同时,还能够提高估计量的精度。文章首先按照分离抽样框与组合抽样框估计方法的分类思路,对传统多重抽样框估计方法进行系统梳理;然后在最短距离法校准估计的分析框架下,按照调查时所能掌握辅助信息的具体情况,给出了两类多重抽样框估计情形下的各种不同形式的校准估计量;随后数值分析的比较结果也表明在多重抽样框中校准估计量的估计效率明显优于传统估计量;最后对本文研究进行总结的基础上,给出了我国抽样实践中应用这套先进抽样估计方法体系的展望。 相似文献
16.
多重抽样框可以解决单一抽样框难以完整覆盖流动性目标总体的难题,连续性抽样调查则可以获取变量的时序观测数据,对总体现象进行追踪调查。本文将多重抽样框调查与连续性抽样调查两种方法结合在一起进行研究,深入分析基于多重抽样框的连续性抽样估计方法。文章首先设计了连续性调查环境下总体结构变动表;然后,在简单随机抽样假定下的轮换样本调查情形开展研究,设计了14种参数缩减方法对构建的似然函数进行估计求解,并给出了估计量的迭代计算过程;最后,对本文的研究内容进行了总结与展望。 相似文献
17.
市场调查中为了实现成本效益、准确性以及速度目标往往会采用较长问卷,本文首先分析了因此可能对数据质量产生的影响,在此基础上提出了分割问卷的思想。重点阐述其设计要点,以及如何利用多重插补方法对缺失数据进行处理。 相似文献
18.
基于统计模型的模糊聚类算法的时间复杂度在数据集规模超过一定数量级时是计算不可行的,解决时间复杂度的一个行之有效的方法是抽样.文章通过对静态抽样进行改进,设计了一种半静态抽样法,使样本数据集最大程度得保持原数据集的信息,并保证聚类结果的不失真性;最后通过实证分析,比较并证明了该方法是有效的. 相似文献
19.
大规模抽样调查多采用复杂抽样设计,得到具有分层嵌套结构的调查数据集,其中不可避免会遇到数据缺失问题,针对分层结构含缺失数据集的插补策略目前鲜有研究。本文将Gibbs算法应用到分层含缺失数据集的多重插补过程中,分别研究了固定效应模型插补法和随机效应模型插补法,进而通过理论推导和数值模拟,在不同组内相关系数、群组规模、数据缺失比例等情形下,从参数估计结果的无偏性和有效性两方面,比较不同方法的插补效果,给出插补模型的选择建议。研究结果表明,采用随机效应模型作为插补模型时,得到的参数估计结果更准确,而固定效应模型作为插补模型操作相对简便,在数据缺失比例较小、组内相关系数较大、群组规模较大等情形下,可以采用固定效应插补模型,否则建议采用随机效应插补模型。 相似文献