首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
公共突发事件应急统计中纵向缺失数据的处理方法研究   总被引:1,自引:0,他引:1  
缺失数据在公共突发事件的应急统计数据分析中是一个非常普遍的问题,针对公共突发事件应急统计数据的纵向数据集,提出用一种得分匹配法来进行缺失值的借补处理,并将其与另外三种缺失值处理方法进行比较,即构造各种不同缺失率的随机缺失数据集,分别运用得分匹配法、LVCF借补法、无条件均值抽取法和多重借补法四种不同的缺失值处理方法对每一种缺失率的数据集缺失值进行处理。统计分析结果表明,少数缺失值发生时,LVCF法简单而有效;随着缺失率的增加,均值抽取法和多重借补法处理效果更稳定;得分匹配法借补缺失值考虑了变量之间的相关性,最大程度地利用了数据集包含的信息,同时考虑了含缺失值变量的实际变异程度,因此取得了最好的借补效果。  相似文献   

2.
文章将抽样调查中由于项目无回答所形成的缺失数据作为研究着眼点,从矩阵运算的角度分析了此类缺失数据带来的危害,在此基础上,对缺失数据插补处理方法的基本问题进行了讨论,分析了各种单一插补方法特点及局限性,并介绍了简单随机抽样、分层随机抽样条件下缺失数据多重插补的抽样推断方法,在此基础上,对常用的单一插补和多重插补方法进行了比较,并对简单随机抽样、分层随机抽样条件下缺失数据单一插补与多重插补方法的效率进行了实证研究与比较。  相似文献   

3.
在数据仓库中,传统的缺失值处理方法均存在一定程度缺陷.文章主要论述将统计中的Gibbs抽样仿真概念应用到数据仓库中的缺失值处理中,在满足原有数据条件分布充足的条件下,能够解决传统数据仓库缺失值处理工作量大、数据偏置等问题,并且该方法能够使用excel完成仿真过程,简单易行,可操作性强,能够更为直接和有效的解决现实中的数据仓库中缺失值处理问题.  相似文献   

4.
样本中的数据缺失势必会造成估计量精度的损失。为了尽可能减小损失,需要对缺失数据进行必要的弥补性处理。质量评估调查中出现的缺失数据有三种情况:住房单元未调查;个人的一部分人口统计特征遗漏;个人的匹配状态或住处状态悬而未决。对于上面说的数据缺失三种情况中的第三种情况,即由于悬而未决导致的数据缺失,在普查登记调查中也会存在,也要对其进行处理。因此,应用人口普查数据缺失插补方法技术,能解决上述问题。  相似文献   

5.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

6.
于力超  金勇进 《统计研究》2016,33(1):95-102
抽样调查领域常采用对多个受访者进行跟踪调查得到面板数据,进而对总体特性进行统计推断,在面板数据中常含缺失数据,大多数处理面板缺失数据的软件都是直接删去含缺失值的受访者以得到完全数据集,当数据缺失机制为非随机缺失时会导致总体参数估计结果有偏。本文针对数据缺失机制为非随机缺失情形下,如何对面板数据进行统计分析进行了阐述,主要采用的是基于模型的似然推断法,对目标变量、缺失指示变量和随机效应向量的联合分布建模,在已有选择模型和模式混合模型的基础上,引入随机效应,研究目标变量期望的计算方法,并研究随机效应杂合模型下参数的估计方法,在变量分布相对简单的情形下给出了用极大似然法推断总体参数的估计步骤,最后通过模拟分析比较方法的优劣。  相似文献   

7.
文章提出了"权重新定"的一种缺失值处理方法,分析了带缺失值的顾客满意度指数测评步骤;详细阐述了Wold的PLS算法的求解过程,基于该算法实现了顾客满意度指数测评系统(简称MyPLS);最后,分别利用MyPLS与SmartPLS软件对某食品公司的带缺失值数据进行处理,在迭代次数上前者较SmartPLS少,在潜变量估计值相关系数、权重系数等方面与SmartPLS具有一致性,为国内带缺失值顾客满意度指数测评研究和应用提供了方法。  相似文献   

8.
对缺失数据的研究是当前国内外的热点问题,但是传统的局部影响分析方法却无法处理复杂的带有缺失数据的统计模型,尤其是带有不可忽略缺失数据的统计模型.文章通过考虑基于Q函数的保形法曲率并借助于Gibbs抽样和MH算法,就能够有效地对带有不可忽略缺失数据的非线性结构方程模型实施局部影响分析,且方法新颖,计算简单,结论可靠.  相似文献   

9.
多重插补处理缺失数据方法的理论基础探析   总被引:4,自引:0,他引:4  
本文在比较单一插补法与多重插补法的基础上,对多重插补处理方法的理论基础做了深入探讨,并介绍了多重插补法处理缺失数据的基本思想.  相似文献   

10.
提出基于最近邻插补和关联规则的缺失数据插补方法,将不含缺失数据的变量作为辅助变量,通过定义距离函数寻找与含缺失数据的样本单元距离较近的样本,然后利用挖掘得到的关联规则支持度和提升度乘积的倒数作为权重,对样本单元之间的距离进行加权处理,得到加权距离,再用加权距离最小的样本单元对应的属性值对缺失值进行插补。这种方法可以解决由不同最近距离样本单元得到不同插补值的问题,最后给出了该方法的实施步骤和应用范例。  相似文献   

11.
基于链式方程的收入变量 缺失值的多重插补   总被引:2,自引:0,他引:2       下载免费PDF全文
刘凤芹 《统计研究》2009,26(1):71-77
 在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较。结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计。  相似文献   

12.
统计数据预处理的理论与方法述评   总被引:1,自引:0,他引:1  
统计数据预处理是提升数据质量的重要阶段,包括数据审查、数据清理、数据转换和数据验证四大步骤。根据处理对象的特点及每一步骤的不同目标,统计数据预处理可采用的方法包括描述及探索性分析、缺失值处理、异常值处理、数据变换技术、信度与效度检验、宏观数据诊断等六大类。选用恰当的方法开展统计数据预处理,有利于保证数据分析结论真实、有效。  相似文献   

13.
随着研究中对数据质量要求的提高,缺失数据相关问题也越来越受到重视.文章主要论述了处理缺失数据的方法之一——分数插补法的理论基础,并在此基础上研究了分数热卡插补法及其方差估计,同时使用模拟数据,对分数热卡插补法的实现过程做了模拟研究.通过对比实验,可以得到分数热卡插补法能够在保证原有数据分布的基础上,减少因插补造成的偏差,提供更加准确的插补结果.  相似文献   

14.
基于聚类关联规则的缺失数据处理研究   总被引:2,自引:1,他引:2       下载免费PDF全文
 本文提出了基于聚类和关联规则的缺失数据处理新方法,通过聚类方法将含有缺失数据的数据集相近的记录归到一类,然后利用改进后的关联规则方法对各子数据集挖掘变量间的关联性,并利用这种关联性来填补缺失数据。通过实例分析,发现该方法对缺失数据处理,尤其是海量数据集具有较好的效果。  相似文献   

15.
李璐 《统计与决策》2012,(17):72-74
数据缺失是一个在实验研究和调查研究中经常遇到的问题。文章先介绍了数据缺失机制的四种形式,指出解决数据缺失的一般性方法,即可以通过尽量引入更多的相关变量从而简化缺失机制;然后利用R语言对2006年中国健康与营养调查的部分数据进行了填补,介绍了各种填补方法在R中的应用,并在介绍热平台方法时提出运用R寻找匹配样本的新思路。  相似文献   

16.
文章就缺失数据处理中涉及到的相关问题做了初步探讨,并在比较单一插补法与多重插补法的基础上,举例说明多重插补法处理缺失数据的基本程序。  相似文献   

17.
金蛟等 《统计研究》2021,38(11):150-160
回归模型在经济学、生物医学、流行病学、工农业生产等众多领域有着广泛的应用,而在实际数据收集时常常出现无法获得变量的精确数据或全部数据的情况,即常碰到测量误差数据、缺失数据等复杂数据情形。对于回归模型中存在测量误差的情况,如在参数估计时不加以修正,则易产生估计偏差,使得估计精度下降。对于数据缺失情形,如不采取合理的处理方法也会导致模型分析结果不佳。故此,本文研究含有测量误差数据时,解释变量具有随机缺失时的线性测量误差模型和部分线性测量误差模型的稳健参数估计问题。本文提出了一种在测量误差服从拉普拉斯分布时参数的损失修正估计,通过蒙特卡洛模拟和医学研究中的实证分析,显示本文所提的估计方法具有偏差小、精度高、稳健性强的优势。  相似文献   

18.
插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。  相似文献   

19.
市场调查中为了实现成本效益、准确性以及速度目标往往会采用较长问卷,本文首先分析了因此可能对数据质量产生的影响,在此基础上提出了分割问卷的思想。重点阐述其设计要点,以及如何利用多重插补方法对缺失数据进行处理。  相似文献   

20.
文章通过对缺失值处理方法分析,提出基于分类的三种缺失值处理方法:分类的均值插补法、分类的多重插补法和分类的K-means方法;该方法先对被调查对象问卷中的满意度关键字段按照分值进行分类,然后在同类中的缺失值用该类的平均值、多重插补值和聚类中心值替代.最后,以某食品公司为研究对象,对顾客满意度测评模型进行带缺失值的实证分析.结果表明:基于分类的三种缺失值处理方法优于均值插补法、多重插补法和K-means方法,为顾客满意度指数测评中的缺失值处理提供了实用方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号