首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
样本中的数据缺失势必会造成估计量精度的损失。为了尽可能减小损失,需要对缺失数据进行必要的弥补性处理。质量评估调查中出现的缺失数据有三种情况:住房单元未调查;个人的一部分人口统计特征遗漏;个人的匹配状态或住处状态悬而未决。对于上面说的数据缺失三种情况中的第三种情况,即由于悬而未决导致的数据缺失,在普查登记调查中也会存在,也要对其进行处理。因此,应用人口普查数据缺失插补方法技术,能解决上述问题。  相似文献   

2.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

3.
针对数据库中存在缺失值的问题,文章建立了统计相关分析与机器学习相结合的缺失数据处理方法.首先利用统计相关性对原始数据进行分析,找出与缺失值属性相关度较大的属性,提取这些属性的已知值作为训练数据建立模型,再利用建立起来的模型估算缺失值.以UCI数据库真实的数据为例进行仿真,并对比分析了支持向量机、神经网络和决策树三种机器学习算法,实验结果表明利用相关度较大的已知属性值来训练学习,其估算值精度明显提高.  相似文献   

4.
公共突发事件应急统计中纵向缺失数据的处理方法研究   总被引:1,自引:0,他引:1  
缺失数据在公共突发事件的应急统计数据分析中是一个非常普遍的问题,针对公共突发事件应急统计数据的纵向数据集,提出用一种得分匹配法来进行缺失值的借补处理,并将其与另外三种缺失值处理方法进行比较,即构造各种不同缺失率的随机缺失数据集,分别运用得分匹配法、LVCF借补法、无条件均值抽取法和多重借补法四种不同的缺失值处理方法对每一种缺失率的数据集缺失值进行处理。统计分析结果表明,少数缺失值发生时,LVCF法简单而有效;随着缺失率的增加,均值抽取法和多重借补法处理效果更稳定;得分匹配法借补缺失值考虑了变量之间的相关性,最大程度地利用了数据集包含的信息,同时考虑了含缺失值变量的实际变异程度,因此取得了最好的借补效果。  相似文献   

5.
基于链式方程的收入变量 缺失值的多重插补   总被引:2,自引:0,他引:2       下载免费PDF全文
刘凤芹 《统计研究》2009,26(1):71-77
 在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较。结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计。  相似文献   

6.
文章通过对缺失值处理方法分析,提出基于分类的三种缺失值处理方法:分类的均值插补法、分类的多重插补法和分类的K-means方法;该方法先对被调查对象问卷中的满意度关键字段按照分值进行分类,然后在同类中的缺失值用该类的平均值、多重插补值和聚类中心值替代.最后,以某食品公司为研究对象,对顾客满意度测评模型进行带缺失值的实证分析.结果表明:基于分类的三种缺失值处理方法优于均值插补法、多重插补法和K-means方法,为顾客满意度指数测评中的缺失值处理提供了实用方法.  相似文献   

7.
随机系数自回归模型能够较好地描述模型系数随时间变化的特性,因此得到了广泛应用。文章讨论具有缺失数据的随机系数自回归模型的参数估计问题,在缺失数据情形下给出了四种模型参数估计方法:无数据填充条件最小二乘法、均值填充法、条件均值填充法以及桥填充法。最后,通过随机模拟说明了上述估计方法的精确性,并给出了应用实例。  相似文献   

8.
一、简介利用状态空间模型中的Kalman滤波可以很好地解决时间序列模型的缺失数据问题。《存在缺失值的ARFIMA模型的最大似然估计》一文(高洁,《系统工程》2004年,第10期)通过修改Kalman滤波递推公式解决了长记忆ARFIMA模型的缺失数据问题,得到了存在缺失值  相似文献   

9.
缺失数据问题在抽样调查、社会科学、流行病等领域普遍存在,这一现象在高维情形下更为凸显;而与高维数据相伴的信息海量化、复杂化、异质化、缺失化等问题,给高维缺失数据理论建立及应用研究带来极大的挑战。如何建立一种稳健高效的高维缺失数据插补方法,已成为当今学者研究的焦点。为解决上述难题,创新性地将增强的逆概率加权(IPW)与加法模型融合,应用协变量平衡倾向评分法(CBPS)估计缺失概率,提出一种适用于高维缺失数据的可加协变量平衡倾向评分插补方法(CBPS-AM),期望对高维缺失问题提供更为有效的解决方案。CBPS-AM方法不仅具有多重稳健性,避免了模型误设带来的严重风险,还能够有效规避高维缺失数据具有厚尾分布而使得传统插补方法失效的问题,起到双重降维的作用,实现建模的灵活性与广泛适用性。其次借鉴广义矩估计方法和Backfitting算法给出了CBPS估计算法,该算法简洁有效,能够提高数据使用效率与插补精度,同时研究了估计量的理论性质,对比了所提方法与传统方法在数值模拟中的表现。最后将CBPS-AM方法分别应用于存在缺失的HIV临床试验数据和中国新冠病毒感染疫情数据中,建立科学的综合评价以及针对...  相似文献   

10.
对缺失数据的研究是当前国内外的热点问题,但是传统的局部影响分析方法却无法处理复杂的带有缺失数据的统计模型,尤其是带有不可忽略缺失数据的统计模型.文章通过考虑基于Q函数的保形法曲率并借助于Gibbs抽样和MH算法,就能够有效地对带有不可忽略缺失数据的非线性结构方程模型实施局部影响分析,且方法新颖,计算简单,结论可靠.  相似文献   

11.
数据仓库技术在统计中的应用   总被引:1,自引:0,他引:1  
近年来,由于计算机数据处理技术在统计行业中的广泛应用,因而产生了大量分散在各个行业中的数据。面对大量繁杂而分散的数据资源,如何安全有效地管理和重组数据,提炼出统计综合数据信息,以供政府部门和社会各界利用,成为目前各行业统计所面临的一个比较难于解决而又急于解决的问题。数据仓库(Data Warehouse)技术的产生和发展,为这个问题的解决提供了有效的理论和方法指导。统计数据现状分析1.数据格式多种多样,一致性较差,存在数据冗余。主要体现在:各个统计部门使用的数据格式均不相同,且各个系统相对独立。在系统单独作用的…  相似文献   

12.
提出基于最近邻插补和关联规则的缺失数据插补方法,将不含缺失数据的变量作为辅助变量,通过定义距离函数寻找与含缺失数据的样本单元距离较近的样本,然后利用挖掘得到的关联规则支持度和提升度乘积的倒数作为权重,对样本单元之间的距离进行加权处理,得到加权距离,再用加权距离最小的样本单元对应的属性值对缺失值进行插补。这种方法可以解决由不同最近距离样本单元得到不同插补值的问题,最后给出了该方法的实施步骤和应用范例。  相似文献   

13.
缺失值是调查中普遍存在的问题,对缺失值进行插补是处理缺失值的较好方法.如果变量之间存在相关关系,可以通过正态线形模型利用不存在缺失值的变量对有存在缺失值的变量进行插补.较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用.文章借助Bootstrap法,让模型的参数和残差来自完全观测的Bootstrap样本的最小平法估计,可进一步准确估计总体方差.通过大量模拟试验,发现Bootstrap多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显.  相似文献   

14.
多指标面板数据能够较全面的提供研究对象的信息和数据特征,但复杂的数据结构也给其聚类分析带来了一定的困难.针对这一问题,文章提出了基于特征提取的多指标面板数据聚类方法,该方法将能够表征面板数据动态变化的“绝对量”特征、“波动”特征、“偏度”特征、“峰度”特征及“趋势”特征引入动态聚类算法中,可以避免以往采用欧式距离进行聚类的局限性,还可以处理带有缺失数据的面板数据,同时大大提高了聚类效率,并最大限度地保证时间维度信息不受损失.利用该方法分析了2001至2013年我国不同省份道路交通事故的不平衡状况,通过实证分析表明该方法能够解决多指标面板数据聚类的问题.  相似文献   

15.
文章将抽样调查中由于项目无回答所形成的缺失数据作为研究着眼点,从矩阵运算的角度分析了此类缺失数据带来的危害,在此基础上,对缺失数据插补处理方法的基本问题进行了讨论,分析了各种单一插补方法特点及局限性,并介绍了简单随机抽样、分层随机抽样条件下缺失数据多重插补的抽样推断方法,在此基础上,对常用的单一插补和多重插补方法进行了比较,并对简单随机抽样、分层随机抽样条件下缺失数据单一插补与多重插补方法的效率进行了实证研究与比较。  相似文献   

16.
在分位回归中,自变量缺失是一种重要的数据缺失问题。尤其当自变量缺失与因变量有关时,已有的多重插补法会带来有偏估计。通过逆概率加权,将修正后的逆概率加权多重插补法用于模拟研究和应用研究。模拟研究表明,在不同的缺失相关程度下,逆概率加权多有效解决了同工作时间的数据缺失问题,同时重插补法能够有效减少估计偏差,并在一定程度上保证估计量的有效性。在中国综合社会调查(CGSS)的应用研究中,该方法有效解决了周工作时间的数据缺失问题,同时揭示了影响年收入的重要因素,说明该方法具有一定的应用价值。  相似文献   

17.
随着研究中对数据质量要求的提高,缺失数据相关问题也越来越受到重视.文章主要论述了处理缺失数据的方法之一——分数插补法的理论基础,并在此基础上研究了分数热卡插补法及其方差估计,同时使用模拟数据,对分数热卡插补法的实现过程做了模拟研究.通过对比实验,可以得到分数热卡插补法能够在保证原有数据分布的基础上,减少因插补造成的偏差,提供更加准确的插补结果.  相似文献   

18.
李璐 《统计与决策》2012,(17):72-74
数据缺失是一个在实验研究和调查研究中经常遇到的问题。文章先介绍了数据缺失机制的四种形式,指出解决数据缺失的一般性方法,即可以通过尽量引入更多的相关变量从而简化缺失机制;然后利用R语言对2006年中国健康与营养调查的部分数据进行了填补,介绍了各种填补方法在R中的应用,并在介绍热平台方法时提出运用R寻找匹配样本的新思路。  相似文献   

19.
信息技术是有效发展现代统计工作的重要方向.文章在介绍面板数据的描述方法及主流的数据仓库建模技术的基础上,提出了将面板数据存入数据仓库的方法,即基于面板数据建立其对应的数据仓库模型,当面板数据进入数据仓库系统后便可利用数据仓库系统中前台数据分析功能对原有的面板数据进行更深入的分析了解,也有利于从多组的面板数据中发现一些隐藏的信息,更进一步支持现代统计工作.  相似文献   

20.
在实证分析中遇到缺失值是一个非常不幸但又非常普遍的问题,不完整的数据将会严重影响到分析结果的正确性和准确性,甚至是增加错误结果的风险,对缺失值的处理是一个不可避免而又富有挑战性的研究课题。牛顿搜索算法是一个优秀的数据设算法,不需要考虑数据的缺失状态,可充分利用已有数据对缺失值进行修补,在改善参数估计、减少标准误差、提高统计检验功效方面有良好效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号