首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
公共突发事件应急统计中纵向缺失数据的处理方法研究   总被引:1,自引:0,他引:1  
缺失数据在公共突发事件的应急统计数据分析中是一个非常普遍的问题,针对公共突发事件应急统计数据的纵向数据集,提出用一种得分匹配法来进行缺失值的借补处理,并将其与另外三种缺失值处理方法进行比较,即构造各种不同缺失率的随机缺失数据集,分别运用得分匹配法、LVCF借补法、无条件均值抽取法和多重借补法四种不同的缺失值处理方法对每一种缺失率的数据集缺失值进行处理。统计分析结果表明,少数缺失值发生时,LVCF法简单而有效;随着缺失率的增加,均值抽取法和多重借补法处理效果更稳定;得分匹配法借补缺失值考虑了变量之间的相关性,最大程度地利用了数据集包含的信息,同时考虑了含缺失值变量的实际变异程度,因此取得了最好的借补效果。  相似文献   

2.
一种选择性随机缺失数据的检验和插补方法   总被引:1,自引:0,他引:1  
余竞 《统计与决策》2005,(17):123-125
一、问题的提出 在数据处理和分析过程中,一般需要对所观测的数据进行统计特征分析.但对于一个或多个特征,观测值中出现缺失的现象非常普遍.  相似文献   

3.
基于链式方程的收入变量 缺失值的多重插补   总被引:2,自引:0,他引:2       下载免费PDF全文
刘凤芹 《统计研究》2009,26(1):71-77
 在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较。结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计。  相似文献   

4.
于力超  金勇进 《统计研究》2016,33(1):95-102
抽样调查领域常采用对多个受访者进行跟踪调查得到面板数据,进而对总体特性进行统计推断,在面板数据中常含缺失数据,大多数处理面板缺失数据的软件都是直接删去含缺失值的受访者以得到完全数据集,当数据缺失机制为非随机缺失时会导致总体参数估计结果有偏。本文针对数据缺失机制为非随机缺失情形下,如何对面板数据进行统计分析进行了阐述,主要采用的是基于模型的似然推断法,对目标变量、缺失指示变量和随机效应向量的联合分布建模,在已有选择模型和模式混合模型的基础上,引入随机效应,研究目标变量期望的计算方法,并研究随机效应杂合模型下参数的估计方法,在变量分布相对简单的情形下给出了用极大似然法推断总体参数的估计步骤,最后通过模拟分析比较方法的优劣。  相似文献   

5.
插补法是对缺失数据的调整方法,多重插补弥补了单一插补的缺陷,采用一系列可能的数据集来填充每一个缺失数据值,反映了缺失数据的不确定性。本文介绍了多重插补程序的三种数据插补方法:回归预测法、倾向得分法和蒙特卡罗的马氏链方法,并且对多重插补的插补效果进行推断,指出多重插补存在的问题。  相似文献   

6.
针对数据库中存在缺失值的问题,文章建立了统计相关分析与机器学习相结合的缺失数据处理方法.首先利用统计相关性对原始数据进行分析,找出与缺失值属性相关度较大的属性,提取这些属性的已知值作为训练数据建立模型,再利用建立起来的模型估算缺失值.以UCI数据库真实的数据为例进行仿真,并对比分析了支持向量机、神经网络和决策树三种机器学习算法,实验结果表明利用相关度较大的已知属性值来训练学习,其估算值精度明显提高.  相似文献   

7.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

8.
缺失值是调查中普遍存在的问题,对缺失值进行插补是处理缺失值的较好方法.如果变量之间存在相关关系,可以通过正态线形模型利用不存在缺失值的变量对有存在缺失值的变量进行插补.较之单一插补,多重插补更能有效地估计总体方差,因此更多地被使用.文章借助Bootstrap法,让模型的参数和残差来自完全观测的Bootstrap样本的最小平法估计,可进一步准确估计总体方差.通过大量模拟试验,发现Bootstrap多重插补较之单一插补和一般多重插补能构建更宽的置信区间从而有更准确的总体参数覆盖率,这点在数据缺失比重很大时优势更明显.  相似文献   

9.
极端值亦称离群值或边远值,即在观测值中远远偏离数据主体部分的个别值,这些值不能服从假定的概率分布。如果将极端值和其它数据不加区别地等同对待,会使数据的离散程度加大,计算出的数字特征不能反映主体数据的特征。对极端值进行识别并加以处理,是探索性数据分析的一个重要问题。经过适当处理后的数据,具有较强的耐抗性,即对局部数据的不良行为具有不敏感性。在统计分析中,识别极端值的方法有以下几种:(一)四分展布法四分展布法是一种经验法,首先计算中位数和四分位数:设有数据X1,X2…Xn,将其从小到大排列,记为X(t),…  相似文献   

10.
文章提出了"权重新定"的一种缺失值处理方法,分析了带缺失值的顾客满意度指数测评步骤;详细阐述了Wold的PLS算法的求解过程,基于该算法实现了顾客满意度指数测评系统(简称MyPLS);最后,分别利用MyPLS与SmartPLS软件对某食品公司的带缺失值数据进行处理,在迭代次数上前者较SmartPLS少,在潜变量估计值相关系数、权重系数等方面与SmartPLS具有一致性,为国内带缺失值顾客满意度指数测评研究和应用提供了方法。  相似文献   

11.
相关分析与回归分析是统计分析中的基本方法,两者之间既有联系,又有区别。本文拟对这两种分析方法进行一些比较研究。一、相关分析与回归分析的区别研究我们认为,相关分析与回归分析的区别主要表现在如下几点:第一表现为概念上的区别。相关是指一个变量的值与另一个变量的值有连带性。换言之,如果一个变量的值发生变化,另一个变量的值也有变化,则两个变量就相关了。这种相关关系是指变量之间的不确定的依存关系。比如,人的身高和体重,一般地说,身高者体也重,因此身高和体重之间具有相关关系。但是,具有同一身高的人,体重却有差…  相似文献   

12.
马克威分析系统界面简介马克威分析系统共有四种界面,分别是:数据窗口、变量窗口、挖掘窗口、结果窗口,用户通过这四种界面,与数据和结果进行交互,完成数据分析过程:1.数据窗口,用于对数据进行展示和简单编辑,在此窗口中进行马克威分析系统的数据导入、数据处理和统计分析:2.变量窗口,用于展示数据的格式和属性,供用户对变量名、变量类型、数据长度、小数位数、缺失值、标签值、排列方式、变量尺度等数据格式和属性进行设置和更改。3.挖掘窗口,与数据窗口相对应,该窗口主要用于数据挖掘算法建模,通过挖掘算法节点的拖拉,可以直观、方便的建…  相似文献   

13.
独立之路     
美国劳工统计局(BLS)对于国际培训者喜欢讲他们的一个故事,说那个开创了中美交往新时代的理查德·尼克松任总统期间,由于连任竞选非常吃紧,宏观经济运行状况又不是很理想,特别是就业和价格数据非常难看(我们都知道那正是所谓的滞胀年代)。尼克松就通过他的幕僚给劳工统计局,希望给他一些好看一点的数据,结果当然非常清楚,劳工统计局断然拒绝,而尼克松就将劳工统计局长给免职了,这本来在那时也不是什么大事,但是被免掉的老兄非常不爽,将这件事情在整个统计行业散播出去,  相似文献   

14.
为了研究数据缺失填补算法的准确性和稳定性,文章基于完全随机缺失对完整数据集按不同缺失率进行挖空处理,然后使用6种算法对缺失数据进行填补,并重复执行多次,对比分析其准确性和稳定性,给出相应的置信区间。结果表明,混合迭代填补法准确性优于K近邻、缺失森林、加权K近邻等算法,其稳定性仅次于缺失森林;随着缺失率的增大,该算法准确性高的优势更加显著;当缺失率小于5%时,该算法的准确性和稳定性达到最佳。  相似文献   

15.
在数据仓库中,传统的缺失值处理方法均存在一定程度缺陷.文章主要论述将统计中的Gibbs抽样仿真概念应用到数据仓库中的缺失值处理中,在满足原有数据条件分布充足的条件下,能够解决传统数据仓库缺失值处理工作量大、数据偏置等问题,并且该方法能够使用excel完成仿真过程,简单易行,可操作性强,能够更为直接和有效的解决现实中的数据仓库中缺失值处理问题.  相似文献   

16.
金蛟等 《统计研究》2021,38(11):150-160
回归模型在经济学、生物医学、流行病学、工农业生产等众多领域有着广泛的应用,而在实际数据收集时常常出现无法获得变量的精确数据或全部数据的情况,即常碰到测量误差数据、缺失数据等复杂数据情形。对于回归模型中存在测量误差的情况,如在参数估计时不加以修正,则易产生估计偏差,使得估计精度下降。对于数据缺失情形,如不采取合理的处理方法也会导致模型分析结果不佳。故此,本文研究含有测量误差数据时,解释变量具有随机缺失时的线性测量误差模型和部分线性测量误差模型的稳健参数估计问题。本文提出了一种在测量误差服从拉普拉斯分布时参数的损失修正估计,通过蒙特卡洛模拟和医学研究中的实证分析,显示本文所提的估计方法具有偏差小、精度高、稳健性强的优势。  相似文献   

17.
响应变量存在数据缺失的情况广泛出现在社会经济研究中,对响应变量存在数据缺失的回归模型提出了一个在矩估计框架下的单一的半参数估计量,这种估计量保留了参数回归估计量与非参数匹配估计量的特性,从而使得该估计量既能在响应变量被观测的子样本中保持较好的拟合性,又能够降低响应变量未被观测的子样本的估计误差,并且证明了这种估计量是一致、渐进正态估计量。  相似文献   

18.
从匹配模型法数据的缺失机理分析,匹配模型法编制的价格指数的质量偏差可分为两部分:一部分为样本内的质量偏差;一部分为样本外的质量偏差。文章对匹配模型框架下质量偏差的数据模式和数据缺失机理进行了探讨和研究,在此基础上针对不同的数据缺失机理,提出了均值插补法、交叠插补法和hedonic插补法三种质量调整方法。  相似文献   

19.
文章通过对缺失值处理方法分析,提出基于分类的三种缺失值处理方法:分类的均值插补法、分类的多重插补法和分类的K-means方法;该方法先对被调查对象问卷中的满意度关键字段按照分值进行分类,然后在同类中的缺失值用该类的平均值、多重插补值和聚类中心值替代.最后,以某食品公司为研究对象,对顾客满意度测评模型进行带缺失值的实证分析.结果表明:基于分类的三种缺失值处理方法优于均值插补法、多重插补法和K-means方法,为顾客满意度指数测评中的缺失值处理提供了实用方法.  相似文献   

20.
统计数据预处理的理论与方法述评   总被引:1,自引:0,他引:1  
统计数据预处理是提升数据质量的重要阶段,包括数据审查、数据清理、数据转换和数据验证四大步骤。根据处理对象的特点及每一步骤的不同目标,统计数据预处理可采用的方法包括描述及探索性分析、缺失值处理、异常值处理、数据变换技术、信度与效度检验、宏观数据诊断等六大类。选用恰当的方法开展统计数据预处理,有利于保证数据分析结论真实、有效。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号