首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
对复杂样本进行推断通常有两种体系,一种是传统的基于随机化理论的统计推断,另一种是基于模型的统计推断。传统的抽样理论以随机化理论为基础,将总体取值视为固定,随机性仅体现在样本的选取上,对总体的推断依赖于抽样设计。该方法在大样本情况下具有稳健估计量,但在小样本、数据缺失等情况下失效。基于模型的抽样推断认为总体是超总体模型中抽取的一个随机样本,对总体的推断取决于模型的建立,但在不可忽略抽样设计下估计量是有偏估计。在对这两类推断方法分析的基础上,提出抽样设计辅助的模型推断,并指出该方法在复杂抽样中具有重要的应用价值。  相似文献   

2.
针对数据库中存在缺失值的问题,文章建立了统计相关分析与机器学习相结合的缺失数据处理方法.首先利用统计相关性对原始数据进行分析,找出与缺失值属性相关度较大的属性,提取这些属性的已知值作为训练数据建立模型,再利用建立起来的模型估算缺失值.以UCI数据库真实的数据为例进行仿真,并对比分析了支持向量机、神经网络和决策树三种机器学习算法,实验结果表明利用相关度较大的已知属性值来训练学习,其估算值精度明显提高.  相似文献   

3.
极值理论是一种研究极值事件统计规律的方法,文章利用我国火灾历年损失额的数据建立了极值模型.我们发现,利用传统方法描述火灾损失额的统计规律会忽略极值数据的存在,但结合极值分布的建模效果要明显好于传统方法.  相似文献   

4.
于力超  金勇进 《统计研究》2016,33(1):95-102
抽样调查领域常采用对多个受访者进行跟踪调查得到面板数据,进而对总体特性进行统计推断,在面板数据中常含缺失数据,大多数处理面板缺失数据的软件都是直接删去含缺失值的受访者以得到完全数据集,当数据缺失机制为非随机缺失时会导致总体参数估计结果有偏。本文针对数据缺失机制为非随机缺失情形下,如何对面板数据进行统计分析进行了阐述,主要采用的是基于模型的似然推断法,对目标变量、缺失指示变量和随机效应向量的联合分布建模,在已有选择模型和模式混合模型的基础上,引入随机效应,研究目标变量期望的计算方法,并研究随机效应杂合模型下参数的估计方法,在变量分布相对简单的情形下给出了用极大似然法推断总体参数的估计步骤,最后通过模拟分析比较方法的优劣。  相似文献   

5.
文章研究了半参数变系数EV模型在线性约束条件下的估计和检验问题,当响应变量缺失、非参数部分协变量带有测量误差时,利用局部纠偏的Profile最小二乘估计、Lagrange乘子方法和借补技术构造了回归模型参数分量两类纠偏约束估计量。此外,为了检验线性约束条件,构造了借补的Profile Lagrange乘子检验统计量,并通过蒙特卡洛数值模拟验证估计量和检验统计量的有效性。  相似文献   

6.
周怡等 《统计研究》2014,31(7):58-62
统计信用缺失是影响统计数据失真的重要原因,建立统计信用评级体系是从根本上保障诚信、提高数据质量的最有效的方法。本文运用信息不对称原理和博弈论分析模型对统计信用缺失进行分析,并对统计信用评价体系进行了初步设想。  相似文献   

7.
当对插补所得的“完整数据集”使用标准的完全数据统计方法的时候,往往会低估插补估计量的方差.Bootstrap方法(自助法)是非参数统计中的一种重要的统计方法,是基于原始观测数据进行重复抽样,能充分的利用已知数据,不需要对未知总体进行任何的分布假设或增加新的样本信息,进而再利用现有的统计模型对总体的分布特性进行统计推断.本文首先运用多重插补的方法对缺失数据进行了插补,之后利用Bootstrap方法对插补之后的数据进行了插补统计量的方差估计,结果表明运用Bootstrap方法进行插补统计量的方差估计更科学更准确.  相似文献   

8.
文章结合基函数逼近以及惩罚最小二乘技术,对响应变量随机缺失下的部分线性模型,给出了一个变量选择方法.并结合局部二次逼近,得到了一个迭代算法.数据模拟表明该变量选择方法是可行的.  相似文献   

9.
研究了联合均值与方差模型,考虑了基于数据删除模型的参数估计和统计诊断,比较删除模型与未删除模型相应统计量之间的差异。首次提出了基于联合均值与方差模型的诊断统计量和局部影响分析。通过模拟研究和实例分析,给出了不同的诊断统计量来判别异常点或强影响点,研究表明提出的理论和方法是有用和有效的。  相似文献   

10.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

11.
王天营 《山西统计》2003,(11):13-14
在任何一次抽样调查中,几乎都不可能获得样本单元或样本项目的全部数据,通常称这些无法获得的数据为样本数据缺失(或丢失);对于可以获得的样本数据称为响应样本数据。显然,样本数据缺失会对抽样调查的估计精度与可信度产生影响。尽管样本数据缺失的原因是多种多样的,但无论从问卷的设计还是对样本数据缺失的防范及补救,在我国目前都没有引起理论界和实际工作部门的足够重视。本文仅对缺失的样本数据提出一种线性回归模型拟合法,仅供参考。一、样本数据缺失模型拟合的基本思路样本数据缺失模型拟合的基本思路为:(一)确立可能发生数据缺失的变…  相似文献   

12.
朱慧明 《统计与决策》2006,(13):153-154
数理统计学是研究如何有效地收集数据,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议.数理统计学是应用性很强的学科,它已被应用于各种专门领域,如物理、化学、工程、生物、经济、社会等,但只涉及其中有关带随机性的数据的分析问题,而不是以任何一种专门的知识领域为研究对象.但是,在应用数理统计方法分析带有随机性数据时,从统计模型的选择、实验方案的制定、统计方法的正确使用以至所得结论的恰当解释,都离不开所论问题的专门知识.  相似文献   

13.
为分散高阶矩风险的影响,文章讨论高阶矩组合投资选择模型的构建.首先,给出高阶矩风险的简化计算;其次,基于M-V-S-K分析和效用函数分析分别建立了带有非负权重约束的高阶矩组合投资模型;最后,对两类模型从理论和实证两个层面上进行了比较.结果显示,高阶矩风险已经成为组合投资决策中不可回避的重要影响因素.  相似文献   

14.
针对含有变结构点的面板数据易产生"伪单位根"现象,提出面板循序检验方法:首先给出检验模型和检验步骤,其次通过Monte Carlo模拟得到检验统计量的临界值,最后结合我国各地区的GDP数据进行实证分析.研究发现:中国GDP数据为带有结构突变的趋势平稳序列.  相似文献   

15.
经典的文本频数DF从全局角度统计某个单词特征出现的文本数,而忽略了局部信息。文章针对传统DF文本特征抽取方法存在的不足,对DF方法进行了改进和优化,通过考虑单词特征的局部信息和全局信息,利用类别信息从局部统计单词在各个类上的分布,并结合分散性和变异性利用极差、变异系数和变形KL散度三种方式从全局角度度量单词重要性,提出了一种基于统计极差和变异系数的文本特征抽取方法。在英文文本数据集路透社Reuters-21578财经新闻和20Newsgroups新闻组以及中文文本数据集搜狗新闻语料库中进行了实验和测试,结果表明,该方法能够提升文本特征抽取的效果,与其他方法相比在多类别平衡文本数据集上更能显示其优越性。  相似文献   

16.
李双博 《统计研究》2018,35(6):117-128
函数型数据研究近年来为越来越多的学者所重视,其在天文,医药,经济现象,生态环境及工业制造等诸多方面均有重要应用.非参数统计是统计研究的一个重要方面,其中核函数估计和局部多项式方法是这一类研究中重要常用方法.函数型数据的非参数方法中以核函数估计方法较为常见,且其收敛速度与极限分布无论在独立情形还是相依情形都有理论结果.而局部多项式的研究在函数型数据背景下较为少见,原因在于将局部多项式方法推广到函数型数据背景一直是一个难题. Marin, Ferraty, Vieu [Journal of Nonparametric Statistics, 22 (5) (2010), pp.617-632] 提出了非参函数型模型的局部回归估计. 这种估计可以看作是局部多项式估计在函数型数据背景下的一个推广.这种方法提出后,许多学者进一步研究了这种方法,考察了这种方法的收敛速度和极限分布,并将这种方法应用到不同的模型中以适应实际需求.但是,前人的研究都要求数据具有独立同分布的性质.然而许多实际数据并不符合这一假设.本文研究了在相依函数型数据情形下局部回归估计的渐近正态性.由于估计方法有差异,核函数估计的研究方法无法直接推广到局部回归估计,而相依性结构也给研究带来了一些挑战,我们采用Bernstein分块方法将相依性问题转化为渐近独立的问题,从而得到了估计的渐近正态性.此外我们还采用数据模拟的方法进一步验证了渐近正态的结果.  相似文献   

17.
SARS疫情对深证成指影响的时间序列模型   总被引:1,自引:0,他引:1  
时间序列是一组按时间顺序排列数据序列,经常用x1,x2,……,xm,……表示.在经济分析中,许多历史统计数据都可建立时间序列模型,并可借助相应模型进行外推以预测未来,亦即时间序列预测.本文利用SAS系统下时间序列(ETS)模块建立带有自相关校正的回归模型和带有干预序列的ARIMA模型,计算、分析SARS疫情对我国深证成指走势的影响.  相似文献   

18.
张华节  黎实 《统计研究》2013,30(2):95-101
 本文研究了DF类面板数据单位根IPS检验势受时序数据初始值的影响,推导了DF类面板单位根IPS检验统计量在局部备择假设下的极限分布和局部渐近势函数,发现了DF类面板数据单位根IPS检验统计量局部渐近势在异质性局部备择假设下是初始条件的单调递增函数;小样本Monte Carlo模拟分析结果表明,若假设初始条件为零,DF类IPS统计量的检验势将被低估。  相似文献   

19.
研究缺失偏态数据下线性回归模型的参数估计问题,针对缺失偏态数据,为克服样本分布扭曲缺点和提高模型的回归系数、尺度参数和偏度参数的估计效果,提出了一种适合偏态数据下线性回归模型中缺失数据的修正回归插补方法.通过随机模拟和实例研究,并与均值插补、回归插补、随机回归插补方法比较,结果表明所提出的修正回归插补方法是有效可行的.  相似文献   

20.
马佳羽等 《统计研究》2020,37(11):30-43
在居民生活满意度的相关研究中,除考虑人口学特征外,越来越多的实证同时考虑了微观个体所处的宏观环境,对这类呈嵌套结构的分层数据需构建分层统计模型,但传统的分层统计模型未考虑真实的空间依赖。本文将分层统计模型和空间自回归模型相结合,创新性地构建了四种序数分层空间自回归Probit模型,该类模型能够合理地对因变量为序数且存在空间依赖情况并呈分层结构的数据进行建模,模型可避免忽略真实的空间依赖对模型估计的不利影响,且能够对高层组间的空间效应和低层个体间的空间效应区别对待,更有利于模型的解释。最后,空气质量对居民生活满意度的效应实证研究表明:空气质量确实能够对生活满意度产生影响,居民对空气质量的认识和要求并非孤立地局限于本地,而是对一个区域空气质量的空间综合结果。对比2018年和2016年模型结果可知:空气质量的福利效应无法被其他民生福祉因素所取代,并且随着空气质量相关统计信息的高度开放和广泛传播,居民更加重视空气质量,也形成了更加全局的了解。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号