首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
从蒙特卡洛计算机模拟目的出发,在特征样本定义的基础上讨论特征样本的蒙特卡洛采样方法。对特征样本进行分类,设计了分布型和曲线型两大类特征样本的10种采样方法,用4个例子展示了特征样本的具体采样方法和计算机程序,并用一个多元回归参数估计的实例说明了特征样本的应用。  相似文献   

2.
宋子轩  冷燮  陈瑶瑶 《统计研究》2012,29(7):96-100
 样本代表性直接牵扯到统计数据质量和统计公布引起的民众反响,目前社会上不乏对政府统计数据的质疑之声,最终影响到政府统计机关的公信力,因此有必要重新审视现行样本代表性的研究。目前相关文献普遍强调不同抽样方式下的样本代表性的相对性内涵,确保样本的代表性仅从抽样方法和样本量两个维度入手,缺乏对既定抽样方法下样本代表性的事后评估体系的探索,以及多样本之间样本代表性优劣的比较方法研究。鉴于此,本文在结合人口普查数据基础上尝试从样本-总体整体分布和内部属性结构两个方面构建样本代表性事后评估的一整套指标和假设检验,进而找到一种多样本代表性比较的依据。最后对浦东新区2010年城镇居民收入调查样本进行了代表性检验的尝试。  相似文献   

3.
金勇进  刘展 《统计研究》2016,33(3):11-17
利用大数据进行抽样,很多情况下抽样框的构造比较困难,使得抽取的样本属于非概率样本,难以将传统的抽样推断理论应用到非概率样本中,如何解决非概率抽样的统计推断问题,是大数据背景下抽样调查面临的严重挑战。本文提出了解决非概率抽样统计推断问题的基本思路:一是抽样方法,可以考虑基于样本匹配的样本选择、链接跟踪抽样方法等,使得到的非概率样本近似于概率样本,从而可采用概率样本的统计推断理论;二是权数的构造与调整,可以考虑基于伪设计、模型和倾向得分等方法得到类似于概率样本的基础权数;三是估计,可以考虑基于伪设计、模型和贝叶斯的混合概率估计。最后,以基于样本匹配的样本选择为例探讨了具体解决方法。  相似文献   

4.
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。  相似文献   

5.
文章针对非概率抽样统计推断问题,提出了一种解决方法:首先采用倾向得分匹配选择样本,然后采用倾向得分逆加权、加权组调整和事后分层调整三种方法对匹配样本进行加权调整来估计目标总体,并比较不同方法估计的效果.蒙特卡罗模拟与实证研究表明:当网络访问固定样本大小与目标样本大小的比率小于3对,三种加权方法估计的效果均比未加权时匹配样本的估计效果好;当网络访问固定样本大小与目标样本大小的比率不小于3时,倾向得分事后分层调整与未加权的匹配样本估计效果较好.  相似文献   

6.
 抽样调查下样本随机性的检验,不是考查抽样方法的优劣或是检查样本代表性的好坏,而是为了控制抽样调查的数据质量,检验所得样本和抽样方法的一致性,即调查机构是否严格按照抽样设计的要求去抽取样本。本文以等概率和不等概率抽样为例,揭示了如何利用相关辅助信息,构造检验统计量,进行样本随机性的检验。  相似文献   

7.
轮换样本抽样下的回归估计   总被引:1,自引:0,他引:1  
轮换样本抽样是一种较新的抽样方法,它可克服固定样本抽样的缺点,而且在一定程度上可节省调查时间和经费。对轮换样本进行回归估计可充分利用前期样本的资料,通过提高前后期样本的相关系数和控制样本的轮换单位数来减小由样本推断总体的估计方差,轮换样本单位数少于原样本单位数的一半时,轮换样本单位数越多,估计精度越高,当轮换样本单位数是原样本单位数的一半时估计精度最高  相似文献   

8.
依据一定的抽样方法在动态总体中选定的样本,在前后两期调查中会出现部分样本丢失的情况,从而导致部分样本调查数据的缺失,如果直接忽视丢失样本信息,则会降低样本的有效性,影响总体参数估计的精度。文章针对动态总体分层抽样中前后两期样本出现丢失的情况,将前期样本信息在第二期内消亡和新生的样本视为不可观测样本,采用多重插补技术对丢失样本目标变量值进行估计,设计出基于多重插补技术的第二期分层样本的参数估计方法,并构造相应的估计量。实验表明,基于多重插补技术的分层抽样具有优良性,设计的参数估计量具有无偏性,且较为有效。  相似文献   

9.
在民意测验中,影响样本的代表性主要有两个因素:样本容量与样本单位的可信度。扩大样本容量与部分样本轮换可以保证样本的稳定性与可靠性,而保证样本单位的可信度一般要通过激励的方式。事实上对于部分样本单位存在激励无效的情形,一般采用部分重复抽样的方法来检验其可信度。如果以t检验证明其是小概率事件,就作为不稳定样本剔除。文章给出了一种检验不稳定样本的方法,表明其对民意测验结果的决定性影响和作用。  相似文献   

10.
巩红禹  陈雅 《统计研究》2018,35(12):113-122
本文主要讨论样本代表性的改进和多目标调查两个问题。一,本文提出了一种新的改进样本代表性多目标抽样方法,增加样本量与调整样本结构相结合的方法-追加样本的平衡设计,即通过追加样本,使得补充的样本与原来的样本组合生成新的平衡样本,相对于初始样本,减少样本与总体的结构性偏差。平衡样本是指辅助变量总量的霍维茨汤普森估计量等于总体总量真值。二,平衡样本通过选择与多个目标参数相关的辅助变量,使得一套样本对不同的目标参数而言都具有良好的代表性,进而完成多目标调查。结合2010年第六次人口分县普查数据,通过选择多个目标参数,对追加样本后的平衡样本作事后评估结果表明,追加平衡设计能够有效改进样本结构,使得样本结构与总体结构相近,降低目标估计的误差;同时也说明平衡抽样设计能够实现多目标调查,提高样本的使用效率。  相似文献   

11.
中国劳动力调查的另一种四层次样本轮换方法   总被引:3,自引:1,他引:2  
侯志强 《统计研究》2008,25(6):93-96
针对中国劳动力调查在部分省级单位内采用的四阶段抽样设计,构造了一种四级单元连续调查五次时的四层次样本轮换方法。该方法中,一级单元采用样本轮换模式40 in,二级单元采用样本轮换模式20 in,三级单元采用样本轮换模式10 in,四级单元采用样本轮换模式5 in。该方法保证了各级单元的样本量在轮换过程中不发生变化,同时还保证了四级单元在相邻两个季度和相邻两年的相同季度时均具有一定的拼配样本。  相似文献   

12.
考虑到面板数据的选择性偏误、不响应、样本流失及轮换面板数据的高成本,在实际应用中,根据研究的需要和两种样本各自的特征,有时将两种样本结合使用,从而得到普通面板数据和轮换面板数据的混合样本。文章提出了混合样本下双因素误差面板回归模型的迭代极大似然估计方法,得到了未知参数的迭代公式。使用蒙特卡罗模拟方法分析了面板数据和混合样本下参数估计的平均绝对偏差和均方误差,结果显示:与面板数据下的极大似然估计量相比,混合样本下迭代极大似然估计方法整体上降低了估计量的平均绝对偏差和均方误差,优于面板数据下的极大似然估计量。  相似文献   

13.
基于分片逆回归的小样本组合预测建模方法   总被引:1,自引:0,他引:1  
针对在基于回归的小样本组合预测中,容易出现预测模型多于用于组合预测的样本数量,导致回归系数无法估计的问题,文章从信息重组的角度对组合预测建模方法进行了研究.首先采用三次样本插值对原始样本容量进行扩充,然后采用采用分片逆回归方法对扩充后的样本进行降维处理,并在此基础上构建基于回归的小样本组合预测模型.最后实例通过与常用组合预测方法结果的比较说明了该方法的可行性和有效性.  相似文献   

14.
如何解决网络访问固定样本调查的统计推断问题,是大数据背景下网络调查面临的严重挑战。针对此问题,提出将网络访问固定样本的调查样本与概率样本结合,利用倾向得分逆加权和加权组调整构造伪权数来估计目标总体,进一步采用基于有放回概率抽样的Vwr方法、基于广义回归估计的Vgreg方法与Jackknife方法来估计方差,并比较不同方法估计的效果。研究表明:无论概率样本的样本量较大还是较小,本研究所提出的总体均值估计方法效果较好,并且在方差估计中Jackknife方法的估计效果最好。  相似文献   

15.
我国公开使用的微观调查数据库追踪时间较短,从单独一个数据库中整理出的父子配对样本存在因共同居住而产生的样本选择性偏误.本文尝试从两个数据库获得双样本来估计代际收入流动性水平,比较分析双样本两阶段最小二乘方法(TS2SLS)的优良性质,并以CHNS数据库作为主样本、CHIP数据库作为辅样本进行了实证研究.研究结果表明,TS2SLS估计方法得到父子、母子代际收入弹性系数值分别为0.4937和0.5134,高于文献中通常采用单样本OLS或者Ⅳ方法的估计值,有效改善了代际弹性系数的估计偏误.  相似文献   

16.
提出基于最近邻插补和关联规则的缺失数据插补方法,将不含缺失数据的变量作为辅助变量,通过定义距离函数寻找与含缺失数据的样本单元距离较近的样本,然后利用挖掘得到的关联规则支持度和提升度乘积的倒数作为权重,对样本单元之间的距离进行加权处理,得到加权距离,再用加权距离最小的样本单元对应的属性值对缺失值进行插补。这种方法可以解决由不同最近距离样本单元得到不同插补值的问题,最后给出了该方法的实施步骤和应用范例。  相似文献   

17.
本文提出了住户调查中受样本轮换作用的六个重要方面,结合国外住户调查的经验,对国内有关制度及研究中的问题进行了讨论。通过构建一个适合复杂样本分析的方差-成本模型,结合数据模拟和比较静态分析的方法,从六个方面综合考虑轮换样本的影响,从而得出有效样本轮换率和样本轮换频率的确定机制。  相似文献   

18.
林盛  白寅 《统计与决策》2006,(14):16-18
1系统聚类方法及其存在的问题1.1系统聚类法为了将样本进行分类,就需要研究样本之间关系。目前用得最多的方法有两个:一种方法是用相似系数,比较相似的样本归为一类,不相似的样本归为不同的类。另一种方法是将一个样本看作P维空间的一个点,并在空间定义距离,距离较近的点归为一  相似文献   

19.
徐国祥  王芳 《统计研究》2011,28(5):89-96
 内容摘要:本文首先介?绍了样本轮换研究问题提出的背景和国内外研究现状。接着介绍了分层抽样下样本轮换的理论模型。包括分层抽样下样本轮换的估计量公式和最优样本轮换率的确定方法。再接着利用前面介绍的理论知识,结合上海市城镇住房空置率抽样调查数据进行实证分析。由于该抽样调查采取的是分层抽样,因此相应地用分层抽样下的样本轮换研究。先根据该抽样调查本身的特点和社会经济活动的规律确定样本轮换时间间隔为1年。再分别计算出各层的最优样本轮换率和总体的样本轮换率。最后分别对三层子总体样本轮换的效果进行分析,分析发现各层经过样本轮换以后的精度比不进行样本轮换或进行完全样本轮换的精度有了明显的提高,轮换效果显著。  相似文献   

20.
文章针对采用三阶段抽样设计的季度调查,构造了一种三级单元调查六次时的三层次样本轮换方法。该方法中,一级单元的样本轮换模式为24in,二级单元的样本轮换模式为12in,三级单元的样本轮换模式为6in。该方法保证了各级单元的样本拼配率不随轮换过程而改变,并使得相邻两年的相同季度时三级单元具有一定的样本拼配率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号