首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 93 毫秒
1.
当前所获取的大数据并非都是总体数据,通常未能完全覆盖总体,因其多源异构的特性,致使传统的数据分析方法受阻。文章将抽样调查方法引入到大数据中,对大数据背景下应用多重抽样框的必要性进行剖析,并主要针对大数据中数据多源异构的难点,将每个来源数据作为一个抽样框进行处理,提出了大数据中多重抽样框的构建。进而根据大数据的数据特征进行分类,针对不同情况确定是否需要进行分阶段抽样设计,并提出运用SF估计量对基于多重抽样框的总体进行估计,此估计量较为符合大数据中多重抽样估计的需求,并能对总体有较好的估计。  相似文献   

2.
薛薇 《统计研究》2002,19(4):52-53
一、概述数据挖掘是 90年代中后期兴起的一门跨学科的综合研究领域 ,它集计算机机器学习、统计学、数据库管理、数据仓库、可视化、并行计算、决策支持为一体 ,利用数据库、数据仓库技术存储和管理数据 ,利用机器学习和统计学方法分析数据 ,旨在发现大量复杂数据中蕴含的有价值的知识和信息。目前 ,随着数据挖掘应用的不断开展以及客观现实对数据分析需求的不断增长 ,人们越来越认识到数据挖掘的重要性和必要性。数据挖掘通过对数据的总结、分类、聚类、关联等分析 ,实现对数据内在结构特征的理解和对未知数据的预测。其中 ,数据总结是在数…  相似文献   

3.
 在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题。本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现“事后”自加权设计。实现“事后”自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析。随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现 是一个比较合适的样本量。这一结论可能为其它大型复杂抽样调查数据的数据挖掘实施问题提供借鉴。  相似文献   

4.
在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题.本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现"事后"自加权设计.实现"事后"自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析.随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现max(n,5%N)是一个比较合适的样本量.这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴.  相似文献   

5.
排序集抽样是利用辅助信息收集数据的一种有效方法,基于该抽样方法进行统计推断越来越受到人们的重视。然而,已有的研究结果仅考虑统计推断的效率而忽视了调查费用,鉴于此,文章考虑估计精度和调查费用两个方面,基于排序集样本建立了总体均值的估计量,证明了该估计量在给定的估计的精度下,降低了调查费用,并通过实例进一步说明了该抽样方案的优良性。  相似文献   

6.
吕萍 《统计研究》2017,(1):108-118
随着社会经济的发展,人们越来越多地使用调查数据,尤其是利用复杂调查数据进行研究.复杂调查数据源于复杂抽样设计,是指在抽样调查过程中使用分层、多阶段、整群和不等概率等复杂抽样设计获得调查数据.在数据分析中,若忽视层、群等抽样设计的复杂性,直接利用调查数据按照传统数据分析方法,容易得出错误的结论,尤其是涉及标准误的估计.本文主要介绍复杂抽样设计和复杂调查数据的特征,对抽样信息在复杂抽样数据中的应用进行研究,并以中国家庭追踪调查(ChinaFamily Panel Studies,CFPS)为例详细说明抽样信息在复杂调查中的应用,说明在复杂抽样调查数据中使用抽样信息的重要性.  相似文献   

7.
秦磊  王奕丹  苏治 《统计研究》2020,37(3):114-128
随着信息技术的飞速发展,大规模数据在短时间内搜集并储存下来,为分析决策提供了巨大的信息量,也给统计建模带来了一定难度。对于样本容量大、变量个数少的数据,Leverage重要性抽样是一个简便可行的方法。本文发现,该方法中度量样本重要性的Leverage分数与因变量无关,而且在维度较大的情形下对样本没有区分程度,使得估计结果较差。为了同时考虑因变量和维度的影响,本文提出了基于充分降维的Leverage重要性抽样方法。该方法以不损失信息为前提,在充分降维的空间内重新计算Leverage分数,使得抽样更具有代表性。模拟数据分析显示,在样本容量较大的复杂数据中,相比于原始的Leverage重要性抽样方法,本文提出的方法可以降低估计的均方误差。三个实际数据也证实了该方法的可行性和有效性。  相似文献   

8.
在经济学研究中,数据分析是很重要的.可是如何获得数据,用哪种抽样方法得到数据是需要精心选择的.本文提出了运用整群抽样的方法,来减少数据分析时的误差.  相似文献   

9.
分层排序集抽样是指将分层抽样与排序集抽样结合起来,运用分层技术将总体分为多层,再在每层中用排序集抽样获取样本.分层比率估计是利用辅助信息,构造总体均值或总值的估计量,分为联合比率估计和分别比率估计.文章利用此思路得到下分层排序集抽样下总体均值的分别比率估计,并和分层排序集抽样下的联合比率估计、分层随机抽样下的分别比率估计进行比较.结果表明,分层排序集抽样下总体均值的分别比率估计比分层随机抽样下总体均值的分别比率估计效果好,分层排序集抽样下总体均值的联合比率估计比分层排序集抽样下总体均值的分别比率估计效果好.  相似文献   

10.
<正>第八届国际数据挖掘与应用统计研究会于2016年7月23-26日在大庆市隆重召开。本届会议由国际数据挖掘与应用统计研究会主办,东北石油大学、厦门大学数据挖掘研究中心、台北医学大学大数据研究中心和重庆允升科技大数据研究中心联合承办。会议主题为"卓越数据共享统计的理论及应用研究",来自国内外近100所高校、政府和企事业单位200多位专家学者莅临参加。大会入选论文52篇,分为大数据分析  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号