首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问题的基本思路:一是入样概率的建模推断,可以考虑构建基于机器学习与变量选择的倾向得分模型来估计入样概率推断总体;二是目标变量的建模推断,可以考虑直接对目标变量建立参数、非参数或半参数超总体模型进行估计;三是入样概率与目标变量的双重建模推断,可以考虑进行倾向得分模型与超总体模型的加权估计与混合推断。最后,以基于广义Boosted模型的入样概率建模推断为例演示了具体解决方法。  相似文献   

2.
大数据下的样本大多为非概率样本,其入样概率未知,同时可能面临着协变量较多甚至是高维的情况,那么如何对这种情况下的非概率样本进行推断值得探索。针对该问题,文章考虑到Model-X Knockoffs的降维特点,提出采用Model-X Knockoffs筛选出重要变量,建立Logistic倾向得分模型来估计非概率样本的入样概率或倾向得分,对总体进行推断,从而提高估计的精度,同时可控制变量选择的错误发现率与功效。模拟与实证研究结果表明:基于Model-X Knockoffs的Logistic倾向得分模型的总体均值估计相比一般的Logistic倾向得分模型和广义线性回归模型的总体均值估计,偏差更小、效率更高、估计效果更好,并且能很好地控制错误发现率的水平,功效值也接近1。  相似文献   

3.
如何解决网络访问固定样本调查的统计推断问题,是大数据背景下网络调查面临的严重挑战。针对此问题,提出将网络访问固定样本的调查样本与概率样本结合,利用倾向得分逆加权和加权组调整构造伪权数来估计目标总体,进一步采用基于有放回概率抽样的Vwr方法、基于广义回归估计的Vgreg方法与Jackknife方法来估计方差,并比较不同方法估计的效果。研究表明:无论概率样本的样本量较大还是较小,本研究所提出的总体均值估计方法效果较好,并且在方差估计中Jackknife方法的估计效果最好。  相似文献   

4.
传统的调查方式,特别是入户调查,难度大、周期长、成本高,随着样本需求的增大,传统的调查方式逐渐无法满足研究需要。基于大数据背景下的网络访问固定样本调查能够快速、高效地采集大量、多样性的样本,但却面临着非概率样本在统计推断上缺乏理论支持的挑战。文章利用基于倾向得分的样本匹配方法从网络访问固定样本中抽取与线下概率样本相匹配的样本,与线下概率样本结合产生一个新样本,并重点检验网络访问固定样本与线下样本相混合在统计调查中的可行性。统计检验表明,基于倾向得分的匹配样本近似线下概率样本,匹配样本的调查结果近似线下概率样本的调查结果,在一定条件下网络访问固定样本可以与线下概率样本相混合,近似地替代完全的线下概率样本调查。  相似文献   

5.
贺建风  李宏煜 《统计研究》2021,38(4):131-144
数字经济时代,社交网络作为数字化平台经济的重要载体,受到了国内外学者的广泛关注。大数据背景下,社交网络的商业应用价值巨大,但由于其网络规模空前庞大,传统的网络分析方法 因计算成本过高而不再适用。而通过网络抽样算法获取样本网络,再推断整体网络,可节约计算资源, 因此抽样算法的好坏将直接影响社交网络分析结论的准确性。现有社交网络抽样算法存在忽略网络内部拓扑结构、容易陷入局部网络、抽样效率过低等缺陷。为了弥补现有社交网络抽样算法的缺陷,本文结合大数据社交网络的社区特征,提出了一种聚类随机游走抽样算法。该方法首先使用社区聚类算法将原始网络节点进行社区划分,得到多个社区网络,然后分别对每个社区进行随机游走抽样获取样本网 络。数值模拟和案例应用的结果均表明,聚类随机游走抽样算法克服了传统网络抽样算法的缺点,能够在降低网络规模的同时较好地保留原始网络的结构特征。此外,该抽样算法还可以并行运算,有效提升抽样效率,对于大数据背景下大规模社交网络的抽样实践具有重大现实意义。  相似文献   

6.
基于随机森林模型的分类数据缺失值插补   总被引:6,自引:1,他引:6  
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

7.
文章针对非概率抽样统计推断问题,提出了一种解决方法:首先采用倾向得分匹配选择样本,然后采用倾向得分逆加权、加权组调整和事后分层调整三种方法对匹配样本进行加权调整来估计目标总体,并比较不同方法估计的效果.蒙特卡罗模拟与实证研究表明:当网络访问固定样本大小与目标样本大小的比率小于3对,三种加权方法估计的效果均比未加权时匹配样本的估计效果好;当网络访问固定样本大小与目标样本大小的比率不小于3时,倾向得分事后分层调整与未加权的匹配样本估计效果较好.  相似文献   

8.
倾向得分匹配方法的敏感性分析   总被引:3,自引:1,他引:3  
利用蒙特卡洛模拟实验研究倾向得分匹配方法(propensity score matching)的敏感性.模拟试验结果表明:(1)倾向得分匹配方法对误差项分布不敏感,即使当假定的误差分布与实际分布相差较大时,据倾向得分匹配方法仍能得到大致无偏的估计.(2)隐指标函数的误设可以使倾向得分匹配方法估计结果的偏差高达61%.(3)当共同支撑域较大时,倾向得分匹配方法对具体匹配方法的选择不敏感.当共同支撑域较小时,局部线性回归匹配方法为最优.(4)倾向得分匹配方法对强可忽略性假设是非常敏感的,即使轻度的违背此假设,倾向得分匹配方法的估计结果偏差也超过50%.  相似文献   

9.
通过互联网以及社交平台的数据监测社会突发异常事件是当前社交网络传播研究的热点问题,本文基于大数据背景,对网络突发事件动态监测算法进行了创新性研究.论文首先介绍了常用的几种网络动态监测算法,并指出了其在社交网络中应用的局限性,提出了基于Kleinberg的改进算法,最后用改进的算法进行了实证研究,研究结果显示:改进后的算法通过给定合理的调节参数,能迅速准确地监测到网络异常状况的发生,从而不仅避免了传统主观上直接通过突发事件出现的频次来划定临界值的不科学性和直接使用微博量排行榜方式所产生的时间上的滞后性,也避免了直接通过划定一个固定的微博增加量来判断是否有异常事件发生的不合理性.本文在大数据背景下为网络突变事件的动态监测提供了新的研究方法,为政府加强网络安全建设、优化网络监管模式、净化互联网环境具有一定的实践指导意义.  相似文献   

10.
大数据背景下网络借贷的信用风险评估——以人人贷为例   总被引:5,自引:1,他引:4  
在大数据时代,网贷平台每天流动着海量交易数据。为充分利用这些数据控制信用风险,运用数据挖掘算法建立了信用风险评估模型。由于网贷数据多为非平衡数据,所以通过多次尝试使用SMOTE算法进行处理,提高了模型评估性能。研究发现:随机森林模型更适合用于信用风险评估,其次是CART、ANN、C4.5。用户的婚姻、房/车产(贷)等信息重要程度较低,而公司规模、工作时间等信息,历史借款、信用评分等信用档案信息在信用风险评估中尤为重要。  相似文献   

11.
米子川  姜天英 《统计研究》2016,33(11):11-18
2014年7月,澳盛银行首次将阿里巴巴系列指数纳入通胀观察标的,标志着大数据指数已经开始对传统的统计调查指数提出质疑和挑战。本文基于阿里巴巴aSPI指数和官方公布的CPI指数的比较研究,首次提出了aSPI指数显著优于CPI指数的一些基本特征;同时,通过实证分析对比了两种指数的同步性特征和分解性特征,即首先运用协整检验方法确定二者的同步性;其次通过EMD模型对二者进行序列分解,得出各自的波动成分和增长趋势;最后,在EMD对aSPI指数分解的基础上,通过Lasso回归估计了CPI指数。研究表明,随着对大数据研究的广泛性、科学性以及方法论和软件工具的进步,大数据指数对传统统计调查的佐证、补充乃至融合将会成为一种新趋势,通过实证、应用与发展,逐步产生新的CPI编制方法和分析体系,将是大数据指数理论和实践的根本出路。  相似文献   

12.
金勇进  刘展 《统计研究》2016,33(3):11-17
利用大数据进行抽样,很多情况下抽样框的构造比较困难,使得抽取的样本属于非概率样本,难以将传统的抽样推断理论应用到非概率样本中,如何解决非概率抽样的统计推断问题,是大数据背景下抽样调查面临的严重挑战。本文提出了解决非概率抽样统计推断问题的基本思路:一是抽样方法,可以考虑基于样本匹配的样本选择、链接跟踪抽样方法等,使得到的非概率样本近似于概率样本,从而可采用概率样本的统计推断理论;二是权数的构造与调整,可以考虑基于伪设计、模型和倾向得分等方法得到类似于概率样本的基础权数;三是估计,可以考虑基于伪设计、模型和贝叶斯的混合概率估计。最后,以基于样本匹配的样本选择为例探讨了具体解决方法。  相似文献   

13.
通过总结中国现行统计调查体系存在的问题,对统计调查制度与方法等相关环节问题进行研究,提出建立一套与新时代中国特色社会主义相适应的现代化统计调查体系。这套体系将传统的统计调查方法与新式电子化记录的大数据有效融合使用,注重大数据与抽样调查数据及其推断估计方法的结合,在不显著增加整体调查经费的前提下,更加准确、及时、全面和连续地产生各类宏观时间序列调查数据和微观纵向调查数据,推进中国政府统计管理体制的深化改革与发展。  相似文献   

14.
田茂再 《统计研究》2015,32(5):3-12
随着新兴科学技术的迅猛发展,我们目前正面临大数据时代。大数据是“未来的新兴石油”,它必将对未来的科技与社会经济的发展产生深远影响。认识大数据这个崭新的概念是一个逐步深化的过程,有必要将对其研究上升为国家意志,因为大数据将深刻影响人类的决策模式和社会经济的运行模式,将发展成为一个极具潜力新兴产业,最终成为解决中国社会经济、政治转型期的重要手段。 迄今为止,能借助的国内外文献不多,虽然国内很多研究工作者希望尽早进入相关的大数据研究领域,却无从下手。为此,本文前瞻性地介绍当今大数据统计学理论研究中的几个热点问题,以期能有更多的他人后续研究。  相似文献   

15.
“大数据”背景下利用扫描数据编制中国CPI问题研究   总被引:1,自引:6,他引:1  
扫描数据为政府统计源头数据信息化改革与宏观经济测度提供了新的技术范式。基于对世界各国利用扫描数据编制CPI的现状进行梳理研究,并针对中国扫描数据的现状和政府价格统计的特点,提出了一种利用扫描数据编制中国CPI的思路,力图为基于"大数据"的政府统计源头数据信息化改革提供理论和实践参考。  相似文献   

16.
李金昌 《统计研究》2016,33(11):3-10
本文基于大数据思维,对统计学若干理论问题进行了讨论。本文认为:在大数据背景下,统计学以数据为研究对象没有变,作为方法论科学的性质没有变,以探索真相为根本任务没有变;但是作为统计学研究对象的数据出现了四个新的动向,即数据内涵有新理解,数据结构与来源有新方式,数据不确定性有新表现,数据分析思路与技术有新要求;为此,需要重新理解和定义总体、个体与样本,标志与变量,可靠性与有效性这三组统计学中最基本也最重要的概念。最后论文指出,大数据为统计学发展提供了新的平台,需要我们从数据、方法和应用三个维度同时发力。  相似文献   

17.
何强  董志勇 《统计研究》2020,37(12):91-104
大数据为季度GDP走势预测创新研究带来重要突破口。本文利用百度等网站的互联网大数据,基于代表性高维数据机器学习(和深度学习)模型,对我国2011-2018年季度GDP增速深入进行预测分析。研究发现,对模型中的随机干扰因素作出一定分布的统计假设,有助于降低预测误差,任由模型通过大量数据机械地学习和完善并不总是有利于模型预测能力的提升;采用对解释变量集添加惩罚约束的方法,可以有效地处理互联网大数据维度较高的棘手问题;预测季度GDP增速的最优大数据解释变量集的稳定性较高。  相似文献   

18.
基于卡尔曼滤波估计的连续性抽样调查研究   总被引:1,自引:0,他引:1       下载免费PDF全文
 针对连续性抽样调查中如何提高连续调查数据准确性的问题,本文引入时间序列分析方法,分别考虑连续性抽样调查中的重复样本和轮换样本等不同情况,建立了连续性抽样调查下的状态空间模型,利用成熟的卡尔曼滤波估计方法给出了总体均值的估计量。由于状态空间模型及卡尔曼滤波估计方法能够充分利用各期连续样本的调查信息,给出了精度更高的估计量,从而能够产生更加准确的连续性时间序列数据。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号