首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
从统计学视角研究了大数据分析问题,以当前较为流行的Hadoop云计算平台为基础,分析设计了海量数据描述统计分析的整体架构,分析了相关统计分析算法的特点并给出了实现的具体思路。最后通过实际数据进行了实验性验证,取得了较为理想的效果,为海量数据的统计分析提供了一个可供借鉴的新思路。  相似文献   

2.
海量数据挖掘算法研究是当前数据挖掘研究领域的热点问题。以网络终端海量数据分布处理及软硬件资源共享为基础,以两变量线性关联效应测度学习算法设计为例,设计出基于超海量数据各终端数据分布处理的学习算法,并运用实验数据验证了该学习算法的有效性。该学习算法设计为海量数据云计算提供了应用思路。  相似文献   

3.
李扬等 《统计研究》2018,35(7):125-128
海量化的数据规模作为大数据的第一个特征,带来计算方面的首要挑战。大规模样本不一定可以完全替代总体,因此大数据分析的算法设计不仅要考虑精简计算成本,还要考虑如何刻画估计结果的不确定性。本文以分治自助算法和子集双重自助算法为例讨论兼具计算效率提升和不确定性评价的可并行计算的大数据统计算法设计,通过比较分析探讨设计思想与未来研究方向。  相似文献   

4.
正经过信息爆炸的历史积累,大数据概念孕育而生,而随着云计算的分布式处理、分布式数据库、云存储和虚拟化等技术的日趋成熟,对于海量数据的挖掘、分析和存储都变得触手可及。什么是大数据,大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。与云计算、物联网等新兴技术一样,大数据技术也是现代信息技术的重要组成部分。有研究指出,大数据是继第二代互联网和云计算之后信息技术领域的又一次革命性浪潮。但从总体上看,各国政府统计应用大数据都还处于起步阶段。谁能  相似文献   

5.
近年来雾霾污染在中国愈发严峻,严重阻碍我国经济和社会的发展,对民众的身心健康等都造成直接的侵害,并且随着互联网应用技术的快速发展,雾霾污染海量数据的生成和累计亟需大数据技术与思维的应用.因此文章在综述国内外大数据和雾霾污染问题统计分析研究现状的基础上,结合雾霾污染现状分析和传统统计方法难以分析生成的雾霾污染海量数据,提出了大数据关联分析统计测度方法,最后基于大数据平台探讨了中国雾霾污染问题统计分析的基本思路.  相似文献   

6.
数据挖掘中的预测及其应用   总被引:4,自引:0,他引:4  
随着社会和科技的进步,人们所能收集到的数据量变得越来越大,对这些数据进行处理做预测的难度也因此变的非常大。而新兴的一门处理海量数据的技术——数据挖掘为解决预测的这一难题提供了新的机遇。本文试对数据挖掘中的预测及其相关的方法和应用做一综合性的介绍。  相似文献   

7.
平稳性检验是时间序列回归分析的一个关键问题,已有的检验方法在处理海量时间序列数据时显得乏力,检验准确率有待提高。采用分类技术建立平稳性检验的新方法,可以有效地处理海量时间序列数据。首先计算时间序列自相关函数,构建一个充分非必要的判定准则;然后建立序列收敛的量化分析方法,研究收敛参数的最优取值,并提取平稳性特征向量;最后采用k-means聚类建立平稳性分类识别方法。采用一组模拟数据和股票数据进行分析,将ADF检验、PP检验、KPSS检验进行对比,实证结果表明新方法的准确率较高。  相似文献   

8.
秦磊  谢邦昌 《统计研究》2016,33(2):107-110
大数据时代下机遇与挑战并存,如何基于传统方法去处理大数据引人深思,一味地追求大数据也不一定正确。本文以谷歌流感趋势(GFT)为案例,介绍了大数据在疾病疫情监测方面的主要技术及相关成果,阐述了大数据在使用中的关键问题,并结合复杂的统计学工具给出了一些改进措施。谷歌流感趋势的成功取决于相关关系的应用,其失误却来源于模型的构造、因果关系和相关关系的冲突等问题。谷歌流感趋势案例的分析与启示对政府今后在大数据解决方案中有重要的理论和实践意义。  相似文献   

9.
针对我国统计宏观R&D指标数据比较齐全而缺少中观、微观R&D指标尤其是缺少企业层面R&D指标的现状,作者通过中外会计、统计核算诸方面的差异比较,对缺少企业层面R&D指标的原因进行了较为深入的、具有独特视角的分析与探讨,并提出了如何利用现存的会计数据进行调整分析,来得到企业层面R&D统计指标的思路。通过建立企业统计R&D指标的方法及途径的讨论,进而引发讨论如何在更大范围内,会计数据与统计数据资源共享的问题。  相似文献   

10.
张宸  韩夏 《统计与决策》2017,(14):45-48
当前网络舆情信息存在数据量大、流动快及数据非结构化等特点,难以实现对其快速、准确的分类.SVM算法和朴素贝叶斯算法都是性能优秀的传统分类算法,但无法满足快速处理海量数据.文章利用Hadoop平台可并行处理分布式数据存储的优良特性,提出了HSVM_WNB分类算法,将采集的舆情文档依照HDFS架构进行本地化存储,并通过MapReduce进程完成并行分类处理.最后利用实验验证,本算法能够有效提升网络舆情分类能力与分类效率.  相似文献   

11.
黄恒君 《统计研究》2019,36(7):3-12
大数据在统计生产中潜力巨大,有助于构建高质量的统计生产体系,但符合统计生产目标的数据源特征及其数据质量问题有待明确。本文在寻求大数据源与传统统计数据源共同点的基础上,讨论了统计生产中的大数据源及其数据质量问题,进而探讨了大数据与传统统计生产融合应用。首先从数据生成流程及数据特征两个方面论证并限定了可用于统计生产的大数据源;然后在广义数据质量框架下讨论了大数据统计生产中的数据质量问题,梳理了大数据统计生产流程的数据质量控制要点和质量缺陷;最后根据数据质量分析结果,提出了将大数据融入传统调查的统计体系构建思路。  相似文献   

12.
李金昌 《统计研究》2020,37(2):119-128
数据作为重要的数据资源存在,不论是其内在蕴含的信息价值还是其已经成为人类社会所需数据有机组成的客观事实,都迫使我们去不断加强对大数据的应用。然而,由于大数据作为信息技术应用的副产品,其复杂性、不确定性和涌现性决定了我们应用大数据并非易事,存在着很多质量上的问题,除了具有传统数据所有的质量问题外,还包括一些独特的新问题。为了更好地应用大数据,本文对如何进行大数据应用的质量控制进行了初步的研究。主要内容包括以下三个方面:一是对什么是大数据质量、受哪些因素影响、可能存在哪些质量问题进行了探讨;二是从做好理论准备、建立质量控制方案、重视对小数据研究、加强大数据管理、加强大数据人才培养和加强大数据法制建设六个方面,提出了大数据应用的质量控制的基本想法;三是对大数据应用中需要引起注意的几个方面进行了讨论,并结合例子进行了阐释。  相似文献   

13.
This article studies computation problem in the context of estimating parameters of linear mixed model for massive data. Our algorithms combine the factored spectrally transformed linear mixed model method with a sequential singular value decomposition calculation algorithm. This combination solves the operation limitation of the method and also makes this algorithm feasible to big dataset, especially when the data has a tall and thin design matrix. Our simulation studies show that our algorithms make the calculation of linear mixed model feasible for massive data on ordinary desktop and have same estimating accuracy with the method based on the whole data.  相似文献   

14.
李金昌 《统计研究》2014,31(1):10-15
最近,《大数据时代》等几本书引起了广泛的关注,大数据正在改变着人们的行为与思维,那么以数据为研究对象的统计学该如何应对?本文基于对大数据的理解,认为统计思维需要发生三个方面的改变:即认识数据的思维、收集数据的思维和分析数据的思维要改变。其中,数据分析思维又要在统计分析过程、实证分析思路、推断分析逻辑等方面发生变化,同时统计分析评价的标准也要有所调整。围绕这些变化,本文提出需要从八个方面去积极应对大数据,以促使统计学科跟上时代的步伐。  相似文献   

15.
本文在大数据时代背景下,将统计学与大数据有机地结合,剖析了大数据时代给统计学带来的变革,阐述了大数据为传统统计学带来的发展机遇。在大数据时代,为了保持统计学旺盛的生命力,本文对统计学的发展提出了几点思考。  相似文献   

16.
李金昌 《统计研究》2016,33(11):3-10
本文基于大数据思维,对统计学若干理论问题进行了讨论。本文认为:在大数据背景下,统计学以数据为研究对象没有变,作为方法论科学的性质没有变,以探索真相为根本任务没有变;但是作为统计学研究对象的数据出现了四个新的动向,即数据内涵有新理解,数据结构与来源有新方式,数据不确定性有新表现,数据分析思路与技术有新要求;为此,需要重新理解和定义总体、个体与样本,标志与变量,可靠性与有效性这三组统计学中最基本也最重要的概念。最后论文指出,大数据为统计学发展提供了新的平台,需要我们从数据、方法和应用三个维度同时发力。  相似文献   

17.
我国城镇登记失业率指标稳定在4%左右,难以较为准确反映就业动态;而劳动力调查样本量有限,城镇调查失业率对省以下各级行政区域代表性不足。本文将针对大数据的机器学习算法与针对传统统计数据的核算思想结合起来,基于某四百万人口城市2016—2018年的全样本行政大数据,利用机器学习算法,对每个城镇居民每个月的就业状态进行预测,再利用统计核算方法,估计出该城市的失业率。在个人层面,本文的模型在样本外测试集上的准确率达到96.7%。经过统计核算加总,本文估计的当地失业率在合理区间范围内,并表现出明显的周期性特征,对就业形势动态变化的刻画明显优于当地一年发布一次的登记失业率数据。本文基于个人层面的预测结果,进一步探讨了当地失业人口 的性别与文化程度特征,以及再就业的时间规律。本文针对如何使用行政大数据辅助经济决策提出了新的范式,对大数据时代如何理解经济与制定政策具有参考意义。  相似文献   

18.
米子川  姜天英 《统计研究》2016,33(11):11-18
2014年7月,澳盛银行首次将阿里巴巴系列指数纳入通胀观察标的,标志着大数据指数已经开始对传统的统计调查指数提出质疑和挑战。本文基于阿里巴巴aSPI指数和官方公布的CPI指数的比较研究,首次提出了aSPI指数显著优于CPI指数的一些基本特征;同时,通过实证分析对比了两种指数的同步性特征和分解性特征,即首先运用协整检验方法确定二者的同步性;其次通过EMD模型对二者进行序列分解,得出各自的波动成分和增长趋势;最后,在EMD对aSPI指数分解的基础上,通过Lasso回归估计了CPI指数。研究表明,随着对大数据研究的广泛性、科学性以及方法论和软件工具的进步,大数据指数对传统统计调查的佐证、补充乃至融合将会成为一种新趋势,通过实证、应用与发展,逐步产生新的CPI编制方法和分析体系,将是大数据指数理论和实践的根本出路。  相似文献   

19.
数据科学的统计学内涵   总被引:1,自引:0,他引:1  
数据科学以大数据为研究对象,而大数据对统计分析最直接的冲击莫过于数据收集方式的变革,同时统计分析的视野也不再局限于传统的属性数据,而是包括了关系数据、非结构、半结构数据等其他类型更丰富的数据。伴随着数据开放运动,数据库之间的关联信息的价值逐步得到体现。基于统计学的视角分别从科学理论基础、计算机处理技术和商业应用等三个维度研究了数据科学的统计学内涵,探讨了数据科学范式对统计分析过程的直接影响,以及统计学视角面临的机遇与挑战。  相似文献   

20.
胡英 《统计研究》2018,35(4):94-103
我国现行的人口统计调查方法体系是“以经常性的人口抽样调查为主体,以人口普查为基础,重点调查等为补充的多种方法的运用”,但随着经济社会的快速发展,“以普查为基础,经常性抽样调查为主体"的人口统计调查方法体系,与政府、社会对人口信息多层次、精细化、时效性的需求变得不适应,在实践中显露出矛盾和问题。本文以下将对当前人口普查和人口变动情况抽样调查,在人口统计中作用和存在问题做出分析,在此基础上提出人口统计的改革设想,并落实到具体的解决办法,以2020年第七次人口普查为契机,建立《人口统计与管理服务数据平台》,并结合社区网格化管理进行年度更新,取得年度全国、省级及省级以下的常住人口数据;同时改革人口抽样调查的内容,结合手机信令大数据在人口统计中的应用,完善人口统计调查方法体系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号