首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
<正>一、引言大数据是指那些大小超出了传统意义的尺度,一般软件工具难以捕捉、存储、管理和分析的数据。它除了包括大量的结构化数据外,还涵盖所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频等信息,即非结构化和半结构化的数据。在大数据科技浪潮的背景下,数字化的行政商业记录、网络在线文本、流媒体数据大大拓宽了统计机构收集数据信息的渠道,作为信息和数据最重要的生产部门——政府统计,已经步入以数据为核心的大数据  相似文献   

2.
对以"21世纪海上丝绸之路"为主题的3 399篇科技文献,采用关联分析、TF-IDF词频分析、LDA模型等文本挖掘手段及其可视化方法,分别针对科技文献的关键词、摘要、研究机构、发表时间、内容等信息进行文本建模与分析,从而形成全新视角下文本数据的定量研究。研究发现:对该问题的研究具有显著的区域性特征和地理溢出效应;当前研究侧重宏观战略角度,缺乏技术层面的量化研究;时间序列分析表明宏观战略与新闻类文献数量趋缓,为后续各子命题的定量分析提供了一定的空间。  相似文献   

3.
在自然语言处理中,将非结构化的文本数据表示成结构化数据是文本处理工作的基础,文本表示的优劣对后期文本处理的效果有直接的影响。提出一种新的结构化文本表示模型——结构张量空间模型,该模型将文本按照其自身的层次含义进行分层表示,相比较于传统的文本表示模型,更充分地体现文本的结构信息。研究了基于结构张量空间模型的文本分类问题,实验结果表明,在小样本数据下,结合结构张量空间模型的分类器性能更好。  相似文献   

4.
黄恒君  漆威 《统计研究》2014,31(5):10-16
大数据现象及处理引起了社会各界的关注。本文以大数据宏观层面理论为依据,试图从微观层面讨论一类大数据具体处理,归纳提出一种基于开源架构的海量半结构化数据采集、存储及分析自动化解决方案,并分析解决方案的开放性、融合性和经济性的特点,指出解决方案的可拓展方面。同时,结合海量空气质量实时数据,分析解决方案的具体开发细节,给出解决方案运行的经验做法,讨论分析过程的大数据压缩机制。  相似文献   

5.
海量数据挖掘算法研究是当前数据挖掘研究领域的热点问题。以网络终端海量数据分布处理及软硬件资源共享为基础,以两变量线性关联效应测度学习算法设计为例,设计出基于超海量数据各终端数据分布处理的学习算法,并运用实验数据验证了该学习算法的有效性。该学习算法设计为海量数据云计算提供了应用思路。  相似文献   

6.
利用半结构化文本数据分析方法,从国外高校387个大数据硕士相关项目及国内22个相关硕士项目人才培养方案中提取出大数据高端人才培养的七大方向,并对不同方向的培养目标、课程、学分、学制等设置及其对应的人才市场需求匹配情况等相关内容进行剖析,为改革中国大数据高端人才的供给提出一定建议。  相似文献   

7.
张宸  韩夏 《统计与决策》2017,(14):45-48
当前网络舆情信息存在数据量大、流动快及数据非结构化等特点,难以实现对其快速、准确的分类.SVM算法和朴素贝叶斯算法都是性能优秀的传统分类算法,但无法满足快速处理海量数据.文章利用Hadoop平台可并行处理分布式数据存储的优良特性,提出了HSVM_WNB分类算法,将采集的舆情文档依照HDFS架构进行本地化存储,并通过MapReduce进程完成并行分类处理.最后利用实验验证,本算法能够有效提升网络舆情分类能力与分类效率.  相似文献   

8.
一、引言 决策支持系统(decision support system,简称DSS)是帮助决策者利用数据、模型、方法、知识推理等去解决半结构化和非结构化决策问题的人机交互系统.是一种以计算机为工具,应用决策科学及有关学科的理论与方法,以人机交互方式辅助决策者解决半结构化和非结构化决策问题的信息系统.  相似文献   

9.
《统计与信息论坛》2021,(2):119-128
以去中心化为典型特征的区块链彻底颠覆了传统中心化思想,有望重塑人类社会的运行方式,成为未来科技创新的焦点。近年来,围绕区块链的研究成果不断涌现,对现有文献进行主题挖掘和数据分析可以发现当前的研究焦点和未来的研究趋势。以中国知网期刊数据库区块链相关文献为研究对象,采用系统聚类方法对915篇精选文献进行聚类,形成21类研究主题。为解读主题内涵,计算1 974个关键词对21类主题的信息增益,选取各主题中信息增益前10位的关键词对主题内涵进行解析,并根据主题相关性构建包含基础层、功能层、应用层三个层面21个类别的区块链研究框架。通过对文献进行时间序列分析,构造区块链研究四象限矩阵,并将21类主题划分为初始探索主题、当前热点主题、未来趋势主题和成熟稳定主题。研究结果表明:从区块链研究的三个层面看,区块链基础性研究和应用性研究均衡发展,区块链功能性研究相对薄弱,有待加强;从具体主题看,"去中心化""比特币"主题的研究已相对成熟,热度有所减退;"智能合约""共识机制""金融创新"等主题是当前研究的热点;"信息安全""人工智能""金融科技与监管""身份认证"等主题是未来研究的趋势;"联盟链""数字货币"等11类主题处于初始探索期,其后续的演化依赖于社会现实需求和技术支撑程度。  相似文献   

10.
大数据(bigdata)泛指伴随社会化数据出现的大量在线文本、图片、流媒体数据。因其数据量巨大又可以从中挖掘出有价值的信息,目前被世界经济论坛的相关报告认定为其价值堪比石油的新财富。随着互联网和移动互联网的发展,无处不在的信息感知和采集终端,将行政管理、生产经营、商务活动等众多领域源源不断产生的海量即时电子化数据,通过“云计算”技术构建了一个与物质世界相平行的数字世界,所以很多专家认为人类已经跨入了大数据时代。作为数据生产的权威机关,这样一个时代的到来给统计调查工作带来了什么样的挑战与启示?统计调查部门和统计调查工作者应该怎样应对才能满足时代提出的需求?对此。笔者结合多年基层工作经历进行了初步探讨。  相似文献   

11.
现实中海量数据往往持续地产生,如何实现信息和知识的动态挖掘已成为人们关注的理论问题。根据数据集分批分步输入处理的思想,以Copula连接函数为理论基础,给出一种有效海量数据的关联分步测度算法,通过模拟实验验证了该算法的可行性,结果显示所设计的关联算法能显著提高关联效应测量的效率,并能有效地解决超海量数据关联效应的测度问题。  相似文献   

12.
魏瑾瑞 《统计研究》2015,32(8):104-112
结合文献计量与文本挖掘方法,以《统计研究》自1984-2013三十年载文为主要研究样本,探讨学术论文的数量特征与文本趋势。研究结果表明,(1)统计研究领域与知识结构的变迁大致经历了经济统计、实证方法与经济统计、模型化和经验数据实证方法等几个主题;(2)无论是作者、机构还是基金资助,发文量皆基本符合“二八原则”;(3)并非近十年左右,而是近三年的论文更频繁地被引;(4)声誉是一个长期概念,因此,作为测度学术声誉和影响力的重要指标,影响因子的趋势相比于某一年份的实际值更为紧要。  相似文献   

13.
以中国知网中"统计与决策"期刊1985-2015年中文献的关键词为分析对象,构建"文档-关键词"矩阵,通过lda模型和余弦相似度计算期刊年度中话题的相似情况,对年度文档进行聚类;构建主题和年度文档二分图网络并对其进行投影,通过社团分割和介数中心性计算核心年度文档和核心主题以及其对应的关键词.文章克服了共词网络分析法对同名异意,异名同意的问题,实现自动挖掘科技文献主题.  相似文献   

14.
文章从投入结构的视角,在各地区投入结构化数据失真程度低于全国投入的结构化数据、各地区投入汇总后的结构化数据和全国投入的结构数据具有较强的匹配性两个基本假设的基础上,选取劳动投入和资本投入两方面的数据,验证了基本假设,并且根据数据之间的关系选择VAR模型,对1978~2010年的中国GDP数据质量进行评估,继而进行指数化。得到基本结论:全国投入的结构化数据与地区投入汇总后的结构化数据有很强的匹配性;我国GDP数据质量整体上是较好的,个别年份不同程度地被低估或者高估;从细化成指数的结果来看,我国GDP的数据质量存在阶段性的特征。  相似文献   

15.
文章在信息技术迅速发展的背景下,研究针对海量数据计算机软硬件存储、分析的不足.通过研究海量数据下变量关联问题,构造了基于海量数据的学习算法.并通过数据模拟了该算法的应用原理.  相似文献   

16.
结构化数据的综合评价是综合评价的重要内容之一。针对结构化数据的特点以及主成分分析存在的不足,论文基于稀疏思想提出一种改进方法,采用多重稀疏主成分分析对结构化数据进行评价。最后利用房地产开发评价的实例验证了这种方法的有效性和稳定性。  相似文献   

17.
从统计学视角研究了大数据分析问题,以当前较为流行的Hadoop云计算平台为基础,分析设计了海量数据描述统计分析的整体架构,分析了相关统计分析算法的特点并给出了实现的具体思路。最后通过实际数据进行了实验性验证,取得了较为理想的效果,为海量数据的统计分析提供了一个可供借鉴的新思路。  相似文献   

18.
文章提出一种双阶段深度学习的金融时间序列预测模型,研究股民评论、金融新闻资讯与股票指标多源数据对股票市场波动的影响。该模型运用word2vec并结合卷积神经网络对非结构化文本数据进行情感分析,计算情感权重并与股票指数联合;通过双向长短时记忆网络结合注意力机制关注文本重点语义分布,提升全局时序信息敏感度,从而完成非线性、时变性的股指预测。所提模型相比于单一使用股票指数,其均方误差降低0.264,比BiLSTM股票预测模型降低了0.186。实证结果表明,端对端的多源数据融合情感分析模型能够有效解决因多级因素导致的股票市场波动性与不规律性,从而对股票指数进行预测。  相似文献   

19.
数据挖掘中的预测及其应用   总被引:4,自引:0,他引:4  
随着社会和科技的进步,人们所能收集到的数据量变得越来越大,对这些数据进行处理做预测的难度也因此变的非常大。而新兴的一门处理海量数据的技术——数据挖掘为解决预测的这一难题提供了新的机遇。本文试对数据挖掘中的预测及其相关的方法和应用做一综合性的介绍。  相似文献   

20.
目前对城市科技竞争力的研究还大多采用加权综合、因子分析、主成份分析、线性回归等方法,上述研究模型缺乏客观性且在处理海量数据时,表现出极大的局限性.本文以2009年、2010年浙江省11个地级市为研究对象,运用BP神经网络模型和CHAID决策树模型分别构建城市科技竞争力预测模型进行研究探索.研究结果表明,两模型对城市科技竞争力的预测评价研究非常有效,但在预测精度上,BP神经网络模型要优于CHAID决策树模型,在此基础上给出了指标变量对城市科技竞争力的重要性程度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号