首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
海量数据挖掘算法研究是当前数据挖掘研究领域的热点问题。以网络终端海量数据分布处理及软硬件资源共享为基础,以两变量线性关联效应测度学习算法设计为例,设计出基于超海量数据各终端数据分布处理的学习算法,并运用实验数据验证了该学习算法的有效性。该学习算法设计为海量数据云计算提供了应用思路。  相似文献   

2.
现实中海量数据往往持续地产生,如何实现信息和知识的动态挖掘已成为人们关注的理论问题。根据数据集分批分步输入处理的思想,以Copula连接函数为理论基础,给出一种有效海量数据的关联分步测度算法,通过模拟实验验证了该算法的可行性,结果显示所设计的关联算法能显著提高关联效应测量的效率,并能有效地解决超海量数据关联效应的测度问题。  相似文献   

3.
从统计学视角研究了大数据分析问题,以当前较为流行的Hadoop云计算平台为基础,分析设计了海量数据描述统计分析的整体架构,分析了相关统计分析算法的特点并给出了实现的具体思路。最后通过实际数据进行了实验性验证,取得了较为理想的效果,为海量数据的统计分析提供了一个可供借鉴的新思路。  相似文献   

4.
张宸  韩夏 《统计与决策》2017,(14):45-48
当前网络舆情信息存在数据量大、流动快及数据非结构化等特点,难以实现对其快速、准确的分类.SVM算法和朴素贝叶斯算法都是性能优秀的传统分类算法,但无法满足快速处理海量数据.文章利用Hadoop平台可并行处理分布式数据存储的优良特性,提出了HSVM_WNB分类算法,将采集的舆情文档依照HDFS架构进行本地化存储,并通过MapReduce进程完成并行分类处理.最后利用实验验证,本算法能够有效提升网络舆情分类能力与分类效率.  相似文献   

5.
文章针对频繁项集挖掘中传统串行Eclat算法面对海量数据时挖掘效率不高的问题,提出一种海量数据下的并行频繁项集挖掘算法,即I-SPEclat算法。首先,对Eclat算法存在的缺陷进行改进,引入图的邻接矩阵作为数据的存储结构,避免了大量的交集运算;其次,利用先验性质对候选项集进行预剪枝和后剪枝,减少无用候选项集的数量,节约存储空间;再次,根据项集的前缀对数据进行划分,平衡每个计算节点的工作负载;最后,将改进的Eclat算法在Spark分布式计算框架上实现并行化。实验结果表明,I-SPEclat算法较已有的改进Eclat算法在时间消耗和内存消耗方面均有减少,且面对不同规模的数据集也有着良好的扩展性。  相似文献   

6.
李扬等 《统计研究》2018,35(7):125-128
海量化的数据规模作为大数据的第一个特征,带来计算方面的首要挑战。大规模样本不一定可以完全替代总体,因此大数据分析的算法设计不仅要考虑精简计算成本,还要考虑如何刻画估计结果的不确定性。本文以分治自助算法和子集双重自助算法为例讨论兼具计算效率提升和不确定性评价的可并行计算的大数据统计算法设计,通过比较分析探讨设计思想与未来研究方向。  相似文献   

7.
在大数据时代,网贷平台每天流动着海量交易数据。为充分利用这些数据控制信用风险,运用数据挖掘算法建立了信用风险评估模型。由于网贷数据多为非平衡数据,所以通过多次尝试使用SMOTE算法进行处理,提高了模型评估性能。研究发现:随机森林模型更适合用于信用风险评估,其次是CART、ANN、C4.5。用户的婚姻、房/车产(贷)等信息重要程度较低,而公司规模、工作时间等信息,历史借款、信用评分等信用档案信息在信用风险评估中尤为重要。  相似文献   

8.
郭婧璇等 《统计研究》2020,37(10):104-114
随着物联网技术的进步,大数据给网络带宽和计算机存储能力带来巨大挑战,传统的集中式数据处理难以实现,客观上促进了分布式统计学习的发展。在无迭代算法研究中,Zhang等(2013)证明了当数据集个数s=O(N) 时,基于局部经验风险最小化的分治(DC)简单平均估计量具有O(N-1)均方误差收敛速度,Huang和Huo(2019)在M估计框架下进一步提出分布式一步估计量,但上述方法均未考虑海量数据可能存在的异质性对分治估计效果的影响。本文在线性模型框架下提出海量异质数据的分治一步加权估计,证明了估计量的渐近性质并考虑了异质性检验问题。将本文提出的方法应用于美国医疗保险实际数据分析,结果表明该方法能更好地拟合数据的线性趋势且显著提高了计算效率。  相似文献   

9.
文章借助对应分析的基本思路实现了对Q型因子分析算法上的改进,得到了一种新的能够处理海量数据的聚类方法。通过算法分析,该方法的时间复杂度为样本容量的线性阶,这充分体现了其在算法效率上的优越性。最后,将该方法应用于上市公司板块分析中,并取得了较好的效果。  相似文献   

10.
程豪 《中国统计》2023,(1):27-29
随着文献资料的不断膨胀,非结构化的文本数据挖掘逐渐形成较为成熟又区别于结构化数据的方法体系。本文以海量科技文献为出发点,通过研究四类主题模型及目前可用的主要软件和技术,以处理不同条件下的文本数据问题,找到海量科技文献集合中的关键主题,实现分类或预测的统计功能。  相似文献   

11.
生物统计学是以解决生物学、医学、公共卫生学、农学等领域科学问题为目标的应用型学科,近年来在精准医疗的背景下得以快速发展.另一方面,生物统计研究面对的数据存在海量化、复杂化和异质化的大数据特征,对理论与应用研究者都提出了新的挑战.本文围绕生物统计研究中的流行病学研究、临床试验设计、生存数据分析和基因数据分析展开讨论,在介绍基本思路的基础上对最新挑战及前沿发展方向进行展望.  相似文献   

12.
近年来雾霾污染在中国愈发严峻,严重阻碍我国经济和社会的发展,对民众的身心健康等都造成直接的侵害,并且随着互联网应用技术的快速发展,雾霾污染海量数据的生成和累计亟需大数据技术与思维的应用.因此文章在综述国内外大数据和雾霾污染问题统计分析研究现状的基础上,结合雾霾污染现状分析和传统统计方法难以分析生成的雾霾污染海量数据,提出了大数据关联分析统计测度方法,最后基于大数据平台探讨了中国雾霾污染问题统计分析的基本思路.  相似文献   

13.
指数分布在生存分析中有着极其重要的应用.文章基于EM算法研究左截断右删失数据下指数分布的参数估计,通过建立似然函数推导出参数迭代表达式,并进行随机模拟试验和实证分析.结果表明EM算法迭代4次后即可收敛,收敛速度很快且估计值较稳定.  相似文献   

14.
数据挖掘(机器学习)领域的研究重点是建立概念漂移数据(Concept-drift)下的模型,其中的核心问题就是探测器算法.文章提出了一种基于双窗的探测算法.其优点是给出了该算法的严格理论基础;有效提高挖掘效率,克服虚漂移的干扰.并且运用人工和实际数据进行实验,效果亦优于其他算法.  相似文献   

15.
文章研究了变环境情形下对数正态分布分组数据可靠性估计的参数估计问题.给出了一种基于EM算法的变环境分组数据Log-normal分布参数估计方法,其估计量具有良好的收敛性,模拟结果表明了这种方法的实践可操作性.  相似文献   

16.
对数字图书馆与传统图书馆辨证关系的探讨   总被引:1,自引:0,他引:1  
一、数字图书馆的发展及其优势   1、数字图书馆的发展   上个世纪80年代,人类开创了数字图书馆.数字图书馆是将大型图书馆中的海量文化资料数字化,再将这些数据管理起来,通过互联网向世界公布.……  相似文献   

17.
通过互联网以及社交平台的数据监测社会突发异常事件是当前社交网络传播研究的热点问题,本文基于大数据背景,对网络突发事件动态监测算法进行了创新性研究.论文首先介绍了常用的几种网络动态监测算法,并指出了其在社交网络中应用的局限性,提出了基于Kleinberg的改进算法,最后用改进的算法进行了实证研究,研究结果显示:改进后的算法通过给定合理的调节参数,能迅速准确地监测到网络异常状况的发生,从而不仅避免了传统主观上直接通过突发事件出现的频次来划定临界值的不科学性和直接使用微博量排行榜方式所产生的时间上的滞后性,也避免了直接通过划定一个固定的微博增加量来判断是否有异常事件发生的不合理性.本文在大数据背景下为网络突变事件的动态监测提供了新的研究方法,为政府加强网络安全建设、优化网络监管模式、净化互联网环境具有一定的实践指导意义.  相似文献   

18.
近年来,关于高维协方差阵估计的研究大多是在正态分布的假定下进行的,少有研究考虑金融数据的厚尾特征对协方差阵估计的影响。在提出新方法估计厚尾金融海量数据协方差阵的基础上,先引入乔列斯基分解法,将复杂的协方差阵估计问题转化为一系列的回归模型;再在回归模型的估计过程中引入RA-Lasso方法,使其在解决维数诅咒的同时,还考虑由于数据的厚尾特征而引起的估计偏差问题;通过模拟和实证研究发现,新的方法明显提高了协方差阵的估计效率,并且使投资者获得了更高的收益。  相似文献   

19.
随着经济全球化步伐的不断加快,洗钱犯罪日益成为世界性公害.文章通过分析海量金融交易信息,甄别可疑金融交易进而发现洗钱线索,成为反洗钱的研究重点.面对复杂多变的交易情形,通过对金融交易信息的层次分析,针对性的选择数据挖掘方法予以识别,进而借助概率统计规则将每一类可疑金融交易数据挖掘方法得出的可疑线索进行归纳分析,得到交易记录的整体可疑度,为洗钱交易识别提供准确线索,最后通过真实交易数据验证了该方法的可行性和有效性.  相似文献   

20.
利用数据挖掘技术对海量保险业务数据进行风险分析,通过交叉频数分析确定保单中风险较大的因素,为管理决策提供依据;将决策树、支持向量机、逻辑斯蒂回归和贝叶斯网络四种数据挖掘算法用于保户分类,提取高风险保户的潜在特征,挖掘理赔概率较高的保户群,以指导保险公司的营销工作。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号