首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
时间序列聚类是数据挖掘领域的热点问题之一。结合时间序列的特点,光滑子空间K均值聚类算法在进行稀疏型聚类的同时,可以筛选出连续的时间子区间,并基于这些子区间上的观测对时间序列聚类,其复杂度主要取决于更新聚类权重的方法。然而,现有算法中聚类权重的更新是通过凸二次规划问题求解完成的,其计算复杂度较高。文章的理论推导表明,可以通过复杂度较低的严格凸二次规划问题的求解来更新聚类权重。在此基础上,给出了计算复杂度更低的路径跟随方法来更新聚类权重。数据模拟表明了基于路径跟随方法的新算法在聚类中的有效性,及其在计算速度上的优越性。  相似文献   

2.
就大数据生成过程的多维性、稀疏性和动态性等特征而言,大数据集并不等于统计总体,即便对于静态大数据集,随机抽样同样有着不可或缺的参数估计和总体推断的方法论价值。在大型数据分析中,常常遇到需要降低维度和减少计算量但又不知如何抽样处理的问题。因此,提出均匀抽样在大数据挖掘中应用的基本策略,并使用模拟数据和医学胎心宫缩监护数据集进行数值分析。结果表明:均匀抽样在降低决策树、adaboost、bagging和随机森林的误差率上优于现有文献的常用方法,这一策略能为面向大数据的数据挖掘方法提供参考,也为针对大数据分析的抽样有效性提供佐证。  相似文献   

3.
非平衡数据集的改进SMOTE再抽样算法   总被引:1,自引:0,他引:1       下载免费PDF全文
薛薇 《统计研究》2012,29(6):95-98
非平衡数据集的不均衡学习特点通常表现为负类的分类效果不理想。改进SMOTE再抽样算法,将过抽样和欠抽样方式有机结合,有针对性地选择近邻并采用不同策略合成样本。实验表明,分类器在经此算法处理后的非平衡数据集的正负两类上,均可获得较理想的分类效果。  相似文献   

4.
对于大规模数据集,Nystr?m方法是一种较为有效的矩阵低秩逼近技术,旨在从原始数据矩阵中抽取部分列重构原始数据矩阵的低秩逼近矩阵。考虑到不同抽样方法对重构矩阵的精度有较大的影响,文章提出将不等概抽样Nystr?m方法与随机奇异值分解方法相结合,进而在矩阵重构过程中提高矩阵低秩逼近精度,并有效降低计算复杂度。研究结果表明,提出的Nystr?m方法在矩阵重构中具有较高的精确度,且可以极大地降低计算复杂度。  相似文献   

5.
贺建风  李宏煜 《统计研究》2021,38(4):131-144
数字经济时代,社交网络作为数字化平台经济的重要载体,受到了国内外学者的广泛关注。大数据背景下,社交网络的商业应用价值巨大,但由于其网络规模空前庞大,传统的网络分析方法 因计算成本过高而不再适用。而通过网络抽样算法获取样本网络,再推断整体网络,可节约计算资源, 因此抽样算法的好坏将直接影响社交网络分析结论的准确性。现有社交网络抽样算法存在忽略网络内部拓扑结构、容易陷入局部网络、抽样效率过低等缺陷。为了弥补现有社交网络抽样算法的缺陷,本文结合大数据社交网络的社区特征,提出了一种聚类随机游走抽样算法。该方法首先使用社区聚类算法将原始网络节点进行社区划分,得到多个社区网络,然后分别对每个社区进行随机游走抽样获取样本网 络。数值模拟和案例应用的结果均表明,聚类随机游走抽样算法克服了传统网络抽样算法的缺点,能够在降低网络规模的同时较好地保留原始网络的结构特征。此外,该抽样算法还可以并行运算,有效提升抽样效率,对于大数据背景下大规模社交网络的抽样实践具有重大现实意义。  相似文献   

6.
基于聚类关联规则的缺失数据处理研究   总被引:2,自引:1,他引:2       下载免费PDF全文
 本文提出了基于聚类和关联规则的缺失数据处理新方法,通过聚类方法将含有缺失数据的数据集相近的记录归到一类,然后利用改进后的关联规则方法对各子数据集挖掘变量间的关联性,并利用这种关联性来填补缺失数据。通过实例分析,发现该方法对缺失数据处理,尤其是海量数据集具有较好的效果。  相似文献   

7.
当前商业抽样统计只是对传统的、很难全面统计的个体和小型企业部分进行抽样,限额以上仍采用全面调查的方法。而抽样只分批发、零售和餐饮三个行业并分别抽取样本进行推算,得出其三个行业的大数。这种抽样方法存在三方面的问题:一是样本总体和样本一年一改,相对变化市场反映迟钝,以静态量推算动态量误差较大。二是推算出来的大数只能横向或纵向比较是否真正与实际相符不好分析。三是抽样是以注册资金或销售额为基础来抽取样本的,假如抽取的样本正巧都是某一类商品,一旦这样商品的行业发生变化,那么由这些样本推算出来的数据肯定与实…  相似文献   

8.
排序集抽样是利用辅助信息收集数据的一种有效方法,基于该抽样方法进行统计推断越来越受到人们的重视。然而,已有的研究结果仅考虑统计推断的效率而忽视了调查费用,鉴于此,文章考虑估计精度和调查费用两个方面,基于排序集样本建立了总体均值的估计量,证明了该估计量在给定的估计的精度下,降低了调查费用,并通过实例进一步说明了该抽样方案的优良性。  相似文献   

9.
在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题.本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现"事后"自加权设计.实现"事后"自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析.随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现max(n,5%N)是一个比较合适的样本量.这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴.  相似文献   

10.
分层排序集抽样是指将分层抽样与排序集抽样结合起来,运用分层技术将总体分为多层,再在每层中用排序集抽样获取样本.分层比率估计是利用辅助信息,构造总体均值或总值的估计量,分为联合比率估计和分别比率估计.文章利用此思路得到下分层排序集抽样下总体均值的分别比率估计,并和分层排序集抽样下的联合比率估计、分层随机抽样下的分别比率估计进行比较.结果表明,分层排序集抽样下总体均值的分别比率估计比分层随机抽样下总体均值的分别比率估计效果好,分层排序集抽样下总体均值的联合比率估计比分层排序集抽样下总体均值的分别比率估计效果好.  相似文献   

11.
对复杂样本进行推断通常有两种体系,一种是传统的基于随机化理论的统计推断,另一种是基于模型的统计推断。传统的抽样理论以随机化理论为基础,将总体取值视为固定,随机性仅体现在样本的选取上,对总体的推断依赖于抽样设计。该方法在大样本情况下具有稳健估计量,但在小样本、数据缺失等情况下失效。基于模型的抽样推断认为总体是超总体模型中抽取的一个随机样本,对总体的推断取决于模型的建立,但在不可忽略抽样设计下估计量是有偏估计。在对这两类推断方法分析的基础上,提出抽样设计辅助的模型推断,并指出该方法在复杂抽样中具有重要的应用价值。  相似文献   

12.
文章讨论了一种新的抽样方法,并基于这一抽样方法提出了样本参数的优化检验统计量;证明了在一定条件下,当原假设成立时,该检验统计量与简单随机抽样下参数的似然比统计量具有相同的极限分布;并进一步比较了该检验与随机抽样下的似然比检验在参数空间上的功效.从检验所犯两类错误的角度说明了基于排序集抽样的似然比检验的优良性.  相似文献   

13.
使用普查数据模拟MPPS抽样方法的研究   总被引:1,自引:0,他引:1  
MPPS抽样即多变量与规模成比例的概率抽样,是20世纪90年代才提出来的一种抽样设计。近年来,中国有关部门与美国农业部国家农业署合作,进行了MPPS抽样设计的试点,来解决多目标调查问题。但是MPPS抽样在中国的应用非常有限。对MPPS抽样进行简单的回顾,介绍了它的基本估计,并对其应用进行了数据模拟研究。模拟中采用了系统抽样和泊松抽样的方法,根据实际调查数据得到了明确的结果。还对泊松抽样的一种变形永久随机数抽样的方法进行了模拟研究,并对它的一种误用情况进行了模拟比较,得到了具有说服力的结果。  相似文献   

14.
在数据挖掘的分类问题中,经常出现数据集内类别不平衡现象。大部分分类方法对于不平衡数据集内的小类数据,分类精度并不理想。文章分析了多目标线性规划分类方法(简称MCLP)在不平衡数据集上的表现;然后从模型角度,提出了面向不平衡数据集的加权MCLP分类模型。从理论上分析了加权MCLP分类模型的有效性,并从实证角度,与其他方法进行了比较。  相似文献   

15.
文章将城市绿色生态经济发展划分为社会与经济发展、资源与环境的可持续性和绿色转型发展这三大维度,利用简单随机抽样方法对80个地级市的绿色生态经济发展指标进行了抽样调查,并基于因子分析方法和Q聚类方法对这些指标进行了抽样后分层估计.研究发现,基于改进方案得到的估计值其估计误差都小于通用分层方案下的估计误差,估计精度明显更高.  相似文献   

16.
赵绍忠 《统计研究》2004,21(12):40-3
一、抽样框误差及其分类 抽样调查的误差包括抽样误差和非抽样误差两类.对于非抽样误差,可以分为抽样框误差、无回答误差和计量误差三类.抽样框误差是由不完善的抽样框引起的误差;无回答误差是由于种种原因没有能够对被抽出的样本单元进行计量,没有获得有关这些单元的数据而引起的误差;计量误差是由调查所获得的数据与调查项目的真值不一致而产生的误差.  相似文献   

17.
常见的放回抽样等方法操作比较简单,但缺点是有效样本量是不确定的,而是取决于抽样的随机结果.文章对PPS抽样和泊松抽样下有效样本量的性质进行了研究,通过数理推导和统计模拟揭示了有效样本量的分布特征,给出了特定条件有效样本量的置信区间.  相似文献   

18.
一种用信息熵确定聚类权重的方法   总被引:2,自引:0,他引:2  
加权聚类分析是数据挖掘中常用的方法,但其聚类质量很大程度上受到确定属性权重方法的影响.本文提出了一种以信息熵确定属性权重的方法,这种方法根据客观数据计算权重,因而消除了人为主观因素的影响.分析表明本文提出的方法在未增加计算复杂度的基础上提高了加权聚类分析的聚类质量.  相似文献   

19.
文章提出中位数排序集抽样下总体中位数的符号检验,证明了新检验统计量具有渐近正态性,并系统验证了新统计量的检验功效一致优于排序集抽样下和简单随机抽样下符号检验统计量.  相似文献   

20.
基于数据分布密度划分的聚类算法是数据挖掘聚类算法中的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计出高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区产生数据集的子簇空间,并进行子簇合并形成了理想的聚类结果;依据算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号