首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
本文回顾了离群点数据挖掘技术的研究成果,对高维离群点数据挖掘技术进行了简要的评述,并在此基础上提出了一种基于粗糙聚类的高维离群点数据挖掘的算法,采用粗糙集方法选择出最优子空间,直接对高维空间数据进行聚类,并对子空间离群点进行数据挖掘,取得了良好的效果。  相似文献   

2.
针对传统模糊C-均值聚类方法(fuzzy C-means,简称FCM)对初始值敏感导致的易陷入局部最优和噪声敏感问题,文章提出一种基于广度优先搜索的变异加权模糊C-均值聚类算法.该算法通过改进具有全局搜索能力的广度优先搜索算法(Breadth Fist Search,BFS)和有效聚类评价函数相结合,确定了接近真实的初始聚类中心,同时能够剔除噪声数据.在此基础上考虑属性噪声对聚类结果的影响问题,引入变异系数赋权法对FCM的目标函数进行改进,进一步提高了FCM算法的抗噪性.实验结果表明,该算法能够有效的克服传统FCM的不足,与其他聚类算法相比,具有较快的收敛速度、更好的聚类准确率及较高的抗噪性.  相似文献   

3.
本文研究的是时间序列的聚类问题。由于现实世界中时间序列多数是非线性的,而现有的时间序列聚类问题大都是基于线性时间序列模型进行聚类的,本文提出了可以用于非线性时间序列的聚类方法。以时间序列的二维核密度估计之间的相似性作为非线性时间序列的距离度量,该距离度量方式是一种非参数的距离度量方法,考虑到了时间序列自相关结构的差异,能够粗糙地识别时间序列形状和动态相关结构的相似性。与理论研究结果相一致,我们的模拟实验结果也验证了这种距离度量的有效性。  相似文献   

4.
数据分布密度划分的聚类算法是数据挖掘聚类算法的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区,产生数据集的子簇空间,并进行子簇合并,形成理想的聚类结果;依据该算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

5.
基于数据分布密度划分的聚类算法是数据挖掘聚类算法中的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计出高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区产生数据集的子簇空间,并进行子簇合并形成了理想的聚类结果;依据算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

6.
孙旭 《统计教育》2009,(3):55-59
本文指出了用点和点距离度量时间序列相似性存在的问题,并给出一种新的相似性度量一全局特征,即从时间序列的统计分布特征、非线性和傅立叶频谱转换等3个方面提取全局特征构建特征向量,并进行聚类分析。本文以全国各地区人均GDP时间序列聚类为例,评估了距离相似法与全局特征法的聚类结果。实践证实全局特征法不但可以处理不同长度有缺失值的时序聚类,而且可以降低大型时间序列数据聚类计算的复杂度。  相似文献   

7.
时间序列聚类是数据挖掘领域的热点问题之一。结合时间序列的特点,光滑子空间K均值聚类算法在进行稀疏型聚类的同时,可以筛选出连续的时间子区间,并基于这些子区间上的观测对时间序列聚类,其复杂度主要取决于更新聚类权重的方法。然而,现有算法中聚类权重的更新是通过凸二次规划问题求解完成的,其计算复杂度较高。文章的理论推导表明,可以通过复杂度较低的严格凸二次规划问题的求解来更新聚类权重。在此基础上,给出了计算复杂度更低的路径跟随方法来更新聚类权重。数据模拟表明了基于路径跟随方法的新算法在聚类中的有效性,及其在计算速度上的优越性。  相似文献   

8.
Box-Pierce Q检验采用近似卡方分布分析时间序列的平稳性特征,其检验统计量的参数选取将影响到检验结果.文章多个Q值提取平稳性特征,在此基础上建立新的平稳性判定准则,该准则是自相关函数序列收敛的充分条件;采用欧氏函数作为平稳性特征的相似性度量,借助k-means聚类建立平稳性分类方法;该方法在平稳性分析过程中充分考虑了样本之间的关联性,避免了传统Box-PierceQ检验对统计分布和临界表的过度依赖.实验结果表明,新方法能有效地处理海量时间序列数据,且准确率高于Q检验和ADF检验.  相似文献   

9.
平稳性检验是时间序列回归分析的一个关键问题,已有的检验方法在处理海量时间序列数据时显得乏力,检验准确率有待提高。采用分类技术建立平稳性检验的新方法,可以有效地处理海量时间序列数据。首先计算时间序列自相关函数,构建一个充分非必要的判定准则;然后建立序列收敛的量化分析方法,研究收敛参数的最优取值,并提取平稳性特征向量;最后采用k-means聚类建立平稳性分类识别方法。采用一组模拟数据和股票数据进行分析,将ADF检验、PP检验、KPSS检验进行对比,实证结果表明新方法的准确率较高。  相似文献   

10.
提出了带权Bernstein基的对偶泛函的离散形式,并用于逼近时间序列,将基函数的控制向量作为时间序列的特征向量,达到压缩数据的目的。根据时间序列的凸包个数解决了对偶泛函的定阶问题,用时间序列的特征向量提出了基于极大似然比的相似性检验统计量,并给出相似系数的计算公式。最后通过正交变换得到相互无关的控制点特征向量,据此可以实现多个时间序列的相似性比较、聚类分析等。模拟数值试验证明,该方法能有效压缩数据,计算精度高,可实现不等长度的时间序列数据的相似性比较,体现了大数据挖掘的特点。  相似文献   

11.
文章针对多指标面板数据的样品分类问题,从多元统计学理论角度提出一个多指标面板数据的聚类分析方法。该方法综合考虑面板数据的水平指标、增量指标和增量变化率指标的时间序列特征及其非同步时间序列问题,在重新构造了离差平方和函数基础上,提出了一种聚类方法。通过实证分析,表明新方法能够解决多指标面板数据聚类的问题,分类效果较好。  相似文献   

12.
研究面板数据聚类问题过程中,在相似性度量上,用Logistic回归模型构造相似系数和非对称相似矩阵。在聚类算法上,目前的聚类算法只适用于对称的相似矩阵。在非对称相似矩阵的聚类算法上,采用最佳优先搜索和轮廓系数,改进DBSCAN聚类方法,提出BF—DBSCAN方法。通过实例分析,比较了BF—DBSCAN和DBSCAN方法的聚类结果,以及不同参数设置对BF—DBSCAN聚类结果的影响,验证了该方法的有效性和实用性。  相似文献   

13.
基于遗传算法的投影寻踪聚类   总被引:1,自引:0,他引:1  
传统的投影寻踪聚类算法PROCLUS是一种有效的处理高维数据聚类的算法,但此算法是利用爬山法(Hill climbing)对各类中心点进行循环迭代、选取最优的过程,由于爬山法是一种局部搜索(local search)方法,得到的最优解可能仅仅是局部最优。针对上述缺陷,提出一种改进的投影寻踪聚类算法,即利用遗传算法(Genetic Algorithm)对各类中心点进行循环迭代,寻找到全局最优解。仿真实验结果证明了新算法的可行性和有效性。  相似文献   

14.
数据挖掘中处理的数据越来越庞大,传统的聚类方法已经不再适用。因此,本文提出了一种基于因子分析的聚类方法,从而达到数据降维和简化聚类过程的效果。  相似文献   

15.
基于形状特征的多指标面板数据聚类方法及其应用   总被引:1,自引:0,他引:1  
针对多指标面板数据的样品分类问题,从特征提取角度提出一个多指标面板数据的聚类分析方法。该方法将时间序列的局部变化特性与整体距离关系结合起来,将局部变化的信息融入相似测度的计算中,提出一种自适应滑动窗口分段方法,实现时间序列局部变化的特征提取,在重新定义综合距离的基础上,提出一种聚类方法。通过实证分析,表明新方法能够解决多指标面板数据聚类的问题,分类效果较好。  相似文献   

16.
对于一类变量非线性相关的面板数据,现有的基于线性算法的面板数据聚类方法并不能准确地度量样本间的相似性,且聚类结果的可解释性低。综合考虑变量非线性相关问题及聚类结果可解释性问题,提出一种非线性面板数据的聚类方法,通过非线性核主成分算法实现对样本相似性的测度,并基于混合高斯模型进行样本概率聚类,实证表明该方法的有效性及其对聚类结果的可解释性有所提高。  相似文献   

17.
面板数据聚类方法及应用   总被引:7,自引:0,他引:7  
 基于面板数据的时序特征和截面特征,综合考虑面板数据“绝对指标”,“增量指标”及其“时序波动”特征,在重构面板数据相似性测度的距离函数和Ward聚类算法的基础上,提出了面板数据聚类方法。并以2003-2007年财政金融面板数据为例,对中国14个沿海开放城市进行了聚类分析,显示了良好的应用性。  相似文献   

18.
高频面板数据在时间维度的频繁波动给聚类的准确性造成了很大干扰。综合考虑这一问题,从小波分解的角度提取了面板数据主成分降维后指标的综合得分序列,利用小波变换提取综合得分序列的"周期"特征、低频部分的"均值"特征与"趋势"特征、高频部分的"波动"特征,最后采用熵值法对这些特征进行赋权并利用赋权后的特征数据和系统聚类方法实现高频面板数据聚类。通过股票高频面板数据的实证分析表明,该方法的聚类效果良好。  相似文献   

19.
文章首先在已实现波动和多重分形波动率的基础上提出了一种改进的波动率测度,即已实现多分形波动率测度.其次,以上证综指2008年1月2日至2012年12月31日一分钟高频数据为样本,构造了7种常用的基于高频金融序列的波动率测度,并分别采用ARMA和ARFIMA模型对波动率进行建模和预测.最后通过使用统计自举方法与模型置信度设定(MCS)检验相结合的方法,对各种波动率模型预测效果进行了检验.检测的结果证实已实现多重分形波动率预测模型的预测效果明显优于其他模型.  相似文献   

20.
熊巍等 《统计研究》2020,37(5):104-116
随着计算机技术的迅猛发展,高维成分数据不断涌现并伴有大量近似零值和缺失,数据的高维特性不仅给传统统计方法带来了巨大的挑战,其厚尾特征、复杂的协方差结构也使得理论分析难上加难。于是如何对高维成分数据的近似零值进行稳健的插补,挖掘潜在的内蕴结构成为当今学者研究的焦点。对此,本文结合修正的EM算法,提出基于R型聚类的Lasso-分位回归插补法(SubLQR)对高维成分数据的近似零值问题予以解决。与现有高维近似零值插补方法相比,本文所提出的SubLQR具有如下优势。①稳健全面性:利用Lasso-分位回归方法,不仅可以有效地探测到响应变量的整个条件分布,还能提供更加真实的高维稀疏模式;②有效准确性:采用基于R型聚类的思想进行插补,可以降低计算复杂度,极大提高插补的精度。模拟研究证实,本文提出的SubLQR高效灵活准确,特别在零值、异常值较多的情形更具优势。最后将SubLQR方法应用于罕见病代谢组学研究中,进一步表明本文所提出的方法具有广泛的适用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号