共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
数据分布密度划分的聚类算法是数据挖掘聚类算法的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区,产生数据集的子簇空间,并进行子簇合并,形成理想的聚类结果;依据该算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。 相似文献
3.
《统计与信息论坛》2019,(10):20-26
针对基于众包竞赛中欺诈者筛除机制的黄金标准数据方法、聚类算法的离群点检测算法K-means-算法和DBSCAN算法,依赖于事先给定的参数,不适合大规模数据集检测的问题,提出基于样本连通图的离群点检测算法。首先,给定参数并重复调用离群点检测算法,识别数据中的离群点和聚类;其次,计算每两个样本之间的连接次数和连接强度,在给定连接强度下界δ的情况下,根据样本的连接强度来构造样本之间的连通图;最后,根据样本之间的连通情况,对样本进行标记,把样本标记为聚类节点和离群点。实验结果表明,该算法在放宽参数设置范围的情况下,缩小了离群点个数波动范围,提升了离群点识别准确率,优于对比算法和经典的黄金标准数据方法。 相似文献
4.
时间序列数据聚类在统计分析中具有重要意义。然而高维时间序列数据挖掘高度依赖的相似性搜索方法仍面临计算量大、准确率低等问题。为了提升高维时间序列数据挖掘任务的准确率和效率,提出一种基于波动特征的时间序列相似性搜索算法。该算法首先提出局部高频离散小波变换(LHFDWT)方法,通过合理的分解与重构来实现序列的降维;然后提出基于欧氏距离(ED)、波动幅度和秩相关系数从时间序列形态波动的相对偏差和趋势一致性角度计算相似度;最后提出一种相似性搜索算法和新的基于波动特征的时间序列聚类方法,并利用k-medoids聚类技术进行聚类分析。基于UCR标准时间序列数据集的实验结果表明,相对于动态时间规整(DTW)和最长公共子序列(LCSS)方法,所提新方法下的聚类准确率表现更优,置信度达到99%;在正确预测聚类数目和搜索效率方面具有更好的效果,且聚类结果具有更高的稳定性;1-NN分类准确率更高,说明其在确定更好的聚类中心方面效果更优,置信度至少为85%,证明了所提新方法的相似性搜索算法的优越性。 相似文献
5.
6.
文章针对面板数据的聚类问题的高维复杂性,利用线性投影技术将其转换为关于投影特征向量的线性聚类问题;从而实现在低维空间对高维数据样本的聚类分析。最后实证分析验证了面板数据聚类分析的投影寻踪模型的可行性与有效性。 相似文献
7.
8.
时间序列聚类是数据挖掘领域的热点问题之一。结合时间序列的特点,光滑子空间K均值聚类算法在进行稀疏型聚类的同时,可以筛选出连续的时间子区间,并基于这些子区间上的观测对时间序列聚类,其复杂度主要取决于更新聚类权重的方法。然而,现有算法中聚类权重的更新是通过凸二次规划问题求解完成的,其计算复杂度较高。文章的理论推导表明,可以通过复杂度较低的严格凸二次规划问题的求解来更新聚类权重。在此基础上,给出了计算复杂度更低的路径跟随方法来更新聚类权重。数据模拟表明了基于路径跟随方法的新算法在聚类中的有效性,及其在计算速度上的优越性。 相似文献
9.
传统的K-Prototypes聚类算法是利用划分的思想来对混合数据进行聚类,但是当混合数据的维度增大时,对象之间的差异度几乎相等,使得此算法难以进行。针对上述缺陷,文章提出一种改进的K-Prototyes聚类算法,聚类前先剔除各类中不相关的维度,将高维混合数据投影降维后再进行聚类。文中给出了Heart Disease Databases的算例,验证了算法的有效性。 相似文献
10.
11.
在现代保险业中,通过数据挖掘技术的应用,从大量纷繁复杂的保户资料中,分析保户特性,进行市场细分,甄别高风险理赔人群,为保险公司选择目标客户提供决策依据。以保险资料为基础,应用数据挖掘技术进行聚类、决策树分类、类神经网络建模以及Logistic回归,划分客户群体,分析高风险理赔保户群体特征,为保险公司规避理赔风险提供决策依据。 相似文献
12.
支持向量机是在两分类的基础上发展起来的,如何将两分类成果推广到多分类中是支持向量机的一个重要问题.文章在聚类分类的基础上根据二叉树思想,提出了一种新的聚类算法来进行多分类.此方法充分利用二叉树中分两类的简便之处,将多类的聚类简化为点的聚类,从而避免了以往聚类方法中可能出现的同一类的点在聚类中变成不同类的问题,并结合选址问题中固定数目的配送点的选址算法,将原问题进行简化,对多分类问题提出了新的聚类算法. 相似文献
13.
数据挖掘中处理的数据越来越庞大,传统的聚类方法已经不再适用。因此,本文提出了一种基于因子分析的聚类方法,从而达到数据降维和简化聚类过程的效果。 相似文献
14.
1系统聚类方法及其存在的问题1.1系统聚类法为了将样本进行分类,就需要研究样本之间关系。目前用得最多的方法有两个:一种方法是用相似系数,比较相似的样本归为一类,不相似的样本归为不同的类。另一种方法是将一个样本看作P维空间的一个点,并在空间定义距离,距离较近的点归为一 相似文献
15.
文章以提高客户信息管理过程中离群信息挖掘的效率为目标,在传统的基于距离的离群数据挖掘方法的基础上,探索出了一种新的高效分析方法,该方法的时间复杂度降为O(d n log2n),能够一次性完成离群数据及其特征属性(OFA)的挖掘过程,且能够给出相应的离群因子(OF)来描述离群数据的离群程度及其为什么离群等离群信息。同时,用户操作简便,结果显示易于理解。该方法可以应用于对数据量大、维数高的Web客户信息的离群数据分析和特征属性挖掘工作。 相似文献
16.
随着计算机技术的迅猛发展,高维成分数据不断涌现并伴有大量近似零值和缺失,数据的高维特性不仅给传统统计方法带来了巨大的挑战,其厚尾特征、复杂的协方差结构也使得理论分析难上加难。于是如何对高维成分数据的近似零值进行稳健的插补,挖掘潜在的内蕴结构成为当今学者研究的焦点。对此,本文结合修正的EM算法,提出基于R型聚类的Lasso-分位回归插补法(SubLQR)对高维成分数据的近似零值问题予以解决。与现有高维近似零值插补方法相比,本文所提出的SubLQR具有如下优势。①稳健全面性:利用Lasso-分位回归方法,不仅可以有效地探测到响应变量的整个条件分布,还能提供更加真实的高维稀疏模式;②有效准确性:采用基于R型聚类的思想进行插补,可以降低计算复杂度,极大提高插补的精度。模拟研究证实,本文提出的SubLQR高效灵活准确,特别在零值、异常值较多的情形更具优势。最后将SubLQR方法应用于罕见病代谢组学研究中,进一步表明本文所提出的方法具有广泛的适用性。 相似文献
17.
基于遗传算法的投影寻踪聚类 总被引:1,自引:0,他引:1
传统的投影寻踪聚类算法PROCLUS是一种有效的处理高维数据聚类的算法,但此算法是利用爬山法(Hill climbing)对各类中心点进行循环迭代、选取最优的过程,由于爬山法是一种局部搜索(local search)方法,得到的最优解可能仅仅是局部最优。针对上述缺陷,提出一种改进的投影寻踪聚类算法,即利用遗传算法(Genetic Algorithm)对各类中心点进行循环迭代,寻找到全局最优解。仿真实验结果证明了新算法的可行性和有效性。 相似文献
18.
数据挖掘功能是数据挖掘研究与应用的一个重要方面。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。当前,数据挖掘的功能所处理的主要是传统的数据,对于函数型数据的研究还不是很多。文章探讨了数据挖掘中可以挖掘的几种函数型数据模式,包括数据描述、分类、聚类和回归。 相似文献
19.
本文指出了用点和点距离度量时间序列相似性存在的问题,并给出一种新的相似性度量一全局特征,即从时间序列的统计分布特征、非线性和傅立叶频谱转换等3个方面提取全局特征构建特征向量,并进行聚类分析。本文以全国各地区人均GDP时间序列聚类为例,评估了距离相似法与全局特征法的聚类结果。实践证实全局特征法不但可以处理不同长度有缺失值的时序聚类,而且可以降低大型时间序列数据聚类计算的复杂度。 相似文献
20.
一、概述数据挖掘是 90年代中后期兴起的一门跨学科的综合研究领域 ,它集计算机机器学习、统计学、数据库管理、数据仓库、可视化、并行计算、决策支持为一体 ,利用数据库、数据仓库技术存储和管理数据 ,利用机器学习和统计学方法分析数据 ,旨在发现大量复杂数据中蕴含的有价值的知识和信息。目前 ,随着数据挖掘应用的不断开展以及客观现实对数据分析需求的不断增长 ,人们越来越认识到数据挖掘的重要性和必要性。数据挖掘通过对数据的总结、分类、聚类、关联等分析 ,实现对数据内在结构特征的理解和对未知数据的预测。其中 ,数据总结是在数… 相似文献