首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
聚类在数据挖掘、模式识别等许多领域有着重要的应用.本文介绍了聚类算法的几种分类,并例举了几种基于密度的聚类算法.最后以一种新颖的基于最大不相含核心点集的聚类算法LSNCCP为例,详细介绍整个聚类算法的工作过程.  相似文献   

2.
时间序列聚类是数据挖掘领域的热点问题之一。结合时间序列的特点,光滑子空间K均值聚类算法在进行稀疏型聚类的同时,可以筛选出连续的时间子区间,并基于这些子区间上的观测对时间序列聚类,其复杂度主要取决于更新聚类权重的方法。然而,现有算法中聚类权重的更新是通过凸二次规划问题求解完成的,其计算复杂度较高。文章的理论推导表明,可以通过复杂度较低的严格凸二次规划问题的求解来更新聚类权重。在此基础上,给出了计算复杂度更低的路径跟随方法来更新聚类权重。数据模拟表明了基于路径跟随方法的新算法在聚类中的有效性,及其在计算速度上的优越性。  相似文献   

3.
本文回顾了离群点数据挖掘技术的研究成果,对高维离群点数据挖掘技术进行了简要的评述,并在此基础上提出了一种基于粗糙聚类的高维离群点数据挖掘的算法,采用粗糙集方法选择出最优子空间,直接对高维空间数据进行聚类,并对子空间离群点进行数据挖掘,取得了良好的效果。  相似文献   

4.
基于数据分布密度划分的聚类算法是数据挖掘聚类算法中的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计出高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区产生数据集的子簇空间,并进行子簇合并形成了理想的聚类结果;依据算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

5.
数据挖掘中处理的数据越来越庞大,传统的聚类方法已经不再适用。因此,本文提出了一种基于因子分析的聚类方法,从而达到数据降维和简化聚类过程的效果。  相似文献   

6.
一种用信息熵确定聚类权重的方法   总被引:2,自引:0,他引:2  
加权聚类分析是数据挖掘中常用的方法,但其聚类质量很大程度上受到确定属性权重方法的影响.本文提出了一种以信息熵确定属性权重的方法,这种方法根据客观数据计算权重,因而消除了人为主观因素的影响.分析表明本文提出的方法在未增加计算复杂度的基础上提高了加权聚类分析的聚类质量.  相似文献   

7.
数据挖掘功能是数据挖掘研究与应用的一个重要方面。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。当前,数据挖掘的功能所处理的主要是传统的数据,对于函数型数据的研究还不是很多。文章探讨了数据挖掘中可以挖掘的几种函数型数据模式,包括数据描述、分类、聚类和回归。  相似文献   

8.
数据分布密度划分的聚类算法是数据挖掘聚类算法的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区,产生数据集的子簇空间,并进行子簇合并,形成理想的聚类结果;依据该算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

9.
数据挖掘的技术与商业定义及其研究对象   总被引:1,自引:0,他引:1  
本文在对数据挖掘考察的基础上,从技术角度和商业角度对数据挖掘的概念予以界定,并探讨了数据挖掘在知识发现中的地位,明确了数据挖掘的对象和对该领域的研究方向.  相似文献   

10.
薛薇 《统计研究》2002,19(4):52-53
一、概述数据挖掘是 90年代中后期兴起的一门跨学科的综合研究领域 ,它集计算机机器学习、统计学、数据库管理、数据仓库、可视化、并行计算、决策支持为一体 ,利用数据库、数据仓库技术存储和管理数据 ,利用机器学习和统计学方法分析数据 ,旨在发现大量复杂数据中蕴含的有价值的知识和信息。目前 ,随着数据挖掘应用的不断开展以及客观现实对数据分析需求的不断增长 ,人们越来越认识到数据挖掘的重要性和必要性。数据挖掘通过对数据的总结、分类、聚类、关联等分析 ,实现对数据内在结构特征的理解和对未知数据的预测。其中 ,数据总结是在数…  相似文献   

11.
时间序列数据聚类在统计分析中具有重要意义。然而高维时间序列数据挖掘高度依赖的相似性搜索方法仍面临计算量大、准确率低等问题。为了提升高维时间序列数据挖掘任务的准确率和效率,提出一种基于波动特征的时间序列相似性搜索算法。该算法首先提出局部高频离散小波变换(LHFDWT)方法,通过合理的分解与重构来实现序列的降维;然后提出基于欧氏距离(ED)、波动幅度和秩相关系数从时间序列形态波动的相对偏差和趋势一致性角度计算相似度;最后提出一种相似性搜索算法和新的基于波动特征的时间序列聚类方法,并利用k-medoids聚类技术进行聚类分析。基于UCR标准时间序列数据集的实验结果表明,相对于动态时间规整(DTW)和最长公共子序列(LCSS)方法,所提新方法下的聚类准确率表现更优,置信度达到99%;在正确预测聚类数目和搜索效率方面具有更好的效果,且聚类结果具有更高的稳定性;1-NN分类准确率更高,说明其在确定更好的聚类中心方面效果更优,置信度至少为85%,证明了所提新方法的相似性搜索算法的优越性。  相似文献   

12.
文章回顾了经典的K-means算法,分析了其存在的两个突出缺点:无法自行确定聚类数k和对初始聚类中心点十分敏感.受光电效应实验中电子束在反向电场中的串行规律启发,提出了基于捕获流动中心试点的自适应确定聚类数目的K-means算法,该算法模拟电子束在异性电子云中的串行,令数据点簇捕获流动的聚类中心试点,来消除多余的初始聚类中心,从而达到解决K-means算法的存在的缺陷问题.实验表明,该算法具有很强的自行确定聚类数的能力,也大大降低了对初始聚类中心选择的敏感度.  相似文献   

13.
在现代保险业中,通过数据挖掘技术的应用,从大量纷繁复杂的保户资料中,分析保户特性,进行市场细分,甄别高风险理赔人群,为保险公司选择目标客户提供决策依据。以保险资料为基础,应用数据挖掘技术进行聚类、决策树分类、类神经网络建模以及Logistic回归,划分客户群体,分析高风险理赔保户群体特征,为保险公司规避理赔风险提供决策依据。  相似文献   

14.
Dirichlet过程作为一种典型的变参数贝叶斯模型,基于该过程进行的聚类分析无需预先确定聚类数,聚类数作为模型中的参数由模型和数据自主计算得出,因而成为机器学习研究领域中的一个研究热点,可用于海量数据的聚类分析。文章建立Dirichlet过程无限混合模型对DNA基因表达数据展开了聚类分析。模拟测试数据集和急性白血病的DNA基因表达测试数据集的实验结果表明,Dirichlet过程无限混合模型能够准确地估计出数据中的聚类数。  相似文献   

15.
文章介绍了基于高斯混合模型的期望最大化聚类算法,并对模型进行了简化,运用案例分析了该模型在经济管理领域中的应用,利用可视化的图形展示了研究样本的概率密度.  相似文献   

16.
异常数据挖掘及在经济欺诈发现中的应用   总被引:5,自引:0,他引:5  
数据挖掘是一个多学科的交叉领域,包括数据库系统、统计学、机器学习、可视化和信息科学,统计学中的聚类分析、相关分析、回归分析、主成分分析及神经网络在数据挖掘中都有广泛应用.  相似文献   

17.
在社会经济系统建模和分析中,对目标系统进行分解时,适合采用模糊C均值聚类算法进行划分.由于聚类数未知,采用某个聚类有效性函数来确定时,往往聚类结果并不理想.将专家知识和科学聚类相结合,文章给出了一种针对现实社会经济系统的确定聚类数的方法,即由专家给出可供选择的聚类数集合,然后通过多个聚类有效性函数来对各个聚类数进行评价.以广东省作为目标系统,按照科技进步水平,对其21个地区进行了划分,结果表明了方法的可行性.  相似文献   

18.
大规模定制模式下的客户需求聚类分析与定制优化   总被引:1,自引:0,他引:1  
文章在审视大规模定制研究文献的基础上,指出了目前大规模定制在企业推广应用的局限性以及在客户需求方面研究的不足,对大规模定制的需求分析与定制优化问题进行了初步的探索.以数学中的模糊聚类方法为基础,结合对客户满意度与需求规模性的考量,提出了大规模定制模式下的基于客户满意度的需求聚类的算法,对大规模定制客户需求进行了合理的聚类优化.  相似文献   

19.
聚类有效性指标是评价一种聚类方法划分质量和确定最佳聚类数目的重要工具.文章提出了一种新的聚类有效性指标——T指标,该有效性指标利用最小生成树思想计算类内内聚度,在计算的过程中不再与聚类中心发生直接联系.经反复实验证明新的有效性指标对各种形状分布的划分均有良好的评价表现,且能正确确定各种重叠度数据集的聚类数目.  相似文献   

20.
支持向量机是在两分类的基础上发展起来的,如何将两分类成果推广到多分类中是支持向量机的一个重要问题.文章在聚类分类的基础上根据二叉树思想,提出了一种新的聚类算法来进行多分类.此方法充分利用二叉树中分两类的简便之处,将多类的聚类简化为点的聚类,从而避免了以往聚类方法中可能出现的同一类的点在聚类中变成不同类的问题,并结合选址问题中固定数目的配送点的选址算法,将原问题进行简化,对多分类问题提出了新的聚类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号