首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 515 毫秒
1.
近年来,随着海量数据处理需求的增长,数据挖掘技术引起了研究者的广泛关注.本文针对在数据挖掘的首要问题数据聚类展开了研究.文章首先分析了聚类分析的基本定义,常用数据结构,相似性度量以及算法应具有的基本特征.然后分析了对应分析法和基于信息论的相关性度量法的基本理论,并介绍了常用的时间序列聚类算法.  相似文献   

2.
本文利用数据挖掘技术,设计了一个具有财务分析和数据挖掘功能的财务指标分析系统,以便为企业决策层提供快速的财务分析支持。在指标分析模块中使用了模糊识别算法。该算法是利用训练样本集的模糊识别矩阵计算出模糊聚类中心矩阵,再利用模糊聚类中心矩阵反算出测试样本集的最优模糊识别矩阵,从而克服了传统的模糊聚类算法只能聚类的缺点。  相似文献   

3.
基于WEKA平台的文本聚类研究与实现   总被引:1,自引:0,他引:1  
文本聚类是文本挖掘领域的一个重要研究分支.是聚类方法在文本处理领域的应用.本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结.另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标.在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案.  相似文献   

4.
粒子群优化k均值的混合聚类算法研究   总被引:5,自引:0,他引:5  
k均值算法是聚类分析的一种传统算法,在数据挖掘中等领域得到了广泛的应用.本文在分析k均值聚类算法存在问题的基础上,用粒子群算法优化k均值聚类算法,提出了一种新的混合聚类算法.理论分析和实验结果证明,该算法有很好的全局收敛性,不仅有效地克服了传统的k均值算法易陷入局部极小值和对初始值敏感的问题,而且具有较快的收敛速度.  相似文献   

5.
基于密度的最佳聚类数确定方法   总被引:1,自引:0,他引:1  
确定数据集的正确聚类数目是聚类分析中的一个基础性难题。常用的聚类数确定方法通常依赖特定的聚类算法,且在数据集存在子簇群的情况下效果欠佳。本文提出一种新的最佳聚类数确定的指标,该指标着重于分析簇的几何结构,从数据对象分布密度的角度来度量类内紧密度与类间分离度。该指标对噪声不敏感并且可以识别数据集中的子簇群,在实际数据和合成数据上的实验结果表明,新指标的性能优于广泛使用的其他指标。  相似文献   

6.
数据挖掘技术中的聚类算法是解决客户细分问题的重要算法之一。为解决传统聚类算法在客户细分问题中分类精度较低、收敛速度较慢的问题,着重对比分析传统聚类算法中K-m eans、自组织映射网络和粒子群3种算法的不足,提出融合3种算法优点的混合型聚类算法,该算法利用K-m eans和自组织映射网络对初始聚类中心进行优化,结合粒子群优化和K-m eans优化聚类迭代过程,并在迭代优化过程中设计避免算法因早熟而停滞的机制。针对移动电子商务环境下的餐饮业客户细分问题,建立移动餐饮业客户细分模型,并利用混合型聚类算法、K-m eans、层级自组织映射网络和基于粒子群的K-m eans等4种算法对实际案例进行对比分析。研究结果表明,混合型聚类算法的聚类精度分别比其他3种算法高,同时还具有最快的收敛性能,更适用于客户细分问题。  相似文献   

7.
本文针对计算机审计的现状,提出了基于数据挖掘的审计数据分析流程,以及应用DBSCAN聚类算法查找审计证据的方法.  相似文献   

8.
基于数据挖掘的移动资费套餐设计模型的建立与实现   总被引:1,自引:0,他引:1  
本文首先分析目前移动运营商资费套餐设计中存在的问题,然后运用数据挖掘的方法,通过建立聚类、关联规则和决策树算法,提出了一整套移动资费套餐设计的模型,并在真实的用户数据的基础上对模型的实现进行研究分析。  相似文献   

9.
数据挖掘是近年来数据库领域中出现的一个新兴研究热点,数据挖掘是对数据库数据的统计分析。本文基于数据挖掘产生的背景、概念、以及数据挖掘的过程,论述了数据挖掘的常用模型和算法,介绍了数据挖掘在相关领域的应用,并且分析指出了数据挖掘领域的发展趋势。  相似文献   

10.
基于模糊综合评价的煤矿本质安全数据挖掘   总被引:1,自引:0,他引:1  
本文应用模糊综合评价法得到煤矿本质安全等级和指标体系,应用模糊聚类算法确定主关键条件属性集,使用模糊数据挖掘出评估对象中煤矿本质安全等级同评估指标之间的规则知识,以一个实例为对象建立的煤矿本质安全模糊数据挖掘验证了该方法的可行性。  相似文献   

11.
一般分布区间型符号数据的 K 均值聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
对于区间型符号数据聚类分析的研究,现有方法大多假设个体在区间内服从均匀分布,这往往并不符合实际情况. 针对此问题,研究一般分布的区间型符号数据 K 均值聚类方法,给出了一般分布区间型符号数据的定义,并基于经验分布理论研究其描述统计. 基于 Hausdorff距离,考虑区间数所包含个体的分布信息,提出了一种新的区间型符号数据距离度量.给出了一般分布的区间型符号数据 K 均值聚类算法.通过随机模拟试验对该方法进行了有效性评价,结论表明,在各种实验设计的条件下,考虑一般分布的 K 均值聚类算法有效性均优于均匀分布假设下的 K 均值聚类算法.最后将文中方法应用于汽车的聚类分析,进一步体现了文中方法在解决实际问题中的优势.  相似文献   

12.
一种基于信息熵与K均值迭代模型的模糊聚类算法   总被引:1,自引:0,他引:1  
本文提出了基于信息熵和K均值算法混合迭代模糊聚类的细分模型,解决了模糊聚类的原型初始化参数问题。将信息熵和K均值算法引入模糊聚类中进行分析,并结合测试样本数据进行实际分析,与传统方法相比,取得了较好的效果。  相似文献   

13.
提出了一类基于图论的新型聚类算法并将其应用于物流系统中的多设施选址问题。与其他聚类算法相比,该新型算法聚类效率更高且具有更小的聚类树,从而使得有意义的聚类结果更加清晰。比较算例验证了该算法应用于多设施选址问题的高效性和实用性。  相似文献   

14.
本文运用数据挖掘技术中的分类决策树算法和快速聚类算法,对某省会城市联通公司的3G业务数据进行深入分析,研究并实现-个准确、实用的3G客户识别和客户细分的模型.在对模型进行评估的基础上,为精确发展优质3G客户提供了-个具体参考,同时对3G的资费策略提出-些参考意见.  相似文献   

15.
针对传统基于判断矩阵的专家模糊核聚类赋权方法,由于归一化条件的制约,导致离群点对聚类结果产生不良影响的问题,提出一种改进型模糊核聚类算法。该方法在聚类过程中,通过放宽归一化约束条件,削弱离群点对聚类结果的影响;并且针对传统基于信息熵与一致性系数线性耦合的聚类标准的局限性,提出一种基于偏差熵的赋权方法,依据专家对自身类别的聚类贡献度,确定专家权重,克服了传统方法的不足。算例表明,该方法可行、有效。  相似文献   

16.
本文针对模糊C均值聚类在大数据量时收敛较慢以及不能对多种数据结构有效聚类的缺点,结合PIM算法与核方法提出了一种新的高效聚类算法———KPIM算法,并从理论上证明了该算法的收敛性.最后利用标准实验数据IRIS数据集测试,结果表明KPIM算法在保证收敛速度的同时,聚类效果更有效.  相似文献   

17.
数据挖掘是一个应用统计学和人工智能等算法进行知识发现的过程。本文介绍了数据挖掘技术的相关知识及其在电信企业客户关系管理中的应用,并以客户流失分析作为实例,探讨了数据挖掘的应用过程。  相似文献   

18.
矿井掘进工作面安全评价的灰色聚类方法   总被引:2,自引:0,他引:2  
本文用灰色聚类方法[1]讨论了煤矿掘进工作面安全评价问题,提出了一种新的安全评价方法─灰色聚类综合法。同时,本文对灰色聚类的算法作了改进,改进后的算法便于记忆和应用。  相似文献   

19.
该文提出了一种针对中文专利文本的聚类方法.使用自组织特征映射算法获得初始的聚类中心,并以此作为K-means算法的初始输入,从而得到最终的聚类结果.这样的组合可以在提高聚类准确率的同时,降低运行时间.在聚类之前还对文本进行LSI降维操作,降低了特征向量的维数,使得SOM和K-means两个对维数敏感的算法可以更加有效和快捷.  相似文献   

20.
金敏 《经营与管理》2014,(1):140-142
本文首先介绍了客户细分在企业营运中的重要性,将聚类算法应用于企业客户细分。基于聚类可以找到数据集中未知的分类,本文介绍了一种可对客户多种描述特征进行综合聚类的客户细分方法。该算法不仅将网络概念加入到聚类中,还可以通过参数的控制,使客户的细分数量在可控范围之内。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号