共查询到20条相似文献,搜索用时 515 毫秒
1.
近年来,随着海量数据处理需求的增长,数据挖掘技术引起了研究者的广泛关注.本文针对在数据挖掘的首要问题数据聚类展开了研究.文章首先分析了聚类分析的基本定义,常用数据结构,相似性度量以及算法应具有的基本特征.然后分析了对应分析法和基于信息论的相关性度量法的基本理论,并介绍了常用的时间序列聚类算法. 相似文献
2.
本文利用数据挖掘技术,设计了一个具有财务分析和数据挖掘功能的财务指标分析系统,以便为企业决策层提供快速的财务分析支持。在指标分析模块中使用了模糊识别算法。该算法是利用训练样本集的模糊识别矩阵计算出模糊聚类中心矩阵,再利用模糊聚类中心矩阵反算出测试样本集的最优模糊识别矩阵,从而克服了传统的模糊聚类算法只能聚类的缺点。 相似文献
3.
基于WEKA平台的文本聚类研究与实现 总被引:1,自引:0,他引:1
文本聚类是文本挖掘领域的一个重要研究分支.是聚类方法在文本处理领域的应用.本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结.另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标.在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案. 相似文献
4.
粒子群优化k均值的混合聚类算法研究 总被引:5,自引:0,他引:5
k均值算法是聚类分析的一种传统算法,在数据挖掘中等领域得到了广泛的应用.本文在分析k均值聚类算法存在问题的基础上,用粒子群算法优化k均值聚类算法,提出了一种新的混合聚类算法.理论分析和实验结果证明,该算法有很好的全局收敛性,不仅有效地克服了传统的k均值算法易陷入局部极小值和对初始值敏感的问题,而且具有较快的收敛速度. 相似文献
5.
基于密度的最佳聚类数确定方法 总被引:1,自引:0,他引:1
确定数据集的正确聚类数目是聚类分析中的一个基础性难题。常用的聚类数确定方法通常依赖特定的聚类算法,且在数据集存在子簇群的情况下效果欠佳。本文提出一种新的最佳聚类数确定的指标,该指标着重于分析簇的几何结构,从数据对象分布密度的角度来度量类内紧密度与类间分离度。该指标对噪声不敏感并且可以识别数据集中的子簇群,在实际数据和合成数据上的实验结果表明,新指标的性能优于广泛使用的其他指标。 相似文献
6.
数据挖掘技术中的聚类算法是解决客户细分问题的重要算法之一。为解决传统聚类算法在客户细分问题中分类精度较低、收敛速度较慢的问题,着重对比分析传统聚类算法中K-m eans、自组织映射网络和粒子群3种算法的不足,提出融合3种算法优点的混合型聚类算法,该算法利用K-m eans和自组织映射网络对初始聚类中心进行优化,结合粒子群优化和K-m eans优化聚类迭代过程,并在迭代优化过程中设计避免算法因早熟而停滞的机制。针对移动电子商务环境下的餐饮业客户细分问题,建立移动餐饮业客户细分模型,并利用混合型聚类算法、K-m eans、层级自组织映射网络和基于粒子群的K-m eans等4种算法对实际案例进行对比分析。研究结果表明,混合型聚类算法的聚类精度分别比其他3种算法高,同时还具有最快的收敛性能,更适用于客户细分问题。 相似文献
7.
8.
基于数据挖掘的移动资费套餐设计模型的建立与实现 总被引:1,自引:0,他引:1
本文首先分析目前移动运营商资费套餐设计中存在的问题,然后运用数据挖掘的方法,通过建立聚类、关联规则和决策树算法,提出了一整套移动资费套餐设计的模型,并在真实的用户数据的基础上对模型的实现进行研究分析。 相似文献
9.
10.
11.
对于区间型符号数据聚类分析的研究,现有方法大多假设个体在区间内服从均匀分布,这往往并不符合实际情况. 针对此问题,研究一般分布的区间型符号数据 K 均值聚类方法,给出了一般分布区间型符号数据的定义,并基于经验分布理论研究其描述统计. 基于 Hausdorff距离,考虑区间数所包含个体的分布信息,提出了一种新的区间型符号数据距离度量.给出了一般分布的区间型符号数据 K 均值聚类算法.通过随机模拟试验对该方法进行了有效性评价,结论表明,在各种实验设计的条件下,考虑一般分布的 K 均值聚类算法有效性均优于均匀分布假设下的 K 均值聚类算法.最后将文中方法应用于汽车的聚类分析,进一步体现了文中方法在解决实际问题中的优势. 相似文献
12.
13.
14.
本文运用数据挖掘技术中的分类决策树算法和快速聚类算法,对某省会城市联通公司的3G业务数据进行深入分析,研究并实现-个准确、实用的3G客户识别和客户细分的模型.在对模型进行评估的基础上,为精确发展优质3G客户提供了-个具体参考,同时对3G的资费策略提出-些参考意见. 相似文献
15.
16.
本文针对模糊C均值聚类在大数据量时收敛较慢以及不能对多种数据结构有效聚类的缺点,结合PIM算法与核方法提出了一种新的高效聚类算法———KPIM算法,并从理论上证明了该算法的收敛性.最后利用标准实验数据IRIS数据集测试,结果表明KPIM算法在保证收敛速度的同时,聚类效果更有效. 相似文献
17.
数据挖掘是一个应用统计学和人工智能等算法进行知识发现的过程。本文介绍了数据挖掘技术的相关知识及其在电信企业客户关系管理中的应用,并以客户流失分析作为实例,探讨了数据挖掘的应用过程。 相似文献
18.
矿井掘进工作面安全评价的灰色聚类方法 总被引:2,自引:0,他引:2
本文用灰色聚类方法[1]讨论了煤矿掘进工作面安全评价问题,提出了一种新的安全评价方法─灰色聚类综合法。同时,本文对灰色聚类的算法作了改进,改进后的算法便于记忆和应用。 相似文献
19.
20.
本文首先介绍了客户细分在企业营运中的重要性,将聚类算法应用于企业客户细分。基于聚类可以找到数据集中未知的分类,本文介绍了一种可对客户多种描述特征进行综合聚类的客户细分方法。该算法不仅将网络概念加入到聚类中,还可以通过参数的控制,使客户的细分数量在可控范围之内。 相似文献