共查询到20条相似文献,搜索用时 15 毫秒
1.
近年来,随着海量数据处理需求的增长,数据挖掘技术引起了研究者的广泛关注。本文针对在数据挖掘的首要问题数据聚类展开了研究。文章首先分析了聚类分析的基本定义,常用数据结构,相似性度量以及算法应具有的基本特征。然后分析了对应分析法和基于信息论的相关性度量法的基本理论,并介绍了常用的时间序列聚类算法。 相似文献
2.
基于WEKA平台的文本聚类研究与实现 总被引:1,自引:0,他引:1
文本聚类是文本挖掘领域的一个重要研究分支.是聚类方法在文本处理领域的应用.本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结.另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标.在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案. 相似文献
3.
本文利用数据挖掘技术,设计了一个具有财务分析和数据挖掘功能的财务指标分析系统,以便为企业决策层提供快速的财务分析支持。在指标分析模块中使用了模糊识别算法。该算法是利用训练样本集的模糊识别矩阵计算出模糊聚类中心矩阵,再利用模糊聚类中心矩阵反算出测试样本集的最优模糊识别矩阵,从而克服了传统的模糊聚类算法只能聚类的缺点。 相似文献
4.
粒子群优化k均值的混合聚类算法研究 总被引:5,自引:0,他引:5
k均值算法是聚类分析的一种传统算法,在数据挖掘中等领域得到了广泛的应用.本文在分析k均值聚类算法存在问题的基础上,用粒子群算法优化k均值聚类算法,提出了一种新的混合聚类算法.理论分析和实验结果证明,该算法有很好的全局收敛性,不仅有效地克服了传统的k均值算法易陷入局部极小值和对初始值敏感的问题,而且具有较快的收敛速度. 相似文献
5.
基于密度的最佳聚类数确定方法 总被引:1,自引:0,他引:1
确定数据集的正确聚类数目是聚类分析中的一个基础性难题。常用的聚类数确定方法通常依赖特定的聚类算法,且在数据集存在子簇群的情况下效果欠佳。本文提出一种新的最佳聚类数确定的指标,该指标着重于分析簇的几何结构,从数据对象分布密度的角度来度量类内紧密度与类间分离度。该指标对噪声不敏感并且可以识别数据集中的子簇群,在实际数据和合成数据上的实验结果表明,新指标的性能优于广泛使用的其他指标。 相似文献
6.
7.
数据挖掘技术中的聚类算法是解决客户细分问题的重要算法之一。为解决传统聚类算法在客户细分问题中分类精度较低、收敛速度较慢的问题,着重对比分析传统聚类算法中K-m eans、自组织映射网络和粒子群3种算法的不足,提出融合3种算法优点的混合型聚类算法,该算法利用K-m eans和自组织映射网络对初始聚类中心进行优化,结合粒子群优化和K-m eans优化聚类迭代过程,并在迭代优化过程中设计避免算法因早熟而停滞的机制。针对移动电子商务环境下的餐饮业客户细分问题,建立移动餐饮业客户细分模型,并利用混合型聚类算法、K-m eans、层级自组织映射网络和基于粒子群的K-m eans等4种算法对实际案例进行对比分析。研究结果表明,混合型聚类算法的聚类精度分别比其他3种算法高,同时还具有最快的收敛性能,更适用于客户细分问题。 相似文献
8.
基于数据挖掘的移动资费套餐设计模型的建立与实现 总被引:1,自引:0,他引:1
本文首先分析目前移动运营商资费套餐设计中存在的问题,然后运用数据挖掘的方法,通过建立聚类、关联规则和决策树算法,提出了一整套移动资费套餐设计的模型,并在真实的用户数据的基础上对模型的实现进行研究分析。 相似文献
9.
10.
11.
本文运用数据挖掘技术中的分类决策树算法和快速聚类算法,对某省会城市联通公司的3G业务数据进行深入分析,研究并实现-个准确、实用的3G客户识别和客户细分的模型.在对模型进行评估的基础上,为精确发展优质3G客户提供了-个具体参考,同时对3G的资费策略提出-些参考意见. 相似文献
12.
本文针对模糊C均值聚类在大数据量时收敛较慢以及不能对多种数据结构有效聚类的缺点,结合PIM算法与核方法提出了一种新的高效聚类算法———KPIM算法,并从理论上证明了该算法的收敛性.最后利用标准实验数据IRIS数据集测试,结果表明KPIM算法在保证收敛速度的同时,聚类效果更有效. 相似文献
13.
14.
对于区间型符号数据聚类分析的研究,现有方法大多假设个体在区间内服从均匀分布,这往往并不符合实际情况. 针对此问题,研究一般分布的区间型符号数据 K 均值聚类方法,给出了一般分布区间型符号数据的定义,并基于经验分布理论研究其描述统计. 基于 Hausdorff距离,考虑区间数所包含个体的分布信息,提出了一种新的区间型符号数据距离度量.给出了一般分布的区间型符号数据 K 均值聚类算法.通过随机模拟试验对该方法进行了有效性评价,结论表明,在各种实验设计的条件下,考虑一般分布的 K 均值聚类算法有效性均优于均匀分布假设下的 K 均值聚类算法.最后将文中方法应用于汽车的聚类分析,进一步体现了文中方法在解决实际问题中的优势. 相似文献
15.
基于空间聚类挖掘的城市应急救援机构选址研究 总被引:3,自引:0,他引:3
以城市突发事件的应急管理为应用背景,研究使用空间聚类技术解决应急服务机构的选址问题.首先提出实施聚类分析的数据模型,然后改进既有空间聚类算法的基础上,提出了以.k-means聚类算法缩减解空间的搜索范围、以模拟退火算法为解搜索策略.基于GIS系统,充分考虑空间障碍物因素和空间环境因素等限制条件,提出(COD-MEANS-CLASA)的空间聚类算法以实现应急救援机构的科学选址.实验结果表明,提出的算法在执行效率和解质量两方面具有更好的表现. 相似文献
16.
17.
中国股票关联网络拓扑性质与聚类结构分析 总被引:4,自引:0,他引:4
复杂网络理论是研究股票市场内在结构和功能的有力工具,股票关联网络的拓扑性质和聚类结构对于理解网络的形成机制、发生在网络上的动力学行为具有重要意义.以中国上证180指数和深证100指数成分股票为研究标的,运用最小生成树算法和平面最大过滤图算法构建相应的股票关联网络,分析网络的基本拓扑统计性质和聚类结构.实证研究表明,平面最大过滤图关联网络为小世界网络,各关联网络内股票的影响强度服从幂律分布,股票之间存在的异类匹配模式揭示了市场内股票价格波动传导的过程,对最小生成树关联网络和平面最大过滤图关联网络的宗派和派系聚类分析能有效地挖掘股票之间的聚类结构信息,总体上看平面最大过滤图算法优于最小生成树算法,且实证结论对沪深股票市场具有普适性. 相似文献
18.
19.