共查询到20条相似文献,搜索用时 750 毫秒
1.
本文针对模糊C均值聚类在大数据量时收敛较慢以及不能对多种数据结构有效聚类的缺点,结合PIM算法与核方法提出了一种新的高效聚类算法———KPIM算法,并从理论上证明了该算法的收敛性.最后利用标准实验数据IRIS数据集测试,结果表明KPIM算法在保证收敛速度的同时,聚类效果更有效. 相似文献
2.
3.
4.
基于WEKA平台的文本聚类研究与实现 总被引:1,自引:0,他引:1
文本聚类是文本挖掘领域的一个重要研究分支.是聚类方法在文本处理领域的应用.本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结.另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标.在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案. 相似文献
5.
通过技术跟踪,可以了解某一技术领域的现状和发展态势,为技术战略的制定提供决策信息支持.当前,基于共引聚类分析的技术跟踪研究获得了长足的发展,但仍然存在一些问题,主要表现在数据关联的计算和聚类效率的提升上.基于此,文章从构建共引关联模型,改进系统聚类算法二个方面对共引聚类进行改进,并根据改进的共引聚类方法设计了基于多维标度模型的技术跟踪二维可视化工具.在此基础上,以公路工程领域为例,从个人、机构层面进行可视化实验,并着重对中国在此领域的技术情况进行详细的分析,以此判别技术领域的深层次结构,为技术跟踪的相关研究做一些支撑性工作. 相似文献
6.
基于密度的最佳聚类数确定方法 总被引:1,自引:0,他引:1
确定数据集的正确聚类数目是聚类分析中的一个基础性难题。常用的聚类数确定方法通常依赖特定的聚类算法,且在数据集存在子簇群的情况下效果欠佳。本文提出一种新的最佳聚类数确定的指标,该指标着重于分析簇的几何结构,从数据对象分布密度的角度来度量类内紧密度与类间分离度。该指标对噪声不敏感并且可以识别数据集中的子簇群,在实际数据和合成数据上的实验结果表明,新指标的性能优于广泛使用的其他指标。 相似文献
7.
对于区间型符号数据聚类分析的研究,现有方法大多假设个体在区间内服从均匀分布,这往往并不符合实际情况. 针对此问题,研究一般分布的区间型符号数据 K 均值聚类方法,给出了一般分布区间型符号数据的定义,并基于经验分布理论研究其描述统计. 基于 Hausdorff距离,考虑区间数所包含个体的分布信息,提出了一种新的区间型符号数据距离度量.给出了一般分布的区间型符号数据 K 均值聚类算法.通过随机模拟试验对该方法进行了有效性评价,结论表明,在各种实验设计的条件下,考虑一般分布的 K 均值聚类算法有效性均优于均匀分布假设下的 K 均值聚类算法.最后将文中方法应用于汽车的聚类分析,进一步体现了文中方法在解决实际问题中的优势. 相似文献
8.
基于模糊聚类的综合财务分析方法及其Excel实现 总被引:1,自引:0,他引:1
本文结合上市公司的财务指标,在数据规格化处理的基础上,利用模糊聚类分析,采用欧氏距离方法建立模糊矩阵,利用平方法求解模糊等价矩阵,并按照一定的聚类水平进行模糊聚类,得到同一行业不同企业的分类.利用此方法,可综合反映企业的财务状况与经营成果,实现对企业的综合评价. 相似文献
9.
粒子群优化k均值的混合聚类算法研究 总被引:5,自引:0,他引:5
k均值算法是聚类分析的一种传统算法,在数据挖掘中等领域得到了广泛的应用.本文在分析k均值聚类算法存在问题的基础上,用粒子群算法优化k均值聚类算法,提出了一种新的混合聚类算法.理论分析和实验结果证明,该算法有很好的全局收敛性,不仅有效地克服了传统的k均值算法易陷入局部极小值和对初始值敏感的问题,而且具有较快的收敛速度. 相似文献
10.
11.
12.
数据挖掘技术中的聚类算法是解决客户细分问题的重要算法之一。为解决传统聚类算法在客户细分问题中分类精度较低、收敛速度较慢的问题,着重对比分析传统聚类算法中K-m eans、自组织映射网络和粒子群3种算法的不足,提出融合3种算法优点的混合型聚类算法,该算法利用K-m eans和自组织映射网络对初始聚类中心进行优化,结合粒子群优化和K-m eans优化聚类迭代过程,并在迭代优化过程中设计避免算法因早熟而停滞的机制。针对移动电子商务环境下的餐饮业客户细分问题,建立移动餐饮业客户细分模型,并利用混合型聚类算法、K-m eans、层级自组织映射网络和基于粒子群的K-m eans等4种算法对实际案例进行对比分析。研究结果表明,混合型聚类算法的聚类精度分别比其他3种算法高,同时还具有最快的收敛性能,更适用于客户细分问题。 相似文献
13.
基于空间聚类挖掘的城市应急救援机构选址研究 总被引:3,自引:0,他引:3
以城市突发事件的应急管理为应用背景,研究使用空间聚类技术解决应急服务机构的选址问题.首先提出实施聚类分析的数据模型,然后改进既有空间聚类算法的基础上,提出了以.k-means聚类算法缩减解空间的搜索范围、以模拟退火算法为解搜索策略.基于GIS系统,充分考虑空间障碍物因素和空间环境因素等限制条件,提出(COD-MEANS-CLASA)的空间聚类算法以实现应急救援机构的科学选址.实验结果表明,提出的算法在执行效率和解质量两方面具有更好的表现. 相似文献
14.
15.
16.
本文首先介绍了客户细分在企业营运中的重要性,将聚类算法应用于企业客户细分。基于聚类可以找到数据集中未知的分类,本文介绍了一种可对客户多种描述特征进行综合聚类的客户细分方法。该算法不仅将网络概念加入到聚类中,还可以通过参数的控制,使客户的细分数量在可控范围之内。 相似文献
17.
本文针对DBSCAN算法在计算速度方面的瓶颈,提出了一种新的基于内存的并行DBSCAN算法:合理划分数据库,各个处理器并行聚类,之后合并聚类结果,可以达到很好的聚类结果效果和计算效率。通过对一台双核计算机的实验,发现实验速度可以提高50%左右。 相似文献
18.
针对混合属性数据聚类问题,本文提出一种基于多目标多元学习细菌觅食优化算法。首先,基于改进的细菌觅食优化算法,提出多目标优化算法框架。然后,提出多元学习策略来提高算法性能。具体地,对于细菌个体,细菌之间采用环形拓扑学习策略,每个细菌只能向其邻域最优个体学习;细菌个体还可以向外部档案非支配个体学习。通过该学习策略,不仅可以保持种群的多样性,也可以加快算法收敛速度。对于外部档案非支配个体,记录其变化趋势,当非支配个体的变化处于停滞状态时,采用精英学习策略对非支配个体进行微扰动,提高非支配解的多样性。最后,为解决混合属性数据聚类问题,设计了一种具有属性权重的混合属性转换策略。为了验证所提算法的性能,将该算法与两个多目标进化算法和三个经典聚类算法在六个标准数据集上进行对比实验。实验结果表明,所提算法在解决数值、分类和混合属性数据聚类问题上具有显著优势。同时,以金融领域信用卡申请客户数据为例,进一步证实了所提算法的可行性,也表明了所提算法在涉及混合属性数据集的医疗、管理、工程等领域有一定的应用前景。 相似文献
19.
本文针对待聚类对象的多层次聚类指标权重配置问题进行了研究。首先运用向量空间模型将聚类对象表征为包含多个层次聚类属性指标的特征空间向量并基于余弦距离测算底层属性指标的相似程度,然后根据聚类指标的层次结构以及相应各层指标的权重系数综合测算对象之间的相似程度,最后根据历史聚类案例中相同类别对象之间相似度较大,不同类别对象之间相似度较小等特点,构建了基于案例学习的多层次聚类指标客观权重极大熵挖掘模型。通过案例分析以及与其他方法的比较研究,证明了本模型的可行性与有效性,为多层次聚类指标客观赋权问题提供了一种新的研究思路。 相似文献