首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 765 毫秒
1.
随着数据挖掘技术的发展,作为数据挖掘中重要方法之一的聚类分析,先后出现了许多聚类算法。这些聚类算法均有其自身的优缺点。为了方便用户找到适合的聚类算法,本文根据不同的聚类原理对聚类算法进行分类,并概述了各类算法的发展情况。针对聚类的典型要求,归类出了一些有代表性的算法,同时对它们进行了分析和评价。文章最后给出了几种常用聚类算法的性能比较,并对聚类算法的发展进行了展望。  相似文献   

2.
为了提高数据挖掘的精度和效率,提出了一种基于群体智能算法的大数据聚类挖掘算法。首先对聚类算法中的模糊C-均值聚类算法进行分析,然后将亚启发式群体智能优化技术中的混合蛙跳算法与模糊C-均值聚类相结合,以便在调整的参数少的条件下优化全局搜索能力。仿真实验结果显示:相比其他聚类挖掘算法,提出的算法能解决局部陷阱问题,具有较好的聚类效果、准确率和收敛速度,同时算法的稳定性较高。  相似文献   

3.
聚类效果往往依赖于密度和相似度的定义,并且当数据的维增加时,其复杂度也随之增加。该文基于共享型最近邻居聚类算法SNN,提出了一种改进的共享型最近邻居聚类算法RSNN,并将RSNN应用于高速公路交通数据集上,解决了SNN算法在“去噪”、孤立点和代表点的判断、聚类效果等方面的不足之处。实验结果表明,RSNN算法比SNN算法在时空数据集上具有更好的聚类效果。  相似文献   

4.
该文针对模糊C-均值算法容易收敛于局部极小点的缺陷,将遗传算法应用于模糊C-均值算法(FCM)的优化计算中,其中对传统遗传算法的编码方案、遗传算子约束条件及适应值函数等方面进行改进,提出了一种基于改进遗传算法的模糊聚类方法。实验表明,将改进的遗传算法与FCM算法结合起来进行聚类分析,可以在一定程度上避免FCM算法对初始值敏感和容易陷入局部最优解的缺陷,使聚类更合理,比单一使用FCM算法进行聚类分析的效果要好。  相似文献   

5.
随着信息技术的快速发展,互联网成为主要社会信息传播方式,网络舆情的影响力不断扩大。网络舆情具有内容丰富、信息量大且相关话题种类繁多等特点,虽然聚类技术可以用来发现网民关注的话题,但是传统聚类算法还无法直接应用于海量动态网络舆情监控。本文根据网络舆情动态演化特点,研究高效的增量文本聚类算法,选取经典的增量聚类算法Single-Pass进行了改进,解决了该算法输入数据顺序敏感问题及求解效率问题。实验结果表明,在海量舆情文本聚类过程中,该方法可以大大提升舆情文本聚类效率,同时聚类精度未受到影响。  相似文献   

6.
聚类电价预测方法研究   总被引:1,自引:0,他引:1  
针对电价变化模式的复杂性,提出了一种基于聚类分析的电价预测模型。该模型将复杂的电价预测问题分解为更简单的子问题求解,首先通过聚类技术将输入空间划分为若干特征更明显的子空间,然后在子空间内分别使用支持向量机进行建模和预测。聚类分析中先应用减聚类算法自动确定聚类数并获取较优的初始聚类中心,然后采用K-均值算法进一步优化。采用美国PJM电力市场历史边际电价数据进行的仿真研究表明,电价预测模型能有效、稳定地提高电价预测精度。  相似文献   

7.
聚类分析在大数据时代应用广泛,但缺乏直观评价聚类质量的有效方法。为此,提出一种具有数据降维和搜寻数据固有聚类数量的处理模式。在数据散射矩阵基础上构造一个增广矩阵,利用线性辨别分析将高维数据变换到最具辨别性的低维特征子空间以实现数据降维。为解决分区聚类算法的随机初始化问题,提出最小-最大规则,避免出现空聚类并确保数据的可分性。对于聚类的结果,计算每个聚类的轮廓系数,通过比较轮廓的尺寸以评价不同聚类数量情况下的聚类质量。对K-均值算法的仿真结果说明,这种处理模式不仅能够可视化确定未知数据所固有的聚类数量,而且能为高维数据提供有效的分析方法。  相似文献   

8.
聚类分析是数据挖掘的一个重要研究分支,被广泛地应用于搜索引擎的检索结果组织中.本文对聚类分析中的C均值聚类方法进行了分析,对算法进行了三个方面的改进,取得优于常规算法的效果.  相似文献   

9.
移动轨迹数据的热点区域挖掘在城市交通管理、道路规划和基于位置的服务中具有重要的作用。传统数据挖掘方法 K-means、DBSCAN等算法,其参数选择困难、易影响聚类效果,针对在非凸数据集或密度不均匀、聚类间距差相差很大的数据集上聚类表现较差等问题,提出了基于改进谱聚类的热点区域挖掘算法(hot region mining algorithm based on improved spectral clustering,ISCRM)。实验结果表明:对比传统方法,ISCRM算法优势在于自适应选取参数,避免人工调试参数环节,且其适用于任意形状的样本空间,聚类质量更高。可准确获得各个聚类中心,从而识别出用户出行热点区域。  相似文献   

10.
聚类相似的运动轨迹,获取对象主要运动特征是轨迹路径聚类的目标之一。本文针对轨迹路径数据量大、传统整体轨迹聚类算法效率低等问题,提出了一种基于时序的层次轨迹聚类算法(hierarchical trajectory clustering algorithm based on time series,HTCTS)。算法首先将完整的轨迹数据按一定的时间间隔进行分割,然后对分割的子路径分别聚类,最后在对聚类子集进行二次聚类,生成最终的聚类结果。实验结果表明:HTCTS算法在聚类效率和聚类质量上高于整体轨迹聚类算法。  相似文献   

11.
孤立点数据挖掘技术在审计信息化中的应用研究   总被引:1,自引:0,他引:1  
孤立点分析技术是数据挖掘的重要内容之一,可广泛应用到电信、信用卡欺骗检测、贷款审批、客户分类、气象预报和网络入侵检测等领域。在审计工作中,也可采用孤立点检测算法对审计数据进行判断和检测,帮助审计人员及时发现隐藏的审计线索,提高审计效率,孤立点数据挖掘技术比发现规律性的其他挖掘技术具有更好的现实应用价值。  相似文献   

12.
针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据集中检测和消除相似重复记录,为避免漏查,再选择其他关键字段或字段某些位重复多次检测。理论分析和实验表明,该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。  相似文献   

13.
教学测评是教学管理过程中的重要环节。将数据挖掘运用于教学测评之中,可以提高教学评价技术水平。利用数据挖掘方法中的聚类分析和Apriori算法相结合,从而对测评系统数据进行关联规则挖掘。  相似文献   

14.
关联规则挖掘算法是通信网告警相关性分析中的重要方法。在处理数量庞大的告警数据库时,算法的效率显得至关重要,而经典的FP-growth算法会产生大量的条件模式树,加权算法MINWAL(O)则需要多次扫描数据库,使得在通信网环境下挖掘关联规则的难度非常大。该文提出了一种高效的基于加权频繁模式树的通信网告警关联规则挖掘算法,算法性能测试表明,该算法与已有的加权关联规则挖掘算法相比较,节约了大量的存储空间,提高了算法的挖掘速度,对通信网的故障诊断和故障定位有着积极的意义。  相似文献   

15.
网络技术的迅速发展为远程教育中个性化学习提供了可能。首先使用K—means算法对学生的属性数据和相应课程的成绩进行了聚类数据挖掘,发现学习者群体的特点。然后,结合聚类结果的特性和差异,为课程资源建设及教学过程的改进提供帮助。  相似文献   

16.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

17.
数据挖掘中关联规则算法用途广泛,通过研究关联规则算法,对各关联算法进行分析、对比总结出各关联规则的适用领域,并对经典的关联规则算法进行了举例与性能分析。  相似文献   

18.
分析了目前高校学生管理工作中存在的问题,探讨了模糊数据挖掘理论在高校学生管理中的应用。研究设计了一种数据挖掘方法,能够对高校学生进行聚类分析,从而发现高校内部学生的类型,并可判断某学生属于哪一种类型,对高校学生管理工作具有理论和现实意义。  相似文献   

19.
基于Web使用挖掘的个性化服务系统   总被引:3,自引:0,他引:3  
个性化服务系统是一种由多种WEB挖掘技术构成的基于用户使用的站点个性化系统。该系统使用事务聚类、使用聚类和关联规则技术等数据挖掘技术分析用户访问模式,并结合用户当前访问情况提供实时化个性服务。实验结果说明,个性化服务系统具有较好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号