首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
吴楠 《宿州学院学报》2008,23(2):102-103
大多序列模式挖掘算法在处理呈指数增长的模式时性能有限,而且当输入的数据集很大时,因为主存限制将使其变成不可解的。本文提出基于分区的序列模式挖掘算法,克服了主存限制的缺点,并通过增量聚类方法对数据预处理,得到更合理的分区以提高整体性能。  相似文献   

2.
聚类效果往往依赖于密度和相似度的定义,并且当数据的维增加时,其复杂度也随之增加。该文基于共享型最近邻居聚类算法SNN,提出了一种改进的共享型最近邻居聚类算法RSNN,并将RSNN应用于高速公路交通数据集上,解决了SNN算法在“去噪”、孤立点和代表点的判断、聚类效果等方面的不足之处。实验结果表明,RSNN算法比SNN算法在时空数据集上具有更好的聚类效果。  相似文献   

3.
为了提高数据挖掘的精度和效率,提出了一种基于群体智能算法的大数据聚类挖掘算法。首先对聚类算法中的模糊C-均值聚类算法进行分析,然后将亚启发式群体智能优化技术中的混合蛙跳算法与模糊C-均值聚类相结合,以便在调整的参数少的条件下优化全局搜索能力。仿真实验结果显示:相比其他聚类挖掘算法,提出的算法能解决局部陷阱问题,具有较好的聚类效果、准确率和收敛速度,同时算法的稳定性较高。  相似文献   

4.
支持向量聚类是基于支持向量机和核方法的一种新颖的聚类方法.与其它传统聚类方法相比较,该方法具有能得到全局最优解,并能处理任意形状的聚类,无需指定聚类数目,参数少,容易处理高维数据等优点.在原算法的基础上,在聚类标识阶段提出了改进算法,用支持向量代替原来的全部样本数据来进行标识,进一步减少运算时间,提高运算速度.  相似文献   

5.
针对传统谱聚类算法无法自动确定聚类数目,初始聚类中心K值依赖性较强以及算法全局寻优能力较差等问题,提出了一种基于人工蜂群算法的自适应谱聚类算法。将本征间隙的思想引入谱聚类算法中,在拉普拉斯矩阵的基础上构造本证间隙序列,从而解决初始聚类数目问题。利用人工蜂群算法全局搜索能力强的优点弥补谱聚类算法易陷入局部最优的缺点,同时,为防止人工蜂群算法出现早熟现象,改进了其位置搜索公式。通过标准测试函数以及UCI数据库中的不同数据集进行实验仿真,结果表明改进算法弥补了原算法的不足。  相似文献   

6.
以无向非加权图为研究对象,提出了一种基于社团结构核心区域集的图聚类方法,一个社团结构核心区域集是满足五个限定条件的一组完全子图的集合。同时对聚类过程进行分析,给出具体算法描述。实验结果表明该方法能显著提高聚类的精度。  相似文献   

7.
传统K-means算法初始聚类中心的选择具有随机性且对离群点敏感,导致聚类结果不稳定、准确率低等问题。针对上述问题,提出基于邻域密度的NDK-means算法。首先,通过多维网格划分得到样本的网格分布特性;然后,通过定义网格密度和网格邻域密度,确定多个局部高密度网格,同时引入迭代因子合并相邻高密度网格中心得到初始聚类中心候选集;最后,结合网格密度和距离,利用最大最小距离算法得到K个初始聚类中心。在UCI数据集上进行实验,实验结果表明:相对于其他局部邻域算法,新算法提高了聚类结果的准确率,具有较好的稳定性。  相似文献   

8.
随着电网系统的不断完善及用户数的不断增加,智能电网系统中存储的客户信息逐渐形成客户大数据,从这些数据中可以分析得到用户用电行为等一些潜在信息,因此如何从中挖掘出这些隐藏信息并利用此类信息来提升公司的效率成为本文研究重点。提出一种联合基于密度的带噪空间聚类(density-based spatial clustering of application with noise, DBSCAN)算法与期望最大化(expectation maximization, EM)算法的高斯混合聚类算法,通过DBSCAN算法确定合适的k个聚类中心及迭代初始数据,再通过EM算法迭代出聚类结果。案例分析表明:和其他几种典型聚类算法相比,所提算法在分析大数据和挖掘电力客户用电行为信息方面更加快速和准确,可以更有效地对电力公司客户行为数据进行聚类分析。  相似文献   

9.
介绍了一种新的模糊聚类方法,定义了模糊熵,提出了基于最大模糊熵的模糊聚类的方法,得到了一种新的聚类算法——GCM算法。该算法的物理意义清晰,有明确的数学含义,相对于传统的FCM聚类算法,其聚类效果更好。  相似文献   

10.
随着大数据时代的到来,政府部门越来越重视运用技术手段深度挖掘政府数据资源的价值。与此同时,政府部门对于政府数据共享的需求也在不断提高。然而,目前政府数据共享中存在着不同程度的隐私泄露风险。因此,如何在保护公民隐私的前提下共享政府数据成为提高政府治理能力和服务水平的一个挑战性问题。从政府部门间数据共享隐私保护需求出发,根据政府数据类型多样、属性复杂等特性,提出了基于中心点聚类的改进K匿名数据共享方法(KMedoid-based KADS)。首先,为减少非需求属性数据的共享范围,对拟共享原始数据表进行预处理,基于属性相关度将其划分为多个数据表;然后,利用基于中心点的记录相似度聚类算法处理划分得到的数据表,生成初步满足K匿名要求的聚类结果表;最后,利用K匿名簇共享算法,根据数据资源请求部门的共享要求,为其提供需求数据所在的K匿名数据表。通过与经典K匿名Incognito算法进行实验比较,表明提出的KMedoid-based KADS算法能有效减少信息损失量,提高共享数据可用性。  相似文献   

11.
网络技术的发展,特别是最近几年来“互联网+”和大数据的发展,给企业产品营销带来了极大的机遇和挑战。相较于传统的通过简单粗暴的价格战来达到营销目的,一些企业通过对数据的充分利用和挖掘而在商战中获胜。利用数据融合技术从互联网大数据中挖掘用户的行为信息,通过分析消费者的个性化需求,利用 EM聚类算法构建基于模型的协同过滤推荐算法,给消费者推荐可能喜欢的产品,开展个性化主动营销服务;制定相应的个性化产品营销策略,从而提高产品销售的数量及产品推荐的成功率。利用从亚马逊网上书城获取的数据进行实验,验证了综合 EM聚类和用户评分方法具有较好的推荐效果。  相似文献   

12.
针对K-medoids(K为中心点)聚类算法对初始聚类中心敏感、聚类结果依赖于初始聚类中心的缺陷,提出一种新的半径自适应的初始中心点选择算法。该算法在每次迭代过程中都重新根据剩余样本点的分布特征计算半径,从而实现动态计算相应样本点的局部方差和领域半径,选取较优的初始聚类中心点,实现良好的聚类效果。采用不同规模的UCI数据集和不同比例随机点的模拟数据集进行测试,利用5个通用的聚类评价指标对性能进行评价。结果表明:本算法性能较同类算法有明显提高。  相似文献   

13.
聚类相似的运动轨迹,获取对象主要运动特征是轨迹路径聚类的目标之一。本文针对轨迹路径数据量大、传统整体轨迹聚类算法效率低等问题,提出了一种基于时序的层次轨迹聚类算法(hierarchical trajectory clustering algorithm based on time series,HTCTS)。算法首先将完整的轨迹数据按一定的时间间隔进行分割,然后对分割的子路径分别聚类,最后在对聚类子集进行二次聚类,生成最终的聚类结果。实验结果表明:HTCTS算法在聚类效率和聚类质量上高于整体轨迹聚类算法。  相似文献   

14.
聚类算法在对图像进行分割的过程中要面对如何自动确定聚类类别数、如何克服图像特征点分布复杂的流形结构、如何减少算法的运行时间。针对这些问题,提出了流形距离的自动免疫克隆聚类图像分割算法。自动免疫克隆聚类算法可以自动确定聚类个数,不需要人为事先给定,并且确保全局收敛;使用流形距离可以反映空间分布复杂的流形数据;使用超像素而非像素来降低图像分割的时间等问题。通过对4组人工数据集和4幅自然图像进行实验,对比k-means算法、GCUK算法,结果表明该方法优势比较明显,具有一定的实用性和先进性。  相似文献   

15.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

16.
遗传聚类算法及其改进   总被引:1,自引:0,他引:1  
本文给出了一种改进的基于遗传算法的聚类算法。传统的KMeans算法具有较强的局部搜索能力,但是对初始化聚类中心很敏感,容易陷入局部收敛性。基本遗传算法具有全局优化性,但局部搜索能力较差,收敛速度慢。针对二者算法的优缺点,利用了面向对象程序设计思想,结合二者的优点,提出了一种改进的遗传聚类算法。数据实验表明,该方法有效地提高了基于遗传算法的聚类算法的局部搜索能力和收敛速度。  相似文献   

17.
针对层次聚类方法中的凝聚型层次聚类算法每次只合并两个类,迭代次数高、时间复杂度高的缺陷,提出了两种改进的算法:k近邻层次聚类和距离阈值层次聚类。然后对两种算法分别使用3组数据进行实验验证,结果表明两种算法均可以减少凝聚型层次聚类算法的迭代次数、降低时间复杂度;k近邻层次聚类需要输入的人为参数多,使得聚类结果的可靠性降低,距离阈值层次聚类的人为输入参数少,聚类结果的可靠性相对高,且聚类速度快。  相似文献   

18.
生成器是频繁项集精简表示中的一个经典模型,但其传统挖掘算法存在重复生成候选项集,反复扫描数据库得到支持度,需要遍历所有直接子集等缺点,导致生成效率低下.基于此,一种快速挖掘生成器算法FMG,该算法采用Rymon枚举树作为搜索空间,提出的判断生成器定理对候选项集进行快速判断,以及特定的剪枝策略.通过这些方法快速的挖掘生成器.实验结果证明,该算法不仅比传统的算法要快,而且比最新提出的快速挖掘算法还要快.  相似文献   

19.
针对已有核聚类算法中核参数优化方法的不足,提出一种新的反映类内类间间距的有效性指标,通过使类内样本相似性最大,类间样本相似性最小来达到优化核参数的目的.在对核C-均值聚类算法深入研究的基础上,提出一种基于核C-均值聚类的高分辨距离像识别算法.仿真结果表明:该算法可以通过训练识别率判定最佳聚类数,同时运用改进的核参数优化方法可以得到最优的核参数,进而得到最佳的识别结果.  相似文献   

20.
提出了一种新的层次聚类算法,先对数据集进行采样,以采样点为中心吸收邻域内的数据点形成子簇,再根据子簇是否相交实现层次聚类。在层次聚类过程中,重新定义了簇与簇之间的距离度量,并以此为基础建立堆结构。利用估计数据点总体分布的思想,证明该算法将逼近最优解。实验结果表明,算法的聚类效果大大优于现有的聚类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号