首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
宋英 《科学咨询》2010,(15):69-70
近年来,随着海量数据处理需求的增长,数据挖掘技术引起了研究者的广泛关注。本文针对在数据挖掘的首要问题数据聚类展开了研究。文章首先分析了聚类分析的基本定义,常用数据结构,相似性度量以及算法应具有的基本特征。然后分析了对应分析法和基于信息论的相关性度量法的基本理论,并介绍了常用的时间序列聚类算法。  相似文献   

2.
基于WEKA平台的文本聚类研究与实现   总被引:1,自引:0,他引:1  
文本聚类是文本挖掘领域的一个重要研究分支.是聚类方法在文本处理领域的应用.本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结.另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标.在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案.  相似文献   

3.
本文利用数据挖掘技术,设计了一个具有财务分析和数据挖掘功能的财务指标分析系统,以便为企业决策层提供快速的财务分析支持。在指标分析模块中使用了模糊识别算法。该算法是利用训练样本集的模糊识别矩阵计算出模糊聚类中心矩阵,再利用模糊聚类中心矩阵反算出测试样本集的最优模糊识别矩阵,从而克服了传统的模糊聚类算法只能聚类的缺点。  相似文献   

4.
粒子群优化k均值的混合聚类算法研究   总被引:5,自引:0,他引:5  
k均值算法是聚类分析的一种传统算法,在数据挖掘中等领域得到了广泛的应用.本文在分析k均值聚类算法存在问题的基础上,用粒子群算法优化k均值聚类算法,提出了一种新的混合聚类算法.理论分析和实验结果证明,该算法有很好的全局收敛性,不仅有效地克服了传统的k均值算法易陷入局部极小值和对初始值敏感的问题,而且具有较快的收敛速度.  相似文献   

5.
基于密度的最佳聚类数确定方法   总被引:1,自引:0,他引:1  
确定数据集的正确聚类数目是聚类分析中的一个基础性难题。常用的聚类数确定方法通常依赖特定的聚类算法,且在数据集存在子簇群的情况下效果欠佳。本文提出一种新的最佳聚类数确定的指标,该指标着重于分析簇的几何结构,从数据对象分布密度的角度来度量类内紧密度与类间分离度。该指标对噪声不敏感并且可以识别数据集中的子簇群,在实际数据和合成数据上的实验结果表明,新指标的性能优于广泛使用的其他指标。  相似文献   

6.
本文针对计算机审计的现状,提出了基于数据挖掘的审计数据分析流程,以及应用DBSCAN聚类算法查找审计证据的方法.  相似文献   

7.
数据挖掘技术中的聚类算法是解决客户细分问题的重要算法之一。为解决传统聚类算法在客户细分问题中分类精度较低、收敛速度较慢的问题,着重对比分析传统聚类算法中K-m eans、自组织映射网络和粒子群3种算法的不足,提出融合3种算法优点的混合型聚类算法,该算法利用K-m eans和自组织映射网络对初始聚类中心进行优化,结合粒子群优化和K-m eans优化聚类迭代过程,并在迭代优化过程中设计避免算法因早熟而停滞的机制。针对移动电子商务环境下的餐饮业客户细分问题,建立移动餐饮业客户细分模型,并利用混合型聚类算法、K-m eans、层级自组织映射网络和基于粒子群的K-m eans等4种算法对实际案例进行对比分析。研究结果表明,混合型聚类算法的聚类精度分别比其他3种算法高,同时还具有最快的收敛性能,更适用于客户细分问题。  相似文献   

8.
基于数据挖掘的移动资费套餐设计模型的建立与实现   总被引:1,自引:0,他引:1  
本文首先分析目前移动运营商资费套餐设计中存在的问题,然后运用数据挖掘的方法,通过建立聚类、关联规则和决策树算法,提出了一整套移动资费套餐设计的模型,并在真实的用户数据的基础上对模型的实现进行研究分析。  相似文献   

9.
基于模糊综合评价的煤矿本质安全数据挖掘   总被引:1,自引:0,他引:1  
本文应用模糊综合评价法得到煤矿本质安全等级和指标体系,应用模糊聚类算法确定主关键条件属性集,使用模糊数据挖掘出评估对象中煤矿本质安全等级同评估指标之间的规则知识,以一个实例为对象建立的煤矿本质安全模糊数据挖掘验证了该方法的可行性。  相似文献   

10.
数据挖掘是近年来数据库领域中出现的一个新兴研究热点,数据挖掘是对数据库数据的统计分析。本文基于数据挖掘产生的背景、概念、以及数据挖掘的过程,论述了数据挖掘的常用模型和算法,介绍了数据挖掘在相关领域的应用,并且分析指出了数据挖掘领域的发展趋势。  相似文献   

11.
本文运用数据挖掘技术中的分类决策树算法和快速聚类算法,对某省会城市联通公司的3G业务数据进行深入分析,研究并实现-个准确、实用的3G客户识别和客户细分的模型.在对模型进行评估的基础上,为精确发展优质3G客户提供了-个具体参考,同时对3G的资费策略提出-些参考意见.  相似文献   

12.
本文针对模糊C均值聚类在大数据量时收敛较慢以及不能对多种数据结构有效聚类的缺点,结合PIM算法与核方法提出了一种新的高效聚类算法———KPIM算法,并从理论上证明了该算法的收敛性.最后利用标准实验数据IRIS数据集测试,结果表明KPIM算法在保证收敛速度的同时,聚类效果更有效.  相似文献   

13.
该文提出了一种针对中文专利文本的聚类方法.使用自组织特征映射算法获得初始的聚类中心,并以此作为K-means算法的初始输入,从而得到最终的聚类结果.这样的组合可以在提高聚类准确率的同时,降低运行时间.在聚类之前还对文本进行LSI降维操作,降低了特征向量的维数,使得SOM和K-means两个对维数敏感的算法可以更加有效和快捷.  相似文献   

14.
一般分布区间型符号数据的 K 均值聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
对于区间型符号数据聚类分析的研究,现有方法大多假设个体在区间内服从均匀分布,这往往并不符合实际情况. 针对此问题,研究一般分布的区间型符号数据 K 均值聚类方法,给出了一般分布区间型符号数据的定义,并基于经验分布理论研究其描述统计. 基于 Hausdorff距离,考虑区间数所包含个体的分布信息,提出了一种新的区间型符号数据距离度量.给出了一般分布的区间型符号数据 K 均值聚类算法.通过随机模拟试验对该方法进行了有效性评价,结论表明,在各种实验设计的条件下,考虑一般分布的 K 均值聚类算法有效性均优于均匀分布假设下的 K 均值聚类算法.最后将文中方法应用于汽车的聚类分析,进一步体现了文中方法在解决实际问题中的优势.  相似文献   

15.
基于空间聚类挖掘的城市应急救援机构选址研究   总被引:3,自引:0,他引:3  
以城市突发事件的应急管理为应用背景,研究使用空间聚类技术解决应急服务机构的选址问题.首先提出实施聚类分析的数据模型,然后改进既有空间聚类算法的基础上,提出了以.k-means聚类算法缩减解空间的搜索范围、以模拟退火算法为解搜索策略.基于GIS系统,充分考虑空间障碍物因素和空间环境因素等限制条件,提出(COD-MEANS-CLASA)的空间聚类算法以实现应急救援机构的科学选址.实验结果表明,提出的算法在执行效率和解质量两方面具有更好的表现.  相似文献   

16.
王卫平  杨杰 《管理科学》2005,18(4):54-57
采用蚁群智能的数据挖掘方法,根据客户对产品属性的偏好评分,对客户进行有效的分类.将客户偏好作为n维空间中的一个点,运用基于蚁群智能的聚类方法,根据预先设定的群体相似系数和拾起或放下概率进行聚类分析,在空间中采用递归算法,以获得不同偏好特征的客户群体模式.  相似文献   

17.
中国股票关联网络拓扑性质与聚类结构分析   总被引:4,自引:0,他引:4  
复杂网络理论是研究股票市场内在结构和功能的有力工具,股票关联网络的拓扑性质和聚类结构对于理解网络的形成机制、发生在网络上的动力学行为具有重要意义.以中国上证180指数和深证100指数成分股票为研究标的,运用最小生成树算法和平面最大过滤图算法构建相应的股票关联网络,分析网络的基本拓扑统计性质和聚类结构.实证研究表明,平面最大过滤图关联网络为小世界网络,各关联网络内股票的影响强度服从幂律分布,股票之间存在的异类匹配模式揭示了市场内股票价格波动传导的过程,对最小生成树关联网络和平面最大过滤图关联网络的宗派和派系聚类分析能有效地挖掘股票之间的聚类结构信息,总体上看平面最大过滤图算法优于最小生成树算法,且实证结论对沪深股票市场具有普适性.  相似文献   

18.
一种基于信息熵与K均值迭代模型的模糊聚类算法   总被引:1,自引:0,他引:1  
本文提出了基于信息熵和K均值算法混合迭代模糊聚类的细分模型,解决了模糊聚类的原型初始化参数问题。将信息熵和K均值算法引入模糊聚类中进行分析,并结合测试样本数据进行实际分析,与传统方法相比,取得了较好的效果。  相似文献   

19.
数据挖掘中的聚类技术在学生成绩分析中的应用   总被引:1,自引:0,他引:1  
本文针对在大类招生背景下北京科技大学经济管理学院2005级学生的考试成绩,应用数据挖掘技术分析分专业前学生成绩与专业及分专业后课程学习之间可能存在的潜在的联系.首先进行数据预处理以保证数据挖掘结果的质量和提高数据挖掘的效率;然后根据分专业前的课程成绩对学生进行聚类,并分析各类的成绩特征;最后以信息管理与信息系统专业为例,分析各类学生在分专业后的优势课程和较弱课程.  相似文献   

20.
提出了一类基于图论的新型聚类算法并将其应用于物流系统中的多设施选址问题。与其他聚类算法相比,该新型算法聚类效率更高且具有更小的聚类树,从而使得有意义的聚类结果更加清晰。比较算例验证了该算法应用于多设施选址问题的高效性和实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号