首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 925 毫秒
1.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

2.
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

3.
我国西部省(区)旅游资源组合态势及其开发对策   总被引:3,自引:0,他引:3  
在西部旅游省(区)旅游发展研究概况基础上,进行西部旅游资源丰富index度与离散度组合研究。以西部省(区)高级别旅游资源为基础,计算12省(区)旅游资源丰富度的总得分并按丰富度进行排序;计算离散度得出旅游资源类型丰富性呈现从贵州、西藏到四川、内蒙古逐渐递减趋势。在笛卡儿坐标系中构建其资源组合态势图,运用距离法进行聚类,得到其聚类谱系。最后针对12个西部省(区)进行登录,发现其呈现四种类型,根据对旅游资源的分析给出了四种不同模式的旅游开发对策。  相似文献   

4.
聚类相似的运动轨迹,获取对象主要运动特征是轨迹路径聚类的目标之一。本文针对轨迹路径数据量大、传统整体轨迹聚类算法效率低等问题,提出了一种基于时序的层次轨迹聚类算法(hierarchical trajectory clustering algorithm based on time series,HTCTS)。算法首先将完整的轨迹数据按一定的时间间隔进行分割,然后对分割的子路径分别聚类,最后在对聚类子集进行二次聚类,生成最终的聚类结果。实验结果表明:HTCTS算法在聚类效率和聚类质量上高于整体轨迹聚类算法。  相似文献   

5.
聚类效果往往依赖于密度和相似度的定义,并且当数据的维增加时,其复杂度也随之增加。该文基于共享型最近邻居聚类算法SNN,提出了一种改进的共享型最近邻居聚类算法RSNN,并将RSNN应用于高速公路交通数据集上,解决了SNN算法在“去噪”、孤立点和代表点的判断、聚类效果等方面的不足之处。实验结果表明,RSNN算法比SNN算法在时空数据集上具有更好的聚类效果。  相似文献   

6.
经典的k-medoids聚类方法的聚类效果依赖于初始类中心的选择,而已有类中心选择方法不能确保类中心属于不同的类。针对此问题提出了密度峰值Kennard-Stone(Density peak Kennard-Stone,DPKS)类中心初始化方法,即先从原始数据集中选择一些高密度样本,再借助Kennard-Stone(KS)抽样从这些样本中选择距离较远的样本,这样确定的初始类中心不可能是离群点,而且更有可能属于不同的类。实验结果表明,DPKS比已有类中心选取法更容易获得不同类别的初始类中心。虽然DPC(Density peak clustering)和DPNM(Density peak optimized with new measure)与DPKS方法的聚类精度相差不大,但本文方法的聚类时间小于前两种方法,是一种快速有效的聚类方法。  相似文献   

7.
聚类算法在对图像进行分割的过程中要面对如何自动确定聚类类别数、如何克服图像特征点分布复杂的流形结构、如何减少算法的运行时间。针对这些问题,提出了流形距离的自动免疫克隆聚类图像分割算法。自动免疫克隆聚类算法可以自动确定聚类个数,不需要人为事先给定,并且确保全局收敛;使用流形距离可以反映空间分布复杂的流形数据;使用超像素而非像素来降低图像分割的时间等问题。通过对4组人工数据集和4幅自然图像进行实验,对比k-means算法、GCUK算法,结果表明该方法优势比较明显,具有一定的实用性和先进性。  相似文献   

8.
针对分水岭分割算法存在的过分割及对噪声敏感问题,提出一种基于K-means聚类算法与改进分水岭算法结合的图像分割算法,首先,利用K-means聚类算法进行初始聚类分割,提取感兴趣的目标;然后,提出基于4-邻域相似度的改进分水岭算法,对K-means初始聚类图像应用改进分水岭算法分割目标区域。从100幅人骨医学图像提取人骨区域,实验结果表明所提出算法可解决分水岭算法的过分割问题,且有效分割了图像目标。  相似文献   

9.
针对层次聚类方法中的凝聚型层次聚类算法每次只合并两个类,迭代次数高、时间复杂度高的缺陷,提出了两种改进的算法:k近邻层次聚类和距离阈值层次聚类。然后对两种算法分别使用3组数据进行实验验证,结果表明两种算法均可以减少凝聚型层次聚类算法的迭代次数、降低时间复杂度;k近邻层次聚类需要输入的人为参数多,使得聚类结果的可靠性降低,距离阈值层次聚类的人为输入参数少,聚类结果的可靠性相对高,且聚类速度快。  相似文献   

10.
聚类失真问题   总被引:1,自引:0,他引:1  
李洪兴教授提出模糊关系方程的摄动理论,并基于摄动模糊聚类方法,回答了"如何寻找按某种 距离与已知的模糊相似矩阵最接近的模糊等价矩阵"的问题。本文从另一角度回答这个问题。  相似文献   

11.
在简要介绍篇章的向量空间模型表示的基础上,讨论了基于段间相似度和关系图进行篇章分析的方法,包括:结构分析,主题分析和聚类,浏览与跳段阅读,最后讨论所存在的主要问题及进一步改进的意见.  相似文献   

12.
随着当前计算机与移动互联网中数据的增长,在海量的网络招聘数据中如何有效挖掘可用信息成为当前教育和社会供需发展的技术瓶颈。为突破该技术瓶颈,提出了一种模糊启发式的KNN文本分类算法:基于ABC(artificial bee colony)的启发式搜索方法,以此来调整特征的权重,并利用模糊距离度量方法以测量测试观察和训练观察之间的相似性。先将招聘信息分词,利用TF-IDF(term frequency-inverse document frequency)算法与AP(affinity propagation)聚类算法进行特征选择和噪声数据剔除,最后采用结合启发式搜索和模糊距离度量的KNN算法对文本信息分类。通过实验结果发现:该方法有效地解决了传统KNN算法在人才需求文本分类方法中稳定性差和分类精度低的问题。  相似文献   

13.
商业银行综合评价与分类   总被引:4,自引:0,他引:4  
基于商业银行传统的加权综合评价方法存在权数确定不科学的缺陷,确定了商业银行综合评价指标的选择依据并构建了商业银行综合评价指标体系,指标包括资产收益率、贷款收益率、资产损失率、不良贷款率、非生息资产率、存款付息率、费用利润率、利息实收率.把考核指标转化为正指标后,按主分量分析进行综合评价,用方差极大化进行正交旋转,提取特征根大于1的公共因子作为综合评价指标.选择平方欧氏距离作为样本相似性测度,用类间平均法作为聚类算法,按系统聚类法进行聚类分析,得到分类谱系图后,再恰当分类.并就综合评价结论与实际考核结果做了实证比较.  相似文献   

14.
提出了一种新的层次聚类算法,先对数据集进行采样,以采样点为中心吸收邻域内的数据点形成子簇,再根据子簇是否相交实现层次聚类。在层次聚类过程中,重新定义了簇与簇之间的距离度量,并以此为基础建立堆结构。利用估计数据点总体分布的思想,证明该算法将逼近最优解。实验结果表明,算法的聚类效果大大优于现有的聚类算法。  相似文献   

15.
由于岩石类准脆性材料存在特征长度,其尺度效应不再符合Weibull尺度效应统计理论.具有非均匀性的岩石类准脆性材料,一方面特征长度破坏了几何相似,另一方面其破坏前的能量释放是与均匀材料构件完全不同的.本文运用RFPA2D软件研究了由于具有特征长度的材料本身的非均匀性引起的尺度效应以及能量释放规律.同时,对河北省井陉地区石灰岩进行了单轴压缩试验,结果与数值模拟取得了很好的一致性.研究认为(1)对于无宏观裂纹、均质度为2的岩石材料结构,临界尺度随材料特征长度的增大而增大.在临界尺度范嗣内,材料单轴抗压强度随尺度的增加呈幂函数减小;(2)对于无宏观裂纹、均质度为100的岩石材料结构,不同特征长度的材料临界尺度几乎相同,均为100mm;(3)岩样声发射能量随尺度的增加而增加,是解释准确性脆性材料尺度效应的重要研究思路.  相似文献   

16.
为了确定与全年高速公路交通流量相似度最高的样本区间,为交通流量分析提供可靠的样本选择方案,以国内某省一年高速公路货车收费流水数据库的数据为对象,建立基于时间、空间、轴型三个维度的相似评价指标体系.采用欧氏距离、平面向量夹角公式以及熵权法来计算各样本与全年数据之间的离散度.结果表明:单一考虑某个维度时,结果有差异,无法代表整体特征;在相似评价体系下,离散度最低的样本分别是三月、第十八周和周一.  相似文献   

17.
针对K-medoids(K为中心点)聚类算法对初始聚类中心敏感、聚类结果依赖于初始聚类中心的缺陷,提出一种新的半径自适应的初始中心点选择算法。该算法在每次迭代过程中都重新根据剩余样本点的分布特征计算半径,从而实现动态计算相应样本点的局部方差和领域半径,选取较优的初始聚类中心点,实现良好的聚类效果。采用不同规模的UCI数据集和不同比例随机点的模拟数据集进行测试,利用5个通用的聚类评价指标对性能进行评价。结果表明:本算法性能较同类算法有明显提高。  相似文献   

18.
基于商业银行传统的加权综合评价方法存在权数确定不科学的缺陷 ,确定了商业银行综合评价指标的选择依据并构建了商业银行综合评价指标体系 ,指标包括 :资产收益率、贷款收益率、资产损失率、不良贷款率、非生息资产率、存款付息率、费用利润率、利息实收率。把考核指标转化为正指标后 ,按主分量分析进行综合评价 ,用方差极大化进行正交旋转 ,提取特征根大于 1的公共因子作为综合评价指标。选择平方欧氏距离作为样本相似性测度 ,用类间平均法作为聚类算法 ,按系统聚类法进行聚类分析 ,得到分类谱系图后 ,再恰当分类。并就综合评价结论与实际考核结果做了实证比较。  相似文献   

19.
传统K-means算法初始聚类中心的选择具有随机性且对离群点敏感,导致聚类结果不稳定、准确率低等问题。针对上述问题,提出基于邻域密度的NDK-means算法。首先,通过多维网格划分得到样本的网格分布特性;然后,通过定义网格密度和网格邻域密度,确定多个局部高密度网格,同时引入迭代因子合并相邻高密度网格中心得到初始聚类中心候选集;最后,结合网格密度和距离,利用最大最小距离算法得到K个初始聚类中心。在UCI数据集上进行实验,实验结果表明:相对于其他局部邻域算法,新算法提高了聚类结果的准确率,具有较好的稳定性。  相似文献   

20.
比喻的相似性及相似度   总被引:1,自引:0,他引:1  
本文肯定了比喻存在相似性,首次提出了比喻的相似度这一概念,并按照相似度的高低,将比喻分为形似的比喻和神似的比喻两类。两类比喻虽有不同的特点,但没有优劣之分。文章认为,相似度的把握是比喻制作的关键,比喻的运用要根据题旨情境的需要进行选择。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号