首页 | 本学科首页   官方微博 | 高级检索  
     检索      

利用单词超团的二分图文本聚类算法
引用本文:朱君,曲超,汤庸.利用单词超团的二分图文本聚类算法[J].电子科技大学学报(社会科学版),2008(3).
作者姓名:朱君  曲超  汤庸
作者单位:东莞理工学院计算机科学与技术系;中山大学计算机科学系 广东东莞523000中山大学计算机科学系广州;广东东莞;
基金项目:国家自然科学基金(60673135;60373081;60736020)
摘    要:鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。

关 键 词:二分图划分  文本聚类  单词超团  

Clustering Algorithm of Bipartite Graph Partition Based on Word Hyperclique
ZHU Jun ,QU Chao, TANG Yong.Clustering Algorithm of Bipartite Graph Partition Based on Word Hyperclique[J].Journal of University of Electronic Science and Technology of China(Social Sciences Edition),2008(3).
Authors:ZHU Jun    QU Chao    TANG Yong
Institution:ZHU Jun 1,2,QU Chao1,, TANG Yong 2 (1. Department of Computer Science,DongGuan University of Technology Dongguan Guangdong 523000,2. Department of Computer Science,Sun Yat-sen University Guangzhou 510275)
Abstract:This paper proposes a new algorithm for document-word co-clustering. After mining semantics with word hyperclique patterns, the document dataset with a bipartite graph is described. Then, the efficient graph partitioning algorithm is employed to partition this graph, so that the high computational overhead of traditional clustering algorithms over huge document datasests can be avoided. During clustering, word hyperclique patterns that are full of document semantics are preserved. In this way, our algorithm...
Keywords:bipartite partition  documents clustering  word hyperclique  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号