基于WEKA平台的文本聚类研究与实现 |
| |
引用本文: | 陈嘉勇.基于WEKA平台的文本聚类研究与实现[J].中国管理信息化,2009(21). |
| |
作者姓名: | 陈嘉勇 |
| |
作者单位: | 北京科技大学,经济管理学院,中国,北京,100083 |
| |
摘 要: | 文本聚类是文本挖掘领域的一个重要研究分支.是聚类方法在文本处理领域的应用.本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结.另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标.在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案.
|
关 键 词: | 文本挖掘 文本聚类 向量空间模型 |
The Research and Implementation of Text Clustering Based on WEKA |
| |
Abstract: | |
| |
Keywords: | WEKA |
本文献已被 万方数据 等数据库收录! |
|