基于WEKA平台的文本聚类研究与实现 The Research and Implementation of Text Clustering Based on WEKA期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于WEKA平台的文本聚类研究与实现

引用本文：	陈嘉勇.基于WEKA平台的文本聚类研究与实现[J].中国管理信息化,2009(21).

作者姓名：	陈嘉勇

作者单位：	北京科技大学,经济管理学院,中国,北京,100083

摘要：	文本聚类是文本挖掘领域的一个重要研究分支.是聚类方法在文本处理领域的应用.本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结.另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标.在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案.
关键词：	文本挖掘文本聚类向量空间模型
The Research and Implementation of Text Clustering Based on WEKA

Abstract:

Keywords:	WEKA
本文献已被万方数据等数据库收录！