一种基于MapReduce的贝叶斯海量文本并行分类算法 |
| |
作者姓名: | 陆海锋 张志华 陈航 谢嵘 |
| |
作者单位: | 肇庆学院教育技术与计算机中心;肇庆学院软件学院;华南理工大学计算机科学与工程学院 |
| |
基金项目: | 广东省科学技术研究基金资助项目(2009B0807010012012B061700063) |
| |
摘 要: | 面对海量数据带来的冲击,传统的单机版贝叶斯分类程序存在处理的数据集有限、内存瓶颈和耗时较长等问题.本文通过对朴素贝叶斯模型进行研究,设计并实现了一种基于Map Reduce的朴素贝叶斯文本分类算法.实验表明,该算法具有较好的扩展性和加速比,可适用于海量密集文本分类.
|
关 键 词: | 文本分类 MapReduce 贝叶斯算法 海量数据处理 |
本文献已被 CNKI 等数据库收录! |
|