首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
将EM算法引入到朴素贝叶斯分类研究中,提出一种基于EM的朴素贝叶斯分类算法。首先用未缺失的数据属性的算术均数作为初始值,求得极大似然估计;其次迭代执行算法的E步和M步直至收敛,然后完成缺失数据的填补;最后根据朴素贝叶斯分类算法对数据进行分类。实验结果表明,与朴素贝叶斯分类算法相比,基于EM的朴素贝叶斯分类算法具有较高的分类准确率。  相似文献   

2.
网络入侵检测是通过分析网络流量行为来识别网络中恶意活动的过程,针对网络入侵检测面临的海量数据入侵检测的挑战,提出了一种新的基于KDD CUP 99数据集的特征选择算法,将基于滤波器和包装器的方法相结合,选择合适的特征进行网络检测入侵。首先,基于训练数据的一般特征对特征进行评价,不依赖于任何挖掘算法;然后,采用互信息萤火虫算法(MIFA)作为基于包装器的特征选择策略进行特征提取,进一步基于C4. 5分类器和基于贝叶斯网络(BN)的分类器,结合KDD CUP 99数据集对得到的特征进行分类;最后,将提出的方法与已有的工作进行比较。实验结果表明:10个特征足够检测入侵,并提高了检测精度和假阳性率。  相似文献   

3.
随着互联网用户的增加,由其产生的文本数据也在爆炸式增长,如何有效地对这些海量数据进行分类管理并提高分类精度,成为自然语言处理中的热门研究课题.使用LightGBM算法作为文本分类模型,对最大深度和叶子节点数量等参数进行调优,从而提高算法的性能.针对NLPCC 2014数据集进行实验,对比NLPCC 2014会议结果报告,本文使用调优后的LightGBM算法在精确率、召回率和F1值都有较好的结果.  相似文献   

4.
首先阐述了文本分类的现状和定义,概述了文本分类的基本流程,然后对文本预处理过程中的分词和去停用词作了简要介绍。在简述文本表示的概念和常用模型之后,重点讨论了信息增益、文档频率、期望交叉熵、互信息和chi统计五种用于特征降维的特征选择方法,而后描述了Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)和决策树分类算法的基本指导思想,并从分类性能及其各自复杂度等方面分析比较了这几种算法的优缺点,最后评述了查全率、查准率和F-Measure三种常用的分类器性能评价指标。  相似文献   

5.
作为开放网络的组成部分,校园网络的安全是不可忽视的.入侵检测属于动态安全技术,它能够主动检测网络的易受攻击点.相对于传统的入侵检测技术来说,采用模式识别的入侵检测具有检测准确度高以及能识别大量新型攻击的优点.利用相似度对网络连接数据的属性特征进行选择,抽取其关键特征,以优化朴素贝叶斯的分类性能.利用VC6.0,设计实现入侵检测的原型系统,经测试,该系统性能良好.  相似文献   

6.
分类是数据挖掘的重要内容之一,其中决策树分类法在海量数据环境中应用最为广泛,本文论述了决策树分类法ID3算法中的信息熵及其增益原理,并总结了ID3算法引进信息理论后的优点。  相似文献   

7.
针对监理工程中文本文档在管理过程中存在的一些困难,提出一种适用于监理工程的文本分类方法,旨在提高管理效率,简化工作方式。该方法在进行中文分词处理时,使用通用词典与手动构造的监理工程专业词典相结合的方式。对于特征提取,在使用TFIDF的基础上,结合一定的规则来调整特征权重,并采用朴素贝叶斯分类算法来构造分类器。实验结果表明:该方法在对监理通知单分类问题上能满足实质性的应用需求。  相似文献   

8.
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。  相似文献   

9.
随着当前计算机与移动互联网中数据的增长,在海量的网络招聘数据中如何有效挖掘可用信息成为当前教育和社会供需发展的技术瓶颈。为突破该技术瓶颈,提出了一种模糊启发式的KNN文本分类算法:基于ABC(artificial bee colony)的启发式搜索方法,以此来调整特征的权重,并利用模糊距离度量方法以测量测试观察和训练观察之间的相似性。先将招聘信息分词,利用TF-IDF(term frequency-inverse document frequency)算法与AP(affinity propagation)聚类算法进行特征选择和噪声数据剔除,最后采用结合启发式搜索和模糊距离度量的KNN算法对文本信息分类。通过实验结果发现:该方法有效地解决了传统KNN算法在人才需求文本分类方法中稳定性差和分类精度低的问题。  相似文献   

10.
建立统计直方图模型,通过对正检率及漏检率的统计分析,确认算法中所需的先验知识及先验概率公式,最终实现了贝叶斯分类模型.  相似文献   

11.
提出运用Kmeans聚类算法和CBR案例推理方法对高校学生就业趋向进行预测。针对采集的高校就业信息的高维海量数据,首先使用Kmeans聚类方法将已就业数据划分成不同的就业类别,从而极大地减少了特征分析工作量。对未就业数据进行预测时,先计算跟每一聚类中心的距离值,从而得到其合适的分类,再在每一类中进行CBR推理,最后得出对其的预测分类结果。实验结果表明,提出的算法预测结果较为精确,为高校就业指导提供了帮助。  相似文献   

12.
贝叶斯邮件过滤器具有较强的分类能力,极高的准确率,在内容过滤领域占据主导地位。人工免疫系统具备强大的自学习、自适应,鲁棒性等能力,已发展成为计算智能研究的一个崭新的分支。该文在分析贝叶斯的原理和人工免疫的仿生机理的基础上,将贝叶斯与人工免疫相结合,设计和实现了一种基于贝叶斯和人工免疫的混合垃圾邮件过滤算法,并利用现有的垃圾邮件语料库得到预期的实验结果。  相似文献   

13.
作为K-means算法的优化算法,Mini Batch K-means算法在遥感影像分类中的应用较少.分别利用Mini Batch K-means算法与K-means算法对10个不同幅度的EVI遥感影像数据进行分类.对比两种分类算法的精度和时间复杂度发现,相比于K-means算法,Mini Batch K-means虽然损失了小部分的精度,但却极大提高了分类效率,更适用于大数据量的遥感影像分类.  相似文献   

14.
文本分类是目前众多大数据应用的核心问题.本文将Batch SVM增量算法与Bagging算法相结合,提出了一种增量文本分类算法.在云计算分布式处理框架Storm基础上整合所提出的算法,构建了一套高效的基于Storm云平台的在线增量文本分类机制,在真实数据集上构建的实验验证了所提机制的准确性和效率,在保证准确度达到90%的前提下,所提机制的处理时延较现有算法降低50%以上,可以有效实现在线文本分类问题.  相似文献   

15.
TAN是一种非常有效的贝叶斯网分类器,但其不足之处是缺少根据实际问题放宽假设限制条件的能力.首先提出了增强属性的概念,通过有差别地处理属性变量实现对TAN分类器的扩展,从而得到了增强的TAN分类器(ATAN).其次,引入数据挖掘工具Weka中更一般化的TAN学习算法,并在此基础上实现了ATAN学习算法.利用Weka实验平台进行的大量测试表明,对于大多数分类问题,ATAN的确能够在不增加时间复杂度的前提下得到相对于TAN更高的分类准确率.  相似文献   

16.
针对拒绝服务攻击的特点,提出了一种采用数据挖掘技术的防御模型。该模型以实时抽样流量作为数据来源,采用关联分析法提取可信IP列表用于数据包的过滤,并利用贝叶斯分类算法对数据包的危险等级进行评估。该模型弥补了传统的基于可信IP列表过滤的不足,并在防御攻击时能有效区分正常流量与异常流量。实验证明该模型能够对拒绝服务攻击进行有效、实时的防御。  相似文献   

17.
随着海量数据不断涌入,SVM隐私泄露问题日益严重。在分析已有隐私保护支持向量机基础上,提出一种面向大规模数据的隐私保护学习机(PPLM)。该方法首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法平面作为最优分类面。通过对标准数据集和人工数据集的实验表明,PPLM可有效地解决大规模样本分类问题,且分类效果良好。  相似文献   

18.
针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经网络作为分类器并使用ELM算法来训练分类器,有效地平衡模型性能和学习效率。同时分别针对不同的特征训练分类器,集成不同分类器的输出得到最后的分类结果,有效提高了平衡分类精度,并在电网档案管理系统的档案归类任务中对该模型进行应用评估。实验结果表明,该模型不仅有较高的分类精度,而且在训练和测试两个阶段模型的计算都具有较低的代价。所提方法适用于海量数据下的中文文本分类场景,具有重要的研究意义和推广价值。  相似文献   

19.
本文主要通过改进的TF-IDF算法和多元词组动态构建来选择特征关键词,并利用CluStream数据流聚类方法,实现文本主题的动态发现.实验表明,该方法可以较好地发现海量文本信息中不断变化的主题信息,从而达到推荐关联主题、动态监测舆情等目的.  相似文献   

20.
为了提高分类器的正确率和减少训练时间,将特征提取技术与分类算法结合,提出了一种基于核Fisher鉴别分析和最小极大概率机算法的入侵检测算法。利用核Fisher鉴别分析技术提取关键特征,运用最小极大概率机对提取特征后的数据进行分类,采用离线数据集KDDCUP99进行实验。实验结果表明,该算法是可行和有效的,使分类性能和训练时间都得到了提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号