首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
LSA和MD5算法在垃圾邮件过滤系统的应用研究   总被引:1,自引:0,他引:1  
随着对垃圾邮件问题的普遍关注,针对目前邮件过滤方法中存在着的语义缺失现象和处理群发型垃圾邮件低效问题,提出一种基于潜在语义分析(LSA)和信息-摘要算法5(MD5)的垃圾邮件过滤模型。利用潜在语义分析标注垃圾邮件中潜在特征词,从而在过滤技术中引入语义分析;利用MD5在LSA分析基础上,对群发型垃圾邮件生成"邮件指纹",解决过滤技术在处理群发型垃圾邮件中低效的问题。结合该模型设计了一个垃圾邮件过滤系统。采用自选数据集对文中设计的系统进行测试评估,经与Nave Bayes算法过滤器进行比较,证明该方法在垃圾邮件过滤上优于Nave Bayes方法,实验结果达到了预期的效果,验证了该方法的可行性、优越性。  相似文献   

2.
特征选择在垃圾邮件过滤中起着十分重要的作用,本文分析讨论了现有邮件特征选择方法所存在的不足,并在此基础上,提出一种基于博弈论的邮件特征选择模型。该模型将博弈论应用于邮件特征选择中,以达到约减信息规模,提高垃圾邮件过滤效率的目的。在设计特征选择模型时,考虑到邮件样本自身的模糊隶属性对特征选择所产生的影响,在特征点对邮件类别的区分度定义中,通过引入由相融性度量定义的样本模糊隶属度函数,提高博弈邮件特征选择模型对实际问题的处理能力。在CDSCE语料库上的实验表明,该邮件特征选择模型的性能优于同类其他特征选择方法,验证了该邮件特征选择模型的有效性。  相似文献   

3.
提出一种包含核函数的Bayesian参数估计方法,提高了Bayesian参数估计的实用性。结合邮件内容和报文格式两个方面分析和提取邮件的重要特征,建立了对应的Bayesian邮件分类网络。将包含核函数的Bayesian参数估计方法应用到邮件分类网络,在对不同邮件测试集的在线学习试验结果证明,这种新的分类模型能够有效地实现垃圾邮件的分类过滤。  相似文献   

4.
贝叶斯邮件过滤器具有较强的分类能力,极高的准确率,在内容过滤领域占据主导地位。人工免疫系统具备强大的自学习、自适应,鲁棒性等能力,已发展成为计算智能研究的一个崭新的分支。该文在分析贝叶斯的原理和人工免疫的仿生机理的基础上,将贝叶斯与人工免疫相结合,设计和实现了一种基于贝叶斯和人工免疫的混合垃圾邮件过滤算法,并利用现有的垃圾邮件语料库得到预期的实验结果。  相似文献   

5.
首先阐述了文本分类的现状和定义,概述了文本分类的基本流程,然后对文本预处理过程中的分词和去停用词作了简要介绍。在简述文本表示的概念和常用模型之后,重点讨论了信息增益、文档频率、期望交叉熵、互信息和chi统计五种用于特征降维的特征选择方法,而后描述了Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)和决策树分类算法的基本指导思想,并从分类性能及其各自复杂度等方面分析比较了这几种算法的优缺点,最后评述了查全率、查准率和F-Measure三种常用的分类器性能评价指标。  相似文献   

6.
分别从服务器端和客户端对电子邮件的病毒防护技术进行了探讨,在垃圾邮件的防护技术方面,对实时黑名单技术和邮件过滤技术等进行探讨.  相似文献   

7.
提出了一种采用锐化滤波的多种特征相结合的JPEG盲检测算法。通过扩展DCT系数的马尔可夫矩阵提取块内相关性和块间相关性;引入锐化滤波来增强图像的边缘,加强了分块特性度量的效果;并使用Jessica的校准技术来估计原始图像,得到两个图像特征向量之差作为分类特征,提高了特征的敏感度;最后运用支持向量机进行训练和分类。使用大量图像对该算法的性能进行测试和比较,结果表明该算法在低嵌入率下优于其他算法。  相似文献   

8.
在分别分析了专家和消费者对垃圾邮件定义的基础上,从用户的角度对垃圾邮件的定义进行了实证研究,指出了点击率和消费者行为以及邮件特征之间的关系。  相似文献   

9.
介绍了指纹特征点的匹配原理,提出了一种改进的实时指纹特征点匹配算法,并对算法性能进行了实验研究.给出了错误匹配率(FMR)和错误不匹配率(FNMR)随阈值变化的情况及算法的ROC曲线.得到算法的等错误率(EER)为1.8%,最小FMR(zeroFNMR)为6.8%,平均匹配时间为0.1s.算法在指纹库FVC2004上的实验结果表明,算法性能较好,适合于实时指纹识别系统.  相似文献   

10.
为了对文本信息进行更加有效分类,研究文本信息的一种新型分类。在了解文本信息分类和讨论条件随机场(CRFs)和支持向量机(SVM)的基础上,结合CRFs对上下文依赖性的优点以及SVM对高维问题的特殊解决方法,分析了二者结合的方法,并将其中一种结合方法应用到文本信息分类中。通过实验对此方法进行了验证。实验结果表明:CRFs&SVM方法的查全率、查准率以及F1-测量的各平均值比SVM方法都有所提高,具有良好分类性能和更加准确的分类率。进一步证明CRFs&SVM方法适用于文本信息分类,具有良好的应用前景。  相似文献   

11.
在基于微阵列的癌症分类中,由于变量(基因表达)较多,而实验条件较少,因此特征选择和分类方法非常重要。对于疾病诊断,分类器的性能直接影响到最终结果的准确性。本文提出一种新的基因选择和分类方法,这种方法使用基于递归特征排除(RFE)的非线性核支持向量机(SVM)。实验表明本文方法比其它线性分类方法具有更好的整体表现,如线性核支持向量机和Fisher线性判别分析方法;同样本文方法也比一些非线性分类方法更好,如采用非线性核的最小二乘支持向量机(LS-SVM)。实验除了使用测试集,还使用留一校验算法(leave-one-out)用于测试分类器的泛化性能。实验采用可通过互联网获得的AML/ALL数据集和遗传性乳腺癌数据集。  相似文献   

12.
针对分类问题提出了一种特征选择的新算法.算法在初始化时首先任意产生几个特征集,然后被迭代多次执行,在每一次迭代过程中,用性能评估函数对所有的特征集进行评价,按照评价结果选取当前性能最优的特征集,其它所有的特征集朝着类似当前最优特征集的方向发生变化,直至完成预定的次数为止.  相似文献   

13.
乳腺微钙化点包含众多属性,由于其中存在的冗余和不相关属性降低了微钙化点病变类型判别的性能。因此,特征子集选择问题成为微钙化点病变类型识别中的重要问题。该文针对传统优化方法用于特征选择的种种缺陷,提出了基于遗传算法的特征子集选择测算法。经乳腺微钙化点特征选择实例分析,证明该方法拥有较强的并行性和寻优能力,在特征选择领域有广阔的应用前景。  相似文献   

14.
遗传算法在入侵检测中的应用   总被引:4,自引:0,他引:4  
介绍了基于模型推理和基于模型两种入侵检测系统,提出了一种新的基于智能体技术的入侵检测系统体系结构,解决了传统集中式入侵检测系统的弊病,将任务处理和数据分布到网络各个结点上,充分利用网络资源协同完成入侵检测任务;介绍了遗传算法在该系统中的应用,因系统安全的先验知识体现在对原始数据中有价值特征属性变量集的选择上,故利用遗传算法对特征属性变量子集的选择进行优化,找到相对最优的由特征向量表示的特征属性变量集,以降低入侵检测系统的负荷。  相似文献   

15.
针对有监督特征选择方法因为需要类信息而无法应用于文本聚类的问题,提出了一种新的无监督特征选择方法:结合文档频和K-Means的特征选择方法。该方法首先使用文档频进行无监督特征初选,然后再通过在不同K-Means聚类结果上使用有监督特征选择方法来实现无监督特征选择。实验表明该方法不仅能够成功地选择出最为重要的—小部分特征,而且还能提高聚类质量。  相似文献   

16.
提出智能优化支持向量机算法来提高模型的预测能力和泛化能力。该算法针对支持向量机噪声敏感问题采用小波方法对数据集去噪;利用核主成分分析方法提取数据特征;采用量子粒子群算法优化支持向量机超参数。将该优化算法应用于锅炉负荷短期预测,实验结果表明,该优化算法预测精度较高,收敛速度较快,泛化性能优于其他预测方法,且工程实现容易。  相似文献   

17.
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号