首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。  相似文献   

2.
针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经网络作为分类器并使用ELM算法来训练分类器,有效地平衡模型性能和学习效率。同时分别针对不同的特征训练分类器,集成不同分类器的输出得到最后的分类结果,有效提高了平衡分类精度,并在电网档案管理系统的档案归类任务中对该模型进行应用评估。实验结果表明,该模型不仅有较高的分类精度,而且在训练和测试两个阶段模型的计算都具有较低的代价。所提方法适用于海量数据下的中文文本分类场景,具有重要的研究意义和推广价值。  相似文献   

3.
为解决智能监控领域中存在的基于人脸图像的性别识别准确率不高的问题,本研究构建了DCT-FSR-CNN模型。该模型以相邻两帧面部图像作为超分辨率的双输入,通过离散余弦变换和局部超分辨率技术对图像进行融合处理以提高图像整体分辨率;对Alexnet网络进行优化改进,通过融合网络中间层进行特征值优化以提高分类器的准确率。同时,将该模型与其他4种性别识别模型进行实验对比,在现实的模糊面部图像数据集上的实验结果准确率和运行速度均有明显提升,证明了该模型的应用性和有效性。  相似文献   

4.
为了提高分类器的正确率和减少训练时间,将特征提取技术与分类算法结合,提出了一种基于核Fisher鉴别分析和最小极大概率机算法的入侵检测算法。利用核Fisher鉴别分析技术提取关键特征,运用最小极大概率机对提取特征后的数据进行分类,采用离线数据集KDDCUP99进行实验。实验结果表明,该算法是可行和有效的,使分类性能和训练时间都得到了提高。  相似文献   

5.
针对核空间中大数据集的计算代价高问题,提出用NSVM方法减少分类器的训练数据。先用NSVM、核主成分分析(KPCA)和贪婪KPCA分别从全部训练数据中提取训练分类器的子集;再用子集训练分类器,并用训练和测试数据的错分率对分类结果进行评价。在两个数据集和两种分类器中,用KPCA提取的子集训练的分类器的分类性能弱于NSVM和贪婪KPCA,但用贪婪KPCA提取的子集训练的分类器的泛化能力弱于NSVM。仿真结果表明,用NSVM方法提取的子集训练的分类器,不仅保证了分类器的泛化能力,也降低了分类算法的计算复杂度。  相似文献   

6.
为提高船舶分类识别的精度,提出一种卷积神经网络(CNN)与极限学习机(ELM)相结合的分类识别方法。该方法采用8层AlexNet的卷积神经网络对船舶训练图片进行监督训练,并把AlexNet网络的第一个全连接层的输出作为特征训练样本完成对ELM的监督训练。对比实验结果表明:本文方法对船舶分类识别平均准确率为94%。  相似文献   

7.
在分类任务中,传统的模糊最小最大神经网络及其变体在训练网络的时候没有考虑超盒内部训练数据的分布情况,并且考虑扩展系数的问题也不是很充分,导致每次训练新数据集都要重新选择最优的扩展系数。因此,提出了一种带质心的K最近邻增强模糊最小最大神经网络的集成方法。在该方法中,一方面,每个超盒都带有质心,用来描述之前训练的样本在该超盒的大体分布情况,并且在扩展规则及收缩方面考虑了样本距离超盒质心的因素;另一方面,使用5个带质心的K最近邻增强模糊最小最大神经网络作为弱分类器,每个分类器设置不同的扩展系数,当该方法训练完后,将得出的离散属性值作为随机森林的训练集,最后,使用测试样本验证网络的分类性能。实验结果表明:提出的方法在准确率、精准率、召回率以及F-score等方面大部分的结果高于传统的FMMN及其变体的结果,该方法有效地克服了FMMN的准确性过于依赖扩展系数的问题。  相似文献   

8.
提出一种融合卡方统计和TF-IWF算法的短文本分类方法,通过卡方统计对训练数据集提取特征词,由TF-IWF算法赋予特征词权重,使用SVM分类器进行分类。实验结果表明:融合卡方统计和TF-IWF方法在文本分类准确率上提升3.1%,召回率提升5.2%,F1值提升3.7%。该方法扩大了特征词权重值的范围,使文本集的权值方差增大,一定程度上解决了短文本内容稀疏性的问题,从而提高短文本分类的性能。  相似文献   

9.
介绍了一种自适应逼近数据实质维的GHA神经网络学习算法。基于主元子空间分解的思想,给出了基于该算法的分类器刻画方法,对其中的刻画参数给出了详细的界定。该分类器采用监督学习机制进行训练,可以自动学习输入的主元特征子空间维数。在入侵检测领域,利用KDD CUP 1999数据集对该方法进行了仿真。采用正常连接数据训练GHA异常检测分类器,利用拒绝服务攻击数据进行了误用检测训练。并将测试结果与其他入侵检测方法进行了比较。  相似文献   

10.
依据AdaBoost思想对BP神经网络、线性判别式以及支撑向量机三种传统分类器进行强化训练形成强分类器。在传统训练的基础上,根据分类器的映射特点选择相应的预处理方法和权值分布函数,降低分类器对数据特点的依赖性,提高AdaBoost的训练效果。对基于左右手运动想象的实际脑电数据进行模式分类,发现采用该思想训练的强分类器能不同程度地提高分类效果。该算法具有一定的推广意义,也证实了AdaBoost算法在脑机接口技术开发中的应用潜力。  相似文献   

11.
在实际应用中,少数类样本往往包含重要信息,而传统机器学习方法通常对少数类样本的分类准确率低,且误分类代价较高。针对不平衡文本数据的情感分类问题,以三支采样(three-way sampling, 3WS)与过采样为基础,提出了三支过采样算法(three-way SMOTE,3WOS)和三支边缘过采样算法(three-way borderline-SMOTE,3WOBS),3WOS能够更好地识别边界区域上的数据,3WOBS可以增强边界区域所蕴含的信息。首先,将文本数据构建为超球,获得超球边缘的支持向量。其次,3WOS对边缘上的支持向量直接进行过采样以生成合成新样本并更新样本集,3WOBS则在生成合成新样本后根据给定条件判断是否获得该新样本并更新样本集。最后,将更新的样本集放在不同的基分类器上进行对比实验。实验采用了3个不平衡数据集,并保证了不同的不平衡比。同时,在数据集训练过程中引入粒计算思想,确保模型的鲁棒性。实验结果表明,3WOS-ITSC与3WOBS-ITSC准确率较高且代价低于其他模型,为不平衡文本分类问题提供了新思路。  相似文献   

12.
将相关向量机(RVM)分类模型应用于网络流量分类问题中。首先对实验数据进行了标准化处理,然后将RVM与其他机器学习算法进行了性能比较,最后在RVM分类结果预测概率中引入置疑区间概念,研究了置疑区间范围及其对分类准确性的影响,并基于此提出了一种新的混合流量分类方法。实验结果表明:1)RVM在准确性等3方面性能指标上优于SVM,且在小样本情况下仍具有较高的分类准确率;2)置疑区间[0.1,0.9]内的分类预测准确率较低,而置疑区间之外的分类预测准确率在98%以上。  相似文献   

13.
在基于微阵列的癌症分类中,由于变量(基因表达)较多,而实验条件较少,因此特征选择和分类方法非常重要。对于疾病诊断,分类器的性能直接影响到最终结果的准确性。本文提出一种新的基因选择和分类方法,这种方法使用基于递归特征排除(RFE)的非线性核支持向量机(SVM)。实验表明本文方法比其它线性分类方法具有更好的整体表现,如线性核支持向量机和Fisher线性判别分析方法;同样本文方法也比一些非线性分类方法更好,如采用非线性核的最小二乘支持向量机(LS-SVM)。实验除了使用测试集,还使用留一校验算法(leave-one-out)用于测试分类器的泛化性能。实验采用可通过互联网获得的AML/ALL数据集和遗传性乳腺癌数据集。  相似文献   

14.
本文提出了一个新的指纹分类算法.算法将指纹分成五类:拱,左环,右环,旋涡,尖拱.首先对指纹进行预处理以增强图像,然后在没有任何先验知识的情况下,采用基于遗传程序设计的方法从原始的数据集中产生新的特征,最后通过BP网络和SVM分类器对指纹进行分类.这种方法能够明显提高分类的计算效率和准确率.实验结果显示本算法用在FVC2004数据库中,在没有任何拒识的情况下对5种指纹的分类准确率达到了93.6%.  相似文献   

15.
为了解决单个SVM可能产生的泛化能力恶化问题以及当SVM采用一对多组合策略解决多类分类时可能产生的误差无界情况,本文采用Bagging方法构造了一个基于SVM的多类分类集成模型,利用MIT KDD 99数据集进行仿真实验,通过实验探讨了其中的两个参数——训练样本数和单分类器个数对集成学习效果的影响,并将其与采用全部样本进行训练及部分样本进行训练的单分类器检测进行了比较。结果表明:集成学习算法能够有效降低采用全部样本进行训练所带来的计算复杂性,提高检测精度,而且也能够避免基于采样学习带来检测的不稳定性和低精度。  相似文献   

16.
TAN是一种非常有效的贝叶斯网分类器,但其不足之处是缺少根据实际问题放宽假设限制条件的能力.首先提出了增强属性的概念,通过有差别地处理属性变量实现对TAN分类器的扩展,从而得到了增强的TAN分类器(ATAN).其次,引入数据挖掘工具Weka中更一般化的TAN学习算法,并在此基础上实现了ATAN学习算法.利用Weka实验平台进行的大量测试表明,对于大多数分类问题,ATAN的确能够在不增加时间复杂度的前提下得到相对于TAN更高的分类准确率.  相似文献   

17.
人脸检测是人脸识别的一项重要任务.论文提出了一种基于Gabor滤波特征和一类分类器的正面人脸检测方法.算法首先利用了Gabor滤波器的良好的空间位置与方向的选择特性,采用了四种方向的Gabor滤波器提取人脸样本图像特征并用PCA方法对特征降维,然后用已降维的特征训练支持向量机分类器.最后应用一类分类器分类检测人脸.实验结果证明该方法是十分有效.  相似文献   

18.
提出一种基于HOG特征和滑动框搜索的地面油气管道检测方法,能快速、高效、准确地检测高分辨率无人机巡线图像中的地面油气管道。该方法首先提取管道与非管道图像样本的HOG特征,由所得特征作为样本数据训练油气管道检测分类器。将训练好的分类器用在整张无人机巡线图像中自动检测油气管道,利用与样本管道图像尺寸一致的滑动框对整张无人机巡线图像进行扫描,提取滑动框中的HOG特征输入到已训练的分类器中判断该窗口是否为管道,并进行标记。为了验证提出方法的有效性,将此方法运用于235张高分辨率航拍图像上进行油气管道自动检测,检测精确率达到84.7%。  相似文献   

19.
在基于微阵列的癌症分类中,由于变量(基因表达)较多,而实验条件较少,因此特征选择和分类方法非常重要。对于疾病诊断,分类器的性能直接影响到最终结果的准确性。本文提出一种新的基因选择和分类方法,这种方法使用基于递归特征排除(RFE)的非线性核支持向量机(SVM)。实验表明本文方法比其它线性分类方法具有更好的整体表现,如线性核支持向量机和Fisher线性判别分析方法;同样本文方法也比一些非线性分类方法更好,如采用非线性核的最小二乘支持向量机(LS-SVM)。实验除了使用测试集,还使用留一校验算法(leave-one- out)用于测试分类器的泛化性能。实验采用可通过互联网获得的AML/ALL数据集和遗传性乳腺癌数据集。  相似文献   

20.
事件相关电位技术与隐藏信息测试相结合(ERP-CIT)是目前犯罪测谎研究的主要方法,包括实验室研究和现场研究两种不同取向。在实验室研究中ERP-CIT主要以P300为鉴别指标,犯罪侦测率逐渐提高,但易被反测谎击败,生态效度低。复合反应范式(CTP)提高了识别反测谎措施使用的准确率。现场犯罪测谎取向的脑指纹测试范式(BF)以P300-MERMER为测谎指标,结论已可作为法庭证据采信。ERP-CIT在范式、指标、效度等方面仍存在不足,将来应区分真实记忆与错误记忆、目击者与犯罪人,探索自我控制等调节变量对测试的影响,并与生理测谎指标相结合,针对不同犯罪群体进行现场研究。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号