首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经网络作为分类器并使用ELM算法来训练分类器,有效地平衡模型性能和学习效率。同时分别针对不同的特征训练分类器,集成不同分类器的输出得到最后的分类结果,有效提高了平衡分类精度,并在电网档案管理系统的档案归类任务中对该模型进行应用评估。实验结果表明,该模型不仅有较高的分类精度,而且在训练和测试两个阶段模型的计算都具有较低的代价。所提方法适用于海量数据下的中文文本分类场景,具有重要的研究意义和推广价值。  相似文献   

2.
分析了增量学习过程中支持向量和非支持向量的转化情况。在此基础上提出一种误分点回溯SVM增量算法,该算法先找出新增样本中被误分的样本,然后在原样本集寻找距误分点最近的样本作为训练集的一部分,重新构建分类器,这样能有效保留样本的分类信息。实验结果表明:该算法比传统的支持向量机增量算法有更高的分类精度。  相似文献   

3.
极限学习机基于一种典型的单隐层前馈神经网络(SLFNs),其有效性在模式识别很多领域得到证实。该文针对当前的测谎方法的准确率不够高及训练时间较长的缺点,将ELM算法应用到测谎研究领域,作为分类器,对说谎者和诚实者的两类脑电信号进行分类识别,并将实验结果和三类典型的分类器:支持向量机(SVM)、人工神经网络(ANN)和线性分类器(FDA)的分类结果进行比较。实验结果表明,该方法不仅获得最高的训练和测试准确率,而且训练时间也大为缩短,证明了该方法的测谎有效性。  相似文献   

4.
提出了一种广义加权支持向量机(GW SVM)的焊接缺陷分类算法。首先为克服由于样本数量不平衡性引起的小样本类别精度差的问题,引入由于样本差异的权重;然后为解决不同类别的重要性要求,根据经验人工确定不同类别重要性的权重。针对样本重要性的影响,采用有监督模糊聚类方法来确定样本重要性权重。测试结果表明:广义加权支持向量机在噪声影响较大及样本类别相差较大时,能够提高重要的、数量少的缺陷检测精度。  相似文献   

5.
本文提出了一个新的指纹分类算法.算法将指纹分成五类:拱,左环,右环,旋涡,尖拱.首先对指纹进行预处理以增强图像,然后在没有任何先验知识的情况下,采用基于遗传程序设计的方法从原始的数据集中产生新的特征,最后通过BP网络和SVM分类器对指纹进行分类.这种方法能够明显提高分类的计算效率和准确率.实验结果显示本算法用在FVC2004数据库中,在没有任何拒识的情况下对5种指纹的分类准确率达到了93.6%.  相似文献   

6.
为了解决机器学习中不平衡数据难以用于主流数据分类器的问题,面向多种类不平衡数据,提出一种基于超平面排序、分层抽样、多类样本重组的数据采样方法,以得到可用于机器学习的分类平衡数据集。首先,求得不同种类样本的最大公共抽样数,以此确定每类样本的抽样份数;再根据数据到分类超平面的距离,对每类样本的数据进行重新排序,按照等间距对每类样本进行分层采样,确保各个样本的采样总数为最大公共抽样数倍数,构成样本内部的基数样本。最后,排列组合构造平衡数据集合。经过数据分类算法的训练和测试,结果表明:采样方法不仅实现多种类样本之间的数据平衡,也保持了样本的原有数据分布特征,提高了机器学习下游算法的精度。  相似文献   

7.
人脸检测是人脸识别的一项重要任务.论文提出了一种基于Gabor滤波特征和一类分类器的正面人脸检测方法.算法首先利用了Gabor滤波器的良好的空间位置与方向的选择特性,采用了四种方向的Gabor滤波器提取人脸样本图像特征并用PCA方法对特征降维,然后用已降维的特征训练支持向量机分类器.最后应用一类分类器分类检测人脸.实验结果证明该方法是十分有效.  相似文献   

8.
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。  相似文献   

9.
提出了一种新型网络入侵检测分类模型,设计了一个基于支持向量机(SVM)的分类器。采用因子分析法(FA)将行为样本的众多相关网络特征融合成精简的综合特征,实现了对网络监测数据的降维。利用支持向量决策函数排序法(SVDFRM),通过支持决策向量函数得到网络行为的特征贡献率并提取网络行为的重要特征。KDD99数据集测试实验结果表明,提出的分类模型降维效果显著,具有较好的实时性和较高的检测率。  相似文献   

10.
对于常用机器学习分类算法在不均衡数据上分类性能较差的问题,提出了一种基于生成对抗网络(GAN)的不平衡数据分类策略。所提出的策略首先利用生成对抗网络通过训练生成少数类样本,改善样本不均衡问题。使用机器学习分类器对改善后的数据集进行分类,提升该模型的分类性能。实验使用了商业银行客户数据集,采用Precision、F-mean等作为度量指标,并与SMOTE等传统数据不均衡处理方法进行对比。实验结果表明:对于不平衡数据集的二分类问题,提出的GAN模型在银行客户流失分类问题中具有可行性和适应性。最终取得了良好的度量效果,有很强的适用性及应用价值。  相似文献   

11.
特征提取是手写体数字识别研究中的重要问题,有效、稳定的特征是提高识别率和识别精度的关键。该文提出了一种基于分数本征特征和核非线性分类器的手写数字识别方法,首先找到时频平面的一个轴进行分数傅里叶变换,使不同类别样本在这个轴上最大限度地分开,然后用主元分析进行降维,得到比较稳健的低维特征,再将常用分类器用于特征分类,实现对手写数字的识别。对实际数据进行实验,结果表明上述本征特征与核非线性分类器相结合有较高的识别率和训练、分类效率。  相似文献   

12.
提出一种融合卡方统计和TF-IWF算法的短文本分类方法,通过卡方统计对训练数据集提取特征词,由TF-IWF算法赋予特征词权重,使用SVM分类器进行分类。实验结果表明:融合卡方统计和TF-IWF方法在文本分类准确率上提升3.1%,召回率提升5.2%,F1值提升3.7%。该方法扩大了特征词权重值的范围,使文本集的权值方差增大,一定程度上解决了短文本内容稀疏性的问题,从而提高短文本分类的性能。  相似文献   

13.
介绍了一种自适应逼近数据实质维的GHA神经网络学习算法。基于主元子空间分解的思想,给出了基于该算法的分类器刻画方法,对其中的刻画参数给出了详细的界定。该分类器采用监督学习机制进行训练,可以自动学习输入的主元特征子空间维数。在入侵检测领域,利用KDD CUP 1999数据集对该方法进行了仿真。采用正常连接数据训练GHA异常检测分类器,利用拒绝服务攻击数据进行了误用检测训练。并将测试结果与其他入侵检测方法进行了比较。  相似文献   

14.
针对加权局部线性嵌入(Weighted Locally Linear Embedding,WLLE)算法不能充分挖掘样本类别信息以及传统流形学习算法中利用已有训练样本流形邻域关系近似得到测试样本低维嵌入的低精确性,提出了基于监督加权局部线性嵌入(Supervised Weighted Locally Linear Embedding,S-WLLE)算法和支持向量机回归(Support Vector Regression,SVR)的植物叶片图像识别方法。首先利用叶片样本监督距离代替WLLE算法中的欧式距离,对训练样本进行降维;然后学习训练样本已有数据得到SVR模型,预测测试样本的低维嵌入;最后利用最近邻分类器分别实现正负类样本以及负负类样本之间的识别。实验表明,该算法不仅提高了正负类叶片的识别精度,而且能够有效实现负负类叶片的识别。  相似文献   

15.
针对飞机铆钉磁光图像的识别问题,提出了一种基于模糊支持向量机的裂纹有无和裂纹方向自动识别的新方法。该方法首先对铆钉磁光图像进行预处理得到铆钉二值化图像;然后采用阈值法求取铆钉中心;最后将由铆钉中心发出的星形射线矢量作为特征,采用模糊支持向量机方法对铆钉有无裂纹和裂纹方向进行分类。其中,支持向量机的核宽及惩罚常数采用网格法进行选取,并结合模糊隶属度函数解决多类分类问题中存在的错分和拒分现象。实验结果表明,使用训练获得的支持向量机分类器识别裂纹缺陷取得了很好的效果,能够满足自动检测的高实时性要求。  相似文献   

16.
网络入侵检测是通过分析网络流量行为来识别网络中恶意活动的过程,针对网络入侵检测面临的海量数据入侵检测的挑战,提出了一种新的基于KDD CUP 99数据集的特征选择算法,将基于滤波器和包装器的方法相结合,选择合适的特征进行网络检测入侵。首先,基于训练数据的一般特征对特征进行评价,不依赖于任何挖掘算法;然后,采用互信息萤火虫算法(MIFA)作为基于包装器的特征选择策略进行特征提取,进一步基于C4. 5分类器和基于贝叶斯网络(BN)的分类器,结合KDD CUP 99数据集对得到的特征进行分类;最后,将提出的方法与已有的工作进行比较。实验结果表明:10个特征足够检测入侵,并提高了检测精度和假阳性率。  相似文献   

17.
为了提高分类器的正确率和减少训练时间,将特征提取技术与分类算法结合,提出了一种基于核Fisher鉴别分析和最小极大概率机算法的入侵检测算法。利用核Fisher鉴别分析技术提取关键特征,运用最小极大概率机对提取特征后的数据进行分类,采用离线数据集KDDCUP99进行实验。实验结果表明,该算法是可行和有效的,使分类性能和训练时间都得到了提高。  相似文献   

18.
高铁轴承在高铁运行中起着重要作用,对其进行状态检测和故障诊断有着十分重要的作用和意义。总结出一种基于自适应辅助噪声的完备集合经验模态分解(CEEMDAN)和样本熵(SampEn)相结合的高铁轴承故障诊断方法。振动信号经过分解获得诸多的本征模态分量(IMF),计算其样本熵特征参数来表征不同故障状态下的轴承信号的相关特征,并构造相应的训练和测试样本数据,而后将样本数据录入支持向量机(SVM)并配合灰狼优化算法(GWO)进行训练和测试,完成轴承故障的分类和识别。实验结果表明,此方法能够有效区分不同故障状态下的轴承振动信号。  相似文献   

19.
介绍了增量学习算法、序列最小优化算法、加权支持向量机算法等几种应用于大型数据库,在加快训练速度、降低分类错误率等方面有改进的SVM流行算法.在分析各种算法优缺点的基础上,提出了在线性样本训练、超大规模样本下满足KKT条件的算法是SVM算法的发展方向的观点.  相似文献   

20.
在实际应用中,少数类样本往往包含重要信息,而传统机器学习方法通常对少数类样本的分类准确率低,且误分类代价较高。针对不平衡文本数据的情感分类问题,以三支采样(three-way sampling, 3WS)与过采样为基础,提出了三支过采样算法(three-way SMOTE,3WOS)和三支边缘过采样算法(three-way borderline-SMOTE,3WOBS),3WOS能够更好地识别边界区域上的数据,3WOBS可以增强边界区域所蕴含的信息。首先,将文本数据构建为超球,获得超球边缘的支持向量。其次,3WOS对边缘上的支持向量直接进行过采样以生成合成新样本并更新样本集,3WOBS则在生成合成新样本后根据给定条件判断是否获得该新样本并更新样本集。最后,将更新的样本集放在不同的基分类器上进行对比实验。实验采用了3个不平衡数据集,并保证了不同的不平衡比。同时,在数据集训练过程中引入粒计算思想,确保模型的鲁棒性。实验结果表明,3WOS-ITSC与3WOBS-ITSC准确率较高且代价低于其他模型,为不平衡文本分类问题提供了新思路。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号