首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在实际应用中,少数类样本往往包含重要信息,而传统机器学习方法通常对少数类样本的分类准确率低,且误分类代价较高。针对不平衡文本数据的情感分类问题,以三支采样(three-way sampling, 3WS)与过采样为基础,提出了三支过采样算法(three-way SMOTE,3WOS)和三支边缘过采样算法(three-way borderline-SMOTE,3WOBS),3WOS能够更好地识别边界区域上的数据,3WOBS可以增强边界区域所蕴含的信息。首先,将文本数据构建为超球,获得超球边缘的支持向量。其次,3WOS对边缘上的支持向量直接进行过采样以生成合成新样本并更新样本集,3WOBS则在生成合成新样本后根据给定条件判断是否获得该新样本并更新样本集。最后,将更新的样本集放在不同的基分类器上进行对比实验。实验采用了3个不平衡数据集,并保证了不同的不平衡比。同时,在数据集训练过程中引入粒计算思想,确保模型的鲁棒性。实验结果表明,3WOS-ITSC与3WOBS-ITSC准确率较高且代价低于其他模型,为不平衡文本分类问题提供了新思路。  相似文献   

2.
为了解决机器学习中不平衡数据难以用于主流数据分类器的问题,面向多种类不平衡数据,提出一种基于超平面排序、分层抽样、多类样本重组的数据采样方法,以得到可用于机器学习的分类平衡数据集。首先,求得不同种类样本的最大公共抽样数,以此确定每类样本的抽样份数;再根据数据到分类超平面的距离,对每类样本的数据进行重新排序,按照等间距对每类样本进行分层采样,确保各个样本的采样总数为最大公共抽样数倍数,构成样本内部的基数样本。最后,排列组合构造平衡数据集合。经过数据分类算法的训练和测试,结果表明:采样方法不仅实现多种类样本之间的数据平衡,也保持了样本的原有数据分布特征,提高了机器学习下游算法的精度。  相似文献   

3.
针对织物疵点的语义分割任务中因数据集规模限制,而导致网络出现的严重过拟合问题,课题组提出了针对织物的语义生成网络。语义生成网络使用随机产生的语义标签生成对应的织物缺陷图像,相较于传统数据增强方法,语义生成可生成全新图像,更贴近实际缺陷分布,并且可通过判别器对生成图像进行筛选;课题组将语义生成的图像作为语义分割网络的输入,相应的随机语义标签作为目标,免去标注过程,扩充语义分割网络的训练样本,提升网络性能;对于语义分割网络,提出尺寸自适应Dice损失函数,解决样本不平衡问题,提升网络对小尺寸的检测能力。实验结果表明:尺寸自适应Dice损失函数使得模型精度提高11.1%,使用BEGAN扩充的数据集相较于传统方法扩充的数据集训练得到的模型精度提高7.4%。  相似文献   

4.
针对前大数据环境下浅层机器学习模型提取特征能力不足、分类能力有限等问题,提出了一种深度置信提升网络集成分类模型。该模型采用集成深度置信网络(deep belief networks,DBN)进行特征提取,克服了单一模型特征提取能力不足的问题;采用极端梯度提升决策树(eXtreme gradient boosting,XGBoost)和梯度提升决策树(gradient boost decision tree,GBDT)构建深层提升网络,对提取特征进行多层特征深度学习,采用相对多数投票法输出分类结果。基于4个UCI公开数据集和MNIST数据集对提出模型进行了检测实验,实验结果表明:提出模型较深度置信网络、极限梯度提升树和DBN-XGBDT等3种模型的准确率分别提升了13.8%、6.98%和4.18%。  相似文献   

5.
中文电子病历实体关系抽取是构建医疗知识图谱,服务下游子任务的重要基础。目前,中文电子病例进行实体关系抽取仍存在因医疗文本关系复杂、实体密度大而造成医疗名词识别不准确的问题。针对这一问题,提出了基于对抗学习与多特征融合的中文电子病历实体关系联合抽取模型AMFRel (adversarial learning and multi-feature fusion for relation triple extraction),提取电子病历的文本和词性特征,得到融合词性信息的编码向量;利用编码向量联合对抗训练产生的扰动生成对抗样本,抽取句子主语;利用信息融合模块丰富文本结构特征,并根据特定的关系信息抽取出相应的宾语,得到医疗文本的三元组。采用CHIP2020关系抽取数据集和糖尿病数据集进行实验验证,结果显示:AMFRel在CHIP2020关系抽取数据集上的Precision为63.922%,Recall为57.279%,F1值为60.418%;在糖尿病数据集上的Precision、Recall和F1值分别为83.914%,67.021%和74.522%,证明了该模型的三元组抽取性能优于其他基线模...  相似文献   

6.
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。  相似文献   

7.
为了解决大规模非线性分类中局部学习的不平衡性问题,提出一种改进的局部支持向量机算法,在高维特征空间中聚类后,为每一个簇构造局部非线性支持向量机。为了克服簇内样本的分布不均衡问题,根据闭合超平面不规则边界的几何特点,经过梯度下降寻找稳定均衡向量,以此构造簇几何中心;再结合簇密度中心共同约束类心形成双重加权中心。然后通过求解加权最小闭球问题实现对大规模样本向量的分类。对照实验显示,除了个别数据集以外,改进的算法在训练时间、测试时间以及测试精度等方面都比另外两种分类算法表现更佳。  相似文献   

8.
经典的 Bayes分类方法一般需要事先对样本的分布特性作出假设 ,当假设模型与样本实际分布情况不相符时 ,就难以得到较高的分类精度。当处理同类别多区域样本分布问题 ,例如变标签问题时 ,距离判别、Fisher判别、k-近邻分类、分段线性分类等统计分析方法遇到困难。双螺旋问题不仅使统计方法受到挑战 ,更使人们对一般前向多层神经网络的能力提出疑问。本文提出了改进的 RBF神经网络结构、核函数个数、位置与宽度优化算法。该算法的计算复杂性与一般前向三层LBF网络所用的误差反传算法大致相同。核函数生成既考虑了训练集样本自身的类别因素 ,又考虑了错分样本与邻近类别的关系。一个核函数的最终保留与否根据其对提高测试集分类正确率的贡献大小来决定。同时实验验证了两层 LBF网络对提高改进的 RBF网络分类正确率的极端重要性。大量应用实例表明 ,与前向三层 RBF网络和前向三层 LBF网络相比 ,该 IRBF网络具有收敛速度快、分类精度高、易于得到最小结构、在学习过程中不易陷入局部极小点等优点 ,有利于实现实时分析  相似文献   

9.
为了解决单个SVM可能产生的泛化能力恶化问题以及当SVM采用一对多组合策略解决多类分类时可能产生的误差无界情况,本文采用Bagging方法构造了一个基于SVM的多类分类集成模型,利用MIT KDD 99数据集进行仿真实验,通过实验探讨了其中的两个参数——训练样本数和单分类器个数对集成学习效果的影响,并将其与采用全部样本进行训练及部分样本进行训练的单分类器检测进行了比较。结果表明:集成学习算法能够有效降低采用全部样本进行训练所带来的计算复杂性,提高检测精度,而且也能够避免基于采样学习带来检测的不稳定性和低精度。  相似文献   

10.
提出一种基于主分量分析和相融性度量的快速聚类方法。通过构造主分量空间将高维数据投影到两个主成分上进行特征提取,每一个主分量都是原始变量的线性组合,主分量之间互为正交关系,在剔除冗余信息的同时,实现高维数据降维,得到二维坐标,以此作为聚类分析的输入;提出相融性度量的定义,用相融性度量描述一个样本与训练集相融合的程度,设计一种基于相融性度量的分类器。以该方法为基础设计的光谱自动分类系统可实现快速、准确地分类。  相似文献   

11.
将相关向量机(RVM)分类模型应用于网络流量分类问题中。首先对实验数据进行了标准化处理,然后将RVM与其他机器学习算法进行了性能比较,最后在RVM分类结果预测概率中引入置疑区间概念,研究了置疑区间范围及其对分类准确性的影响,并基于此提出了一种新的混合流量分类方法。实验结果表明:1)RVM在准确性等3方面性能指标上优于SVM,且在小样本情况下仍具有较高的分类准确率;2)置疑区间[0.1,0.9]内的分类预测准确率较低,而置疑区间之外的分类预测准确率在98%以上。  相似文献   

12.
为提升网络服务质量,实现流量精细化可管可控,针对特征失效问题,提出一种加密YouTube视频流量的精细化分类方法。设计快捷有效的特征提取方法,同时,为解决机器学习单个分类器度量手段单一问题,选取不同种类分类器,经过特征筛选后为每个分类器输入不同的特征数量组合。通过设置权值和阈值,根据分类精度进行权值更新,最终实现高精度分类。实验结果表明:所提方法较现有模型对加密应用下流量识别效果提升3%左右。  相似文献   

13.
分析了现有解决大数据集全比较问题的数据分发相关研究成果存在的问题和混合整数线性规划模型在优化问题中的应用,在此基础上构建了一种分布式系统下数据文件分发策略模型并进行了数据文件分发算法设计,基于大数据平台框架和数据分发算法建立了一个分布式数据文件分发平台.实验结果表明:本文提出的数据分发策略模型和算法具有数据完全本地化、计算负载均衡和存储占用少等优点.  相似文献   

14.
提出了一种新型网络入侵检测分类模型,设计了一个基于支持向量机(SVM)的分类器。采用因子分析法(FA)将行为样本的众多相关网络特征融合成精简的综合特征,实现了对网络监测数据的降维。利用支持向量决策函数排序法(SVDFRM),通过支持决策向量函数得到网络行为的特征贡献率并提取网络行为的重要特征。KDD99数据集测试实验结果表明,提出的分类模型降维效果显著,具有较好的实时性和较高的检测率。  相似文献   

15.
基于CPSC-2018十二导联数据,提出了一种U-Net网络和注意力机制结合的心电图分类算法。首先,针对数据集数据长度长短不一的问题,对数据进行等长处理和归一化处理。然后,利用U-Net网络中跳层连接和编码解码方式,对预处理后较长的数据进行处理。在U-Net网络解码的最后一层加入注意力机制对抗噪声,提升模型的有效信息关注度和准确性。最后,利用CPSC-2018数据集进行验证。实验结果表明:所提模型能够取得较好的分类效果,识别房颤(AF)和右束支传导阻滞(RBBB)心律失常的精准率、召回率、F1值都可以达到90%以上,平均F1值可以达到82.5%。  相似文献   

16.
随着海量数据不断涌入,SVM隐私泄露问题日益严重。在分析已有隐私保护支持向量机基础上,提出一种面向大规模数据的隐私保护学习机(PPLM)。该方法首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法平面作为最优分类面。通过对标准数据集和人工数据集的实验表明,PPLM可有效地解决大规模样本分类问题,且分类效果良好。  相似文献   

17.
提出基于增强数据集卷积神经网络的合成孔径雷达(SAR)目标识别方法。卷积神经网络的分类能力与训练样本的数量和全面性息息相关。由于SAR目标识别中存在大量的扩展操作条件,基于原始少量训练样本的卷积神经网络稳健性较差。通过添加噪声构造噪声样本;通过多分辨率分析获得多分辨率的样本;通过模拟部分遮挡获得不同程度的遮挡样本。采用增强后的训练样本训练卷积神经网络从而提高其对于噪声干扰、分辨率变换以及部分遮挡等情形的稳健性。同时,由更多训练样本训练得到的网络对于其他扩展操作条件的适应性也有一定的提高。基于MSTAR数据集进行了验证实验,证明了提出方法的有效性。  相似文献   

18.
针对HBase仅在行键上进行索引优化而非行键列查询的问题,提出一种基于协处理器的HBase分类二级索引方案。设计基于协处理器的索引管理和并行查询机制:利用Observer在内存中建立并维护索引,同时利用Endpoint设计并行查询算法,进而提升非行键列的查询性能。由于数据特征和查询需求决定了构建索引的类型,进一步设计分类内存索引模型,用以平衡查询性能和索引性能。在出租车GPS数据集上的实验结果表明:相较于基于Solr和HiBase的二级索引方案具有更好的整体性能。  相似文献   

19.
随着合成孔径雷达(aynthetic aperture radar,SAR)成像技术的日益成熟,如何对SAR目标进行高效分类得到了普遍关注。在此背景下,提出了一种面向SAR目标分类的二层卷积神经网络算法。为增强适应性,设计了一种随迭代次数增加而减缓的分数渐变学习率。同时,在损失函数中引入类内、类间相似度量函数,丰富了样本分类特征,提高了分类的准确率。在MSTAR数据集上的测试结果表明:该算法相比于其他分类方法和经典卷积神经网络算法有更高的分类准确率,证明了算法的有效性。  相似文献   

20.
智能机器人在汽车生产制造中有着重要意义,准确地识别抓取任务中的目标是基于视觉引导的汽车车身冲压件抓取系统的基础。针对传统工件识别算法人工提取特征困难、通用性差、识别率不高且易受环境因素影响等问题,首先采用深度学习SSD网络模型对10类汽车车身冲压件进行识别。在此基础上,为了提高工件识别准确率,改善工件相互遮挡情况下识别差的问题,提出一种改进的SSD算法,引入残差网络,采用Resnet-50替换原SSD的基础网络VGG-16。实验结果表明:原始的SSD网络在自制的工件数据集评估集上的平均准确率均值m AP为92. 3%,改进后的SSD网络检测的平均准确率均值m AP为98. 3%,比原始的SSD网络提高了6%,基于Resnet-50改进的SSD模型具有更高的识别准确率、更好的遮挡识别效果以及更强的泛化性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号