首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 265 毫秒
1.
提出了一种快速的文本倾向性分类方法,即采用类别空间模型描述词语对类别的倾向性,基于词的统计特征实现分类;针对倾向性分类的复杂性,在综合考虑词频、词的文本频、词的分布三种统计特征的基础上,提出一种新的二次特征提取方法:第一次特征提取,采用组合特征提取方法,除去低频词以及在各类中均匀分布的噪音词;第二次特征提取,去除类别倾向性不明显的词。实验表明该分类方法不仅具有较高的分类性能,而且运行速度快,在信息检索、信息过滤、内容安全管理等方面具有一定的实用价值。  相似文献   

2.
提出一种融合卡方统计和TF-IWF算法的短文本分类方法,通过卡方统计对训练数据集提取特征词,由TF-IWF算法赋予特征词权重,使用SVM分类器进行分类。实验结果表明:融合卡方统计和TF-IWF方法在文本分类准确率上提升3.1%,召回率提升5.2%,F1值提升3.7%。该方法扩大了特征词权重值的范围,使文本集的权值方差增大,一定程度上解决了短文本内容稀疏性的问题,从而提高短文本分类的性能。  相似文献   

3.
针对物体外形轮廓特征,给出一种基于主动式光电传感器的轮廓特征提取方法,该方法是通过物体经过传感器组视场时各传感器输出状态来获取特征信息;并结合稀疏表示理论,提出一种基于稀疏表示的目标轮廓识别算法,该算法是将测试样本投影到稀疏域,依据系数的稀疏性对测试样本进行分类。数值仿真与实验结果表明:采用光电传感器组获取的信息能够有效地描述物体;且通过本文算法对不同类型物体进行分类,具有良好的识别效果;对不同条件下获得的特征样本进行分类时,具有良好的鲁棒性。  相似文献   

4.
在中文垃圾邮件过滤系统中,基于内容过滤的Na?ve Bayes算法得到了广泛应用。本文将多种特征结合构建邮件文本向量,应用八种文本分类特征选择方法在Na?ve Bayes算法上进行实验验证,通过准确率和召回率结合的综合性能指标F1值进行性能评价,结果表明,采用类别区分词、优势率、信息增益、期望交叉熵、CHI统计和文本证据权等六种特征选择方法应用于多特征结合邮件文本向量的过滤取得了较好的垃圾邮件过滤性能,反垃圾邮件效果较好。  相似文献   

5.
小波-神经网络在视频文本自动检测中的应用   总被引:1,自引:0,他引:1  
数字视频数据中的文本能提供重要的语义信息,用具有良好时频局部特性和变尺度特性的小波分析方法,提取图像中的尺度一空域特征,经神经网络分类器进行分类后,自动检测视频数据中的文本信息,为基于内容的视频检索提供索引.实验表明该检测方法效果良好。  相似文献   

6.
文本分类是目前众多大数据应用的核心问题.本文将Batch SVM增量算法与Bagging算法相结合,提出了一种增量文本分类算法.在云计算分布式处理框架Storm基础上整合所提出的算法,构建了一套高效的基于Storm云平台的在线增量文本分类机制,在真实数据集上构建的实验验证了所提机制的准确性和效率,在保证准确度达到90%的前提下,所提机制的处理时延较现有算法降低50%以上,可以有效实现在线文本分类问题.  相似文献   

7.
运用传统财务指标作为参照标准计算制造业上市公司财务预警,预警结果会出现失真,针对这一不足,把EVA(经济增加值)的概念应用到财务预警计算过程,结合粗糙集的分类决策方法和BP神经网络的反向传播、训练的分析方法,提出一种新的财务危机预警模型,通过部分制造业上市公司财务数据的模拟实验,实验得出的预警信息更加真实、可靠。  相似文献   

8.
针对实际化工生产过程中故障数据缺乏,采用适合小样本问题的支持向量机(SVM)对化工过程稳态故障进行诊断。为了保证在线故障诊断的实时性,消除高维监控数据以及系统噪声对故障诊断的干扰,提出了一种新的基于二进制量子粒子群优化(BQPSO)算法和SVM的故障特征选择方法。仿真实验表明:BQPSO算法具有良好的全局搜索能力,能够快速、准确地搜索到故障特征变量;而基于特征选择的SVM故障诊断方法能可靠地实现对复杂化工过程的在线故障诊断。  相似文献   

9.
随着当前计算机与移动互联网中数据的增长,在海量的网络招聘数据中如何有效挖掘可用信息成为当前教育和社会供需发展的技术瓶颈。为突破该技术瓶颈,提出了一种模糊启发式的KNN文本分类算法:基于ABC(artificial bee colony)的启发式搜索方法,以此来调整特征的权重,并利用模糊距离度量方法以测量测试观察和训练观察之间的相似性。先将招聘信息分词,利用TF-IDF(term frequency-inverse document frequency)算法与AP(affinity propagation)聚类算法进行特征选择和噪声数据剔除,最后采用结合启发式搜索和模糊距离度量的KNN算法对文本信息分类。通过实验结果发现:该方法有效地解决了传统KNN算法在人才需求文本分类方法中稳定性差和分类精度低的问题。  相似文献   

10.
为了能够更加准确地判断结构损伤位置和程度,本文提出了基于粒子群优化支持向量机(PSO SVM)方法对斜拉桥主梁进行损伤识别的新方法。该方法以最敏感索张力指标作为损伤识别指标,利用粒子群(PSO)算法寻找支持向量机(SVM)最优参数,建立SVM预测模型,以不同位置、不同损伤程度下最敏感索的张力指标作为SVM的训练和测试输入,由SVM的输出确定损伤位置。通过对实验室的模型斜拉桥的主梁损伤进行了仿真验证,结果表明:采用PSO算法很好地解决了采用SVM方法进行损伤识别时的参数选择随机性难题,实现了对SVM模型参数  相似文献   

11.
首先阐述了文本分类的现状和定义,概述了文本分类的基本流程,然后对文本预处理过程中的分词和去停用词作了简要介绍。在简述文本表示的概念和常用模型之后,重点讨论了信息增益、文档频率、期望交叉熵、互信息和chi统计五种用于特征降维的特征选择方法,而后描述了Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)和决策树分类算法的基本指导思想,并从分类性能及其各自复杂度等方面分析比较了这几种算法的优缺点,最后评述了查全率、查准率和F-Measure三种常用的分类器性能评价指标。  相似文献   

12.
将相关向量机(RVM)分类模型应用于网络流量分类问题中。首先对实验数据进行了标准化处理,然后将RVM与其他机器学习算法进行了性能比较,最后在RVM分类结果预测概率中引入置疑区间概念,研究了置疑区间范围及其对分类准确性的影响,并基于此提出了一种新的混合流量分类方法。实验结果表明:1)RVM在准确性等3方面性能指标上优于SVM,且在小样本情况下仍具有较高的分类准确率;2)置疑区间[0.1,0.9]内的分类预测准确率较低,而置疑区间之外的分类预测准确率在98%以上。  相似文献   

13.
针对当前中文文本分类方法难以平衡分类精度和学习效率的问题,提出了一种基于极限学习机(ELM)的中文文本分类方法,该方法包括预处理模块、文本特征提取模块、特征融合模块和基于极限学习机的分类模块。在分类模块中,提出采用单隐层神经网络作为分类器并使用ELM算法来训练分类器,有效地平衡模型性能和学习效率。同时分别针对不同的特征训练分类器,集成不同分类器的输出得到最后的分类结果,有效提高了平衡分类精度,并在电网档案管理系统的档案归类任务中对该模型进行应用评估。实验结果表明,该模型不仅有较高的分类精度,而且在训练和测试两个阶段模型的计算都具有较低的代价。所提方法适用于海量数据下的中文文本分类场景,具有重要的研究意义和推广价值。  相似文献   

14.
针对当前手写数字识别正确率较低这一不足,提出了一种主成分分析(PCA)和粒子群算法优化支持向量机(PSO-SVM)的手写数字识别方法。首先,利用PCA降低输入数据的维数,然后把降维的数据作为SVM的输入,用PSO不断优化SVM中的核函数参数g和惩罚因子c,以提高分类精度。实验结果表明:同传统的SVM、GA-SVM、网格搜索算法、卷积神经网络(CNN)相比,PSO-SVM方法分类方法具有最高的识别准确率且运算效率也较高,达98.2%,性能上优于其他几种分类算法。  相似文献   

15.
针对现有迷因识别方法常忽视网络实体作用的情况,提出一种结合图卷积网络的迷因识别方法。提取图像中网络实体信息,利用图卷积网络对网络实体模态和文本模态进行融合,结合外源词典从多角度衡量网络实体和迷因文本之间的关系,构建跨域图;通过注意力模块对文本和图像模态进行交互,结合自蒸馏技术提高模型对信息的利用率。实验结果表明:该方法在Hateful Memes和MAMI数据集上的准确率分别达到76.03%和73.9%,性能优于现有的SOTA模型。  相似文献   

16.
随着海量数据不断涌入,SVM隐私泄露问题日益严重。在分析已有隐私保护支持向量机基础上,提出一种面向大规模数据的隐私保护学习机(PPLM)。该方法首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法平面作为最优分类面。通过对标准数据集和人工数据集的实验表明,PPLM可有效地解决大规模样本分类问题,且分类效果良好。  相似文献   

17.
主题词分析是语料库技术中研究文本和文本语言特征的重要手段,该方法以词汇的分布和概率为基础,对文本层面的词语运用进行统计,在一定程度上为文本分析提供了量化的标准和客观的依据。本文以航空航天专业英语教材建设为例,从四个方面探索主题词分析技术在专门用途英语教材建设中的应用:1)ESP材料筛选,2)ESP材料分类,3)ESP材料难易度区分及排序,4)ESP词汇注释和词汇练习设计。目前,主题词分析已经广泛地运用到语域、文体风格以及中介语对比研究中,更加广阔的前景有待进一步拓展。  相似文献   

18.
针对基于径向基核函数(RBF)的支持向量机(SVM)超参数选择问题,提出了一种基于差分方程的新算法——伪梯度动态步长算法。该算法根据径向基核函数的特点提出由训练集的空间特性确定的核参数搜索范围,并采用对数刻度表示搜索空间;利用参数空间中SVM在两个临近点的分类精度的变化估计参数的搜索方向,并且随着搜索方向的变化动态调整搜索步长,从而实现较快的搜索。通过与Grid和PSO方法的对比实验,表明该算法具有良好的性能。  相似文献   

19.
针对复杂工况与海量监测数据下滚动轴承难以进行故障诊断的问题,提出了一种基于稀疏编码和极限学习机(ELM)的滚动轴承故障模式识别方法。首先,利用K-SVD方法对海量数据样本学习得到自适应原子字典,在此基础上使用正交匹配追踪(OMP)算法进行稀疏编码;然后,构建基于数据驱动的ELM网络模型,将稀疏编码输入ELM模型;最后,通过模型输出实现了对滚动轴承的不同故障类型及不同故障程度的智能识别。通过实际实验分析,验证了所提方法的有效性,与传统的时、频域指标和主成分分析(PCA)为输入的ELM模型进行了对比,并对比分析了BP神经网络、支持向量机(SVM)模型,证实了所提方法具有更好的诊断正确率和可靠性。  相似文献   

20.
为了解决单个SVM可能产生的泛化能力恶化问题以及当SVM采用一对多组合策略解决多类分类时可能产生的误差无界情况,本文采用Bagging方法构造了一个基于SVM的多类分类集成模型,利用MIT KDD 99数据集进行仿真实验,通过实验探讨了其中的两个参数——训练样本数和单分类器个数对集成学习效果的影响,并将其与采用全部样本进行训练及部分样本进行训练的单分类器检测进行了比较。结果表明:集成学习算法能够有效降低采用全部样本进行训练所带来的计算复杂性,提高检测精度,而且也能够避免基于采样学习带来检测的不稳定性和低精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号