首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
针对垃圾网页检测过程中的"维数灾难"和不平衡分类问题,提出一种融合最优Fisher特征选择的样本加权K近邻分类器用于垃圾网页检测。首先,针对训练数据集进行Fisher特征选择,按Fisher Score从大到小排序,依次选择Fisher Score更大的特征对训练数据集进行样本加权的K近邻分类,根据训练数据集分类结果的AUC值是否增加以确定是否保留某个特征,最后基于保留的最优特征子集对测试数据集进行样本加权的K近邻分类。在WEBSPAM UK-2006数据集上的实验表明:该方法明显优于决策树、支持向量机、朴素贝叶斯、K近邻等传统分类器。与其他相关方法相比,该方法在准确率、F1测度和AUC指标上接近最优结果。  相似文献   

2.
针对前大数据环境下浅层机器学习模型提取特征能力不足、分类能力有限等问题,提出了一种深度置信提升网络集成分类模型。该模型采用集成深度置信网络(deep belief networks,DBN)进行特征提取,克服了单一模型特征提取能力不足的问题;采用极端梯度提升决策树(eXtreme gradient boosting,XGBoost)和梯度提升决策树(gradient boost decision tree,GBDT)构建深层提升网络,对提取特征进行多层特征深度学习,采用相对多数投票法输出分类结果。基于4个UCI公开数据集和MNIST数据集对提出模型进行了检测实验,实验结果表明:提出模型较深度置信网络、极限梯度提升树和DBN-XGBDT等3种模型的准确率分别提升了13.8%、6.98%和4.18%。  相似文献   

3.
将数据挖掘方法与金融领域知识相结合,研究可疑金融交易识别策略与方法,是我国反洗钱领域的重要基础性工作.决策树分析是一种重要的数据挖掘方法,通过对案例数据的训练学习达到对未知类标识数据的分类.基于决策树分析的思想设计出适合于可疑外汇交易识别的CART分类方法,并用真实外汇交易数据对该方法进行了验证,实验结果表明该方法可有效提高可疑金融交易识别效率.  相似文献   

4.
地处西南的渝北地区地表覆盖类型复杂、土地利用多元化,仅依赖于光谱特征的传统遥感信息提取方法难以获得较高的分类精度。利用决策树分类技术对渝北地区的TM遥感影像进行分类,除光谱信息外还结合地质、NDVI、PCI等多源数据进行实验。结果表明,总精度和Kappa系数分别为88.42%和0.854 7,较传统的监督分类和仅依赖于光谱特征的决策树分类方法有较大提高,这也表明基于多源数据的决策树分类技术对地表覆盖复杂地区的遥感影像分类比较适用,是遥感信息提取的一种有效手段。  相似文献   

5.
针对客户信用分析的需求,利用决策树技术对某钢厂的销售数据进行分析。依据客户交易信息,使用决策树算法对客户信用进行分类,得出一系列帮助企业做出正确交易决策的判定规则。  相似文献   

6.
粒度计算正向多粒度层次选择及数据最优尺度选择等方向发展。对具有不同尺度等级的数据组合进行相关研究。针对具有不同数据尺度的系统,构建了一种可调阈值的数据最优尺度选择算法,以便选择数据中的最优尺度,从而获得最优尺度组合。最后,结合决策树分类算法,并采用5个UCI公开数据集实验验证了所提出算法的可行性和有效性。  相似文献   

7.
工程管理专业的学生是目前较好就业的专业之一。面对众多的从业方向和择业选择,如何为工程管理专业的大学生提供有效的职业生涯决策具有较大意义。本文结合某高校的实际情况,利用挑选出的工程管理学生生涯的数据集和知识挖掘决策树分类技术的ID3算法形成以供工程管理毕业生择业时参考的决策树规则,由于ID3算法需要将属性进行离散化,因此,本文引入了云模型对难以离散化的属性进行离散化。经过实例验证,本文生成的决策树规则可以为工程管理的毕业生在择业时提供个性化决策的支持。  相似文献   

8.
常用的决策树生成算法分析   总被引:2,自引:0,他引:2  
数据分类是数据挖掘中的一个重要课题,被有效地应用于科学实验、医疗诊断、气象预报、商业预测等领域。常用的分类方法包括决策树、神经网络、遗传算法等。其中决策树是分类方法中的一个重要研究方向,由于其结构简单、可以清晰的生成便于人们理解的规则、效率高、以及适用大数据量等优点而被广泛使用。本文就几种常用的决策树生成算法进行较深入地分析和比较。  相似文献   

9.
提出了一种基于随机森林的N1+N2结构语法关系分类判定方法,在自建熟语料库的基础上,为每个短语结构建立用于分类决策树的7个特征,使用C4.5方法生成决策树,构造随机森林算法,通过投票原则给出最终判断结果。经训练集学习后,在含有1 020条语料的测试集中进行测试,正确率达到94.8%。结果表明:使用随机森林算法进行汉语短语结构语法关系分类判定是行之有效的。  相似文献   

10.
随着微博的发展,近几年来网络上以微博为手段进行恶意炒作的事件不断增多,干扰了互联网正常秩序,对国家社会稳定与安全造成严重隐患.本文以新浪微博为研究对象,对规避新浪访问限制保障分布式数据持久采集、利用数据挖掘分类思想进行多特征炒作账户识别进行了研究,在进行特征分析时,选择决策树学习算法,通过测试建立分类模型,最终实现了对炒作微博账户的分析预测.  相似文献   

11.
决策树是数据挖掘中重要的分类算法,通常用来形成分类器.ID3算法是决策树中的核心算法.针对ID3算法倾向于取值较多的属性的缺点,引进属性重要度对ID3算法予以改进,并通过实验对改进前后的算法进行了比较.实验表明,改进后的算法是有效的.  相似文献   

12.
分类是数据挖掘的重要内容之一,其中决策树分类法在海量数据环境中应用最为广泛,本文论述了决策树分类法ID3算法中的信息熵及其增益原理,并总结了ID3算法引进信息理论后的优点。  相似文献   

13.
随着海量数据不断涌入,SVM隐私泄露问题日益严重。在分析已有隐私保护支持向量机基础上,提出一种面向大规模数据的隐私保护学习机(PPLM)。该方法首先通过核心向量机对大规模样本进行采样,然后在核心集上选取两个样本点并将两点连线的法平面作为最优分类面。通过对标准数据集和人工数据集的实验表明,PPLM可有效地解决大规模样本分类问题,且分类效果良好。  相似文献   

14.
决策树算法在反洗钱领域中的应用研究   总被引:4,自引:0,他引:4  
简要介绍了决策树算法的基本原理,并对这一算法的实际应用进行举例,然后针对洗钱活动的特征,寻找出在反洗钱领域中应用决策树算法的各个属性,最后通过给出一个具体的训练集学习,详细计算了面向账户的反洗钱决策树的生成过程并对其结构进行了优化。  相似文献   

15.
自南水北调工程通水以来,东平县土地利用发生了较大变化.本文利用2000年、2009年和2014年的Landsat遥感影像,针对研究区不同地物光谱特征,使用谱间关系、植被指数、短波红外阈值、决策树分类等多种信息提取方法,对研究区土地利用进行了分类.结果表明:三期遥感影像分类总体精度达80%以上,基于决策树的土地利用分类方法效果最好;从2000年到2014年间,东平县水体、湿地和林地面积不断增加,耕地、建设用地及裸地有所减少,研究区生态环境正逐步改善.  相似文献   

16.
因为恶意网购(评价)行为具有偶发性和隐蔽性,所以成为卖家和网购平台提供者关注的问题。针对这一问题,本文设计了一种方案,即通过分析网上购物历史交易数据集(偏斜数据集),找出恶意评价行为的"特征"。本文使用3组UCI中的偏斜数据集进行实验,首先使用了两种能够让偏斜数据集趋于平衡的算法(SSGP、Ensemble算法),再对平衡算法处理后的数据集分别使用经典分类和神经网络算法,最后通过对比实验结果发现SSGP+神经网络这一组合算法对处理偏斜程度较高的训练集效果较好,使用这一组合算法对网上购物的历史交易数据集进行分类,得出的结果对卖家判断恶意购买行为具有较高的参考价值。  相似文献   

17.
面对海量数据带来的冲击,传统的单机版贝叶斯分类程序存在处理的数据集有限、内存瓶颈和耗时较长等问题.本文通过对朴素贝叶斯模型进行研究,设计并实现了一种基于Map Reduce的朴素贝叶斯文本分类算法.实验表明,该算法具有较好的扩展性和加速比,可适用于海量密集文本分类.  相似文献   

18.
对于常用机器学习分类算法在不均衡数据上分类性能较差的问题,提出了一种基于生成对抗网络(GAN)的不平衡数据分类策略。所提出的策略首先利用生成对抗网络通过训练生成少数类样本,改善样本不均衡问题。使用机器学习分类器对改善后的数据集进行分类,提升该模型的分类性能。实验使用了商业银行客户数据集,采用Precision、F-mean等作为度量指标,并与SMOTE等传统数据不均衡处理方法进行对比。实验结果表明:对于不平衡数据集的二分类问题,提出的GAN模型在银行客户流失分类问题中具有可行性和适应性。最终取得了良好的度量效果,有很强的适用性及应用价值。  相似文献   

19.
校园大数据分析是目前大数据研究的重要领域,针对历年积累的大量学生考勤数据,传统的数据库技术几乎无法完成全量的数据分析,串行的计算方法很难在短时间内计算出分析结果.大数据技术是解决此类问题的一种较好的方法.本文提出了一种基于Spark平台的决策树回归分析方法,可在较短时间内完成大量考勤数据的分析,生成影响学生课堂出勤率的决策树,该决策树对学生课堂出勤率的监测预警以及教学管理决策有一定的参考意义.文中详细描述了数据并行处理的流程以及采用CART算法对学生课堂出勤率进行回归分析的方法.并且比较了传统数据库技术与并行数据处理方式进行学生考勤数据分析的效率,该方法取得了较好的效果.  相似文献   

20.
股利分配政策是上市公司对盈利进行分配或留存的决策问题.在大数据时代运用微软商业智能中的决策树算法,可以对农业上市公司的相关财务数据进行深入挖掘.通过决策树规则进行分析,找出农业上市公司股利分配采购影响因素,为农业上市公司制定现金股利分配股利分配政策提供决策依据,也为商业智能工具在企业决策中的运用提供借鉴.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号