首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
 作为一种近似处理的工具,粗集主要用于不确定情况下的决策分析,并且不需要任何事先的数据假定。但当前的主流粗集分类方法仍然需要先经过离散化的步骤,这就损失了数值型变量提供的高质量信息。本文对隶属函数重新加以概率定义,并提出了一种基于Bayes概率边界域的粗集分类技术,比较好的解决了当前粗集方法所面临的数值型属性分类的不适应、分类规则不完备等一系列问题。  相似文献   

2.
朴素贝叶斯是一种处理分类问题的常用方法,但它的属性条件独立性假设在实际应用中难以成立,导致其分类性能降低。针对这一问题,文章提出了基于改进PCA的朴素贝叶斯分类算法,该算法通过Pearson和Kendall系数计算出属性间的相关性大小,基于主成分分析筛选出新的属性集,使其尽量满足条件独立性假设,并对新数据集进行朴素贝叶斯分类。实验结果表明,该方法有效地提高了分类准确率。  相似文献   

3.
群决策就是要将决策成员在某一有限属性集或方案集上的偏好集结为一个单一的群体偏好的过程。层次分析法是个人和群体决策中最为常用的技术。在层次分析法中,决策成员的偏好是决策成员通过对决策元素进行两两比较,从而判断出它们的相对重要性来确定的,其偏好强度用一个比率来衡  相似文献   

4.
该文建立了一种基于聚类分析与决策树分析相结合的服务订制预测模型,利用聚类提取训练集训练决策树,将生成模型应用于某地区用户对有线电视交互服务的订制意愿预测,最终确定高响应率客户群。实验证明,该模型相对于仅通过决策树进行预测能更大程度地提高分类精度,能更有效地识别出高响应率客户群。所提出的研究框架与方法,为企业在商业竞争中制定有效的营销决策提供了重要依据。  相似文献   

5.
文章通过对缺失值处理方法分析,提出基于分类的三种缺失值处理方法:分类的均值插补法、分类的多重插补法和分类的K-means方法;该方法先对被调查对象问卷中的满意度关键字段按照分值进行分类,然后在同类中的缺失值用该类的平均值、多重插补值和聚类中心值替代.最后,以某食品公司为研究对象,对顾客满意度测评模型进行带缺失值的实证分析.结果表明:基于分类的三种缺失值处理方法优于均值插补法、多重插补法和K-means方法,为顾客满意度指数测评中的缺失值处理提供了实用方法.  相似文献   

6.
在数据挖掘的分类问题中,经常出现数据集内类别不平衡现象。大部分分类方法对于不平衡数据集内的小类数据,分类精度并不理想。文章分析了多目标线性规划分类方法(简称MCLP)在不平衡数据集上的表现;然后从模型角度,提出了面向不平衡数据集的加权MCLP分类模型。从理论上分析了加权MCLP分类模型的有效性,并从实证角度,与其他方法进行了比较。  相似文献   

7.
TOPSIS法得到了广泛的应用,由于Vague集对处理不确定信息、不精确信息的优势,Vague集在决策领域应用越来越多,BBTOPSIS在处理非基数信息具有优势,因此在Vague集的环境下研究BBTOPSIS有其必要性.本文首先定义了接受指数,然后讨论了Vague集的BBTOPSIS,并给出具体的算例.  相似文献   

8.
Rough Set综合评价算法的优化及应用   总被引:2,自引:0,他引:2  
潘德宝  傅春 《统计与决策》2006,(13):144-145
粗集理论是由波兰数学家Z.Pawlak,在20世纪80年代初提出的一种处理模糊和不精确性问题的新型数学工具,粗集理论在处理有限元集合数据时,即不需要关于数据的任何附加信息,也无需预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属度或隶属函数等,通过对大量数据进行分析,根据论域中等价关系的依赖关系,剔除相容信息,抽取潜在有价值的规则知识.依据粗糙集理论的对象分类能力,以及粗糙集理论中的知识依赖性和属性重要性度量方法,可以得出一种完全数据驱动的综合评价方法,它克服了传统方法存在的主观性和片面性的问题,本文将属性的同分辨能力数引入到粗糙集评价,优化了评价算法.  相似文献   

9.
在回归问题中,惩罚特征即正则化是特征处理的常用方式。但在集成分类问题中,惩罚特征以改善训练效果的研究较少。文章提出一种基于GBDT模型训练的SHAP值对各样本特征惩罚加权,进而提升分类精度的集成模型;其中,对于测试样本的SHAP值估计,通过其与训练集的样本距离权重结合训练集的SHAP矩阵近似得到。实验结果表明:选择GBDT_SHAP值惩罚特征后,模型的预测精度均有显著提升,验证了该算法的有效性。以GBDT_SHAP_GBDT模型为例,其在多组经典数据集上的分类效果良好,且在不平衡数据集上性能突出;若干组仿真实验表明,该方法能使模型快速达到较优且较为稳定的拟合效果,鲁棒性较强。  相似文献   

10.
为了对区域能源效率做出客观评价,提出一种新的基于不可控因素的地级城市分类的能源效率分类比较方法,旨在研究能源效率的地区可比性问题。分类问题的讨论包括类别个数的确定和分类方法的选取;分类个数和分类原则的确定采用预测强度和基础因子相结合的办法,进一步采用k最近邻分类方法对其余不可控因子进行分类预测,以避免所谓的自评判问题;运用文中所给出的综合分类结果对一些城市的能源效率进行评价,便于相关城市找到提高能源效率的有效措施。"  相似文献   

11.
数据流具有连续、实时、有序及无限等特点,使用传统的数据挖掘技术来处理数据流的分类面临着严重的挑战,很难处理数据流中的概念漂移问题.文章结合现有的决策树分类挖掘算法,提出了自适应集成分类器方法,构建了数据流概念漂移的自适应集成分类模型,通过不断更新训练样例的权重与属性类别,将训练样例从现有的数据集中分离出来,并被确定为新类别属性的训练样例,以达到对数据流中概念漂移现象的有效检测,仿真结果也证明该方法的适应性和可靠性.  相似文献   

12.
赵培林 《中国统计》2007,(11):27-28
写文章一般不外乎有两个问题,一个是写什么,一个是怎么写。关于怎么写,历代文章学家早有不少论述:"文章以体制为先"、"文莫先于辩体"。文体就是文章的"体裁",是一篇文章所实际表现出来的"整体状貌"。确定文体,实质上就是给文章分类。在已有的分类中,对统计分析报告空间属于一种什么文体,众说纷纭,莫衷一是,迄今尚无定论;写作实践中,也往往使人感到杂乱无章、"四象四不象"。  相似文献   

13.
基于BSC-US的供应链绩效评价研究   总被引:1,自引:0,他引:1  
文章首先利用平衡计分卡(BSC)建立供应链绩效的评价指标体系,然后应用AHP确定BSC中二级指标体系的指标重要性权重,应用信息熵(IE)理论确定BSC中一级指标体系的指标分类权重,最后利用未确知集理论(US)对供应链绩效进行分析与评价.实证分析表明:基于BSC-US的供应链绩效评价方法,能够对供应链绩效进行很好的划分与评价,此方法是可行和有效的,为供应链绩效评价提供了一种新的思路.  相似文献   

14.
要对足球比赛进行预测,首先想到的就是确定影响比赛双方的各个因素.足球比赛的胜负是多种因素共同作用的结果,而各个因素的影响程度又往往是由人们的主观判断确定的,一般很难把握,即使对足球有一些研究的人也只能对某一些球队有一点沮浅的感情认识.要想准确比较比赛双方的综合实力,即使是足球圈子内的"高人"也会感到为难.而模糊综合评价法能较好地处理多因素、模糊性以及主观判断等问题.因此,用模糊综合评价法对比赛双方进行比较分析,不失为一个好方法.  相似文献   

15.
文章用直觉模糊软集来表述决策问题,从信息融合的视角,结合灰色关联分析和MYCIN确定因子,提出一种基于直觉模糊软集的决策方法,并在购房决策中进行实例应用,实例说明:基于直觉模糊软集决策方法原理简单、易实现,具有可行性.  相似文献   

16.
基于链式方程的收入变量 缺失值的多重插补   总被引:2,自引:0,他引:2       下载免费PDF全文
刘凤芹 《统计研究》2009,26(1):71-77
 在经济计量分析中收入变量的缺失值是一个普遍而又较难处理的问题。传统的处理方法往往导致分析结果具有系统偏差。本文提出利用基于链式方程的多重插补方法来处理收入变量的缺失值问题。文章将此方法应用到一个实际数据集,然后通过分析插补后的数据集讨论了此方法的性质,并和其他多重插补方法进行了比较。结果表明:基于链式方程的多重插补能在一定程度上纠正推断结果的系统偏差,并且给出恰当的标准差估计。  相似文献   

17.
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。  相似文献   

18.
陈凯  朱钰  王征 《统计教育》2008,(6):24-28
本文通过对鸢尾花数据的研究,提出了一种基于分类器的分类效果差异而进行快速选择的一种改进的Bagging Trees集成算法。并通过同其他统计机器学习方法,如:CART、Bagging Trees、Random Forest以及目前流行的基于遗传算法的选择性集成算法GASEN等比较得出,该算法对于分类问题而言,具有较高的准确率,而且与GASEN算法相比,运行的效率也得到了较大的提高。  相似文献   

19.
在分类预测模型的自变量间存在交互效应时,传统Shapley值法的可加性无法满足,造成变量筛选效果变差,导致分类模型的预测精度降低。针对此问题,文章提出使用稳健独立成分分析,从原始数据中估计出具有独立性的数据集并对其进行Shapley值分解,从而提高变量筛选的准确度。统计模拟与实证分析的结果表明,改进后的方法在变量筛选上的表现优于传统Shapley值法。  相似文献   

20.
非平衡数据集的改进SMOTE再抽样算法   总被引:1,自引:0,他引:1       下载免费PDF全文
薛薇 《统计研究》2012,29(6):95-98
非平衡数据集的不均衡学习特点通常表现为负类的分类效果不理想。改进SMOTE再抽样算法,将过抽样和欠抽样方式有机结合,有针对性地选择近邻并采用不同策略合成样本。实验表明,分类器在经此算法处理后的非平衡数据集的正负两类上,均可获得较理想的分类效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号