首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 17 毫秒
1.
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

2.
分类发现是数据挖掘的重要内容,贝叶斯分类和决策树在数据挖掘中应用相当广泛,它们是生成分类器的两种有效方法。文章分别用两种方法对顾客满意度进行分类及预测,并将两种方法进行比较分析,认为用决策树分类法来预测顾客满意度具有简洁、高效等特点。  相似文献   

3.
数据挖掘的任务之一:分类   总被引:1,自引:0,他引:1  
一般说来,数据挖掘问题可以分为以下几类:分类、推估、预测、同质分组和关联分组。每种问题都有许多具体的数据挖掘或统计模型来加以解决。分类简介分类问题是数据挖掘中最重要的任务之一,很多数据挖掘问题都可以转化为分类问题。分类的目的在于运用分类方法构建一个分类函数或分类模型(也常常称作分类器),该模型可以将输入数据(比如数据库中的数据项)映射到给定类别中的一个类别。比如根据个人资料预测客户是否会流失,这里就把顾客分为将流失与不会流失两个类别,再根据输入的个人资料将该客户映射到两个类中的一个里去。分类首先要做的工作…  相似文献   

4.
数据挖掘功能是数据挖掘研究与应用的一个重要方面。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。当前,数据挖掘的功能所处理的主要是传统的数据,对于函数型数据的研究还不是很多。文章探讨了数据挖掘中可以挖掘的几种函数型数据模式,包括数据描述、分类、聚类和回归。  相似文献   

5.
文章以分类神经网络中的RBF网络为例,讨论了神经网络数据挖掘模型中指标筛选的重要性,并以信用卡欺诈检测神经网络数据挖掘模型为实证案例,演示了指标筛选方法能有效地提高神经网络模型的分类效率与收敛速度,同时,讨论如何针对数据挖掘主题与数据特点选择合适的指标筛选技术.  相似文献   

6.
1相关理论1.1数据挖掘(Data M ining)技术数据挖掘是从数据当中发现趋势或模式的过程。这一过程的目标就是通过对大量数据的分类而发现新的信息。人们通过数据挖掘得到的回报就是将这些新发现的知识转变为经营上的成果,如增加销售收入或者减少销售成本。数据挖掘是最近几年才发  相似文献   

7.
一、问题的提出关联规则挖掘是通过对已知数据的学习找出其中存在有意义依赖关系,它可以用来进行预测决策和分类,因此是机器学习领域集中解决的问题。数据挖掘中的问题与机器学习主要区别在于:数据挖掘中要处理大量的数据,因此要求学习的效率很高;另外数据挖掘获得的规则或模式  相似文献   

8.
薛薇 《统计研究》2002,19(4):52-53
一、概述数据挖掘是 90年代中后期兴起的一门跨学科的综合研究领域 ,它集计算机机器学习、统计学、数据库管理、数据仓库、可视化、并行计算、决策支持为一体 ,利用数据库、数据仓库技术存储和管理数据 ,利用机器学习和统计学方法分析数据 ,旨在发现大量复杂数据中蕴含的有价值的知识和信息。目前 ,随着数据挖掘应用的不断开展以及客观现实对数据分析需求的不断增长 ,人们越来越认识到数据挖掘的重要性和必要性。数据挖掘通过对数据的总结、分类、聚类、关联等分析 ,实现对数据内在结构特征的理解和对未知数据的预测。其中 ,数据总结是在数…  相似文献   

9.
数据挖掘技术及决策树简介 数据挖掘就是从大量的不完全的有噪声的模糊的随机的实际应用数据中,抽取隐含在其中的、事先并不知道的、但又是潜在有用的信息和知识的过程。决策树算法作为常用的数据挖掘技术之一,其基本思想是将实例库中记录的大量有限的具体事实数据进行归纳和分类并建立树型结构,以发现并形成隐含在大量实例中的若干形式化的分类判别规则,典型的决策树算法方法有ID3方法和IBLE(Information—basedLearningfromExample)方法。  相似文献   

10.
数据挖掘技术为高效的客户分类提供了强大的支持,然而仅依靠这门技术并不能很好地完成这项任务。本文将模糊积分融合方法与数据挖掘技术结合来进行减小客户分类的不确定性,提出了一种利用训练样本先验静态信息,结合各分类器识别结果包含的动态信息对模糊密度进行自适应动态赋值的方法。仿真结果表明了它的有效性。  相似文献   

11.
利用数据挖掘技术对海量保险业务数据进行风险分析,通过交叉频数分析确定保单中风险较大的因素,为管理决策提供依据;将决策树、支持向量机、逻辑斯蒂回归和贝叶斯网络四种数据挖掘算法用于保户分类,提取高风险保户的潜在特征,挖掘理赔概率较高的保户群,以指导保险公司的营销工作。  相似文献   

12.
一、数据挖掘的定义 数据挖掘就是利用人工智能、统计分析以及其它建模方法,从大量不完全的、随机的数据中寻找数据之间的关系和有用的信息.数据挖掘在营销、金融等行业的重要性已经被认识,所以企业一般都建立自己的数据库即客户关系系统(CRM),这为数据挖掘的发展提供了基础.需要指出的是:数据挖掘并不仅仅是技术和算法的组合,它其实更像过程,这个过程的目的在于解决具体的问题或做具体的决策.  相似文献   

13.
支持向量机(SVM)是数据挖掘中非常流行的分类算法,得到了广泛的关注。数据泄露问题日渐凸显,数据挖掘中的隐私保护也成为当今研究热点,但是针对SVM隐私保护的研究较少。我们提出了基于旋转扰动的SVM隐私保护算法,该算法引入正交旋转变换方法,具有分类零损失的特性。文章采用传统数据安全评价方法,并利用UCI机器学习中心提供的数据对该算法的隐私性水平进行了分析。理论验证和实验结果表明,我们提出了令人满意的SVM隐私保护算法。  相似文献   

14.
国际经验表明,信用评分技术可较好地解决小企业贷款高成本、高风险及信息不对称难题.本文广泛选取了可适用于小企业主信用评分领域的12种数据挖掘模型(包括本文的改进模型门限Logistic),并以3个银行微观客户数据集为案例,通过10折交叉验证和预期分类错误成本的方式,检验了这些模型的综合信用评分能力.分析结果及稳健性检验表明,本文改进的门限Logistic模型在模型预测能力及预期错误分类成本等多方面表现优秀;而基于决策树的组合方法也表现良好.本研究对国内商业银行建立合适的小企业主贷款信用评分模型具有参考意义,也有助于推动银行微观金融统计,完善金融统计工作.  相似文献   

15.
基于自组织数据挖掘的区域物流需求预测   总被引:1,自引:0,他引:1  
文章将自组织数据挖掘方法应用于区域物流需求预测,建立了参数GMDH输入输出模型和非参数模糊规则归纳区域物流需求预测模型,鉴于单个模型预测的局限性,以最小二乘法为最优化准则,建立了最优线性组合预测模型。实证分析表明组合预测结果比较满意,自组织数据挖掘方法是区域物流需求预测的有效工具。  相似文献   

16.
本文以大数据时代统计行业数据分析和数据挖掘应用为背景,论述了分析和挖掘软件的分类,以及几种主要工具的功能和演变,讲述了各种工具的优点和适用性,提出了一些我们运用工具到统计行业数据处理的建议,分析了开创新统计思维的重要性,倡导搭建适合中国国情的开源的统计行业数据分析和数据挖掘平台。  相似文献   

17.
段敏芳 《统计教育》2005,(10):15-18
调查活动主要是调查问卷的设计与数据的处理。问卷设计的难点在于用什么样的指标将调查的目的与内容体现出来,数据处理的难点是进行数据挖掘,使调查获得的第一手资料通过系列分组能展现出调查对象的特征。本文通过大学生人生观伦理观的调查案例,阐述了市场调查实践课的调查方案设计的基本思想及其调查结果分析,重点介绍了问卷的设计与数据的处理以及调查的实施情况。  相似文献   

18.
文章针对现有的大部分单一分类器预测精度不而,且具有一定限制条件的弱点,提出了应用组合分类模型对中小企业信贷违约预判的方法.以调整的SVM后验概率分类器和多维正态分布概率分类器为基本模型,构建了基于贝叶斯规则动态分配权重的组合分类模型,并把它应用于中小企业信贷违约预判.结果表明,该模型克服了普通组合预测模型权重分配固定的弱点,可获得较高的稳健性和分类精度.  相似文献   

19.
文章主要探讨了一种贝叶斯分类方法在肝炎后肝硬化中医诊断中的应用,介绍了粗糙集理论、广义关联度系数以及贝叶斯分类模型等数据挖掘技术.并且,运用粗糙集理论及广义关联度系数方法,对287例肝炎后肝硬化的症状、体征进行了属性选择.进一步,利用树增广的朴素贝叶斯分类算法,构建了肝炎后肝硬化中医证候分类模型.实验表明这种模型对肝炎后肝硬化的6种主要证候分类的符合率达83%.研究结果对肝炎后肝硬化的中医临床诊断具有参考意义.  相似文献   

20.
金融机构对客户分类和特征识别的分析将有助于它们挖掘出潜在的客户,并做好相应的营销政策.利用聚类分析、决策树等常见的数据挖掘方法,对台湾投资者的投资意向进行详细的分析,归纳出投资者的偏好,为金融机构的营销政策提供参考依据.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号