共查询到20条相似文献,搜索用时 15 毫秒
1.
目前“数据挖掘(Data Mining,DM)”这一术语在学术界还没有一个公认的、权威的定义,但我们一般可以简单的认为数据挖掘是从海量数据中发现趋势或模式的过程。尽管有些人不愿承认数据挖掘与统计学的内在联系,但不可否认的是早期的数据挖掘的确脱胎于统计学,因此也可以说数据挖掘是利用统计学和机器学习技术创建预测行为的模型。需要强调的是数据挖掘的过程是一个“发现”的过程,而不是“发明”的过程。换句话说,数据挖掘所探寻的模式,是一种已有的、只是隐藏在数据中、暂时没有被发现的知识。世界上对数据挖掘的正式研究始于1989年8月举行… 相似文献
2.
数据挖掘技术及决策树简介
数据挖掘就是从大量的不完全的有噪声的模糊的随机的实际应用数据中,抽取隐含在其中的、事先并不知道的、但又是潜在有用的信息和知识的过程。决策树算法作为常用的数据挖掘技术之一,其基本思想是将实例库中记录的大量有限的具体事实数据进行归纳和分类并建立树型结构,以发现并形成隐含在大量实例中的若干形式化的分类判别规则,典型的决策树算法方法有ID3方法和IBLE(Information—basedLearningfromExample)方法。 相似文献
3.
数据挖掘技术的应用及发展 总被引:5,自引:0,他引:5
数据挖掘是从大量的数据中发现其潜在规律的技术,是当前计算机科学及统计科学研究的热点之一。文章介绍了数据挖掘的概念、功能、数据挖掘过程、常用方法等;探讨了数据挖掘领域面临的问题;论述了数据挖掘与统计分析的关系,并对国内外研究现状及发展情况做了介绍。 相似文献
4.
一、数据挖掘的定义
数据挖掘就是利用人工智能、统计分析以及其它建模方法,从大量不完全的、随机的数据中寻找数据之间的关系和有用的信息.数据挖掘在营销、金融等行业的重要性已经被认识,所以企业一般都建立自己的数据库即客户关系系统(CRM),这为数据挖掘的发展提供了基础.需要指出的是:数据挖掘并不仅仅是技术和算法的组合,它其实更像过程,这个过程的目的在于解决具体的问题或做具体的决策. 相似文献
5.
一、引言随着科学技术的发展 ,利用数据库技术来存储管理数据 ,利用机器学习的方法来分析数据 ,从而挖掘出大量的隐藏在数据背后的知识 ,这种思想的结合形成了现在深受人们关注的非常热门的研究领域 :数据库中的知识发现———KDD(KnowledgeDiscov eryinDatabases) ,其中 ,数据挖掘技术便是KDD中的一个最为关键的环节。1995年 ,在加拿大的蒙特利尔召开了第一届“知识发现和数据挖掘”国际学术会议 ,数据挖掘一词被很快流传开来。数据挖掘———DM(DataMining)就是从大量的、不完全的、有噪… 相似文献
6.
一、概述数据挖掘是 90年代中后期兴起的一门跨学科的综合研究领域 ,它集计算机机器学习、统计学、数据库管理、数据仓库、可视化、并行计算、决策支持为一体 ,利用数据库、数据仓库技术存储和管理数据 ,利用机器学习和统计学方法分析数据 ,旨在发现大量复杂数据中蕴含的有价值的知识和信息。目前 ,随着数据挖掘应用的不断开展以及客观现实对数据分析需求的不断增长 ,人们越来越认识到数据挖掘的重要性和必要性。数据挖掘通过对数据的总结、分类、聚类、关联等分析 ,实现对数据内在结构特征的理解和对未知数据的预测。其中 ,数据总结是在数… 相似文献
7.
20世纪90年代,美国的一些应用者和学者把在数据海洋中寻找知识的过程叫做“数据挖掘”。这是一种新的信息处理技术,其主要特点是对数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助决策的关键性数据。数据挖掘与传统的数据分析,如查询、报表、OLAP(联机应用分析)、统计分析等数据分析技术的本质区别是数据挖掘是在明确假设的前提下去挖掘信息、发现知识。 相似文献
8.
统计数据挖掘是数据挖掘在统计领域的应用,由于统计领域就是充满各种数据信息的世界,既有历史积累下来的时间序列数据,也有各省市政府、事业单位、企业形成的截面数据,还有二者合一的面板数据(又称Pool数据),信息资源十分丰富,因此对统计数据挖掘具有十分重要的现实意义。 相似文献
9.
一、引言
数据挖掘(Data Mining)是数据库中知识发现的核心,在近年来逐渐兴起,形成了一种全新的应用领域.数据挖掘是从大量的、有噪声的、随机的数据中,识别有效的、新颖的、有潜在应用价值及完全可理解模式的非凡过程,从而对科学研究、商业决策和企业管理提供帮助.神经网络是模拟人脑内部结构,在模拟推理、自动学习等方面接近人脑的自组织和并行处理的数学模型.其优点之一是,不依赖于对象.通过学习将输入、输出以权值的方式编码,把它们联系起来.神经网络在数据挖掘中的优势是:噪声数据的强承受能力,对数据分类的高准确性,以及可用各种算法进行规则提取.…… 相似文献
10.
在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题。本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现“事后”自加权设计。实现“事后”自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析。随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现 是一个比较合适的样本量。这一结论可能为其它大型复杂抽样调查数据的数据挖掘实施问题提供借鉴。 相似文献
11.
12.
数据挖掘技术是近年来逐步成熟并得到广泛研究和应用的数学分析技术,运用该技术能透过纷杂的数据现象分析得到事物的本质描述,辅助人们发现知识、认识新的事物规律,因此具有用来研究分析服装企业生产过程形成的近百万条人体量体数据、销售数据的可能性. 相似文献
13.
在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题.本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现"事后"自加权设计.实现"事后"自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析.随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现max(n,5%N)是一个比较合适的样本量.这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴. 相似文献
14.
一、引言数据挖掘是指一个完整的过程 ,该过程从大型数据库中挖掘先前未知的 ,有效的 ,可实用的信息 ,并使用这些信息做出决策或丰富知识。数据挖掘环境可示意如下图 1。数据挖掘与传统的数据分析 (如查询、报表、联机应用分析 )的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知 ,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的 ,既数据挖掘是要发现那些不能靠直觉发现的信息或知识 ,甚至是违背直觉的信息或知识 ,挖掘出的信息越是出乎意料 ,就可能越有价值。在商… 相似文献
15.
16.
数据挖掘功能是数据挖掘研究与应用的一个重要方面。数据挖掘功能用于指定数据挖掘任务中要找的模式类型。当前,数据挖掘的功能所处理的主要是传统的数据,对于函数型数据的研究还不是很多。文章探讨了数据挖掘中可以挖掘的几种函数型数据模式,包括数据描述、分类、聚类和回归。 相似文献
17.
随着经济全球化步伐的不断加快,洗钱犯罪日益成为世界性公害.文章通过分析海量金融交易信息,甄别可疑金融交易进而发现洗钱线索,成为反洗钱的研究重点.面对复杂多变的交易情形,通过对金融交易信息的层次分析,针对性的选择数据挖掘方法予以识别,进而借助概率统计规则将每一类可疑金融交易数据挖掘方法得出的可疑线索进行归纳分析,得到交易记录的整体可疑度,为洗钱交易识别提供准确线索,最后通过真实交易数据验证了该方法的可行性和有效性. 相似文献
18.
一、问题的提出关联规则挖掘是通过对已知数据的学习找出其中存在有意义依赖关系,它可以用来进行预测决策和分类,因此是机器学习领域集中解决的问题。数据挖掘中的问题与机器学习主要区别在于:数据挖掘中要处理大量的数据,因此要求学习的效率很高;另外数据挖掘获得的规则或模式 相似文献
19.
20.
数据挖掘中处理的数据越来越庞大,传统的聚类方法已经不再适用。因此,本文提出了一种基于因子分析的聚类方法,从而达到数据降维和简化聚类过程的效果。 相似文献