共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
随着大数据时代的来临,近年来函数型数据分析方法成为研究的热点问题,针对曲线的聚类分析方法引起了学界的关注.给出一种曲线聚类的方法:以L2距离作为亲疏程度的度量,在B样条基底函数展开表述下,将曲线本身信息、曲线变化信息引入聚类算法构建,并实现了曲线聚类与传统多元统计聚类方法的对接.作为应用,以城乡收入函数聚类实例验证了该曲线聚类方法,结果表明,在引入曲线变化信息的情况下,比仅考虑曲线本身信息能够取得更好的聚类效果. 相似文献
3.
正从统计学的角度看,金融运行中的异常情况是可以进行界定的。因为在金融运行中我们关心的指标数据一般为时间序列数据,所以金融运行的异常情况在数据上就体现为时间序列数据集中的异常。按照异常的表现形式不同,时间序列的异常主要可以分为点异常和模式异常。这两种异常都可以用于发现一条时间序列或多维时间序列数据集上的 相似文献
4.
异常检测作为一种智能化的数据管控手段,在网络入侵检测、欺诈识别和故障检测等场景中都扮演着重要角色。大数据时代下,数据来源众多,给多源数据集的异常检测建模分析带来了较大挑战。本文将惩罚整合分析的思想应用到异常检测中,通过对不同数据集的模型系数差异进行惩罚,提出了基于多源数据的整合单类SVM异常检测方法。该方法可以同时对多源数据进行异常检测并自动将相似数据集聚为一类,可以大幅减少模型待估参数个数并降低后期维护成本。模拟实验表明,本文提出的方法不仅能准确将数据集聚类,而且模型预测效果优于合并数据集建模和每个数据集单独建模。该方法在某银行网站日志异常检测中也有较好的表现。 相似文献
5.
一、引言在传统的观念中 ,孤立点常常被认为是噪声数据或无用数据 ,常用的方法是排除这些干扰数据。然而 ,一个对象的噪声可能是另一个对象的信号 ,这可能导致重要的隐藏信息丢失。因此 ,识别这些孤立点 ,挖掘隐藏信息也是我们的一个重要的任务。从实际来看 ,它能用于欺诈监测 ,例如探测不寻常的信用卡使用或电信服务。此外 ,在市场分析中用于确定极低或极高收入的客户消费行为 ,或在医疗分析中用于发现多种治疗方式的不寻常的反应。这样 ,孤立点地探测和分析是一个有趣的数据挖掘任务 ,被称为孤立点挖掘 (OutlierMining)。目前该领域已取… 相似文献
6.
关于综合利用Benford法则与其他方法评估统计数据质量的进一步研究 总被引:1,自引:0,他引:1
利用Benford法则对数据质量进行检验是一种已经在实践中得到广泛应用的重要方法。但该方法也存在一定局限性,针对其存在的问题,本文进一步探讨了如何将其与异常值探测、数据挖掘技术等方法相结合,从而找出可能存在数据质量问题的具体样本及其规律的方法。并利用该方法对我国保险行业2006—2011年主要经济指标的数据质量进行了实证分析,结果表明这种方法是合理且有效的。 相似文献
7.
8.
9.
10.
11.
异常数据的存在通常会导致经济数量分析得出有偏误的甚至是错误的结论,因此必须进行数据质量的诊断。本文介绍并研究了一种多维经济数据诊断的有效方法——"投影寻踪法",并以中国"GDP增长-消费增长"数据为例进行了实践检验,证明了它不但可以诊断出数据中的异常值点,而且可以充分保留和利用多维数据的结构性和相关性关系。 相似文献
12.
函数型数据本质上是一种复杂数据,其抽样、生成、结构和关联程度都会影响到数据的复杂性和描述性,有些情形甚至连基本的可视化描述都成为难点。在利用函数型数据的主成分得分、图基的数据深度和密度概念的基础上,引入函数型数据的打包图和箱线图,并针对函数型数据的图形分析提出了函数型数据异常值检测的三种方法。与已有的检测方法相比较,所提三种方法更易于识别函数型数据的异常值。 相似文献
13.
14.
15.
空间自回归模型的局部影响分析和运用 总被引:1,自引:0,他引:1
由于空间数据的相依特性,使得通常的删除点诊断异常值的方法不适合采用。为了寻找数据中的异常点和影响点,采用局部影响分析技术,通过引入扰动的方法来发现影响点,最后通过实例说明局部影响分析技术能够有效地发现模型中可能的影响点,并且能够揭示更多的细节信息。 相似文献
16.
空气污染问题引起了社会广泛关注,影响空气质量评价的因素有很多,研究这些因素对指标的影响是否都显著尤为重要.文章将函数型方差检验的方法(ANOVA)应用到空气质量的数据中,首先采集到北京市区内分布在不同地方的35个监测站的每天每小时的实时更新数据,对北京市划分的五个行政区域的空气污染成分进行函数方差分析的k样本均值假设检验,进而分析北京市各行政区域空气污染的各成分之间的差异. 相似文献
17.
异常点的存在会导致股票数据模型的波动预测功能失效,因此,在对股票数据进行建模分析时,异常点的检测是至关重要的。文章对股票数据通过GARCH模型处理得到的残差进行小波变换,能够准确有效地检测异常点并很好的克服了异常点的"遮蔽效应"。最后,实验证明,该方法的效果良好。 相似文献
18.
高维GARCH模型逐渐在金融市场中建立并使用,而高维控制图应用较少,文章首次采用主成分的方法建立高维GARCH控制图,能够有效改善控制图不易识别和保存数据信息量等问题,以美元汇率和股票市场2008-2009年共262个数据为例,建立汇率市场与股票市场的合成控制图,实证表明该控制图能够准确、有效识别异常点,起到监控和预警的作用。 相似文献
19.
函数型聚类分析算法涉及投影和聚类两个基本要素。通常,最优投影结果未必能够有效地保留类别信息,从而影响后续聚类效果。为此,本文梳理了函数型聚类的构成要素及运行过程;借助非负矩阵分解的聚类特性,提出了基于非负矩阵分解的函数型聚类算法,构建了“投影与聚类”并行的实现框架,并采用交替迭代方法更新求解,分析了算法的计算时间复杂度。针对随机模拟数据验证和语音识别数据的实例检验结果显示,该函数型聚类算法有助于提高聚类效果;针对北京市二氧化氮(NO2)污染物小时浓度数据的实例应用表明,该函数型聚类算法对空气质量监测点类型的区分能够充分识别站点布局的空间模式,具有良好的实际应用价值。 相似文献
20.
从大量基因中识别出致病基因是大数据下的一个十分重要的高维统计问题。基因间网络结构的存在使得对于致病基因的识别已从单个基因识别扩展到基因模块识别。从基因网络中挖掘出基因模块就是所谓的社区发现(或节点聚类)问题。绝大多数社区发现方法仅利用网络结构信息,而忽略节点本身的信息。Newman和Clauset于2016年提出了一个将二者有机结合的基于统计推断的社区发现方法(简称为NC方法)。本文以NC方法为案例,介绍统计方法在实际基因网络中的应用和取得的成果,并从统计学角度提出了改进措施。通过对NC方法的分析可以看出对于以基因网络为代表的非结构化数据,统计思想和原理在数据分析中仍然处于核心地位。而相应的统计方法则需要针对数据的特点及关心的问题进行相应的调整和优化。 相似文献