首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
聂斌  胡雪  王曦 《统计研究》2017,(8):61-70
空气质量数据具有在时间上连续、空间上相关的特点,这提高了异常点识别的难度.本文提出在时间维度上运用移动平均法,在空间维度上运用反距离加权法对观测值进行预测并求残差的解决思路,从而将时空数据的异常点识别问题转化为二维残差值的异常点检测问题.通过仿真验证表明新方法具有良好的检出力.最后将新方法应用于北京市实际观测数据,取得了满意的识别效果.  相似文献   

2.
随着大数据时代的来临,近年来函数型数据分析方法成为研究的热点问题,针对曲线的聚类分析方法引起了学界的关注.给出一种曲线聚类的方法:以L2距离作为亲疏程度的度量,在B样条基底函数展开表述下,将曲线本身信息、曲线变化信息引入聚类算法构建,并实现了曲线聚类与传统多元统计聚类方法的对接.作为应用,以城乡收入函数聚类实例验证了该曲线聚类方法,结果表明,在引入曲线变化信息的情况下,比仅考虑曲线本身信息能够取得更好的聚类效果.  相似文献   

3.
正从统计学的角度看,金融运行中的异常情况是可以进行界定的。因为在金融运行中我们关心的指标数据一般为时间序列数据,所以金融运行的异常情况在数据上就体现为时间序列数据集中的异常。按照异常的表现形式不同,时间序列的异常主要可以分为点异常和模式异常。这两种异常都可以用于发现一条时间序列或多维时间序列数据集上的  相似文献   

4.
异常检测作为一种智能化的数据管控手段,在网络入侵检测、欺诈识别和故障检测等场景中都扮演着重要角色。大数据时代下,数据来源众多,给多源数据集的异常检测建模分析带来了较大挑战。本文将惩罚整合分析的思想应用到异常检测中,通过对不同数据集的模型系数差异进行惩罚,提出了基于多源数据的整合单类SVM异常检测方法。该方法可以同时对多源数据进行异常检测并自动将相似数据集聚为一类,可以大幅减少模型待估参数个数并降低后期维护成本。模拟实验表明,本文提出的方法不仅能准确将数据集聚类,而且模型预测效果优于合并数据集建模和每个数据集单独建模。该方法在某银行网站日志异常检测中也有较好的表现。  相似文献   

5.
两种时间序列孤立点挖掘方法的比较   总被引:2,自引:0,他引:2       下载免费PDF全文
一、引言在传统的观念中 ,孤立点常常被认为是噪声数据或无用数据 ,常用的方法是排除这些干扰数据。然而 ,一个对象的噪声可能是另一个对象的信号 ,这可能导致重要的隐藏信息丢失。因此 ,识别这些孤立点 ,挖掘隐藏信息也是我们的一个重要的任务。从实际来看 ,它能用于欺诈监测 ,例如探测不寻常的信用卡使用或电信服务。此外 ,在市场分析中用于确定极低或极高收入的客户消费行为 ,或在医疗分析中用于发现多种治疗方式的不寻常的反应。这样 ,孤立点地探测和分析是一个有趣的数据挖掘任务 ,被称为孤立点挖掘 (OutlierMining)。目前该领域已取…  相似文献   

6.
利用Benford法则对数据质量进行检验是一种已经在实践中得到广泛应用的重要方法。但该方法也存在一定局限性,针对其存在的问题,本文进一步探讨了如何将其与异常值探测、数据挖掘技术等方法相结合,从而找出可能存在数据质量问题的具体样本及其规律的方法。并利用该方法对我国保险行业2006—2011年主要经济指标的数据质量进行了实证分析,结果表明这种方法是合理且有效的。  相似文献   

7.
对证券市场运行的异常情况进行统计监测可有效地加强其监管。文章对证券市场运行的异常情况进行了界定,并选取了反映证券市场运行的16个指标数据,运用残差检验和随机方差扩大模型诊断法(RVAR)对证券市场运行的异常情况进行统计监测。结果表明,残差检验可以得到异常点的位置以及在一定概率水平上的残差置信区间,随机方差扩大模型诊断法可以诊断出异常点的位置和出现概率,这两种方法对证券市场运行的异常情况均可进行有效监测。  相似文献   

8.
徐雪松  王四春 《统计研究》2012,29(4):108-112
根据免疫否定选择原理,设计了基于掩码分段匹配的否定选择分类器,克服连续r位匹配法的缺陷。给出了适用于免疫优化的分类规则编码及分类信息分的评价。通过免疫进化对其进行群体优化以约简数据规则集。避免了传统分类算法缺乏全局优化能力的缺点,提高了对样本的识别能力。实验结果表明本文方法提高了数据分类的准确性,在数据分类准确率及平均信息分上优于传统的分类方法。  相似文献   

9.
本文基于自变量与异常点识别隐变量的联合Bayes后验概率,给出了自变量与异常点同时识别的一般方法,且利用Gibbs抽样降低了Bayes后验概率的计算复杂度。其次,针对多值序次数据模型自变量与异常点的同时识别展开详细讨论,给出了同时识别的具体过程。最后通过模拟算例展示了本文方法的有效性。  相似文献   

10.
为解决灰色异构数据的建模问题,应用"核和灰度"对灰色异构数据代数运算法则及其性质展开研究。将灰信息表征为"核和灰度",通过"核"将灰色异构数据代数运算转换为实数之间代数运算,根据灰度不减公理确定运算结果之灰度,在此基础上构建灰色异构数据的代数运算法则,并将该法则应用于灰色异构数据预测模型的构建及空气质量指数(AQI)的预测。研究成果对丰富与完善灰色系统基础理论具有积极意义。  相似文献   

11.
异常数据的存在通常会导致经济数量分析得出有偏误的甚至是错误的结论,因此必须进行数据质量的诊断。本文介绍并研究了一种多维经济数据诊断的有效方法——"投影寻踪法",并以中国"GDP增长-消费增长"数据为例进行了实践检验,证明了它不但可以诊断出数据中的异常值点,而且可以充分保留和利用多维数据的结构性和相关性关系。  相似文献   

12.
函数型数据本质上是一种复杂数据,其抽样、生成、结构和关联程度都会影响到数据的复杂性和描述性,有些情形甚至连基本的可视化描述都成为难点。在利用函数型数据的主成分得分、图基的数据深度和密度概念的基础上,引入函数型数据的打包图和箱线图,并针对函数型数据的图形分析提出了函数型数据异常值检测的三种方法。与已有的检测方法相比较,所提三种方法更易于识别函数型数据的异常值。  相似文献   

13.
文章针对大量复杂的靶场观测数据,通过构造初始拟合数据,利用B样条曲线的方法构造递推模型,使用基于样条平滑方法估计的判断门限对双向检验的结果数据是否异常进行判定,并且对满足修复条件的数据进行拟合修复,当双向检验的结果不同时,通过构造内推模型来进一步检验。实例分析表明:文章提出的方法相对其他方法能更有效地剔除异常数据,通过数据分段处理能更有效地检验那些可能产生阶段性跳跃的数据,使得模型具有更好的稳定性、更广的适用性和更高的异常数据剔除率。  相似文献   

14.
大规模指标下的环境效率评价方法研究   总被引:1,自引:0,他引:1  
由于DEA模型的有效性识别能力随着指标变量的增加而减弱,文章针对环境效率评价问题中常常面临的不期望输出和大规模多重相关指标变量的问题,引入了一种基于主基底变量的数据降维方法,以提高DEA模型的有效性和判别能力;通过累计信息含量的测度,对主基底变量进行了有效筛选;在此基础上,提出了基于主基底变量的效率评价模型.实例分析说明了文章所提出方法的合理性和有效性.  相似文献   

15.
空间自回归模型的局部影响分析和运用   总被引:1,自引:0,他引:1  
由于空间数据的相依特性,使得通常的删除点诊断异常值的方法不适合采用。为了寻找数据中的异常点和影响点,采用局部影响分析技术,通过引入扰动的方法来发现影响点,最后通过实例说明局部影响分析技术能够有效地发现模型中可能的影响点,并且能够揭示更多的细节信息。  相似文献   

16.
空气污染问题引起了社会广泛关注,影响空气质量评价的因素有很多,研究这些因素对指标的影响是否都显著尤为重要.文章将函数型方差检验的方法(ANOVA)应用到空气质量的数据中,首先采集到北京市区内分布在不同地方的35个监测站的每天每小时的实时更新数据,对北京市划分的五个行政区域的空气污染成分进行函数方差分析的k样本均值假设检验,进而分析北京市各行政区域空气污染的各成分之间的差异.  相似文献   

17.
异常点的存在会导致股票数据模型的波动预测功能失效,因此,在对股票数据进行建模分析时,异常点的检测是至关重要的。文章对股票数据通过GARCH模型处理得到的残差进行小波变换,能够准确有效地检测异常点并很好的克服了异常点的"遮蔽效应"。最后,实验证明,该方法的效果良好。  相似文献   

18.
高维GARCH模型逐渐在金融市场中建立并使用,而高维控制图应用较少,文章首次采用主成分的方法建立高维GARCH控制图,能够有效改善控制图不易识别和保存数据信息量等问题,以美元汇率和股票市场2008-2009年共262个数据为例,建立汇率市场与股票市场的合成控制图,实证表明该控制图能够准确、有效识别异常点,起到监控和预警的作用。  相似文献   

19.
高海燕等 《统计研究》2020,37(8):91-103
函数型聚类分析算法涉及投影和聚类两个基本要素。通常,最优投影结果未必能够有效地保留类别信息,从而影响后续聚类效果。为此,本文梳理了函数型聚类的构成要素及运行过程;借助非负矩阵分解的聚类特性,提出了基于非负矩阵分解的函数型聚类算法,构建了“投影与聚类”并行的实现框架,并采用交替迭代方法更新求解,分析了算法的计算时间复杂度。针对随机模拟数据验证和语音识别数据的实例检验结果显示,该函数型聚类算法有助于提高聚类效果;针对北京市二氧化氮(NO2)污染物小时浓度数据的实例应用表明,该函数型聚类算法对空气质量监测点类型的区分能够充分识别站点布局的空间模式,具有良好的实际应用价值。  相似文献   

20.
孙怡帆等 《统计研究》2019,36(3):124-128
从大量基因中识别出致病基因是大数据下的一个十分重要的高维统计问题。基因间网络结构的存在使得对于致病基因的识别已从单个基因识别扩展到基因模块识别。从基因网络中挖掘出基因模块就是所谓的社区发现(或节点聚类)问题。绝大多数社区发现方法仅利用网络结构信息,而忽略节点本身的信息。Newman和Clauset于2016年提出了一个将二者有机结合的基于统计推断的社区发现方法(简称为NC方法)。本文以NC方法为案例,介绍统计方法在实际基因网络中的应用和取得的成果,并从统计学角度提出了改进措施。通过对NC方法的分析可以看出对于以基因网络为代表的非结构化数据,统计思想和原理在数据分析中仍然处于核心地位。而相应的统计方法则需要针对数据的特点及关心的问题进行相应的调整和优化。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号