首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
在聚类问题中,若变量之间存在相关性,传统的应对方法主要是考虑采用马氏距离、主成分聚类等方法,但其可操作性或可解释性较差,因此提出一类基于模型的聚类方法,先对变量间的相关性结构建模(作为辅助信息)再做聚类分析。这种方法的优点主要在于:适用范围更宽泛,不仅能处理(线性)相关问题,而且还可以处理变量间存在的其他复杂结构生成的数据聚类问题;各个变量的重要性也可以通过模型的回归系数来体现;比马氏距离更稳健、更具操作性,比主成分聚类更容易得到解释,算法上也更为简洁有效。  相似文献   

2.
一种加权主成分距离的聚类分析方法   总被引:1,自引:0,他引:1  
吕岩威  李平 《统计研究》2016,33(11):102-108
指标之间的高度相关性及其重要性差异导致了传统聚类分析方法往往无法获得良好的分类效果。本文在对传统聚类分析方法及其各种改进方法局限性展开探讨的基础上,运用数学方法重构了分类定义中的距离概念,通过定义自适应赋权的主成分距离为分类统计量,提出一种新的改进的主成分聚类分析方法——加权主成分距离聚类分析法。理论研究表明,加权主成分距离聚类分析法系统集成了已有聚类分析方法的优点,有充分的理论基础保证其科学合理性。仿真实验结果显示,加权主成分距离聚类分析法能够有效解决已有聚类分析方法在特定情形下的失真问题,所得分类效果更为理想。  相似文献   

3.
一、基于统计聚类进行预警的基本思想聚类分析是一种对多元变量进行分类的方法,其原理是基于数据计算样品之间的距离或者夹角,在一定的阀值下  相似文献   

4.
在面板数据聚类分析方法的研究中,基于面板数据兼具截面维度和时间维度的特征,对欧氏距离函数进行了改进,在聚类过程中考虑指标权重与时间权重,提出了适用于面板数据聚类分析的"加权距离函数"以及相应的Ward.D聚类方法。首先定义了考虑指标绝对值、邻近时点增长率以及波动变异程度的欧氏距离函数;然后,将指标权重与时间权重通过线性模型集结成综合加权距离,最终实现面板数据的加权聚类过程。实证分析结果显示,考虑指标权重与时间权重的面板数据加权聚类分析方法具有更好的分辨能力,能提高样本聚类的准确性。  相似文献   

5.
一类新的多重共线性检验方法   总被引:2,自引:0,他引:2  
解释变量间的相关性导致了多元线性回归模型的多重共线性问题,由于考察相关性的角度和方法不同,产生了不同的多重共线性的检验方法。由阿达马不等式可以构建多个变量的综合相关性度量指标,将该指标用于度量多元线性回归模型的解释变量的综合相关程度,用以作为多元线性回归模型多重共线性的一类检验方法。  相似文献   

6.
对由多个指标组成的多元数据进行聚类分析时,数据维度的增加、各指标与总体聚类的相关性程度不一致以及各指标服从的分布不同会增加聚类的复杂性,影响聚类结果的准确性,因此需要通过合适的方法来对多元数据进行聚类分析。针对这一问题,提出改进的带粘性的层次Dirichlet过程(sticky Hierarchical Dirichlet Process)方法来实现对多元数据的降维聚类,以解决各指标服从不同分布的问题,并用粘性参数反映各指标与总体聚类之间的相关性。用MCMC方法来估计模型参数。通过对仿真模拟数据和IRIS数据集的聚类分析,证实了该方法的有效性,同时发现单个指标与总体聚类的相关性越大,则相应的粘性参数越大,从而反映该指标在总体聚类中的重要性程度越高;并且当各指标数据中有粘性较大的指标时,带粘性的层次Dirichlet过程方法明显优于其他聚类方法,能够显著提高分类的准确性。  相似文献   

7.
将相关分析和有向聚类分析结合,提出有向相关聚类方法。先依据相关性进行变量合并,再进行有向聚类,分析结果更合理,聚类过程更简单。将该方法用于大学生健康成长影响因素的调查数据,得出更合理的结果。  相似文献   

8.
一 聚类分析是对多指标(变量)研究对象进行分类的一种多元统计分析方法.聚类分析依据定义的研究对象之间的相近程度(距离或相似系数),将性质相近的对象聚为一类,性质不相近的对象不能聚为一类.在一般的系统聚类和动态聚类中,研究对象(样本)之间是不考虑顺序的,只要两个样本之间的距离最近,就将其聚为一类.但是,在实际问题中,我们观察到的样本,特别是按时间顺序观察到的样本,是不能随便打乱顺序,将任意两个距离最近的样本聚为一类的.例如,观察儿童的生长发育过程,按着每年增加的体重,将生长期进行阶段分类,就不可以将新生儿期与学龄期分在一类,因为这中间还有一个幼儿期.  相似文献   

9.
Logistic模型多重共线性问题的诊断及改进   总被引:1,自引:0,他引:1  
文章诊断并改进了logistic回归模型多重共线性问题方法,采用条件指数和方差分解比例两项指标进行共线性诊断、应用主成分改进和偏最小二乘回归两种方法进行多重共线性变量的改进处理:去除了回归模型中变量间的多重共线性影响,建立了较为理想的关系模型.结果表明,在Logisdc回归模型分析中,应用上述方法进行多重共线性的诊断和处理是有效及可行的.  相似文献   

10.
文章在一个一般性的框架下研究了利用基函数展开进行函数型数据聚类的问题.在这个框架之下,大量传统的聚类方法都可以直接应用到函数型数据分析.另外,我们将Pearson相似系数引入函数型数据聚类分析,解决了欧式距离无法刻画曲线之间形态差异的问题.  相似文献   

11.
Q型系统聚类分析中的统计检验问题   总被引:2,自引:1,他引:1  
Q型系统聚类分析已经越来越成为人们广泛应用的多元统计分析方法。然而在应用中盲目套用系统聚类分析方法的情况很多,并对聚类分析方法的适用性、聚类过程的合理性、聚类结果的有效性等问题分析重视不够,更谈不上对聚类分析进行统计检验。因此,为了更好地应用Q型系统聚类分析,就应对Q型系统聚类分析结果进行统计检验并建立统计检验体系。Q型系统聚类分析统计检验体系主要包括:Q型系统聚类分析结果的有效性检验;聚类分析类(组)数选择合理性检验;聚类变量的显著性检验。  相似文献   

12.
对于一类变量非线性相关的面板数据,现有的基于线性算法的面板数据聚类方法并不能准确地度量样本间的相似性,且聚类结果的可解释性低。综合考虑变量非线性相关问题及聚类结果可解释性问题,提出一种非线性面板数据的聚类方法,通过非线性核主成分算法实现对样本相似性的测度,并基于混合高斯模型进行样本概率聚类,实证表明该方法的有效性及其对聚类结果的可解释性有所提高。  相似文献   

13.
文章针对主成分综合评价主要环节的一般性问题展开讨论,给出可行的解决方案并进行了理论分析。在总结现有关于主成分聚类分析重要文献的基础上,通过构建客观赋权的加权主成分距离为聚类统计量,有效地解决了现有聚类模型不能处理指标共线性和重要性差异悬殊的问题。对比本文拓展的聚类模型与同类模型的分类效率发现,加权主成分聚类分析蕴含的客观合理性是其优势所在的根本原因。  相似文献   

14.
本文提出了广义空间信息准则,以解决广义嵌套空间模型的变量选择问题.依据大样本性质的不同,将该准则分为两类:空间AIC类准则和空间BIC类准则.研究发现,空间AIC类准则能有效解决空间模型中变量的错选和漏选问题,但存在多选变量的倾向;而空间BIC类准则能同时解决空间模型中变量的错选、漏选和多选问题,而且在特殊条件下能更有效解决错选和漏选问题,但往往需要更大的样本容量.Monte Carlo模拟结果印证了上述相关结论.最后,本文以城市对外资银行的吸引力为例,在给定测度指标的基础上,验证其空间相关性,并利用本文提出的方法对其影响因素进行变量选择.  相似文献   

15.
基于聚类分析的订单分批拣货模型及启发式算法   总被引:2,自引:0,他引:2  
文章构造了拣货作业中订单分批问题的数学模型,在聚类分析的基础上,提出了三种相似系数计算公式,并建立了订单分批问题的聚类模型。然后采用启发式算法求解聚类模型得到分批结果,再根据分批模型求最短行走距离。最后以拣货行走的总距离为目标,用算例将算法与现有的分批方法进行比较,验证了模型和算法的有效性。  相似文献   

16.
聚类分析,顾名思义,就是研究如何将各个样品分类的一种多元统计方法.如果能将样品指标值映射到一维空间上,那么很容易将距离相近的各个样品来进行分类了.而现实中的问题总是被评价对象有好几个指标,而且指标间量纲也不尽不同.聚类分析就是将不同量纲的指标值进行标准化,通过数学上定义含有多维指标的各个样品之间的距离和样品聚为几个小类后类与类之间的距离,来将样品进行合理分类.  相似文献   

17.
我国商业银行的规模和财务指标存在较大差别,相应影响商业银行贷款效率的因素也存在较大差异。文章通过类平均聚类方法,将欧几里德距离较小且具有相似经济背景的银行分为一组,得到五大国有银行类及非国有银行类两类银行。通过逐步回归方法,逐步剔除SFA模型中t检验不显著的变量,保留所有对被解释变量影响显著的解释变量,建立商业银行贷款效率评价模型,并进行了实证分析。  相似文献   

18.
本文在阐述聚类分析两种常用距离测度特点的基础上,对两种常用距离测度提出了作者的理解和看法。据此,构造了考虑权重的聚类模型,对其实质给予几何解释。并进行实验示范。  相似文献   

19.
聚类分析是三大多元统计分析方法之一,在许多领域都有广泛的应用,特别是在模式识别或无学习分类领域,发挥着不可替代的作用。除谱系聚类的ward方法外,聚类分析的关键依据是样品间距。样品间距完全脱胎于几何中的距离概念,但样品间距在几何距离三角可加性里所隐含的各变量量纲必须一致且必须正交的两个关键特性或许是有意或许是不经意地被模糊了。文章认为各变量量纲一致且正交应是聚类分析的强制要求,而主成分分析是正交化的最佳手段,应该成为聚类分析程序相关模块的缺省设置或唯一选项。  相似文献   

20.
随着大数据时代的来临,近年来函数型数据分析方法成为研究的热点问题,针对曲线的聚类分析方法引起了学界的关注.给出一种曲线聚类的方法:以L2距离作为亲疏程度的度量,在B样条基底函数展开表述下,将曲线本身信息、曲线变化信息引入聚类算法构建,并实现了曲线聚类与传统多元统计聚类方法的对接.作为应用,以城乡收入函数聚类实例验证了该曲线聚类方法,结果表明,在引入曲线变化信息的情况下,比仅考虑曲线本身信息能够取得更好的聚类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号