共查询到20条相似文献,搜索用时 31 毫秒
1.
在面板数据聚类分析方法的研究中,基于面板数据兼具截面维度和时间维度的特征,对欧氏距离函数进行了改进,在聚类过程中考虑指标权重与时间权重,提出了适用于面板数据聚类分析的"加权距离函数"以及相应的Ward.D聚类方法。首先定义了考虑指标绝对值、邻近时点增长率以及波动变异程度的欧氏距离函数;然后,将指标权重与时间权重通过线性模型集结成综合加权距离,最终实现面板数据的加权聚类过程。实证分析结果显示,考虑指标权重与时间权重的面板数据加权聚类分析方法具有更好的分辨能力,能提高样本聚类的准确性。 相似文献
2.
3.
数据分布密度划分的聚类算法是数据挖掘聚类算法的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区,产生数据集的子簇空间,并进行子簇合并,形成理想的聚类结果;依据该算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。 相似文献
4.
文章针对多指标面板数据的样品分类问题,从多元统计学理论角度提出一个多指标面板数据的聚类分析方法。该方法综合考虑面板数据的水平指标、增量指标和增量变化率指标的时间序列特征及其非同步时间序列问题,在重新构造了离差平方和函数基础上,提出了一种聚类方法。通过实证分析,表明新方法能够解决多指标面板数据聚类的问题,分类效果较好。 相似文献
5.
对于一类变量非线性相关的面板数据,现有的基于线性算法的面板数据聚类方法并不能准确地度量样本间的相似性,且聚类结果的可解释性低。综合考虑变量非线性相关问题及聚类结果可解释性问题,提出一种非线性面板数据的聚类方法,通过非线性核主成分算法实现对样本相似性的测度,并基于混合高斯模型进行样本概率聚类,实证表明该方法的有效性及其对聚类结果的可解释性有所提高。 相似文献
6.
多指标面板数据能够较全面的提供研究对象的信息和数据特征,但复杂的数据结构也给其聚类分析带来了一定的困难.针对这一问题,文章提出了基于特征提取的多指标面板数据聚类方法,该方法将能够表征面板数据动态变化的“绝对量”特征、“波动”特征、“偏度”特征、“峰度”特征及“趋势”特征引入动态聚类算法中,可以避免以往采用欧式距离进行聚类的局限性,还可以处理带有缺失数据的面板数据,同时大大提高了聚类效率,并最大限度地保证时间维度信息不受损失.利用该方法分析了2001至2013年我国不同省份道路交通事故的不平衡状况,通过实证分析表明该方法能够解决多指标面板数据聚类的问题. 相似文献
7.
面板数据聚类方法及应用 总被引:7,自引:0,他引:7
基于面板数据的时序特征和截面特征,综合考虑面板数据“绝对指标”,“增量指标”及其“时序波动”特征,在重构面板数据相似性测度的距离函数和Ward聚类算法的基础上,提出了面板数据聚类方法。并以2003-2007年财政金融面板数据为例,对中国14个沿海开放城市进行了聚类分析,显示了良好的应用性。 相似文献
8.
基于形状特征的多指标面板数据聚类方法及其应用 总被引:1,自引:0,他引:1
针对多指标面板数据的样品分类问题,从特征提取角度提出一个多指标面板数据的聚类分析方法。该方法将时间序列的局部变化特性与整体距离关系结合起来,将局部变化的信息融入相似测度的计算中,提出一种自适应滑动窗口分段方法,实现时间序列局部变化的特征提取,在重新定义综合距离的基础上,提出一种聚类方法。通过实证分析,表明新方法能够解决多指标面板数据聚类的问题,分类效果较好。 相似文献
9.
传统的K-Prototypes聚类算法是利用划分的思想来对混合数据进行聚类,但是当混合数据的维度增大时,对象之间的差异度几乎相等,使得此算法难以进行。针对上述缺陷,文章提出一种改进的K-Prototyes聚类算法,聚类前先剔除各类中不相关的维度,将高维混合数据投影降维后再进行聚类。文中给出了Heart Disease Databases的算例,验证了算法的有效性。 相似文献
10.
函数型聚类分析算法涉及投影和聚类两个基本要素。通常,最优投影结果未必能够有效地保留类别信息,从而影响后续聚类效果。为此,本文梳理了函数型聚类的构成要素及运行过程;借助非负矩阵分解的聚类特性,提出了基于非负矩阵分解的函数型聚类算法,构建了“投影与聚类”并行的实现框架,并采用交替迭代方法更新求解,分析了算法的计算时间复杂度。针对随机模拟数据验证和语音识别数据的实例检验结果显示,该函数型聚类算法有助于提高聚类效果;针对北京市二氧化氮(NO2)污染物小时浓度数据的实例应用表明,该函数型聚类算法对空气质量监测点类型的区分能够充分识别站点布局的空间模式,具有良好的实际应用价值。 相似文献
11.
以往的面板数据聚类方法存在一些缺陷,有必要基于动态时间规整的思路进一步改进与完善面板数据聚类方法。利用国家级经济技术开发区数据开展的实证分析结果表明:新的方法既能够很好地反映面板数据的动态变化、又避免了已有的面板数据聚类方法中各种距离如何赋权的问题,聚类结果较为稳定且有很好的可视化效果。 相似文献
12.
面板数据的聚类分析可以进行压缩的预处理也可以不进行压缩,文章提出可以根据样品中各个指标的时序数据的趋势特征来考虑是否应该进行压缩或如何进行压缩。然后考虑聚类的统计量的设置,再后给出系统聚类法的计算公式。 相似文献
13.
文章构建了一套针对中国省域尺度的经济可持续发展评价指标体系,运用投影寻踪和聚类方法,对中国30个省(市、自治区)1998~2009年的经济可持续发展水平(多指标面板数据)进行分析,根据投影值进行聚类,得出了5种类型的经济可持续发展水平. 相似文献
14.
基于遗传算法的投影寻踪聚类 总被引:1,自引:0,他引:1
传统的投影寻踪聚类算法PROCLUS是一种有效的处理高维数据聚类的算法,但此算法是利用爬山法(Hill climbing)对各类中心点进行循环迭代、选取最优的过程,由于爬山法是一种局部搜索(local search)方法,得到的最优解可能仅仅是局部最优。针对上述缺陷,提出一种改进的投影寻踪聚类算法,即利用遗传算法(Genetic Algorithm)对各类中心点进行循环迭代,寻找到全局最优解。仿真实验结果证明了新算法的可行性和有效性。 相似文献
15.
运用面板数据建模分析时,在考虑截面异质性的情形下存在参数过多的问题。提出一种基于面板数据关系结构的聚类方法,能有效解决模型估计时参数过多的问题;提出内距离与外距离概念,有效解决了聚类分析时定量确定分类数的问题。将此方法运用于动态面板数据的建模分析,统计模拟结果显示有较好的小样本性质。基于理论模型,采用中国1996-2012年的省级面板数据,实证分析了金融发展对房地产业发展的动态影响,分析效果与现实经济发展较吻合,证明该方法有较好的应用性。 相似文献
16.
17.
三路数据主要包含面板数据、纵向数据和三模数据三种立体数据格式。三路数据在社会科学和自然科学研究中受到越来越广泛的关注和应用。传统的聚类分析理论和方法主要基于两路平面数据而建立,对于三路数据,这些理论和方法则显得无能为力。在对传统的两路数据聚类方法做概要回顾的基础上,对国内外主流的三路数据聚类方法做了简要综述和总结。 相似文献
18.
19.
高维稀疏数据的特征选择是互联网舆情文本聚类分析的关键。借鉴罚模型思想,利用罚多项混合模型,给不显著影响聚类结果的特征予较重惩罚的方式实现特征选择,可有效选出代表舆情各类观点的典型词汇,实证应用中有较为理想的表现。 相似文献