共查询到16条相似文献,搜索用时 140 毫秒
1.
文章针对多指标面板数据的样品分类问题,从多元统计学理论角度提出一个多指标面板数据的聚类分析方法。该方法综合考虑面板数据的水平指标、增量指标和增量变化率指标的时间序列特征及其非同步时间序列问题,在重新构造了离差平方和函数基础上,提出了一种聚类方法。通过实证分析,表明新方法能够解决多指标面板数据聚类的问题,分类效果较好。 相似文献
2.
多指标面板数据能够较全面的提供研究对象的信息和数据特征,但复杂的数据结构也给其聚类分析带来了一定的困难.针对这一问题,文章提出了基于特征提取的多指标面板数据聚类方法,该方法将能够表征面板数据动态变化的“绝对量”特征、“波动”特征、“偏度”特征、“峰度”特征及“趋势”特征引入动态聚类算法中,可以避免以往采用欧式距离进行聚类的局限性,还可以处理带有缺失数据的面板数据,同时大大提高了聚类效率,并最大限度地保证时间维度信息不受损失.利用该方法分析了2001至2013年我国不同省份道路交通事故的不平衡状况,通过实证分析表明该方法能够解决多指标面板数据聚类的问题. 相似文献
3.
在面板数据聚类分析方法的研究中,基于面板数据兼具截面维度和时间维度的特征,对欧氏距离函数进行了改进,在聚类过程中考虑指标权重与时间权重,提出了适用于面板数据聚类分析的"加权距离函数"以及相应的Ward.D聚类方法。首先定义了考虑指标绝对值、邻近时点增长率以及波动变异程度的欧氏距离函数;然后,将指标权重与时间权重通过线性模型集结成综合加权距离,最终实现面板数据的加权聚类过程。实证分析结果显示,考虑指标权重与时间权重的面板数据加权聚类分析方法具有更好的分辨能力,能提高样本聚类的准确性。 相似文献
4.
时间序列数据聚类在统计分析中具有重要意义。然而高维时间序列数据挖掘高度依赖的相似性搜索方法仍面临计算量大、准确率低等问题。为了提升高维时间序列数据挖掘任务的准确率和效率,提出一种基于波动特征的时间序列相似性搜索算法。该算法首先提出局部高频离散小波变换(LHFDWT)方法,通过合理的分解与重构来实现序列的降维;然后提出基于欧氏距离(ED)、波动幅度和秩相关系数从时间序列形态波动的相对偏差和趋势一致性角度计算相似度;最后提出一种相似性搜索算法和新的基于波动特征的时间序列聚类方法,并利用k-medoids聚类技术进行聚类分析。基于UCR标准时间序列数据集的实验结果表明,相对于动态时间规整(DTW)和最长公共子序列(LCSS)方法,所提新方法下的聚类准确率表现更优,置信度达到99%;在正确预测聚类数目和搜索效率方面具有更好的效果,且聚类结果具有更高的稳定性;1-NN分类准确率更高,说明其在确定更好的聚类中心方面效果更优,置信度至少为85%,证明了所提新方法的相似性搜索算法的优越性。 相似文献
5.
6.
运用面板数据建模分析时,在考虑截面异质性的情形下存在参数过多的问题。提出一种基于面板数据关系结构的聚类方法,能有效解决模型估计时参数过多的问题;提出内距离与外距离概念,有效解决了聚类分析时定量确定分类数的问题。将此方法运用于动态面板数据的建模分析,统计模拟结果显示有较好的小样本性质。基于理论模型,采用中国1996-2012年的省级面板数据,实证分析了金融发展对房地产业发展的动态影响,分析效果与现实经济发展较吻合,证明该方法有较好的应用性。 相似文献
7.
以往的面板数据聚类方法存在一些缺陷,有必要基于动态时间规整的思路进一步改进与完善面板数据聚类方法。利用国家级经济技术开发区数据开展的实证分析结果表明:新的方法既能够很好地反映面板数据的动态变化、又避免了已有的面板数据聚类方法中各种距离如何赋权的问题,聚类结果较为稳定且有很好的可视化效果。 相似文献
8.
本文研究的是时间序列的聚类问题。由于现实世界中时间序列多数是非线性的,而现有的时间序列聚类问题大都是基于线性时间序列模型进行聚类的,本文提出了可以用于非线性时间序列的聚类方法。以时间序列的二维核密度估计之间的相似性作为非线性时间序列的距离度量,该距离度量方式是一种非参数的距离度量方法,考虑到了时间序列自相关结构的差异,能够粗糙地识别时间序列形状和动态相关结构的相似性。与理论研究结果相一致,我们的模拟实验结果也验证了这种距离度量的有效性。 相似文献
9.
面板数据聚类方法及应用 总被引:7,自引:0,他引:7
基于面板数据的时序特征和截面特征,综合考虑面板数据“绝对指标”,“增量指标”及其“时序波动”特征,在重构面板数据相似性测度的距离函数和Ward聚类算法的基础上,提出了面板数据聚类方法。并以2003-2007年财政金融面板数据为例,对中国14个沿海开放城市进行了聚类分析,显示了良好的应用性。 相似文献
10.
本文指出了用点和点距离度量时间序列相似性存在的问题,并给出一种新的相似性度量一全局特征,即从时间序列的统计分布特征、非线性和傅立叶频谱转换等3个方面提取全局特征构建特征向量,并进行聚类分析。本文以全国各地区人均GDP时间序列聚类为例,评估了距离相似法与全局特征法的聚类结果。实践证实全局特征法不但可以处理不同长度有缺失值的时序聚类,而且可以降低大型时间序列数据聚类计算的复杂度。 相似文献
11.
12.
ABSTRACTPanel datasets have been increasingly used in economics to analyze complex economic phenomena. Panel data is a two-dimensional array that combines cross-sectional and time series data. Through constructing a panel data matrix, the clustering method is applied to panel data analysis. This method solves the heterogeneity question of the dependent variable, which belongs to panel data, before the analysis. Clustering is a widely used statistical tool in determining subsets in a given dataset. In this article, we present that the mixed panel dataset is clustered by agglomerative hierarchical algorithms based on Gower's distance and by k-prototypes. The performance of these algorithms has been studied on panel data with mixed numerical and categorical features. The effectiveness of these algorithms is compared by using cluster accuracy. An experimental analysis is illustrated on a real dataset using Stata and R package software. 相似文献
13.
In this work it is shown how the k-means method for clustering objects can be applied in the context of statistical shape analysis. Because the choice of the suitable distance measure is a key issue for shape analysis, the Hartigan and Wong k-means algorithm is adapted for this situation. Simulations on controlled artificial data sets demonstrate that distances on the pre-shape spaces are more appropriate than the Euclidean distance on the tangent space. Finally, results are presented of an application to a real problem of oceanography, which in fact motivated the current work. 相似文献
14.
15.
16.
《Journal of Statistical Computation and Simulation》2012,82(15):2995-3008
ABSTRACTAmong the statistical methods to model stochastic behaviours of objects, clustering is a preliminary technique to recognize similar patterns within a group of observations in a data set. Various distances to measure differences among objects could be invoked to cluster data through numerous clustering methods. When variables in hand contain geometrical information of objects, such metrics should be adequately adapted. In fact, statistical methods for these typical data are endowed with a geometrical paradigm in a multivariate sense. In this paper, a procedure for clustering shape data is suggested employing appropriate metrics. Then, the best shape distance candidate as well as a suitable agglomerative method for clustering the simulated shape data are provided by considering cluster validation measures. The results are implemented in a real life application. 相似文献