首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
文章在一个一般性的框架下研究了利用基函数展开进行函数型数据聚类的问题.在这个框架之下,大量传统的聚类方法都可以直接应用到函数型数据分析.另外,我们将Pearson相似系数引入函数型数据聚类分析,解决了欧式距离无法刻画曲线之间形态差异的问题.  相似文献   

2.
基于空气质量数据特征,在B-样条基底拟合曲线的基础上,将曲线本身信息、曲线变化信息引入分析,构造加权曲线深度指标,探索一种异常曲线探测方法。与现有仅考虑离散点信息和曲线本身信息的方法相比较,该探测方法更加符合空气质量数据特点,具备缺失值处理能力及整体异常和局部异常的识别能力。将该方法应用于兰州市空气质量数据采集点的二氧化氮水平曲线异常情况分析,结果表明该方法具有更好的异常情况识别效果。  相似文献   

3.
函数数据聚类分析方法探析   总被引:3,自引:0,他引:3  
函数数据是目前数据分析中新出现的一种数据类型,它同时具有时间序列和横截面数据的特征,通常可以描述为关于某一变量的函数图像,在实际应用中具有很强的实用性。首先简要分析函数数据的一些基本特征和目前提出的一些函数数据聚类方法,如均匀修正的函数数据K均值聚类方法、函数数据层次聚类方法等,并在此基础上,从函数特征分析的角度探讨了函数数据聚类方法,提出了一种基于导数分析的函数数据区间聚类分析方法,并利用中国中部六省的就业人口数据对该方法进行实证分析,取得了聚类结果。  相似文献   

4.
多指标面板数据能够较全面的提供研究对象的信息和数据特征,但复杂的数据结构也给其聚类分析带来了一定的困难.针对这一问题,文章提出了基于特征提取的多指标面板数据聚类方法,该方法将能够表征面板数据动态变化的“绝对量”特征、“波动”特征、“偏度”特征、“峰度”特征及“趋势”特征引入动态聚类算法中,可以避免以往采用欧式距离进行聚类的局限性,还可以处理带有缺失数据的面板数据,同时大大提高了聚类效率,并最大限度地保证时间维度信息不受损失.利用该方法分析了2001至2013年我国不同省份道路交通事故的不平衡状况,通过实证分析表明该方法能够解决多指标面板数据聚类的问题.  相似文献   

5.
在社会经济系统建模和分析中,对目标系统进行分解时,适合采用模糊C均值聚类算法进行划分.由于聚类数未知,采用某个聚类有效性函数来确定时,往往聚类结果并不理想.将专家知识和科学聚类相结合,文章给出了一种针对现实社会经济系统的确定聚类数的方法,即由专家给出可供选择的聚类数集合,然后通过多个聚类有效性函数来对各个聚类数进行评价.以广东省作为目标系统,按照科技进步水平,对其21个地区进行了划分,结果表明了方法的可行性.  相似文献   

6.
在面板数据聚类分析方法的研究中,基于面板数据兼具截面维度和时间维度的特征,对欧氏距离函数进行了改进,在聚类过程中考虑指标权重与时间权重,提出了适用于面板数据聚类分析的"加权距离函数"以及相应的Ward.D聚类方法。首先定义了考虑指标绝对值、邻近时点增长率以及波动变异程度的欧氏距离函数;然后,将指标权重与时间权重通过线性模型集结成综合加权距离,最终实现面板数据的加权聚类过程。实证分析结果显示,考虑指标权重与时间权重的面板数据加权聚类分析方法具有更好的分辨能力,能提高样本聚类的准确性。  相似文献   

7.
函数数据聚类及其在金融时序分析中的应用   总被引:1,自引:0,他引:1  
函数数据分析正成为近年来的研究热点。文章针对函数数据聚类分析方法的研究,首先在LP空间构建函数数据之间相异性度量指标,并利用基函数将函数数据平滑,提出了函数数据的聚类分析方法,指出了通过最小二乘估计得到的正交基函数系数进行聚类的结果接近于直接对原始数据进行聚类的结果。其方法应用于时间序列的模式挖掘,得到了良好的效果。  相似文献   

8.
文章提出了一种基于聚类组合和支持向量机的短期负荷预测方法.该方法首先使用SOM网络训练规格化的特征数据并获得初始聚类中心;然后将初始聚类中心作为C-均值算法的输入,使用DB指数评价聚类结果以获得最佳聚类数,通过训练可得到相似日样本;最后选择合适的参数和核函数构造支持向量机模型来进行逐点负荷预测.  相似文献   

9.
针对传统模糊C-均值聚类方法(fuzzy C-means,简称FCM)对初始值敏感导致的易陷入局部最优和噪声敏感问题,文章提出一种基于广度优先搜索的变异加权模糊C-均值聚类算法.该算法通过改进具有全局搜索能力的广度优先搜索算法(Breadth Fist Search,BFS)和有效聚类评价函数相结合,确定了接近真实的初始聚类中心,同时能够剔除噪声数据.在此基础上考虑属性噪声对聚类结果的影响问题,引入变异系数赋权法对FCM的目标函数进行改进,进一步提高了FCM算法的抗噪性.实验结果表明,该算法能够有效的克服传统FCM的不足,与其他聚类算法相比,具有较快的收敛速度、更好的聚类准确率及较高的抗噪性.  相似文献   

10.
灰色聚类法在课程评估中的应用   总被引:2,自引:0,他引:2  
灰色聚类是以灰数的白化函数生成为基础的一种聚类方法。文章首先提出采用加权平均法则,对聚类结果可进行再分析,以充分利用信息,使评判结果更为合理。同时应用灰色聚类法对西安统计学院4门课程进行了综合评价分析,其结果符合实际。  相似文献   

11.
Shi, Wang, Murray-Smith and Titterington (Biometrics 63:714–723, 2007) proposed a Gaussian process functional regression (GPFR) model to model functional response curves with a set of functional covariates. Two main problems are addressed by their method: modelling nonlinear and nonparametric regression relationship and modelling covariance structure and mean structure simultaneously. The method gives very good results for curve fitting and prediction but side-steps the problem of heterogeneity. In this paper we present a new method for modelling functional data with ‘spatially’ indexed data, i.e., the heterogeneity is dependent on factors such as region and individual patient’s information. For data collected from different sources, we assume that the data corresponding to each curve (or batch) follows a Gaussian process functional regression model as a lower-level model, and introduce an allocation model for the latent indicator variables as a higher-level model. This higher-level model is dependent on the information related to each batch. This method takes advantage of both GPFR and mixture models and therefore improves the accuracy of predictions. The mixture model has also been used for curve clustering, but focusing on the problem of clustering functional relationships between response curve and covariates, i.e. the clustering is based on the surface shape of the functional response against the set of functional covariates. The model is examined on simulated data and real data.  相似文献   

12.
Functional data can be clustered by plugging estimated regression coefficients from individual curves into the k-means algorithm. Clustering results can differ depending on how the curves are fit to the data. Estimating curves using different sets of basis functions corresponds to different linear transformations of the data. k-means clustering is not invariant to linear transformations of the data. The optimal linear transformation for clustering will stretch the distribution so that the primary direction of variability aligns with actual differences in the clusters. It is shown that clustering the raw data will often give results similar to clustering regression coefficients obtained using an orthogonal design matrix. Clustering functional data using an L(2) metric on function space can be achieved by clustering a suitable linear transformation of the regression coefficients. An example where depressed individuals are treated with an antidepressant is used for illustration.  相似文献   

13.
面板数据的有序聚类分析是多元统计分析的新兴研究领域。借鉴多元统计学中主成分分析方法对面板数据在时间变量上进行降维处理,把变异信息的损失降低到最小,较为准确地反映了样本在各时间段内的整体变化水平;采用费希尔最优求解算法对主成分得分进行有序聚类,为研究有序面板数据的亲疏关系提供一些思路;对全球气候变化进行聚类分析,分析五十年来全球及区域气候变化特点,与国外研究结论对比,显示出良好的应用性。  相似文献   

14.
Receiver operating characteristic(ROC)curves are useful for studying the performance of diagnostic tests. ROC curves occur in many fields of applications including psychophysics, quality control and medical diagnostics. In practical situations, often the responses to a diagnostic test are classified into a number of ordered categories. Such data are referred to as ratings data. It is typically assumed that the underlying model is based on a continuous probability distribution. The ROC curve is then constructed from such data using this probability model. Properties of the ROC curve are inherited from the model. Therefore, understanding the role of different probability distributions in ROC modeling is an interesting and important area of research. In this paper the Lomax distribution is considered as a model for ratings data and the corresponding ROC curve is derived. The maximum likelihood estimation procedure for the related parameters is discussed. This procedure is then illustrated in the analysis of a neurological data example.  相似文献   

15.
基于形状特征的多指标面板数据聚类方法及其应用   总被引:1,自引:0,他引:1  
针对多指标面板数据的样品分类问题,从特征提取角度提出一个多指标面板数据的聚类分析方法。该方法将时间序列的局部变化特性与整体距离关系结合起来,将局部变化的信息融入相似测度的计算中,提出一种自适应滑动窗口分段方法,实现时间序列局部变化的特征提取,在重新定义综合距离的基础上,提出一种聚类方法。通过实证分析,表明新方法能够解决多指标面板数据聚类的问题,分类效果较好。  相似文献   

16.
This paper introduces a method for clustering spatially dependent functional data. The idea is to consider the contribution of each curve to the spatial variability. Thus, we define a spatial dispersion function associated to each curve and perform a k-means like clustering algorithm. The algorithm is based on the optimization of a fitting criterion between the spatial dispersion functions associated to each curve and the representative of the clusters. The performance of the proposed method is illustrated by an application on real data and a simulation study.  相似文献   

17.
王星  马璇 《统计研究》2015,32(10):74-81
文章旨在研究受航空业动态定价机制影响下的机票价格序列变点估计模型,文中分析了机票价格u8序列数据的结构特点,提出了可用于高噪声数据环境下、阶梯状、带明显多变点的多阶段序列变点估计框架,该框架中级联组合了DBSCAN算法、EM-高斯混合模型聚类、凝聚层次聚类算法和基于乘积划分模型的变点估计方法等多种成熟的数据分析方法,通过对“北京-昆明”航线航班的实证分析,验证了数据分析框架的有效性和普遍适用性。  相似文献   

18.
This article deals with the clustering of the elements of a structure of juxtaposition of data measuring tables. One of the main issues in such problems is the selection of a one-dimensional quantity to represent the information included in the repeated observations of each variable. We propose the use of three different indices to measure the distance between elements of a structure and use the last one based on the Hilbert–Schmidt inner product for clustering purposes through an algorithmic procedure. The proposed algorithm is applied for clustering the customers of an electric company where each customer is described by a curve of load.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号