首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
文章在一个一般性的框架下研究了利用基函数展开进行函数型数据聚类的问题.在这个框架之下,大量传统的聚类方法都可以直接应用到函数型数据分析.另外,我们将Pearson相似系数引入函数型数据聚类分析,解决了欧式距离无法刻画曲线之间形态差异的问题.  相似文献   

2.
函数数据聚类分析方法探析   总被引:3,自引:0,他引:3  
函数数据是目前数据分析中新出现的一种数据类型,它同时具有时间序列和横截面数据的特征,通常可以描述为关于某一变量的函数图像,在实际应用中具有很强的实用性。首先简要分析函数数据的一些基本特征和目前提出的一些函数数据聚类方法,如均匀修正的函数数据K均值聚类方法、函数数据层次聚类方法等,并在此基础上,从函数特征分析的角度探讨了函数数据聚类方法,提出了一种基于导数分析的函数数据区间聚类分析方法,并利用中国中部六省的就业人口数据对该方法进行实证分析,取得了聚类结果。  相似文献   

3.
随着大数据时代的来临,近年来函数型数据分析方法成为研究的热点问题,针对曲线的聚类分析方法引起了学界的关注.给出一种曲线聚类的方法:以L2距离作为亲疏程度的度量,在B样条基底函数展开表述下,将曲线本身信息、曲线变化信息引入聚类算法构建,并实现了曲线聚类与传统多元统计聚类方法的对接.作为应用,以城乡收入函数聚类实例验证了该曲线聚类方法,结果表明,在引入曲线变化信息的情况下,比仅考虑曲线本身信息能够取得更好的聚类效果.  相似文献   

4.
高海燕等 《统计研究》2020,37(8):91-103
函数型聚类分析算法涉及投影和聚类两个基本要素。通常,最优投影结果未必能够有效地保留类别信息,从而影响后续聚类效果。为此,本文梳理了函数型聚类的构成要素及运行过程;借助非负矩阵分解的聚类特性,提出了基于非负矩阵分解的函数型聚类算法,构建了“投影与聚类”并行的实现框架,并采用交替迭代方法更新求解,分析了算法的计算时间复杂度。针对随机模拟数据验证和语音识别数据的实例检验结果显示,该函数型聚类算法有助于提高聚类效果;针对北京市二氧化氮(NO2)污染物小时浓度数据的实例应用表明,该函数型聚类算法对空气质量监测点类型的区分能够充分识别站点布局的空间模式,具有良好的实际应用价值。  相似文献   

5.
在面板数据聚类分析方法的研究中,基于面板数据兼具截面维度和时间维度的特征,对欧氏距离函数进行了改进,在聚类过程中考虑指标权重与时间权重,提出了适用于面板数据聚类分析的"加权距离函数"以及相应的Ward.D聚类方法。首先定义了考虑指标绝对值、邻近时点增长率以及波动变异程度的欧氏距离函数;然后,将指标权重与时间权重通过线性模型集结成综合加权距离,最终实现面板数据的加权聚类过程。实证分析结果显示,考虑指标权重与时间权重的面板数据加权聚类分析方法具有更好的分辨能力,能提高样本聚类的准确性。  相似文献   

6.
函数型数据的稀疏性和无穷维特性使得传统聚类分析失效。针对此问题,本文在界定函数型数据概念与内涵的基础上提出了一种自适应迭代更新聚类分析。首先,基于数据参数信息实现无穷维函数空间向有限维多元空间的过渡;在此基础上,依据变量信息含量的差异构建了自适应赋权聚类统计量,并依此为函数型数据的相似性测度进行初始类别划分;进一步地,在给定阈值限制下,对所有函数的初始类别归属进行自适应迭代更新,将收敛的优化结果作为最终的类别划分。随机模拟和实证检验表明,与现有的同类函数型聚类分析相比,文中方法的分类正确率显著提高,体现了新方法的相对优良性和实际问题应用中的有效性。  相似文献   

7.
文章研究了纵向数据非参数模型y=f(t)+ε,其中f(t)为未知平滑函数,ε为零均值随机误差项.我们选取一组基函数对f(t)进行基函数展开近似,然后构造关于基函数系数的二次推断函数,利用New-ton-Raphson迭代方法得到基函数系数的估计值,进而得到未知平滑函数f(t)的拟合估计.理论结果显示,所得到的基函数系数估计有相合性和渐近正态性.最后通过数值方法得到了较好的模拟结果.  相似文献   

8.
文章研究纵向数据非参数模型y=f(t)+ε,其中f(t)为未知平滑函数,ε为零均值随机误差项.我们选取一组基函数对f(t)进行展开近似,然后构造关于基函数系数的修正二次推断函数,利用割线法得到基函数系数的估计值,进而得到未知平滑函数f(t)的拟合估计.最后给出基函数系数估计的相合性和渐近正态性,并通过数值方法得到了较好的模拟结果.  相似文献   

9.
针对纵向数据半参数模型E(y|x,t)=XTβ+f(t),采用惩罚二次推断函数方法同时估计模型中的回归参数β和未知光滑函数f(t)。首先利用截断幂函数基对未知光滑函数进行基函数展开近似,然后利用惩罚样条的思想构造关于回归参数和基函数系数的惩罚二次推断函数,最小化惩罚二次推断函数便可得到回归参数和基函数系数的惩罚二次推断函数估计。理论结果显示,估计结果具有相合性和渐近正态性,通过数值方法也得到了较好的模拟结果。  相似文献   

10.
对由多个指标组成的多元数据进行聚类分析时,数据维度的增加、各指标与总体聚类的相关性程度不一致以及各指标服从的分布不同会增加聚类的复杂性,影响聚类结果的准确性,因此需要通过合适的方法来对多元数据进行聚类分析。针对这一问题,提出改进的带粘性的层次Dirichlet过程(sticky Hierarchical Dirichlet Process)方法来实现对多元数据的降维聚类,以解决各指标服从不同分布的问题,并用粘性参数反映各指标与总体聚类之间的相关性。用MCMC方法来估计模型参数。通过对仿真模拟数据和IRIS数据集的聚类分析,证实了该方法的有效性,同时发现单个指标与总体聚类的相关性越大,则相应的粘性参数越大,从而反映该指标在总体聚类中的重要性程度越高;并且当各指标数据中有粘性较大的指标时,带粘性的层次Dirichlet过程方法明显优于其他聚类方法,能够显著提高分类的准确性。  相似文献   

11.
面板数据聚类方法及应用   总被引:7,自引:0,他引:7  
 基于面板数据的时序特征和截面特征,综合考虑面板数据“绝对指标”,“增量指标”及其“时序波动”特征,在重构面板数据相似性测度的距离函数和Ward聚类算法的基础上,提出了面板数据聚类方法。并以2003-2007年财政金融面板数据为例,对中国14个沿海开放城市进行了聚类分析,显示了良好的应用性。  相似文献   

12.
聚类分析结果的有效性辨析   总被引:1,自引:1,他引:0  
聚类分析方法使用不当,会导致聚类结果与定性分析结果不符.文章从选择聚类法和聚类分析指标二个方面阐述如何使用该方法,才能得到更为有效的分类结果.  相似文献   

13.
Dirichlet过程作为一种典型的变参数贝叶斯模型,基于该过程进行的聚类分析无需预先确定聚类数,聚类数作为模型中的参数由模型和数据自主计算得出,因而成为机器学习研究领域中的一个研究热点,可用于海量数据的聚类分析。文章建立Dirichlet过程无限混合模型对DNA基因表达数据展开了聚类分析。模拟测试数据集和急性白血病的DNA基因表达测试数据集的实验结果表明,Dirichlet过程无限混合模型能够准确地估计出数据中的聚类数。  相似文献   

14.
将相关分析和有向聚类分析结合,提出有向相关聚类方法。先依据相关性进行变量合并,再进行有向聚类,分析结果更合理,聚类过程更简单。将该方法用于大学生健康成长影响因素的调查数据,得出更合理的结果。  相似文献   

15.
有序秩聚类及对地震活跃期的分析   总被引:1,自引:0,他引:1       下载免费PDF全文
 本文在对Fisher最优求解有序聚类方法和有序近邻聚类方法剖析的基础上,提出了有序秩聚类分析方法,并对Fisher最优求解、有序近邻聚类和有序秩聚类在计算效率上进行了比较分析,研究表明有序秩聚类在处理海量数据具有明显的优势。最后利用该方法对我国南北地震带活跃期进行分析,取得了良好的效果。  相似文献   

16.
文章针对多指标面板数据的样品分类问题,从多元统计学理论角度提出一个多指标面板数据的聚类分析方法。该方法综合考虑面板数据的水平指标、增量指标和增量变化率指标的时间序列特征及其非同步时间序列问题,在重新构造了离差平方和函数基础上,提出了一种聚类方法。通过实证分析,表明新方法能够解决多指标面板数据聚类的问题,分类效果较好。  相似文献   

17.
基于聚类分析的基本思想测算差别费率,选择层次聚类法中的Q聚类方法,以伤亡率和应支率作为聚类指标,对各个行业进行分类。根据总体平衡的基金筹集原则,建立了差别费率测算模型,以西安市的调查数据为基础,对模型进行了检验和应用性研究。  相似文献   

18.
文章提出了一种基于聚类组合和支持向量机的短期负荷预测方法.该方法首先使用SOM网络训练规格化的特征数据并获得初始聚类中心;然后将初始聚类中心作为C-均值算法的输入,使用DB指数评价聚类结果以获得最佳聚类数,通过训练可得到相似日样本;最后选择合适的参数和核函数构造支持向量机模型来进行逐点负荷预测.  相似文献   

19.
针对传统模糊C-均值聚类方法(fuzzy C-means,简称FCM)对初始值敏感导致的易陷入局部最优和噪声敏感问题,文章提出一种基于广度优先搜索的变异加权模糊C-均值聚类算法.该算法通过改进具有全局搜索能力的广度优先搜索算法(Breadth Fist Search,BFS)和有效聚类评价函数相结合,确定了接近真实的初始聚类中心,同时能够剔除噪声数据.在此基础上考虑属性噪声对聚类结果的影响问题,引入变异系数赋权法对FCM的目标函数进行改进,进一步提高了FCM算法的抗噪性.实验结果表明,该算法能够有效的克服传统FCM的不足,与其他聚类算法相比,具有较快的收敛速度、更好的聚类准确率及较高的抗噪性.  相似文献   

20.
对数据集进行聚类分析的过程中,由于数据属性包含的个性信息有差异,导致数据属性在聚类过程中的作用会有差异。因此需要对属性进行加权,以减少包含共性较多的属性对聚类结果的影响。目前粗糙集加权研究仅用于属性值为少数离散值的情况。提出了基于粗糙集指数加权算法,对原始数据集进行预处理,并设计实验,验证了该算法能够有效提高聚类算法的正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号