首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
研究面板数据聚类问题过程中,在相似性度量上,用Logistic回归模型构造相似系数和非对称相似矩阵。在聚类算法上,目前的聚类算法只适用于对称的相似矩阵。在非对称相似矩阵的聚类算法上,采用最佳优先搜索和轮廓系数,改进DBSCAN聚类方法,提出BF—DBSCAN方法。通过实例分析,比较了BF—DBSCAN和DBSCAN方法的聚类结果,以及不同参数设置对BF—DBSCAN聚类结果的影响,验证了该方法的有效性和实用性。  相似文献   

2.
文章提出了一种基于聚类组合和支持向量机的短期负荷预测方法.该方法首先使用SOM网络训练规格化的特征数据并获得初始聚类中心;然后将初始聚类中心作为C-均值算法的输入,使用DB指数评价聚类结果以获得最佳聚类数,通过训练可得到相似日样本;最后选择合适的参数和核函数构造支持向量机模型来进行逐点负荷预测.  相似文献   

3.
基于数据分布密度划分的聚类算法是数据挖掘聚类算法中的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计出高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区产生数据集的子簇空间,并进行子簇合并形成了理想的聚类结果;依据算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

4.
目前研究的模糊C均值聚类算法(FCM)面临的最重要问题是初始值随机选取,导致其容易陷入局部最优,同时影响运算速度.而灰色预测GM(1,1)模型在形成预测公式时对初始值的选取也没有合理有效的方案.针对以上问题,文章提出坐标密度法,确定初始聚类中心,对FCM算法进行改进;接着提出运用改进的FCM求取GM(1,1)中数据的聚类中心,并把聚类中心作为初始值的方法;通过与已知算法进行比较验证了其可行性和有效性.  相似文献   

5.
K-means算法是处理大样本数据的聚类分析的常用算法之一.该算法的不足之处是聚类的数目k必须事先给定.文章提出应用黄金分割法来度量有关该聚类的有效性,该方法能自动优化确定最佳的聚类个数,以此实现大样本数据的有效聚类:并采用实际数据说明了方法的合理性和有效性.  相似文献   

6.
针对传统模糊C-均值聚类方法(fuzzy C-means,简称FCM)对初始值敏感导致的易陷入局部最优和噪声敏感问题,文章提出一种基于广度优先搜索的变异加权模糊C-均值聚类算法.该算法通过改进具有全局搜索能力的广度优先搜索算法(Breadth Fist Search,BFS)和有效聚类评价函数相结合,确定了接近真实的初始聚类中心,同时能够剔除噪声数据.在此基础上考虑属性噪声对聚类结果的影响问题,引入变异系数赋权法对FCM的目标函数进行改进,进一步提高了FCM算法的抗噪性.实验结果表明,该算法能够有效的克服传统FCM的不足,与其他聚类算法相比,具有较快的收敛速度、更好的聚类准确率及较高的抗噪性.  相似文献   

7.
数据分布密度划分的聚类算法是数据挖掘聚类算法的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区,产生数据集的子簇空间,并进行子簇合并,形成理想的聚类结果;依据该算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

8.
传统的K-Prototypes聚类算法是利用划分的思想来对混合数据进行聚类,但是当混合数据的维度增大时,对象之间的差异度几乎相等,使得此算法难以进行。针对上述缺陷,文章提出一种改进的K-Prototyes聚类算法,聚类前先剔除各类中不相关的维度,将高维混合数据投影降维后再进行聚类。文中给出了Heart Disease Databases的算例,验证了算法的有效性。  相似文献   

9.
何跃  侯婧 《统计与决策》2016,(20):29-31
为更好地预判经济形式,研究探讨地方生产价格指数对国内生产总值的预警作用,从而为政府掌控宏观经济形势并采取相应措施提供依据.文章选取四川省作为实证研究对象,利用自回归滑动平均模型探讨四川省生产价格指数与四川省国内生产总值之间的关系,再利用K-Means聚类算法将四川省国内生产总值数据聚类为三个类别,并将每个类别对应的生产价格指数数据进行置信区间分析,构建相应的预警模型,确定预警阈值范围.  相似文献   

10.
多指标面板数据能够较全面的提供研究对象的信息和数据特征,但复杂的数据结构也给其聚类分析带来了一定的困难.针对这一问题,文章提出了基于特征提取的多指标面板数据聚类方法,该方法将能够表征面板数据动态变化的“绝对量”特征、“波动”特征、“偏度”特征、“峰度”特征及“趋势”特征引入动态聚类算法中,可以避免以往采用欧式距离进行聚类的局限性,还可以处理带有缺失数据的面板数据,同时大大提高了聚类效率,并最大限度地保证时间维度信息不受损失.利用该方法分析了2001至2013年我国不同省份道路交通事故的不平衡状况,通过实证分析表明该方法能够解决多指标面板数据聚类的问题.  相似文献   

11.
高海燕等 《统计研究》2020,37(8):91-103
函数型聚类分析算法涉及投影和聚类两个基本要素。通常,最优投影结果未必能够有效地保留类别信息,从而影响后续聚类效果。为此,本文梳理了函数型聚类的构成要素及运行过程;借助非负矩阵分解的聚类特性,提出了基于非负矩阵分解的函数型聚类算法,构建了“投影与聚类”并行的实现框架,并采用交替迭代方法更新求解,分析了算法的计算时间复杂度。针对随机模拟数据验证和语音识别数据的实例检验结果显示,该函数型聚类算法有助于提高聚类效果;针对北京市二氧化氮(NO2)污染物小时浓度数据的实例应用表明,该函数型聚类算法对空气质量监测点类型的区分能够充分识别站点布局的空间模式,具有良好的实际应用价值。  相似文献   

12.
对于一类变量非线性相关的面板数据,现有的基于线性算法的面板数据聚类方法并不能准确地度量样本间的相似性,且聚类结果的可解释性低。综合考虑变量非线性相关问题及聚类结果可解释性问题,提出一种非线性面板数据的聚类方法,通过非线性核主成分算法实现对样本相似性的测度,并基于混合高斯模型进行样本概率聚类,实证表明该方法的有效性及其对聚类结果的可解释性有所提高。  相似文献   

13.
基于遗传算法的投影寻踪聚类   总被引:1,自引:0,他引:1  
传统的投影寻踪聚类算法PROCLUS是一种有效的处理高维数据聚类的算法,但此算法是利用爬山法(Hill climbing)对各类中心点进行循环迭代、选取最优的过程,由于爬山法是一种局部搜索(local search)方法,得到的最优解可能仅仅是局部最优。针对上述缺陷,提出一种改进的投影寻踪聚类算法,即利用遗传算法(Genetic Algorithm)对各类中心点进行循环迭代,寻找到全局最优解。仿真实验结果证明了新算法的可行性和有效性。  相似文献   

14.
随着大数据时代的来临,近年来函数型数据分析方法成为研究的热点问题,针对曲线的聚类分析方法引起了学界的关注.给出一种曲线聚类的方法:以L2距离作为亲疏程度的度量,在B样条基底函数展开表述下,将曲线本身信息、曲线变化信息引入聚类算法构建,并实现了曲线聚类与传统多元统计聚类方法的对接.作为应用,以城乡收入函数聚类实例验证了该曲线聚类方法,结果表明,在引入曲线变化信息的情况下,比仅考虑曲线本身信息能够取得更好的聚类效果.  相似文献   

15.
针对用户评分数据稀疏性问题,在对项目进行聚类基础上,文章提出了基于属性聚类的项目评分预测推荐算法。算法从项目属性特征相似性分析出发,利用K-Means聚类算法对项目进行聚类。对于未评分项目找到其所属的类簇;利用用户对类簇中其它项目的评分预测该用户对未评分项目的评分,达到降低数据稀疏性目的;最后结合协同过滤思想为用户提供推荐服务。实验结果表明,与基于项目评分预测的推荐算法相比,文章的算法推荐精度显著提高。  相似文献   

16.
文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数据聚类时的特征选择作用.将此方法运用于中国环保问题,将中国31个省份根据环保情况分为3类,并从现有的104个环保指标中筛选得到20个重要指标.  相似文献   

17.
文章回顾了经典的K-means算法,分析了其存在的两个突出缺点:无法自行确定聚类数k和对初始聚类中心点十分敏感.受光电效应实验中电子束在反向电场中的串行规律启发,提出了基于捕获流动中心试点的自适应确定聚类数目的K-means算法,该算法模拟电子束在异性电子云中的串行,令数据点簇捕获流动的聚类中心试点,来消除多余的初始聚类中心,从而达到解决K-means算法的存在的缺陷问题.实验表明,该算法具有很强的自行确定聚类数的能力,也大大降低了对初始聚类中心选择的敏感度.  相似文献   

18.
支持向量机是在两分类的基础上发展起来的,如何将两分类成果推广到多分类中是支持向量机的一个重要问题.文章在聚类分类的基础上根据二叉树思想,提出了一种新的聚类算法来进行多分类.此方法充分利用二叉树中分两类的简便之处,将多类的聚类简化为点的聚类,从而避免了以往聚类方法中可能出现的同一类的点在聚类中变成不同类的问题,并结合选址问题中固定数目的配送点的选址算法,将原问题进行简化,对多分类问题提出了新的聚类算法.  相似文献   

19.
多元线性回归统计预测模型的应用   总被引:2,自引:0,他引:2  
文章将多元统计分析作为基础与前提,结合相关数据进行了一系列的方法验证,验证了有关结果变动对于多元线性回归方程的整体的影响.通过实例对有关模型概念进行证明;并且通过模型结合其他的方法,让检测结果更加真实,提高准确度以及效率,使原本的回归结果能够得到最大程度上的优化.  相似文献   

20.
时间序列聚类是数据挖掘领域的热点问题之一。结合时间序列的特点,光滑子空间K均值聚类算法在进行稀疏型聚类的同时,可以筛选出连续的时间子区间,并基于这些子区间上的观测对时间序列聚类,其复杂度主要取决于更新聚类权重的方法。然而,现有算法中聚类权重的更新是通过凸二次规划问题求解完成的,其计算复杂度较高。文章的理论推导表明,可以通过复杂度较低的严格凸二次规划问题的求解来更新聚类权重。在此基础上,给出了计算复杂度更低的路径跟随方法来更新聚类权重。数据模拟表明了基于路径跟随方法的新算法在聚类中的有效性,及其在计算速度上的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号