首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 531 毫秒
1.
文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数据聚类时的特征选择作用.将此方法运用于中国环保问题,将中国31个省份根据环保情况分为3类,并从现有的104个环保指标中筛选得到20个重要指标.  相似文献   

2.
本文首先介绍利用变量聚类过程VARCLUS构造的类变量综合得分的方法,然后通过一个具体实例说明类变量综合得分在多指标(变量)系统的排序评估问题中的应用.  相似文献   

3.
在现代保险业中,通过数据挖掘技术的应用,从大量纷繁复杂的保户资料中,分析保户特性,进行市场细分,甄别高风险理赔人群,为保险公司选择目标客户提供决策依据。以保险资料为基础,应用数据挖掘技术进行聚类、决策树分类、类神经网络建模以及Logistic回归,划分客户群体,分析高风险理赔保户群体特征,为保险公司规避理赔风险提供决策依据。  相似文献   

4.
聚类方法可以有效反映出不同类型客户的行为特征,从而利于识别出可疑交易。文章结合证券公司客户真实交易数据和人工数据,采用Clementine进行建模实现聚类过程,识别出了异常值并计算可疑记录的可疑程度,可为金融情报部门提供高质量的调查数据,有效减缓金融情报部门工作人员的负担。  相似文献   

5.
聚类有效性指标是评价一种聚类方法划分质量和确定最佳聚类数目的重要工具.文章提出了一种新的聚类有效性指标——T指标,该有效性指标利用最小生成树思想计算类内内聚度,在计算的过程中不再与聚类中心发生直接联系.经反复实验证明新的有效性指标对各种形状分布的划分均有良好的评价表现,且能正确确定各种重叠度数据集的聚类数目.  相似文献   

6.
大规模定制模式下的客户需求聚类分析与定制优化   总被引:1,自引:0,他引:1  
文章在审视大规模定制研究文献的基础上,指出了目前大规模定制在企业推广应用的局限性以及在客户需求方面研究的不足,对大规模定制的需求分析与定制优化问题进行了初步的探索.以数学中的模糊聚类方法为基础,结合对客户满意度与需求规模性的考量,提出了大规模定制模式下的基于客户满意度的需求聚类的算法,对大规模定制客户需求进行了合理的聚类优化.  相似文献   

7.
本文详细分析了探索性因素分析和变量聚类的概念与基本原理,并在此基础上集中讨论二者的应用条件和结果解释,以便更有效地在社会研究中应用。  相似文献   

8.
欧氏距离条件下的聚类分析没有考虑指标间的相关性,基于模型的聚类方法存在多重共线性影响参数稳定性等问题,针对上述问题,文章在欧式距离条件下对变量间具有相关性的数据样本进行聚类分析时,先构建变量间相关性结构的回归相关模型,再通过差分分析对变量间的多重共线进行消除,然后做聚类分析.并以1996-2011年9个省份城市教育投入情况进行聚类分析,结果表明,给出的聚类方法是有效的.  相似文献   

9.
农业险定价中的核心问题是农业风险区划问题,为了体现农业区划中个体指标的动态发展特征,根据近邻传播改进自适应近邻传播聚类方法对数据进行优化,基于轮廓系数、归属度和吸引度得到最佳聚类中心和几何聚类中心,并将聚类转化为新数据集的聚类问题;选取代表性的棉花为例进行实证分析,通过计算生产、销售、收入、财政等指标进行棉花风险区划实例分析,计算最优棉花风险区划,结果表明对于具有动态特征的数据,本模型具有很好的有效性、实用性和解释性。  相似文献   

10.
将相关分析和有向聚类分析结合,提出有向相关聚类方法。先依据相关性进行变量合并,再进行有向聚类,分析结果更合理,聚类过程更简单。将该方法用于大学生健康成长影响因素的调查数据,得出更合理的结果。  相似文献   

11.
多指标面板数据能够较全面的提供研究对象的信息和数据特征,但复杂的数据结构也给其聚类分析带来了一定的困难.针对这一问题,文章提出了基于特征提取的多指标面板数据聚类方法,该方法将能够表征面板数据动态变化的“绝对量”特征、“波动”特征、“偏度”特征、“峰度”特征及“趋势”特征引入动态聚类算法中,可以避免以往采用欧式距离进行聚类的局限性,还可以处理带有缺失数据的面板数据,同时大大提高了聚类效率,并最大限度地保证时间维度信息不受损失.利用该方法分析了2001至2013年我国不同省份道路交通事故的不平衡状况,通过实证分析表明该方法能够解决多指标面板数据聚类的问题.  相似文献   

12.
在社会经济系统建模和分析中,对目标系统进行分解时,适合采用模糊C均值聚类算法进行划分.由于聚类数未知,采用某个聚类有效性函数来确定时,往往聚类结果并不理想.将专家知识和科学聚类相结合,文章给出了一种针对现实社会经济系统的确定聚类数的方法,即由专家给出可供选择的聚类数集合,然后通过多个聚类有效性函数来对各个聚类数进行评价.以广东省作为目标系统,按照科技进步水平,对其21个地区进行了划分,结果表明了方法的可行性.  相似文献   

13.
基于聚类关联规则的缺失数据处理研究   总被引:2,自引:1,他引:2       下载免费PDF全文
 本文提出了基于聚类和关联规则的缺失数据处理新方法,通过聚类方法将含有缺失数据的数据集相近的记录归到一类,然后利用改进后的关联规则方法对各子数据集挖掘变量间的关联性,并利用这种关联性来填补缺失数据。通过实例分析,发现该方法对缺失数据处理,尤其是海量数据集具有较好的效果。  相似文献   

14.
市场细分在战略营销中占据着极其重要的地位。营销大师Kotler等(1999)把市场细分定义为“将市场划分为有着显著需求、特征或行为差异的不同群体的消费者,每一群体的消费者对产品或营销组合有着同质的需求”。Dibb等(2001)认为,市场细分就是将具有异质特征的消费者进行聚类的过程,细分后的每一类消费者具有相似的需求或购买特征。企业则根据自身的资源和外部竞争情况从中选择自己具有比较优势或认为更具有投资价值的细分市场作为企业的目标市场。  相似文献   

15.
文章回顾了经典的K-means算法,分析了其存在的两个突出缺点:无法自行确定聚类数k和对初始聚类中心点十分敏感.受光电效应实验中电子束在反向电场中的串行规律启发,提出了基于捕获流动中心试点的自适应确定聚类数目的K-means算法,该算法模拟电子束在异性电子云中的串行,令数据点簇捕获流动的聚类中心试点,来消除多余的初始聚类中心,从而达到解决K-means算法的存在的缺陷问题.实验表明,该算法具有很强的自行确定聚类数的能力,也大大降低了对初始聚类中心选择的敏感度.  相似文献   

16.
随着大数据时代的来临,近年来函数型数据分析方法成为研究的热点问题,针对曲线的聚类分析方法引起了学界的关注.给出一种曲线聚类的方法:以L2距离作为亲疏程度的度量,在B样条基底函数展开表述下,将曲线本身信息、曲线变化信息引入聚类算法构建,并实现了曲线聚类与传统多元统计聚类方法的对接.作为应用,以城乡收入函数聚类实例验证了该曲线聚类方法,结果表明,在引入曲线变化信息的情况下,比仅考虑曲线本身信息能够取得更好的聚类效果.  相似文献   

17.
高海燕等 《统计研究》2020,37(8):91-103
函数型聚类分析算法涉及投影和聚类两个基本要素。通常,最优投影结果未必能够有效地保留类别信息,从而影响后续聚类效果。为此,本文梳理了函数型聚类的构成要素及运行过程;借助非负矩阵分解的聚类特性,提出了基于非负矩阵分解的函数型聚类算法,构建了“投影与聚类”并行的实现框架,并采用交替迭代方法更新求解,分析了算法的计算时间复杂度。针对随机模拟数据验证和语音识别数据的实例检验结果显示,该函数型聚类算法有助于提高聚类效果;针对北京市二氧化氮(NO2)污染物小时浓度数据的实例应用表明,该函数型聚类算法对空气质量监测点类型的区分能够充分识别站点布局的空间模式,具有良好的实际应用价值。  相似文献   

18.
针对传统模糊C-均值聚类方法(fuzzy C-means,简称FCM)对初始值敏感导致的易陷入局部最优和噪声敏感问题,文章提出一种基于广度优先搜索的变异加权模糊C-均值聚类算法.该算法通过改进具有全局搜索能力的广度优先搜索算法(Breadth Fist Search,BFS)和有效聚类评价函数相结合,确定了接近真实的初始聚类中心,同时能够剔除噪声数据.在此基础上考虑属性噪声对聚类结果的影响问题,引入变异系数赋权法对FCM的目标函数进行改进,进一步提高了FCM算法的抗噪性.实验结果表明,该算法能够有效的克服传统FCM的不足,与其他聚类算法相比,具有较快的收敛速度、更好的聚类准确率及较高的抗噪性.  相似文献   

19.
黄丹阳等 《统计研究》2021,38(6):145-160
随着电子支付的普及,市场涌现出越来越多的第三方支付平台,而当前关于第三方支付平台商户风险方面的研究相对较少。故本文提出基于高斯谱聚类的风险商户聚类方法,首先使用高斯混合模型构建交易-交易群体的双模网络;其次借助网络中信息传递的思想构建“商户-交易群体网络”的双模网络;再次使用双模网络聚类方法中的谱聚类方法同时对网络中的两类节点聚类,对商户节点聚类的结果可区分出不同风险级别的商户,对交易群体节点聚类的结果可以进一步描述风险商户的交易特征;最后本文分别在模拟数据和某第方支付平台的实际数据中验证了模型的有效性。实验结果表明,本文提出的方法不仅可以准确地区分出不同风险级别的商户群体,而且能总结归纳风险商户的交易特征,为风险商户的监管提供参考。  相似文献   

20.
支持向量机是在两分类的基础上发展起来的,如何将两分类成果推广到多分类中是支持向量机的一个重要问题.文章在聚类分类的基础上根据二叉树思想,提出了一种新的聚类算法来进行多分类.此方法充分利用二叉树中分两类的简便之处,将多类的聚类简化为点的聚类,从而避免了以往聚类方法中可能出现的同一类的点在聚类中变成不同类的问题,并结合选址问题中固定数目的配送点的选址算法,将原问题进行简化,对多分类问题提出了新的聚类算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号