首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
数据分布密度划分的聚类算法是数据挖掘聚类算法的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区,产生数据集的子簇空间,并进行子簇合并,形成理想的聚类结果;依据该算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

2.
基于遗传算法的投影寻踪聚类   总被引:2,自引:0,他引:2  
传统的投影寻踪聚类算法PROCLUS是一种有效的处理高维数据聚类的算法,但此算法是利用爬山法(Hill climbing)对各类中心点进行循环迭代、选取最优的过程,由于爬山法是一种局部搜索(local search)方法,得到的最优解可能仅仅是局部最优。针对上述缺陷,提出一种改进的投影寻踪聚类算法,即利用遗传算法(Genetic Algorithm)对各类中心点进行循环迭代,寻找到全局最优解。仿真实验结果证明了新算法的可行性和有效性。  相似文献   

3.
目前国内外各种聚类算法数以千百计,本文提出了一个基于聚类算法构成要素的分类框架,进行了文献综述,并指出了四个研究热点。  相似文献   

4.
传统的K-Prototypes聚类算法是利用划分的思想来对混合数据进行聚类,但是当混合数据的维度增大时,对象之间的差异度几乎相等,使得此算法难以进行。针对上述缺陷,文章提出一种改进的K-Prototyes聚类算法,聚类前先剔除各类中不相关的维度,将高维混合数据投影降维后再进行聚类。文中给出了Heart Disease Databases的算例,验证了算法的有效性。  相似文献   

5.
对数据集进行聚类分析的过程中,由于数据属性包含的个性信息有差异,导致数据属性在聚类过程中的作用会有差异。因此需要对属性进行加权,以减少包含共性较多的属性对聚类结果的影响。目前粗糙集加权研究仅用于属性值为少数离散值的情况。提出了基于粗糙集指数加权算法,对原始数据集进行预处理,并设计实验,验证了该算法能够有效提高聚类算法的正确率。  相似文献   

6.
文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数据聚类时的特征选择作用.将此方法运用于中国环保问题,将中国31个省份根据环保情况分为3类,并从现有的104个环保指标中筛选得到20个重要指标.  相似文献   

7.
文章在信息技术迅速发展的背景下,研究针对海量数据计算机软硬件存储、分析的不足.通过研究海量数据下变量关联问题,构造了基于海量数据的学习算法.并通过数据模拟了该算法的应用原理.  相似文献   

8.
目前研究的模糊C均值聚类算法(FCM)面临的最重要问题是初始值随机选取,导致其容易陷入局部最优,同时影响运算速度.而灰色预测GM(1,1)模型在形成预测公式时对初始值的选取也没有合理有效的方案.针对以上问题,文章提出坐标密度法,确定初始聚类中心,对FCM算法进行改进;接着提出运用改进的FCM求取GM(1,1)中数据的聚类中心,并把聚类中心作为初始值的方法;通过与已知算法进行比较验证了其可行性和有效性.  相似文献   

9.
介绍了蚁群聚类算法的原理,建立了省域物流发展评价指标体系,同时结合黑龙江省的物流发展情况,应用蚁群算法进行实证研究,并对结果进行分析,从而为科学制定黑龙江省省域物流规划提供了依据。  相似文献   

10.
针对用户评分数据稀疏性问题,在对项目进行聚类基础上,文章提出了基于属性聚类的项目评分预测推荐算法。算法从项目属性特征相似性分析出发,利用K-Means聚类算法对项目进行聚类。对于未评分项目找到其所属的类簇;利用用户对类簇中其它项目的评分预测该用户对未评分项目的评分,达到降低数据稀疏性目的;最后结合协同过滤思想为用户提供推荐服务。实验结果表明,与基于项目评分预测的推荐算法相比,文章的算法推荐精度显著提高。  相似文献   

11.
大数据背景下网络借贷的信用风险评估——以人人贷为例   总被引:5,自引:1,他引:4  
在大数据时代,网贷平台每天流动着海量交易数据。为充分利用这些数据控制信用风险,运用数据挖掘算法建立了信用风险评估模型。由于网贷数据多为非平衡数据,所以通过多次尝试使用SMOTE算法进行处理,提高了模型评估性能。研究发现:随机森林模型更适合用于信用风险评估,其次是CART、ANN、C4.5。用户的婚姻、房/车产(贷)等信息重要程度较低,而公司规模、工作时间等信息,历史借款、信用评分等信用档案信息在信用风险评估中尤为重要。  相似文献   

12.
基于2000—2011年的时间序列数据,利用偏最小二乘法进行回归建模,对影响中国互联网扩散的因素进行了实证分析,研究结果表明:信息基础设施、经济水平、收入水平、上网设备、科技水平、教育水平、城市化水平、上网费用是影响中国互联网扩散的主要因素。基于2011年的31个省市的截面数据,利用变量投影重要性指标进一步分析了互联网发达地区和欠发达地区网络扩散的主要影响因素,结果表明移动电话普及率、人均可支配收入、电脑普及率是影响发达地区互联网扩散的前三位因素,移动电话普及率、人均GDP、城市化水平是影响欠发达地区互联网扩散的前三位因素。  相似文献   

13.
文章通过多重插补方法对不同缺失率和缺失模式的多变量缺失样本进行插补,研究了多重插补误差与缺失率和缺失模式的依赖关系。结果表明,当缺失率为0~15%时,多重插补误差与缺失率呈线性关系;当缺失率大于15%时,两者呈偏离线性关系。多重插补误差与缺失模式的方差均值比呈正相关性,当方差均值比越大时,误差也越大。  相似文献   

14.
基于SV模型的中国债券信用价差影响因素研究   总被引:2,自引:0,他引:2  
针对中国债券市场,选取2005年6月—2010年6月的企业债和国债月度交易情况,对静态利率期限结构SV参数模型利用遗传算法求解,拟合较为精确的企业债和国债的即期利率曲线,据此计算出企业债的信用价差。在对中国AAA级企业债按不同的期限进行回归分析后发现,该等级债券的信用价差曲线形态呈下降趋势,原因可能是中国债券信用评级过高、担保机制存在问题等;对不同期限企业债信用价差的宏观经济影响因素大致相同,如居民消费价格指数、国内生产总值的变化率等,而且这些信用价差序列之间存在显著的相关关系。  相似文献   

15.
基于随机森林模型的分类数据缺失值插补   总被引:6,自引:1,他引:6  
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。  相似文献   

16.
分层抽样中,样本在各层中的不同获取方式会对估计量的精度和试验费用产生一定的影响,而已有的理论方法大多不能在提高精度的同时降低调查费用。为此,将排序抽样与分层抽样方法相结合,提出了辅以排序集样本的分层抽样方案,并得到了总体均值的估计量以及这一估计量的良好性质。这些结果表明,与单一的分层随机抽样相比,这种抽样设计的估计量具有更高的精度,同时也节约了各层抽样调查的费用。  相似文献   

17.
通过对信用卡非理性消费行为相关文献的回顾,提出相关假设;运用多元回归方法,实证分析影响中国信用卡非理性消费行为的影响因素,即心理账户、金钱态度、消费价值观、外部影响和认知偏差;根据分析结果提出减少信用卡过度非理性消费行为的相关措施。  相似文献   

18.
基于贝叶斯方法的信用风险损失分布研究   总被引:1,自引:1,他引:0  
现代商业银行进行经济资本配置时,采用的损失分布函数都存在严重的失真问题。运用贝叶斯方法,充分利用各种信息对正态分布形式的信用损失分布进行了修正,得到信用风险损失分布的优化模型,结果表明:修正后的信用风险损失分布具有较高的精度,从而为商业银行经济资本管理提供了一种很实用的管理工具。  相似文献   

19.
运用非线性平滑转换模型对中国直辖市的信贷规模与房地产价格的动态关系进行对比研究。研究发现如果想要通过控制信贷规模调控房地产价格,天津和重庆更容易达成调控目标,北京则很难。在信贷规模对房地产价格产生非线性影响的条件下,信贷规模对房地产价格的影响存在不同状态,重庆在不同状态间的变化速度最快,其次是天津,最慢的是北京。  相似文献   

20.
信用评分是各类机构进行信用管理的有效工具,有着广泛的应用前景。随着计量技术的发展,信用评分方法也不断革新,为实际应用提供了多种选择。选取Logistic回归、分类树两种统计方法及代表信用评分发展趋势的人工智能神经网络中的多层感知器、径向基网络、自组织特征映射网络、支持向量机等共六种模型,运用较大样本量的个体工商户数据在一致的框架下进行检验。结果表明:Logistic回归模型与支持向量机两种方法在错分率、稳定性及适用性方面较为优越,其中支持向量机作为人工智能评分方法的最新应用之一,其综合性能更为突出。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号