首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对数据集进行聚类分析的过程中,由于数据属性包含的个性信息有差异,导致数据属性在聚类过程中的作用会有差异。因此需要对属性进行加权,以减少包含共性较多的属性对聚类结果的影响。目前粗糙集加权研究仅用于属性值为少数离散值的情况。提出了基于粗糙集指数加权算法,对原始数据集进行预处理,并设计实验,验证了该算法能够有效提高聚类算法的正确率。  相似文献   

2.
聚类在数据挖掘、模式识别等许多领域有着重要的应用.本文介绍了聚类算法的几种分类,并例举了几种基于密度的聚类算法.最后以一种新颖的基于最大不相含核心点集的聚类算法LSNCCP为例,详细介绍整个聚类算法的工作过程.  相似文献   

3.
一种基于粗集理论的聚类分析方法   总被引:1,自引:0,他引:1  
本文通过比较聚类分析的缺陷和粗集理论的优势,将粗集理论引入聚类,提出了基于粗集理论的聚类分析模型来解决聚类的冗余性和权重问题,并通过算例来验证模型的可行性,这为人们进行科学的决策提供了一种新的思想和方法。  相似文献   

4.
基于数据分布密度划分的聚类算法是数据挖掘聚类算法中的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计出高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区产生数据集的子簇空间,并进行子簇合并形成了理想的聚类结果;依据算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

5.
该文建立了一种基于聚类分析与决策树分析相结合的服务订制预测模型,利用聚类提取训练集训练决策树,将生成模型应用于某地区用户对有线电视交互服务的订制意愿预测,最终确定高响应率客户群。实验证明,该模型相对于仅通过决策树进行预测能更大程度地提高分类精度,能更有效地识别出高响应率客户群。所提出的研究框架与方法,为企业在商业竞争中制定有效的营销决策提供了重要依据。  相似文献   

6.
 作为一种近似处理的工具,粗集主要用于不确定情况下的决策分析,并且不需要任何事先的数据假定。但当前的主流粗集分类方法仍然需要先经过离散化的步骤,这就损失了数值型变量提供的高质量信息。本文对隶属函数重新加以概率定义,并提出了一种基于Bayes概率边界域的粗集分类技术,比较好的解决了当前粗集方法所面临的数值型属性分类的不适应、分类规则不完备等一系列问题。  相似文献   

7.
在回归问题中,惩罚特征即正则化是特征处理的常用方式。但在集成分类问题中,惩罚特征以改善训练效果的研究较少。文章提出一种基于GBDT模型训练的SHAP值对各样本特征惩罚加权,进而提升分类精度的集成模型;其中,对于测试样本的SHAP值估计,通过其与训练集的样本距离权重结合训练集的SHAP矩阵近似得到。实验结果表明:选择GBDT_SHAP值惩罚特征后,模型的预测精度均有显著提升,验证了该算法的有效性。以GBDT_SHAP_GBDT模型为例,其在多组经典数据集上的分类效果良好,且在不平衡数据集上性能突出;若干组仿真实验表明,该方法能使模型快速达到较优且较为稳定的拟合效果,鲁棒性较强。  相似文献   

8.
为解决马田系统多分类算法存在的样本重复训练以及分类准确率下降等问题,文章提出了一种基于改进的类间相似方向数(Number of Inter-class Similarity Direction,NISD)的偏二叉树马田系统多分类算法。该算法利用马氏距离改进类间相似方向数,获得更为科学的样本分类顺序,依此顺序自上而下生成整个偏二叉树,在非叶子节点构造马田系统二分类器,生成最终的分类模型。对于含k个类别的待分类样本,该算法只用训练k-1个二分类器,便可得到马田系统多分类模型,与此同时,层层剥离样本减少了样本的重复训练。UCI数据集实验结果表明,该算法分类效率更高,分类准确率也较高。  相似文献   

9.
数据分布密度划分的聚类算法是数据挖掘聚类算法的主要方法之一。针对传统密度划分聚类算法存在运算复杂、运行效率不高等缺陷,设计高维分步投影的多重分区聚类算法;以高维分布投影密度为依据,对数据集进行多重分区,产生数据集的子簇空间,并进行子簇合并,形成理想的聚类结果;依据该算法进行实验,结果证明该算法具有运算简单和运行效率高等优良性。  相似文献   

10.
文章提出了一种基于聚类组合和支持向量机的短期负荷预测方法.该方法首先使用SOM网络训练规格化的特征数据并获得初始聚类中心;然后将初始聚类中心作为C-均值算法的输入,使用DB指数评价聚类结果以获得最佳聚类数,通过训练可得到相似日样本;最后选择合适的参数和核函数构造支持向量机模型来进行逐点负荷预测.  相似文献   

11.
时间序列数据聚类在统计分析中具有重要意义。然而高维时间序列数据挖掘高度依赖的相似性搜索方法仍面临计算量大、准确率低等问题。为了提升高维时间序列数据挖掘任务的准确率和效率,提出一种基于波动特征的时间序列相似性搜索算法。该算法首先提出局部高频离散小波变换(LHFDWT)方法,通过合理的分解与重构来实现序列的降维;然后提出基于欧氏距离(ED)、波动幅度和秩相关系数从时间序列形态波动的相对偏差和趋势一致性角度计算相似度;最后提出一种相似性搜索算法和新的基于波动特征的时间序列聚类方法,并利用k-medoids聚类技术进行聚类分析。基于UCR标准时间序列数据集的实验结果表明,相对于动态时间规整(DTW)和最长公共子序列(LCSS)方法,所提新方法下的聚类准确率表现更优,置信度达到99%;在正确预测聚类数目和搜索效率方面具有更好的效果,且聚类结果具有更高的稳定性;1-NN分类准确率更高,说明其在确定更好的聚类中心方面效果更优,置信度至少为85%,证明了所提新方法的相似性搜索算法的优越性。  相似文献   

12.
基于统计模型的模糊聚类算法的时间复杂度在数据集规模超过一定数量级时是计算不可行的,解决时间复杂度的一个行之有效的方法是抽样.文章通过对静态抽样进行改进,设计了一种半静态抽样法,使样本数据集最大程度得保持原数据集的信息,并保证聚类结果的不失真性;最后通过实证分析,比较并证明了该方法是有效的.  相似文献   

13.
支持向量机是在两分类的基础上发展起来的,如何将两分类成果推广到多分类中是支持向量机的一个重要问题.文章在聚类分类的基础上根据二叉树思想,提出了一种新的聚类算法来进行多分类.此方法充分利用二叉树中分两类的简便之处,将多类的聚类简化为点的聚类,从而避免了以往聚类方法中可能出现的同一类的点在聚类中变成不同类的问题,并结合选址问题中固定数目的配送点的选址算法,将原问题进行简化,对多分类问题提出了新的聚类算法.  相似文献   

14.
针对用户评分数据稀疏性问题,在对项目进行聚类基础上,文章提出了基于属性聚类的项目评分预测推荐算法。算法从项目属性特征相似性分析出发,利用K-Means聚类算法对项目进行聚类。对于未评分项目找到其所属的类簇;利用用户对类簇中其它项目的评分预测该用户对未评分项目的评分,达到降低数据稀疏性目的;最后结合协同过滤思想为用户提供推荐服务。实验结果表明,与基于项目评分预测的推荐算法相比,文章的算法推荐精度显著提高。  相似文献   

15.
粗糙集理论为处理模糊、不完整、不确定性知识分析提供了一种新的分析理论,更具客观性,其不足之处在于决策表中的值必须是离散值.文章首先介绍了粗糙集理论及其基本概念;然后引入了基于模糊C均值聚类法的连续属性离散化方法,并结合二者提出了一种综合评价方法;最后以20家上市公司作为经验样本,对其财务状况做出了综合评价.  相似文献   

16.
针对RBF神经网络算法因原始变量间强相关性带来的处理难度,与因子分析得分评估模型不能充分结合先验知识等缺陷,文章综合因子分析与RBF神经网络算法的各自优点,构建一种基于FARBF神经网络算法的企业资产质量评估模型,并给出了原始数据的同向化处理方法.实证案例分析与仿真试验结果表明该模型精度高于单纯的RBF网络算法,且该算法简化了神经网络结构,提高了网络训练速度与算法精度.  相似文献   

17.
本文利用模糊聚类分析和多元统计分析,给出了求最优模糊聚类的方法和对基于重金属和有机氯的土壤环境质量进行聚类和分级的方法,并利用该聚类和分级的方法对太湖地区某市农田的土壤样进行聚类和分级。从聚类结果来看,本方法分类是将环境质量相近的土壤样分在同一类。从分类结果来看,绝大部分土壤样处于相对安全状态,适于一般农业经济产品的产生。本文所用方法有利于土壤环境质量研究的定量和数字化。  相似文献   

18.
朴素贝叶斯是一种处理分类问题的常用方法,但它的属性条件独立性假设在实际应用中难以成立,导致其分类性能降低。针对这一问题,文章提出了基于改进PCA的朴素贝叶斯分类算法,该算法通过Pearson和Kendall系数计算出属性间的相关性大小,基于主成分分析筛选出新的属性集,使其尽量满足条件独立性假设,并对新数据集进行朴素贝叶斯分类。实验结果表明,该方法有效地提高了分类准确率。  相似文献   

19.
在包含区间值的灰色信息系统中获取知识以成为当前粗糙集理论研究的热点。本文针对基于灰格运算的灰色粗集模型中存在上近似集过于宽松而下近似集过于严格等不足,提出了一种新的变精度拓展灰色粗集模型。该模型可以看成是灰色粗集模型的一种泛化表现形式。同时,在灰色决策系统中使用新的灰色粗集模型讨论了确定和可能性规则的直接生成方法,并对其的有效性进行了实例分析。  相似文献   

20.
吴强 《统计与决策》2022,(24):10-16
实例约简的目的是移除训练集中的冗余样本。大多数实例约简算法保留了许多内部样本,且难以处理非球形的数据。为此,文章提出了一种基于局部均值k近邻和密度峰值聚类的实例约简算法(IRLMDP)。首先,设计了一种基于局部均值k近邻的裁剪方法LMEM来移除噪声;其次,设计了一种基于局部均值k近邻和密度峰值聚类的压缩方法CMLMDP来保留代表性的边界样本;最后,实验证明,就KNN分类器而言,IRLMDP在分类正确率和样本压缩率上优于6个流行的实例约简算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号