首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
非平衡数据集的改进SMOTE再抽样算法   总被引:1,自引:0,他引:1       下载免费PDF全文
薛薇 《统计研究》2012,29(6):95-98
非平衡数据集的不均衡学习特点通常表现为负类的分类效果不理想。改进SMOTE再抽样算法,将过抽样和欠抽样方式有机结合,有针对性地选择近邻并采用不同策略合成样本。实验表明,分类器在经此算法处理后的非平衡数据集的正负两类上,均可获得较理想的分类效果。  相似文献   

2.
文章针对传统SMOTE及BSMOTE过采样方法会导致多数类样本识别率下降的问题,提出基于局部密度的改进BSMOTE算法(LDBSMOTE)。首先,根据样本分布特点计算局部密度值并筛选根样本,最大限度地保证具有潜在价值的样本不会被丢失,然后通过SMOTE合成样本,最后利用集成学习算法进行分类。为了验证LDBSMOTE的有效性对15个公共数据集进行实验,结果表明,相比SMOTE和BSMOTE,LDBSMOTE算法在F1、G-mean及AUC上平均提升了2.25%,且平均得分均为最高,能在保证多数类样本识别率的基础上提升少数类样本的识别率,有效提升分类性能。  相似文献   

3.
自标记方法能用少量有标记样本和大量无标记样本来训练给定分类模型。误标记是自标记方法中的主要挑战。尽管学者们用数据剪辑技术去识别和移除在自标记方法迭代过程中被误预测的样本,但是许多数据剪辑技术严重依赖于特定假设。为了克服误标记问题和相关解决方案中的缺陷,文章提出一种基于近邻规则和粒子群优化的自标记方法 SLM-NNPSO。首先,SLM-NNPSO用有标记集去训练一个给定的分类模型。其次,SLM-NNPSO用近邻规则来发现具有高置信度的无标记样本,并用被训练的分类模型来预测他们。再次,SLM-NNPSO用粒子优化来识别和移除被误预测的样本,并把被正确预测的样本加入有标记集中。上述过程不断迭代,直到SLM-NNPSO没有发现具有高置信度的无标记样本。最后,SLM-NNPSO输出在迭代过程中被训练的分类模型。经仿真实验证明,就训练k近邻分类器的平均分类正确率而言,在来自销售市场、医学检测、图像识别等领域的12个真实数据集上,SLM-NNPSO优于5个流行的自标记方法。  相似文献   

4.
在数据挖掘的分类问题中,经常出现数据集内类别不平衡现象。大部分分类方法对于不平衡数据集内的小类数据,分类精度并不理想。文章分析了多目标线性规划分类方法(简称MCLP)在不平衡数据集上的表现;然后从模型角度,提出了面向不平衡数据集的加权MCLP分类模型。从理论上分析了加权MCLP分类模型的有效性,并从实证角度,与其他方法进行了比较。  相似文献   

5.
为解决马田系统多分类算法存在的样本重复训练以及分类准确率下降等问题,文章提出了一种基于改进的类间相似方向数(Number of Inter-class Similarity Direction,NISD)的偏二叉树马田系统多分类算法。该算法利用马氏距离改进类间相似方向数,获得更为科学的样本分类顺序,依此顺序自上而下生成整个偏二叉树,在非叶子节点构造马田系统二分类器,生成最终的分类模型。对于含k个类别的待分类样本,该算法只用训练k-1个二分类器,便可得到马田系统多分类模型,与此同时,层层剥离样本减少了样本的重复训练。UCI数据集实验结果表明,该算法分类效率更高,分类准确率也较高。  相似文献   

6.
吴强 《统计与决策》2022,(24):10-16
实例约简的目的是移除训练集中的冗余样本。大多数实例约简算法保留了许多内部样本,且难以处理非球形的数据。为此,文章提出了一种基于局部均值k近邻和密度峰值聚类的实例约简算法(IRLMDP)。首先,设计了一种基于局部均值k近邻的裁剪方法LMEM来移除噪声;其次,设计了一种基于局部均值k近邻和密度峰值聚类的压缩方法CMLMDP来保留代表性的边界样本;最后,实验证明,就KNN分类器而言,IRLMDP在分类正确率和样本压缩率上优于6个流行的实例约简算法。  相似文献   

7.
针对不平衡数据的分类问题,文章利用焦点损失函数可以挖掘困难样本的特性,提出了一种新的逻辑回归算法。首先,定义逻辑回归模型新的损失函数;其次,基于牛顿迭代法,设计FL逻辑回归算法;最后,在比较实验中,运用随机森林进行特征选择,以阈值优化逻辑回归模型为分类模型进行实验。实验结果表明,与传统逻辑回归算法相比,改进后的算法提高了少数类样本的分类精度,增强了模型的整体分类性能。  相似文献   

8.
针对基于众包竞赛中欺诈者筛除机制的黄金标准数据方法、聚类算法的离群点检测算法K-means-算法和DBSCAN算法,依赖于事先给定的参数,不适合大规模数据集检测的问题,提出基于样本连通图的离群点检测算法。首先,给定参数并重复调用离群点检测算法,识别数据中的离群点和聚类;其次,计算每两个样本之间的连接次数和连接强度,在给定连接强度下界δ的情况下,根据样本的连接强度来构造样本之间的连通图;最后,根据样本之间的连通情况,对样本进行标记,把样本标记为聚类节点和离群点。实验结果表明,该算法在放宽参数设置范围的情况下,缩小了离群点个数波动范围,提升了离群点识别准确率,优于对比算法和经典的黄金标准数据方法。  相似文献   

9.
农业险定价中的核心问题是农业风险区划问题,为了体现农业区划中个体指标的动态发展特征,根据近邻传播改进自适应近邻传播聚类方法对数据进行优化,基于轮廓系数、归属度和吸引度得到最佳聚类中心和几何聚类中心,并将聚类转化为新数据集的聚类问题;选取代表性的棉花为例进行实证分析,通过计算生产、销售、收入、财政等指标进行棉花风险区划实例分析,计算最优棉花风险区划,结果表明对于具有动态特征的数据,本模型具有很好的有效性、实用性和解释性。  相似文献   

10.
徐雪松  王四春 《统计研究》2012,29(4):108-112
根据免疫否定选择原理,设计了基于掩码分段匹配的否定选择分类器,克服连续r位匹配法的缺陷。给出了适用于免疫优化的分类规则编码及分类信息分的评价。通过免疫进化对其进行群体优化以约简数据规则集。避免了传统分类算法缺乏全局优化能力的缺点,提高了对样本的识别能力。实验结果表明本文方法提高了数据分类的准确性,在数据分类准确率及平均信息分上优于传统的分类方法。  相似文献   

11.
在采用聚类方法产生训练集的基础上,运用粗集理论离散化预处理该训练集,可以更好的提高分类精度.文章运用PAM算法聚类原始样本构成训练集,再利用布尔逻辑和粗集理论结合的离散化算法离散化该训练集,并以此离散化的训练集训练分类器.实验结果证明,基于该方法在相同的数据集上分类,比仅基于PAM算法预处理的RDDTE方法产生的分类精度最高提高了15.5%,且选用更少量的训练集.  相似文献   

12.
时间序列数据聚类在统计分析中具有重要意义。然而高维时间序列数据挖掘高度依赖的相似性搜索方法仍面临计算量大、准确率低等问题。为了提升高维时间序列数据挖掘任务的准确率和效率,提出一种基于波动特征的时间序列相似性搜索算法。该算法首先提出局部高频离散小波变换(LHFDWT)方法,通过合理的分解与重构来实现序列的降维;然后提出基于欧氏距离(ED)、波动幅度和秩相关系数从时间序列形态波动的相对偏差和趋势一致性角度计算相似度;最后提出一种相似性搜索算法和新的基于波动特征的时间序列聚类方法,并利用k-medoids聚类技术进行聚类分析。基于UCR标准时间序列数据集的实验结果表明,相对于动态时间规整(DTW)和最长公共子序列(LCSS)方法,所提新方法下的聚类准确率表现更优,置信度达到99%;在正确预测聚类数目和搜索效率方面具有更好的效果,且聚类结果具有更高的稳定性;1-NN分类准确率更高,说明其在确定更好的聚类中心方面效果更优,置信度至少为85%,证明了所提新方法的相似性搜索算法的优越性。  相似文献   

13.
在大数据背景下,分类型数据与混合型数据开始大量出现,如何更好地计算这类数据的相异性度量成为研究焦点。相比特定属性代表特定类的表达形式,模糊类中心表达形式因为含有更多信息、可计算欧氏距离、能更完善地展示不同样本之间的差异性等优点而得到推广使用。模糊类中心是定和为1的频率向量,这同时也符合成分数据的定义,因此,文章引入成分数据处理方式,提出一种融合α度量的改进K-prototypes算法(α-K-prototypes)。针对α度量的特殊性设定了权重调整系数,让分类型数据距离更具有解释性。在实验对比后发现,α-K-prototypes算法在UCI的7个数据集上均优于K-prototypes、K-centers、Improved-K-prototypes算法。为了更好地在实际中应用,文章给出了一种较优α计算准则,并证明其在统计意义上是显著的。  相似文献   

14.
在回归问题中,惩罚特征即正则化是特征处理的常用方式。但在集成分类问题中,惩罚特征以改善训练效果的研究较少。文章提出一种基于GBDT模型训练的SHAP值对各样本特征惩罚加权,进而提升分类精度的集成模型;其中,对于测试样本的SHAP值估计,通过其与训练集的样本距离权重结合训练集的SHAP矩阵近似得到。实验结果表明:选择GBDT_SHAP值惩罚特征后,模型的预测精度均有显著提升,验证了该算法的有效性。以GBDT_SHAP_GBDT模型为例,其在多组经典数据集上的分类效果良好,且在不平衡数据集上性能突出;若干组仿真实验表明,该方法能使模型快速达到较优且较为稳定的拟合效果,鲁棒性较强。  相似文献   

15.
基于噪声过滤的过抽样方法能克服噪声生成,但是他们的噪声侦察技术和合成样本的过程依赖于参数,同时,他们也会过滤掉大量的少数类样本。为了解决该问题,文章提出了一种基于局部集合和差分进化的过抽样方法(OMLSDE)。首先,用该方法计算每个样本的局部集合;其次,用局部集合和不平衡比去发现可疑的噪声;然后,用差分进化去优化可疑的噪声;最后,用局部集合内的随机样本去生成少数类的合成样本。实验证明,OMLSDE优于6个流行的过抽样方法。  相似文献   

16.
有序秩聚类及对地震活跃期的分析   总被引:1,自引:0,他引:1       下载免费PDF全文
 本文在对Fisher最优求解有序聚类方法和有序近邻聚类方法剖析的基础上,提出了有序秩聚类分析方法,并对Fisher最优求解、有序近邻聚类和有序秩聚类在计算效率上进行了比较分析,研究表明有序秩聚类在处理海量数据具有明显的优势。最后利用该方法对我国南北地震带活跃期进行分析,取得了良好的效果。  相似文献   

17.
信用评分模型的建模样本是由坏客户这一稀有事件和好客户这一大众事件组成的不平衡数据,故从模型残差的方差这一角度刻画稀有事件识别的难度,借鉴机器学习领域处理不平衡数据的方法,对建模样本中的稀有事件做特殊采样处理然后再建模,并证明对建模样本做特殊采样处理后必须用经验公式校正样本偏差。实证分析表明这是提高信用评分模型准确性的有效方法。  相似文献   

18.
随着我国金融市场的蓬勃发展,信用评价中的拒绝推断问题越来越受到重视。针对信用评分模型中存在的有类别标签的样本占比低,并且样本中的类别分布不平衡等问题,本文在半监督学习技术与集成学习理论的基础上,提出了一种新的算法——BCT算法。该算法通过使用动态Bagging生成多个子分类器,引入分类阈值参数来解决样本类别分布不平衡问题,以及设定早停止条件来避免算法迭代过程中存在的过拟合风险,以此对传统半监督协同训练法进行改进。通过在5个真实数据集上的实证分析发现,在不同数据集与不同拒绝比例下,BCT算法的性能均优于其他6种有监督学习和半监督学习算法的信用评分模型,显示了BCT算法具有良好的模型泛化性能和更高的模型评价能力。  相似文献   

19.
在研究经济问题时,经常遇到分类的问题,多元统计分析中的聚类分析方法可以解决多指标分类问题。本文介绍一种按着系统聚类步骤产生的有序样本聚类法,并利用这种方法对我国改革开放26年来的产业结构变迁进行聚类,揭示结构变迁与经济增长的关系,从而说明有序样本聚类法在经济分类研究中的作用。  相似文献   

20.
朴素贝叶斯是一种处理分类问题的常用方法,但它的属性条件独立性假设在实际应用中难以成立,导致其分类性能降低。针对这一问题,文章提出了基于改进PCA的朴素贝叶斯分类算法,该算法通过Pearson和Kendall系数计算出属性间的相关性大小,基于主成分分析筛选出新的属性集,使其尽量满足条件独立性假设,并对新数据集进行朴素贝叶斯分类。实验结果表明,该方法有效地提高了分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号