首页 | 本学科首页   官方微博 | 高级检索  
     

SMOTE混合抽样对非平衡数据分类效果的影响分析
引用本文:王蕾,刘赛可,夏利宇. SMOTE混合抽样对非平衡数据分类效果的影响分析[J]. 调研世界, 2020, 0(1): 34-41
作者姓名:王蕾  刘赛可  夏利宇
作者单位:中国人民大学统计学院;国网能源研究院有限公司
摘    要:
本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响。首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果。模拟结果表明,过抽样和欠抽样的比例越高,预测效果越好,但是在某些情况下,直接使用原始数据进行建模,选取一个合适的临界值,可以得到更理想的分类模型。通过对某担保公司的数据实证研究发现,前述结论基本成立,且当原始数据极不平衡时,采用混合抽样方法进行数据预处理可以有效提高模型的预测效果,这对于非平衡数据的建模分析过程有一定的指导意义。

关 键 词:非平衡数据  SMOTE过抽样  欠抽样  混合抽样  分类效果

Analysis of the Impact of SMOTE Mixed Sampling on the Classification Effect of Unbalanced Data
Abstract:
Keywords:
本文献已被 维普 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号