SMOTE混合抽样对非平衡数据分类效果的影响分析 |
| |
引用本文: | 王蕾,刘赛可,夏利宇. SMOTE混合抽样对非平衡数据分类效果的影响分析[J]. 调研世界, 2020, 0(1): 34-41 |
| |
作者姓名: | 王蕾 刘赛可 夏利宇 |
| |
作者单位: | 中国人民大学统计学院;国网能源研究院有限公司 |
| |
摘 要: | 本文旨在研究对非平衡数据建模时,SMOTE过抽样和随机欠抽样的不同比例对模型预测效果产生的影响。首先基于模拟数据,探究了混合抽样比例的不同组合下,带有LASSO变量选择的逻辑回归模型对于非平衡程度不同数据的分类效果。模拟结果表明,过抽样和欠抽样的比例越高,预测效果越好,但是在某些情况下,直接使用原始数据进行建模,选取一个合适的临界值,可以得到更理想的分类模型。通过对某担保公司的数据实证研究发现,前述结论基本成立,且当原始数据极不平衡时,采用混合抽样方法进行数据预处理可以有效提高模型的预测效果,这对于非平衡数据的建模分析过程有一定的指导意义。
|
关 键 词: | 非平衡数据 SMOTE过抽样 欠抽样 混合抽样 分类效果 |
Analysis of the Impact of SMOTE Mixed Sampling on the Classification Effect of Unbalanced Data |
| |
Abstract: |
|
| |
Keywords: | |
本文献已被 维普 等数据库收录! |
|