三支边缘过采样的不平衡文本情感分类 |
| |
引用本文: | 余啟煬,方宇,李昭宸,刘畅,杨梅.三支边缘过采样的不平衡文本情感分类[J].重庆理工大学学报(社会科学版),2024(3):201-211. |
| |
作者姓名: | 余啟煬 方宇 李昭宸 刘畅 杨梅 |
| |
作者单位: | 西南石油大学计算机科学学院 |
| |
基金项目: | 国家自然科学基金项目(62006200); |
| |
摘 要: | 在实际应用中,少数类样本往往包含重要信息,而传统机器学习方法通常对少数类样本的分类准确率低,且误分类代价较高。针对不平衡文本数据的情感分类问题,以三支采样(three-way sampling, 3WS)与过采样为基础,提出了三支过采样算法(three-way SMOTE,3WOS)和三支边缘过采样算法(three-way borderline-SMOTE,3WOBS),3WOS能够更好地识别边界区域上的数据,3WOBS可以增强边界区域所蕴含的信息。首先,将文本数据构建为超球,获得超球边缘的支持向量。其次,3WOS对边缘上的支持向量直接进行过采样以生成合成新样本并更新样本集,3WOBS则在生成合成新样本后根据给定条件判断是否获得该新样本并更新样本集。最后,将更新的样本集放在不同的基分类器上进行对比实验。实验采用了3个不平衡数据集,并保证了不同的不平衡比。同时,在数据集训练过程中引入粒计算思想,确保模型的鲁棒性。实验结果表明,3WOS-ITSC与3WOBS-ITSC准确率较高且代价低于其他模型,为不平衡文本分类问题提供了新思路。
|
关 键 词: | 情感分类 不平衡数据 三支决策 采样 粒计算 |
|
|