缺失数据插补方法探讨——基于最近邻插补法和关联规则法 |
| |
作者姓名: | 于力超 金勇进 王俊 |
| |
作者单位: | 1. 中国人民大学 统计学院,北京,100872 2. 中国人民大学 应用统计科学研究中心,北京,100872 |
| |
基金项目: | 全国统计科学研究重点项目《小微工业企业抽样调查问题研究》(2013LZ34);北京市社科基金重点项目《基于北京市地理分布的空间抽样设计研究》(14JGA022);北京市优博论文指导教师人文社科项目 |
| |
摘 要: | 提出基于最近邻插补和关联规则的缺失数据插补方法,将不含缺失数据的变量作为辅助变量,通过定义距离函数寻找与含缺失数据的样本单元距离较近的样本,然后利用挖掘得到的关联规则支持度和提升度乘积的倒数作为权重,对样本单元之间的距离进行加权处理,得到加权距离,再用加权距离最小的样本单元对应的属性值对缺失值进行插补。这种方法可以解决由不同最近距离样本单元得到不同插补值的问题,最后给出了该方法的实施步骤和应用范例。
|
关 键 词: | 关联规则 缺失数据 最近邻插补,加权距离 |
本文献已被 万方数据 等数据库收录! |
|