首页 | 本学科首页   官方微博 | 高级检索  
     

大规模数据下基于充分降维的Leverage重要性抽样方法
作者姓名:秦磊  王奕丹  苏治
作者单位:对外经济贸易大学统计学院;中国人民大学统计学院;中央财经大学统计与数学学院;中央财经大学金融学院;中国人民大学国际货币研究所
基金项目:国家社会科学基金重大项目“互联网+推动经济转型机理与对策研究”(15ZDC024);国家自然科学基金面上项目“货币总量转向信用总量:全球虚拟经济与实体经济背离机理与宏观政策应对”(71473279);国家自然科学基金青年项目“基于广义SICA惩罚函数的高维数据参数估计与变量选取研究”(61603092);对外经济贸易大学惠园优秀青年学者项目“大数据下的统计方法创新研究及其应用”(17YQ15);对外经济贸易大学青年学术创新团队建设项目“健康大数据的统计创新研究”(CXTD10-10)。
摘    要:随着信息技术的飞速发展,大规模数据在短时间内搜集并储存下来,为分析决策提供了巨大的信息量,也给统计建模带来了一定难度。对于样本容量大、变量个数少的数据,Leverage重要性抽样是一个简便可行的方法。本文发现,该方法中度量样本重要性的Leverage分数与因变量无关,而且在维度较大的情形下对样本没有区分程度,使得估计结果较差。为了同时考虑因变量和维度的影响,本文提出了基于充分降维的Leverage重要性抽样方法。该方法以不损失信息为前提,在充分降维的空间内重新计算Leverage分数,使得抽样更具有代表性。模拟数据分析显示,在样本容量较大的复杂数据中,相比于原始的Leverage重要性抽样方法,本文提出的方法可以降低估计的均方误差。三个实际数据也证实了该方法的可行性和有效性。

关 键 词:大规模数据  Leverage分数  重要性抽样  充分降维  
本文献已被 维普 等数据库收录!
点击此处可从《统计研究》浏览原始摘要信息
正在获取相似文献,请稍候...
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号