首页 | 本学科首页   官方微博 | 高级检索  
     检索      

大规模数据下基于充分降维的Leverage重要性抽样方法
引用本文:秦磊,王奕丹,苏治.大规模数据下基于充分降维的Leverage重要性抽样方法[J].统计研究,2020,37(3):114-128.
作者姓名:秦磊  王奕丹  苏治
作者单位:对外经济贸易大学统计学院;中国人民大学统计学院;中央财经大学统计与数学学院;中央财经大学金融学院;中国人民大学国际货币研究所
基金项目:国家社会科学基金重大项目“互联网+推动经济转型机理与对策研究”(15ZDC024);国家自然科学基金面上项目“货币总量转向信用总量:全球虚拟经济与实体经济背离机理与宏观政策应对”(71473279);国家自然科学基金青年项目“基于广义SICA惩罚函数的高维数据参数估计与变量选取研究”(61603092);对外经济贸易大学惠园优秀青年学者项目“大数据下的统计方法创新研究及其应用”(17YQ15);对外经济贸易大学青年学术创新团队建设项目“健康大数据的统计创新研究”(CXTD10-10)。
摘    要:随着信息技术的飞速发展,大规模数据在短时间内搜集并储存下来,为分析决策提供了巨大的信息量,也给统计建模带来了一定难度。对于样本容量大、变量个数少的数据,Leverage重要性抽样是一个简便可行的方法。本文发现,该方法中度量样本重要性的Leverage分数与因变量无关,而且在维度较大的情形下对样本没有区分程度,使得估计结果较差。为了同时考虑因变量和维度的影响,本文提出了基于充分降维的Leverage重要性抽样方法。该方法以不损失信息为前提,在充分降维的空间内重新计算Leverage分数,使得抽样更具有代表性。模拟数据分析显示,在样本容量较大的复杂数据中,相比于原始的Leverage重要性抽样方法,本文提出的方法可以降低估计的均方误差。三个实际数据也证实了该方法的可行性和有效性。

关 键 词:大规模数据  Leverage分数  重要性抽样  充分降维  

Leverage Importance Sampling Based on Sufficient Dimension Reduction for Large-scale Data
Qin Lei,Wang Yidan,Su Zhi.Leverage Importance Sampling Based on Sufficient Dimension Reduction for Large-scale Data[J].Statistical Research,2020,37(3):114-128.
Authors:Qin Lei  Wang Yidan  Su Zhi
Abstract:With the rapid development of information technology,large-scale data is collected and stored in a short time,which provides a huge amount of information for decision making,and also brings some difficulty to statistical modeling. For data with large n and small p,Leverage importance sampling is a convenient method. However,we find that the Leverage score is independent of the response and can’t measure the importance of samples in data with large p,which leads to poor estimation accuracy. In consideration of response and high dimension at the same time,this paper proposes a Leverage importance sampling method based on sufficient dimension reduction. With no loss of information,Leverage scores computed in reduced dimensional space are more representative. Simulated data analysis shows that,compared with the original Leverage importance sampling,the proposed method reduces the estimation error in the large-scale data. The analysis of three large datasets proves the better performance of the proposed method.
Keywords:Large-scale Data  Leverage Score  Importance Sampling  Sufficient Dimension Reduction
本文献已被 维普 等数据库收录!
点击此处可从《统计研究》浏览原始摘要信息
点击此处可从《统计研究》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号