首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
高维面板数据降维与变量选择方法研究   总被引:2,自引:1,他引:2  
从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据中出现的多指标大维数据的研究进展进行述评;针对高维面板数据未来的发展方向、理论与应用中尚待解决的一些关键问题进行分析与展望。  相似文献   

2.
一种新的高维数据降维方法   总被引:1,自引:0,他引:1  
一、前言现实世界中存在着大量的复杂事物及现象,人们希望揭示隐藏在这些纷繁芜杂的表象下的事物和现象的客观规律。随着信息技术的发展,我们面对的数据越来越复杂,往往具有如下特点:(1)样本点数量巨大;(2)数据收集的频率越来越高;(3)数据内部存在结构化的特征;(4)指标变量众多。例如天气状况,用来描述气象特征的指标非常多,像温度,湿度,气压,风力,降雨量等等,对于每时每刻的天气状况,可以用多变量组成的向量数据细致的表示。大量出现的高维数据不仅提供了极其丰富、详细的信息,而且对数据分析中的变量选择、多元建模带来了挑战:怎  相似文献   

3.
文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数据聚类时的特征选择作用.将此方法运用于中国环保问题,将中国31个省份根据环保情况分为3类,并从现有的104个环保指标中筛选得到20个重要指标.  相似文献   

4.
孙怡帆等 《统计研究》2021,38(5):136-146
随着信息技术的发展,高维数据日益丰富。现实中,很多高维数据由多个主体各异的数据集融合而成。如何准确识别出高维数据集间的异同性成为大数据分析的目标之一。本文提出了变系数模型下的高维数据整合分析方法。该方法可以同时对多个数据集进行变量选择和系数估计,并且能 够自动识别出变量系数在数据集间的异同性。模拟结果表明本文方法在异同性识别、变量选择、系数估 计和预测等方面明显优于对比方法。在肺癌致病基因识别的应用研究中,本文方法能够识别出具有生物解释的致病基因并发现了两种亚型之间的异同性。  相似文献   

5.
熊巍等 《统计研究》2020,37(5):104-116
随着计算机技术的迅猛发展,高维成分数据不断涌现并伴有大量近似零值和缺失,数据的高维特性不仅给传统统计方法带来了巨大的挑战,其厚尾特征、复杂的协方差结构也使得理论分析难上加难。于是如何对高维成分数据的近似零值进行稳健的插补,挖掘潜在的内蕴结构成为当今学者研究的焦点。对此,本文结合修正的EM算法,提出基于R型聚类的Lasso-分位回归插补法(SubLQR)对高维成分数据的近似零值问题予以解决。与现有高维近似零值插补方法相比,本文所提出的SubLQR具有如下优势。①稳健全面性:利用Lasso-分位回归方法,不仅可以有效地探测到响应变量的整个条件分布,还能提供更加真实的高维稀疏模式;②有效准确性:采用基于R型聚类的思想进行插补,可以降低计算复杂度,极大提高插补的精度。模拟研究证实,本文提出的SubLQR高效灵活准确,特别在零值、异常值较多的情形更具优势。最后将SubLQR方法应用于罕见病代谢组学研究中,进一步表明本文所提出的方法具有广泛的适用性。  相似文献   

6.
高维GARCH模型逐渐在金融市场中建立并使用,而高维控制图应用较少,文章首次采用主成分的方法建立高维GARCH控制图,能够有效改善控制图不易识别和保存数据信息量等问题,以美元汇率和股票市场2008-2009年共262个数据为例,建立汇率市场与股票市场的合成控制图,实证表明该控制图能够准确、有效识别异常点,起到监控和预警的作用。  相似文献   

7.
缺失数据问题在抽样调查、社会科学、流行病等领域普遍存在,这一现象在高维情形下更为凸显;而与高维数据相伴的信息海量化、复杂化、异质化、缺失化等问题,给高维缺失数据理论建立及应用研究带来极大的挑战。如何建立一种稳健高效的高维缺失数据插补方法,已成为当今学者研究的焦点。为解决上述难题,创新性地将增强的逆概率加权(IPW)与加法模型融合,应用协变量平衡倾向评分法(CBPS)估计缺失概率,提出一种适用于高维缺失数据的可加协变量平衡倾向评分插补方法(CBPS-AM),期望对高维缺失问题提供更为有效的解决方案。CBPS-AM方法不仅具有多重稳健性,避免了模型误设带来的严重风险,还能够有效规避高维缺失数据具有厚尾分布而使得传统插补方法失效的问题,起到双重降维的作用,实现建模的灵活性与广泛适用性。其次借鉴广义矩估计方法和Backfitting算法给出了CBPS估计算法,该算法简洁有效,能够提高数据使用效率与插补精度,同时研究了估计量的理论性质,对比了所提方法与传统方法在数值模拟中的表现。最后将CBPS-AM方法分别应用于存在缺失的HIV临床试验数据和中国新冠病毒感染疫情数据中,建立科学的综合评价以及针对...  相似文献   

8.
针对高维非线性轮廓数据的实时监控问题,文章提出了基于局部线性嵌入(LLE)和支持向量数据描述(SVDD)相结合的高维非线性轮廓监控方法。首先对受控的高维轮廓数据进行局部线性嵌入降维,然后使用降维后的轮廓数据对SVDD算法进行训练,最后用训练好的SVDD算法对高维轮廓数据进行实时监控。并利用蒙特卡洛方法生成仿真数据,以证实所提方法的有效性。结果表明,相较于其他方法,所提方法在失控状态下平均运行链长较小,能够及时发现生产过程中的异常轮廓。  相似文献   

9.
基于高维数据的改进CCC-GARCH模型的估计及应用   总被引:1,自引:1,他引:0  
高维数据给传统的协方差阵估计方法带来了巨大的挑战,数据维度和噪声的影响使传统的CCCGARCH模型估计起来较为困难。将主成分和门限方法有效结合,应用到CCC-GARCH模型的估计中,提出基于主成分正交补门限方法的CCC-GARCH模型(PTCCC-GARCH)。PTCCC模型主要通过前K个最优主成分来刻画大维协方差阵的信息,并通过门限函数以剔除噪声的影响。通过模拟和实证研究发现:较CCCGARCH模型而言,PTCCC-GARCH模型明显提高了高维协方差阵的估计和预测效率;并且将其应用在投资组合时,投资者获得了更高的投资收益和经济福利。  相似文献   

10.
闫懋博  田茂再 《统计研究》2021,38(1):147-160
Lasso等惩罚变量选择方法选入模型的变量数受到样本量限制。文献中已有研究变量系数显著性的方法舍弃了未选入模型的变量含有的信息。本文在变量数大于样本量即p>n的高维情况下,使用随机化bootstrap方法获得变量权重,在计算适应性Lasso时构建选择事件的条件分布并剔除系数不显著的变量,以得到最终估计结果。本文的创新点在于提出的方法突破了适应性Lasso可选变量数的限制,当观测数据含有大量干扰变量时能够有效地识别出真实变量与干扰变量。与现有的惩罚变量选择方法相比,多种情境下的模拟研究展示了所提方法在上述两个问题中的优越性。实证研究中对NCI-60癌症细胞系数据进行了分析,结果较以往文献有明显改善。  相似文献   

11.
何强  董志勇 《统计研究》2020,37(12):91-104
大数据为季度GDP走势预测创新研究带来重要突破口。本文利用百度等网站的互联网大数据,基于代表性高维数据机器学习(和深度学习)模型,对我国2011-2018年季度GDP增速深入进行预测分析。研究发现,对模型中的随机干扰因素作出一定分布的统计假设,有助于降低预测误差,任由模型通过大量数据机械地学习和完善并不总是有利于模型预测能力的提升;采用对解释变量集添加惩罚约束的方法,可以有效地处理互联网大数据维度较高的棘手问题;预测季度GDP增速的最优大数据解释变量集的稳定性较高。  相似文献   

12.
针对高维混合效应模型,本文提出了一种双正则化分位回归方法.通过对随机和固定效应系数同时实施L1正则化惩罚,一方面能够对重要解释变量进行挑选,另一方面能够消除个体随机波动带来的偏差.求解参数估计的交替迭代算法不仅破解了要同时确定两个调整参数的难题,而且算法速度快.模拟结果也表明该方法不仅对误差类型有很强的抗干扰能力,同时在模型有不同稀疏程度时均表现良好,尤其是对于解释变量多于样本的高维情况.为了方便在实际问题中选择最优正则化参数,本文还对两种参数选取标准进行了比较研究.最后利用新方法对一个教育方面的数据进行了实证演示,找出了在各个分位点处对学生成绩有影响的重要因素.  相似文献   

13.
经典计量经济学模型对截面数据存在着很强的依赖性,因此样本数据质量好坏是决定计量模型质量的关键因素,但很少有学者对截面数据的质量进行诊断。文章从数据统计诊断方面找出了诊断截面数据的几种方法,以此可增加计量经济分析结果的可靠性。  相似文献   

14.
高维参数多项Logistic模型的参数估计,用极大似然法估计很困难.文章给出一种新的估计方法:基于逆回归,给出参数单位向量的估计,从而高维参数得到降维;用极大似然法估计参数向量的模,最后得到参数的估计.且是相合估计.  相似文献   

15.
史兴杰等 《统计研究》2020,37(9):95-105
对于实证研究中经常遇到变量维数高和存在异常值的二分类问题,探索稳健的高维二分类方法显得尤为重要。本文提出基于Lasso惩罚的光滑0-1损失函数二分类法,并利用Fabs 算法高效地解决了变量选择和参数估计问题。数值模拟的结果表明,在不同异常值比例下该方法均具有良好的稳健性。基于CHIP 2013年度数据,利用该方法对农民工子女高中入学决定的影响因素进行了实证研究。分析发现,农民工父母的教育水平、教育水平与家庭经济状况的交互作用、农民工子女性别、性别与民族的交互作用均对农民工子女的入学决定有重要影响。  相似文献   

16.
基于已实现协方差矩阵的高维金融资产投资组合应用   总被引:1,自引:1,他引:0  
随着金融市场的发展,可配置金融资产种类不断增加,高维资产的投资组合应用引起了广泛的关注,因此高维协方差矩阵的建模及预测更加重要。基于已实现协方差矩阵,创新地将Elastic Net(弹性网)方法与向量自回归模型结合,对高维已实现协方差矩阵进行建模和预测。实证分析中模型取得了理想的预测精度,待估参数的数目显著下降;由于弹性网方法具备充分的变量选择功能和群组效应,得到的模型更加完善,因此资产之间动态相关结构也更加明晰;分析发现行业之间协方差变化比自身方差变化更加复杂,将VAR-LASSO、VAR-EN、DCC-MVGARCH、EWMA四种模型预测的协方差矩阵应用到投资组合中,结果表明VAR-EN优势明显。  相似文献   

17.
宁瀚文  屠雪永 《统计研究》2019,36(10):58-73
波动率是金融风险管理研究的重要内容之一。本文基于复杂网络理论和数据挖掘技术提出股票市场的高维波动率网络模型。首先运用互信息度量不同股票价格波动之间的相关关系,其次对股票市场不同周期下的波动情况建立度的中心势、平均距离、幂律分布等网络拓扑指标,再次根据这些指标利用Prim算法构建出高维波动率网络模型,最后运用Newman-Girvan算法对股票价格波动率的相关性进行分层研究。高维波动率网络模型突破了传统波动率模型关于变量维数的限制,能够在依赖少量假设的基础上,挖掘出多个金融市场主体间的相互关系,反映金融市场的风险特征及网络拓扑性质。实证结果发现:与常用的Pearson相关系数法相比,在互信息框架下,股价波动的非线性相关关系得到了更好的度量;股票市场的整体波动性与个股波动率相关性变化趋势相反,市场处在高波动时期资产组合分散化效果较好;网络中存在少量度数大的关键节点和中心节点,风险通过这些节点可以迅速传递到整个市场;股票市场的运行具有明显的行业聚集现象;网络分层研究进一步直观的展现了风险在层与层之间的传递规律和与之对应的行业特征。高维波动率网络模型为挖掘股票市场的风险特征与管理金融风险提供了一个新的工具。  相似文献   

18.
宋鹏等 《统计研究》2020,37(7):116-128
高维协方差矩阵的估计问题现已成为大数据统计分析中的基本问题,传统方法要求数据满足正态分布假定且未考虑异常值影响,当前已无法满足应用需要,更加稳健的估计方法亟待被提出。针对高维协方差矩阵,一种稳健的基于子样本分组的均值-中位数估计方法被提出且简单易行,然而此方法估计的矩阵并不具备正定稀疏特性。基于此问题,本文引进一种中心正则化算法,弥补了原始方法的缺陷,通过在求解过程中对估计矩阵的非对角元素施加L1范数惩罚,使估计的矩阵具备正定稀疏的特性,显著提高了其应用价值。在数值模拟中,本文所提出的中心正则稳健估计有着更高的估计精度,同时更加贴近真实设定矩阵的稀疏结构。在后续的投资组合实证分析中,与传统样本协方差矩阵估计方法、均值-中位数估计方法和RA-LASSO方法相比,基于中心正则稳健估计构造的最小方差投资组合收益率有着更低的波动表现。  相似文献   

19.
文章提出了评价社会生态的指标体系.通过对武汉临空港经济技术开发区的实证调查研究,以乐业指数为例,运用套索(LASSO)方法对数据作重要变量的选择来降维和简化模型,再用传统Logistic回归建模和做参数估计,分析了影响群众满意度的一些重要影响因素及其效应.  相似文献   

20.
文章选取2005-2015年深沪两市327家典型制造类企业作为样本,依据成本最小化、利润最大化和生产函数泰勒级数展开等基本理论和方法,构建微观面板数据计量模型估计制造业的替代弹性,其值在0.42至0.77范围内,资本与劳动之间替代关系较弱,存在一定的互补性,资本不易替代劳动力,行业之间以及个体之间替代弹性大小存在差异.三种方法估计值相差较小,方法之间相互检验和印证,增强了结论的准确性和稳健性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号