首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
马少沛等 《统计研究》2021,38(2):114-134
在大数据时代,金融学、基因组学和图像处理等领域产生了大量的张量数据。Zhong等(2015)提出了张量充分降维方法,并给出了处理二阶张量的序列迭代算法。鉴于高阶张量在实际生活中的广泛应用,本文将Zhong等(2015)的算法推广到高阶,以三阶张量为例,提出了两种不同的算法:结构转换算法和结构保持算法。两种算法都能够在不同程度上保持张量原有结构信息,同时有效降低变量维度和计算复杂度,避免协方差矩阵奇异的问题。将两种算法应用于人像彩图的分类识别,以二维和三维点图等形式直观展现了算法分类结果。将本文的结构保持算法与K-means聚类方法、t-SNE非线性降维方法、多维主成分分析、多维判别分析和张量切片逆回归共五种方法进行对比,结果表明本文所提方法在分类精度方面有明显优势,因此在图像识别及相关应用领域具有广阔的发展前景。  相似文献   

2.
李向杰等 《统计研究》2018,35(7):115-124
经典的充分降维方法对解释变量存在异常值或者当其是厚尾分布时效果较差,为此,经过对充分降维理论中加权与累积切片的分析研究,本文提出了一种将两者有机结合的稳健降维方法:累积加权切片逆回归法(CWSIR)。该方法对自变量存在异常值以及小样本情况下表现比较稳健,并且有效避免了对切片数目的选择。数值模拟结果显示CWSIR要优于传统的切片逆回归(SIR)、累积切片估计(CUME)、基于等高线的切片逆回归估计(CPSIR)、加权典则相关估计(WCANCOR)、切片逆中位数估计(SIME)、加权逆回归估计(WIRE)等方法。最后,我们通过对某视频网站真实数据的分析也验证了CWSIR的有效性。  相似文献   

3.
秦磊  王奕丹  苏治 《统计研究》2020,37(3):114-128
随着信息技术的飞速发展,大规模数据在短时间内搜集并储存下来,为分析决策提供了巨大的信息量,也给统计建模带来了一定难度。对于样本容量大、变量个数少的数据,Leverage重要性抽样是一个简便可行的方法。本文发现,该方法中度量样本重要性的Leverage分数与因变量无关,而且在维度较大的情形下对样本没有区分程度,使得估计结果较差。为了同时考虑因变量和维度的影响,本文提出了基于充分降维的Leverage重要性抽样方法。该方法以不损失信息为前提,在充分降维的空间内重新计算Leverage分数,使得抽样更具有代表性。模拟数据分析显示,在样本容量较大的复杂数据中,相比于原始的Leverage重要性抽样方法,本文提出的方法可以降低估计的均方误差。三个实际数据也证实了该方法的可行性和有效性。  相似文献   

4.
在高维空间中进行统计建模通常会碰到"维数祸根"问题,解决办法之一是降维,充分降维是一种有效的降维方法。针对多维响应降维子空间提出一类矩生成函数估计方法及其改进估计量,并给出该类方法估计量的大样本性质:相合性、渐近正态性。通过随机模拟与实例分析,表明改进估计量估计效果有较大幅度提高。  相似文献   

5.
高维面板数据降维与变量选择方法研究   总被引:2,自引:1,他引:2  
从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据中出现的多指标大维数据的研究进展进行述评;针对高维面板数据未来的发展方向、理论与应用中尚待解决的一些关键问题进行分析与展望。  相似文献   

6.
文章以美国威斯康星州的乳腺癌调查数据为例,分别采用SIS和TCS算法对高维数据进行降维处理,尝试将改进的Logistic广义线性模型对降维后的变量进行拟合.再与传统的一般线性模型、Logistic广义线性模型相比,结果表明,基于算法降维后的Logistic广义线性模型预测误差更小,其中基于TCS算法降维后的广义线性模型在拟合中要明显优于SIS算法降维后的广义线性模型.  相似文献   

7.
一种新的高维数据降维方法   总被引:1,自引:0,他引:1  
一、前言现实世界中存在着大量的复杂事物及现象,人们希望揭示隐藏在这些纷繁芜杂的表象下的事物和现象的客观规律。随着信息技术的发展,我们面对的数据越来越复杂,往往具有如下特点:(1)样本点数量巨大;(2)数据收集的频率越来越高;(3)数据内部存在结构化的特征;(4)指标变量众多。例如天气状况,用来描述气象特征的指标非常多,像温度,湿度,气压,风力,降雨量等等,对于每时每刻的天气状况,可以用多变量组成的向量数据细致的表示。大量出现的高维数据不仅提供了极其丰富、详细的信息,而且对数据分析中的变量选择、多元建模带来了挑战:怎  相似文献   

8.
与多元统计分析中的多变量数据相比,函数性数据分析面临着更大的维度灾。函数性主成份分析能起到降低维度的作用,可以用来探索函数性数据资料的变异性,例如曲线的重要变化形式、曲线类型、代表特定函数的典型形态等。文章对函数性主成份分析的思想、方法进行了详细阐述,并将其应用于国家财政主要支出项目的变化模式的探索。  相似文献   

9.
针对辛普森悖论、美国佛罗里达州的凶杀案分析中存在的矛盾以及基尼系数差异等问题进行了研究,研究认为:出现这些问题的根本原因是信息屏蔽造成的,提出用增加数据维数(简称为“增维”)的办法来解决这些问题中存在的信息屏蔽问题;运用增加维数的办法解释一些社会现象,可以使人们更加科学地看待一些问题,及时发现问题的原因,并找到相应的解决办法,为中国社会的科学发展服务。  相似文献   

10.
在多元统计分析中,分片逆回归在处理降维问题时十分有效。假设因变量Y和p维解释变量X满足Y=f(β1TX,…,βkTX,ε),则可以通过分片逆回归估计由βi生成的子空间,从而达到降维的目的。其中涉及到对E[Cov(X|Y)]或Cov[E(X|Y)]的估计,对此Li(1991)、Zhu和Ng(1995)以及Tian和Li(2004)等人曾提出几种不同的估计方法。文章通过蒙特卡洛模拟对它们进行比较研究,发现Zhu和Ng的方法对函数形式不敏感,因而适用性较广;同时对Tian和Li(2004)的方法作了适当推广。  相似文献   

11.
针对廉租房保障家庭隐性收入评估问题,文章提出了一种基于2维语义的评估方法。该方法将评估者给出的保障家庭"隐性收入"等级和评估者对保障家庭的"熟悉程度"等级作为2维语义数据,并利用不同评估者给出的"隐性收入"和"熟悉程度"差异对评估者进行组合赋权。最后通过实例验证了方法的可行性。  相似文献   

12.
13.
文章研究了响应变量随机缺失下超高维数据的特征筛选方法,Kolmogorov过滤方法被用于筛选构建倾向得分函数的重要协变量,据此推广逆概率加权技术构建响应变量随机缺失下的边际特征筛选过程.通过大样本理论证明了所提出的筛选方法在一些常规条件下具有确定性筛选性质,利用蒙特卡罗模拟研究了其有限样本性质,并将其应用于实际数据问题来验证评估其实用价值.  相似文献   

14.
文章介绍了组合混沌映射的概念,并阐述了无穷维思想,在此基础上提出了基于组合混沌映射的无穷维伪随机数发生方法。仿真实验证实该方法产生的均匀分布伪随机数具有良好的统计特性和安全性能。  相似文献   

15.
基于分片逆回归的小样本组合预测建模方法   总被引:1,自引:0,他引:1  
针对在基于回归的小样本组合预测中,容易出现预测模型多于用于组合预测的样本数量,导致回归系数无法估计的问题,文章从信息重组的角度对组合预测建模方法进行了研究.首先采用三次样本插值对原始样本容量进行扩充,然后采用采用分片逆回归方法对扩充后的样本进行降维处理,并在此基础上构建基于回归的小样本组合预测模型.最后实例通过与常用组合预测方法结果的比较说明了该方法的可行性和有效性.  相似文献   

16.
文章研究了一类相依结构的二维风险模型,其中新保单以Poisson分布流到达,且发生索赔时会依赖概率ρ的可能性同时产生一次续保,即续保过程是索赔过程的ρ-稀疏过程;运用一维风险模型的相关理论得了到二维风险模型的调节系数方程、调节系数的上下界、最终破产概率满足的不等式和最终破产概率满足的精确表达式,并给出了二维风险模型的几种破产概率的具体表达式。  相似文献   

17.
文章考虑了大样本下线性回归中同时进行快速估计和变量选择的问题,即针对一个存在稀疏解的大样本线性模型,根据重要性抽样分布从全数据集抽取少量子样本,对该子样本进行自适应Lasso估计。通过随机模拟研究,将该算法分别应用在几种不同的数据集中,并从模型预测精度和可解释性两个方面比较了四种子抽样方法在该算法下的表现。模拟结果表明,所提出的算法具有良好表现,在计算开销上也具有一定优势。  相似文献   

18.
文章收集了海关总署自2005年2月以来的进口价值总指数等有关数据,引入最新的PDP变量降维技术,在用GA算法优化ELM神经网络的基础上,组建了PDP-GA-ELM预测模型。结果发现,对进口价值总指数影响最重要的三个预测变量分别是塑料、橡胶制品类进口价值指数,矿产品类进口价值指数,化学工业及其相关工业产品类进口价值指数。PDP-GA-ELM的隐含层最佳神经元个数是87,同其他六种模型相比,PDP-GA-ELM预测模型的拟合精度最高,均方误差最小,性能最优。  相似文献   

19.
《统计与信息论坛》2019,(8):113-121
利用WIOD数据库中的投入产出数据,对包括中国在内的42个国家2000年至2014年间的电信服务业增加值率这一指标进行了测度,发现相较于其它国家,中国电信行业资费存在着较大的现实下降空间。为了验证中国电信行业降资费的可行性,进一步利用该投入产出数据对42个国家的制造业进行面板回归,最终发现:在42个国家中,只有中国发生了统计意义上的电信服务业对制造业的显著倾轧状况,从而有力地支撑了中国电信行业降资费的可行性。最后提出政府应加大对电信行业降资费的干预力度,完善中国电信行业的管理体制和运营机制,推动电信行业和制造业之间的深度融合。  相似文献   

20.
超高维变量筛选是统计研究的重要问题。提出一种新的变量筛选方法 HD-SIS,该方法不需要模型假设,并且对异常值有很强的抵抗能力,具有很好的稳健性。在Monte Carlo模拟中,对5种方法进行了比较,即确保独立筛选法、确保独立秩筛选法、稳健秩相关系数筛选法、距离确保独立筛选法和鞅差相关系数确保独立筛选法。模拟结果显示HD-SIS有更优良的表现。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号