首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
随着计算机和互联网的快速发展,特别是在大数据时代,企业积累了大量有关企业经营、财务等相关数据,变量众多且关系纷繁复杂,如果利用传统的logistic回归建立企业信用风险预警模型往往效果不好.本文在充分考虑变量间的网络结构(Network)关系基础上,提出了网络结构Logistic模型,通过惩罚方法同时实现变量选择和参数估计.蒙特卡洛模拟表明网络结构Logistic模型要优于其他方法.最后,我们将其应用到我国企业信用风险预警中,充分考虑财务指标间的网络结构关系,科学地选择评估指标,构建更加适合我国国情的企业信用风险预警方法.  相似文献   

2.
何强  董志勇 《统计研究》2020,37(12):91-104
大数据为季度GDP走势预测创新研究带来重要突破口。本文利用百度等网站的互联网大数据,基于代表性高维数据机器学习(和深度学习)模型,对我国2011-2018年季度GDP增速深入进行预测分析。研究发现,对模型中的随机干扰因素作出一定分布的统计假设,有助于降低预测误差,任由模型通过大量数据机械地学习和完善并不总是有利于模型预测能力的提升;采用对解释变量集添加惩罚约束的方法,可以有效地处理互联网大数据维度较高的棘手问题;预测季度GDP增速的最优大数据解释变量集的稳定性较高。  相似文献   

3.
高华川  张晓峒 《统计研究》2015,32(12):101-109
动态因子模型(DFM)的基本职能是对高维数据进行降维处理,即从高维数据集中提取变量间的协同变动信息。在理论上,本文系统梳理了DFM的模型形式设定、估计方法以及结构化建模技术的发展历程和研究前沿。在应用方面,本文总结了DFM在预测、构建经济周期指标和通胀指数、以及经济结构分析中的应用研究。最后,归纳出了DFM计量分析的研究脉络和未来的发展方向。  相似文献   

4.
吴翌琳  南金伶 《统计研究》2020,37(5):94-103
神经网络模型对大样本时间序列的拟合效果优于传统时间序列模型,但对于年度、月度、日度等低频时间序列的预测则难以发挥其优势。鉴于此,本文应用传统时间序列模型和神经网络模型,建立Holtwinters-BP组合模型,利用Holtwinters模型分别拟合各解释变量序列,利用BP模型拟合解释变量和自变量的非线性关系,基于某社交新闻类APP的日广告收入数据进行互联网企业广告收入预测研究。通过与循环神经网络(RNN)模型、长短期记忆神经网络(LSTM)模型等预测结果的对比发现:Holtwinters-BP组合模型的预测精度和稳定性更高;证明多维变量对于广告收入的显著影响,多变量模型的预测准确性高于单变量模型;构建的Holtwinters-BP组合模型对于低频数据预测有较好的有效性和适用性。  相似文献   

5.
王娜 《统计研究》2023,(1):49-61
碳交易是实现双碳目标的重要金融工具,准确预测碳价可以帮助政策制定者建立稳定有效的碳定价机制。本文提出基于动态多元网络的预测模型,考虑响应变量网络的动态性、内生性和多元性,具有更广的适用性。利用百度搜索指数、资讯指数、能源价格、经济政策不确定性指数、汇率、环境意识和人均GDP等不同类型的变量,对我国8个碳交易试点的碳价进行预测。实证结果显示,本文构建的DMNP模型具有较好的预测效果,明显优于对比模型,并能够达到降维的目的,为我国碳交易提供了更科学合理的碳价预测新方法及实证基础。  相似文献   

6.
在非寿险精算中,对保单的累积损失进行预测是费率厘定的基础。在对累积损失进行预测时通常使用Tweedie回归模型。当损失观察数据中包含大量零索赔的保单时,Tweedie回归模型对零点的拟合容易出现偏差;若用零调整分布代替Tweedie分布,并在模型中引入连续型解释变量的平方函数,可以建立零调整回归模型;如果在零调整回归模型中将水平数较多的分类解释变量作为随机效应处理,可以进一步改善预测结果的合理性。基于一组机动车辆第三者责任保险的损失数据,将不同分布假设下的固定效应模型与随机效应模型进行对比,实证检验了随机效应零调整回归模型在保险损失预测中的优越性。  相似文献   

7.
秦朵  刘一萌 《统计研究》2015,(2):97-103
本文通过对截面数据排序这样一种创新的简单建模实验,将经济变量间关系的一个基本特征——非线性规模效应纳入到截面数据模型设定中。本文以特征价格模型为实验案例,具体的分析对象是汽车和电脑的特征价格模型。实验得出的主要结论有:由于忽略了截面数据样本中潜在的非线性规模效应,传统模型得出的特征价格指数很可能存在系统偏差;基于规模解释变量的数据排序方法是滤出截面数据样本中非线性信息的一种简易而有效的途径;截面数据一经排序,便可采用现有的系统动态建模方法来实现对变量间这种非线性规模信息的滤出。  相似文献   

8.
煤炭大数据指数编制及经验模态分解模型研究   总被引:1,自引:0,他引:1  
基于开放性数据源、连续观测昨多变量数据编制的大数据指数,与传统的统计调查指数存在的差异不仅在于数据本身的无限扩张,而且在于编制方法以及分解研究的规则、模型方面的差异。在大数据背景下,率先尝试性地提出大数据指数的定义和数据假设,将"互联网大数据指数"引入煤炭交易价格指数综合编制太原煤炭交易大数据指数,从而反映煤炭价格的变动趋势;导入经验模态分解模型,对所编制的煤炭大数据指数进行分解研究,尝试比较与传统的统计调查指数的差异。研究表明:新编制的煤炭价格大数据指数要比太原煤炭交易价格指数更为敏感和迅速,能更好地反映煤炭价格的变动趋势。随着"互联网+"和大数据战略的逐渐普及,基于互联网大数据编制的综合指数会影响到更多领域,将成为经济管理和社会发展各个领域的晴雨表和指示器;与传统统计调查指数逐步融合、互补或者升级,成为宏观经济大数据指数的重要组成部分。  相似文献   

9.
范新妍等 《统计研究》2021,38(2):99-113
传统信用评分方法主要利用统计分类方法,只能预测借款人是否会发生违约,但不能预测违约发生的时点。治愈率模型是二分类和生存分析的混合模型,不仅可以预测是否会发生违约,而且可以预测违约发生的时点,比传统二分类方法可以提供更多的信息。另外,随着大数据的发展,数据源越来越多,针对相同或者相似任务,可以收集到多个数据集,本文提出了融合多源数据的整合治愈率模型,可以对多个数据集同时建模和估计参数,通过复合惩罚函数进行组间和组内双层变量选择,并通过促进两个子模型回归系数符号相同,提高模型的可解释性。通过数值模拟发现,所提方法在变量选择和参数估计上均有明显优势。最后,将所提方法应用于信用贷款的违约时点预测中,模型表现良好。  相似文献   

10.
为解决传统非参数众数回归模型没有考虑解释变量间复杂交互影响的局限,文章将众数回归与机器学习方法相结合,提出了一个新的非参数众数回归模型:众数回归森林模型。该模型一方面充分考虑了各个解释变量之间的交互影响;另一方面采用Bagging技术汇总多个众数回归树的结果,提高了预测性能。数值模拟结果表明:第一,与线性众数回归模型和众数回归树模型相比,众数回归森林模型极大地提高了估计和预测精度;第二,当数据为偏态分布时,众数回归森林模型的估计和预测精度显著优于中位数回归森林和均值回归森林模型。此外,将众数回归森林模型应用于收入分配研究中,得到了与中位数回归森林和均值回归森林模型不同的结果。  相似文献   

11.
Robustness of confidence region for linear model parameters following a misspecified transformation of dependent variable is studied. It is shown that when error standard deviation is moderate to large the usual confidence region is robust against transformation misspecification. When error standard deviation is small the usual confidence region could be very conservative for structured models and slightly liberal for unstructured models. However, the conservativeness in structured case can be controlled if the transformation is selected with the help of data rather than prior information since this is the case when data is able to provide a very accurate estimate of transformation.  相似文献   

12.
闫懋博  田茂再 《统计研究》2021,38(1):147-160
Lasso等惩罚变量选择方法选入模型的变量数受到样本量限制。文献中已有研究变量系数显著性的方法舍弃了未选入模型的变量含有的信息。本文在变量数大于样本量即p>n的高维情况下,使用随机化bootstrap方法获得变量权重,在计算适应性Lasso时构建选择事件的条件分布并剔除系数不显著的变量,以得到最终估计结果。本文的创新点在于提出的方法突破了适应性Lasso可选变量数的限制,当观测数据含有大量干扰变量时能够有效地识别出真实变量与干扰变量。与现有的惩罚变量选择方法相比,多种情境下的模拟研究展示了所提方法在上述两个问题中的优越性。实证研究中对NCI-60癌症细胞系数据进行了分析,结果较以往文献有明显改善。  相似文献   

13.
The structured total least squares estimator, defined via a constrained optimization problem, is a generalization of the total least squares estimator when the data matrix and the applied correction satisfy given structural constraints. In the paper, an affine structure with additional assumptions is considered. In particular, Toeplitz and Hankel structured, noise free and unstructured blocks are allowed simultaneously in the augmented data matrix. An equivalent optimization problem is derived that has as decision variables only the estimated parameters. The cost function of the equivalent problem is used to prove consistency of the structured total least squares estimator. The results for the general affine structured multivariate model are illustrated by examples of special models. Modification of the results for block-Hankel/Toeplitz structures is also given. As a by-product of the analysis of the cost function, an iterative algorithm for the computation of the structured total least squares estimator is proposed.  相似文献   

14.
Survival models with continuous-time data are still superior methods of survival analysis. However when the survival data is discrete, taking it as continuous leads the researchers to incorrect results and interpretations. The discrete-time survival model has some advantages in applications such as it can be used for non-proportional hazards, time-varying covariates and tied observations. However, it has a disadvantage about the reconstruction of the survival data and working with big data sets. Actuaries are often rely on complex and big data whereas they have to be quick and efficient for short period analysis. Using the mass always creates inefficient processes and consumes time. Therefore sampling design becomes more and more important in order to get reliable results. In this study, we take into account sampling methods in discrete-time survival model using a real data set on motor insurance. To see the efficiency of the proposed methodology we conducted a simulation study.  相似文献   

15.
使用修正的EGARCH模型与VaR方法检验股指期货的推出对中国股票市场波动性所产生的影响。采用的数据为沪深300指数,样本数据分为股指期货推出前,股指期货推出后的短期、中期和长期与样本数据全体五个时间段。研究表明,从股指期货推出的短期与中期来看,市场对信息的反应比较混乱。从长期来看,股指期货的推出加速了信息的传递速度并且弱化了非对称效应,并没有加大股市的波动性。VaR方法检验表明,股指期货的推出有效降低了股市风险,使A股市场更加成熟和完善。  相似文献   

16.
陈立双  祝丹 《统计研究》2020,37(4):18-31
大数据来源下CPI指数的创新编制,对及时了解新经济时代的物价走向和识别通胀危机、预测宏观经济拐点以实现我国通胀治理现代化、推动经济平稳和高质量发展具有重大意义。GEKS多边指数是近些年国际学术界重点研发的大数据热点价格指数,但其构造方法颇具争议。借助超市扫描大数据,就GEKS指数序列更新方法、窗口长度选择等学界难题开展理论与实证研究,获得了以下富有启发性的结论:①GEKS指数序列更新方法2、3应用效果相对较差;②随着窗口长度的增加,GEKS环比价格指数会趋于单位值,不同更新方法下的GEKS链式指数也会呈现一定的趋同性;而GEKS指数的通胀趋势判断力却不受此影响,但更新方法的选择却会导致其不同的通胀趋势预测结果;③更新方法4会随着窗口长度的增加而呈现更强的替代偏误,方法1却没有出现明显的替代偏误。综合而言,更新方法1和13个月窗口长度应该是编制GEKS指数序列更为合理的组合方式。  相似文献   

17.
There are no practical and effective mechanisms to share high-dimensional data including sensitive information in various fields like health financial intelligence or socioeconomics without compromising either the utility of the data or exposing private personal or secure organizational information. Excessive scrambling or encoding of the information makes it less useful for modelling or analytical processing. Insufficient preprocessing may compromise sensitive information and introduce a substantial risk for re-identification of individuals by various stratification techniques. To address this problem, we developed a novel statistical obfuscation method (DataSifter) for on-the-fly de-identification of structured and unstructured sensitive high-dimensional data such as clinical data from electronic health records (EHR). DataSifter provides complete administrative control over the balance between risk of data re-identification and preservation of the data information. Simulation results suggest that DataSifter can provide privacy protection while maintaining data utility for different types of outcomes of interest. The application of DataSifter on a large autism dataset provides a realistic demonstration of its promise practical applications.  相似文献   

18.
The use of large-dimensional factor models in forecasting has received much attention in the literature with the consensus being that improvements on forecasts can be achieved when comparing with standard models. However, recent contributions in the literature have demonstrated that care needs to be taken when choosing which variables to include in the model. A number of different approaches to determining these variables have been put forward. These are, however, often based on ad hoc procedures or abandon the underlying theoretical factor model. In this article, we will take a different approach to the problem by using the least absolute shrinkage and selection operator (LASSO) as a variable selection method to choose between the possible variables and thus obtain sparse loadings from which factors or diffusion indexes can be formed. This allows us to build a more parsimonious factor model that is better suited for forecasting compared to the traditional principal components (PC) approach. We provide an asymptotic analysis of the estimator and illustrate its merits empirically in a forecasting experiment based on U.S. macroeconomic data. Overall we find that compared to PC we obtain improvements in forecasting accuracy and thus find it to be an important alternative to PC. Supplementary materials for this article are available online.  相似文献   

19.
赵进文  丁林涛 《统计研究》2012,29(12):69-76
本文首先利用贝叶斯向量自回归(BVAR)模型,分析了通货膨胀对宏观经济的冲击响应及其剧烈程度。然后,利用门限模型验证了通货膨胀在不同变量作为门限变量情况下的门限效应。结果表明:通货膨胀对六个因素冲击的反应程度各异,其中,对流动性过剩的反应程度最强,对股票价格、产出缺口和国际油价的反应适度,对实际有效汇率和房价的反应较弱;股票价格、汇率和国际油价具有明显的门限特征,它们分别将通货膨胀分为高低两种区制状态。以上结果有利于我们更好地认识通货膨胀的反应机制,采用合理的经济政策应对通货膨胀。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号