首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
购物网站的用户搜索量数据是近年来出现的一种新类型数据源。基于该数据在合理选择关键词以及对数据进行季节调整和假日处理的基础上建立中国全国与城镇CPI的及时预测模型。模型以分布滞后模型为基础,采用Elastic-Net方法进行收缩估计进而实现变量选择。在确定最优惩罚因子和调整参数时采用了K重交叉验证技术。实证结果表明,搜索量变量与CPI具有显著的因果关系,在此基础上建立的预测模型经济含义合理,并能对CPI做出较精确的预测。同时,从模型均方误差角度看,基于Elastic-Net的变量选择显著优于基于逐步回归的方法,而城镇CPI预测模型也优于全国CPI预测模型。  相似文献   

2.
经济时间序列的频率转换是计量经济分析领域的一个重要研究问题.本文首先对不同经济指标类型(流量、存量和指数)及传统频率转换方法进行了系统梳理;在此基础上,重点介绍了3种低频向高频转换的前沿方法:Denton方法、Chow-Lin方法和Litterman方法,并给出了流量、存量和指数3种类型变量由低频(季度)向高频(月度)转换的实例;最后,对3种频率转换方法的数据转换质量进行了比较分析.研究显示,频率转换后的月度数据都较好地反映季度数据的变化趋势和波动特征,从而通过频率转换方法可以很好地解决由于收集到的数据类型不一致而无法建模的问题.  相似文献   

3.
王娜 《统计研究》2016,33(11):56-62
为了研究大数据是否能够帮助我们预测碳排放权价格,本文讨论了结构化数据和非结构化信息对预测碳价所起的作用。结构化数据选取了国际碳现货价格、碳期货价格和汇率,非结构化信息选择百度搜索指数和媒体指数。考虑到当解释变量很多时,平等对待每一个解释变量是不合理的,所以提出了网络结构自回归分布滞后(ADL)模型,在参数估计和变量选择的同时兼顾了解释变量之间的网络关系。实证分析表明,网络结构ADL模型明显优于其他模型,可以获得较高的预测准确性,更适合基于大数据的预测。  相似文献   

4.
博客用户在线行为分为发文行为和流失行为.由于这两种行为分别与交易过程中客户的购买行为和流失行为具有相似性,选择借鉴客户基分析中的Pareto/NBD模型进行预测.考虑到用户间交互性对博客用户在线行为具有重要影响,通过比例风险模型向经典的Pareto/NBD模型中加入体现用户间交互性的协变量.Pareto/NBD模型经过改进,实现了对博客用户在线行为的预测.实证研究以用户博客空间中的总评论量和总浏览量作为协变量.数据分析结果显示,当使用总评论量作为影响流失行为的协变量时,改进模型的预测精度显著提高.进一步分析还发现,总评论量对博客用户“存活”时长的正向激励存在着阈值.  相似文献   

5.
在非寿险精算中,对保单的累积损失进行预测是费率厘定的基础。在对累积损失进行预测时通常使用Tweedie回归模型。当损失观察数据中包含大量零索赔的保单时,Tweedie回归模型对零点的拟合容易出现偏差;若用零调整分布代替Tweedie分布,并在模型中引入连续型解释变量的平方函数,可以建立零调整回归模型;如果在零调整回归模型中将水平数较多的分类解释变量作为随机效应处理,可以进一步改善预测结果的合理性。基于一组机动车辆第三者责任保险的损失数据,将不同分布假设下的固定效应模型与随机效应模型进行对比,实证检验了随机效应零调整回归模型在保险损失预测中的优越性。  相似文献   

6.
文章以我国大中城市的新建住宅价格为研究对象,以均衡价格理论为基础,使用搜索关键词的百度指数开展研究,分别使用自回归移动平均模型(ARMA)和带搜索项的自回归分布滞后模型对上海市的新建住宅价格指数进行了拟合和预测.实证结果表明:百度搜索指数与价格指数之间存在协整关系,建立的自回归分布滞后模型的拟合度达到0.918,预测精度相较ARMA模型提高23.2%.与传统的预测方法相比,模型具有很强的时效性,能够比国家统计局提前一个月发布房屋价格指数数据.  相似文献   

7.
何强  董志勇 《统计研究》2020,37(12):91-104
大数据为季度GDP走势预测创新研究带来重要突破口。本文利用百度等网站的互联网大数据,基于代表性高维数据机器学习(和深度学习)模型,对我国2011-2018年季度GDP增速深入进行预测分析。研究发现,对模型中的随机干扰因素作出一定分布的统计假设,有助于降低预测误差,任由模型通过大量数据机械地学习和完善并不总是有利于模型预测能力的提升;采用对解释变量集添加惩罚约束的方法,可以有效地处理互联网大数据维度较高的棘手问题;预测季度GDP增速的最优大数据解释变量集的稳定性较高。  相似文献   

8.
王娜 《统计研究》2023,(1):49-61
碳交易是实现双碳目标的重要金融工具,准确预测碳价可以帮助政策制定者建立稳定有效的碳定价机制。本文提出基于动态多元网络的预测模型,考虑响应变量网络的动态性、内生性和多元性,具有更广的适用性。利用百度搜索指数、资讯指数、能源价格、经济政策不确定性指数、汇率、环境意识和人均GDP等不同类型的变量,对我国8个碳交易试点的碳价进行预测。实证结果显示,本文构建的DMNP模型具有较好的预测效果,明显优于对比模型,并能够达到降维的目的,为我国碳交易提供了更科学合理的碳价预测新方法及实证基础。  相似文献   

9.
通过分解高频回归元,探寻出MIDAS类模型及同频率MAR模型之间联系的桥梁,从模型形式、估计量偏误、估计量方差等诸多方面呈现出两类模型的区别。理论推导结果表明:遗漏高频样本数据的传统MAR模型存在偏误,但在一定条件下MIDAS类模型与MAR模型具有等价性;MAR-LS的有效性与频率倍差存在正向相关性,当高频变量与低频变量的数据频率相差迥异时,MIDAS类模型的估计量较MAR模型有效。将此理论应用于具体实际经济中,以研究中国高频资产价格对低频GDP作用机制及预测能力。  相似文献   

10.
文章基于投资与经济波动之间的相关关系,充分体现统计调查数据和网络搜索数据的优势,利用两种数据对中国宏观经济波动进行研究。针对混频数据的特点和深度学习算法的优势,提出了融合混频数据和深度学习的宏观经济预测方法。首先,考虑到政府统计调查数据与经济波动的强相关性,选取政府投资统计月度指标合成投资统计指数;然后,结合网络搜索数据的时效性和高频性,选取与投资相关关键词的百度指数日度数据合成投资网络搜索指数;最后,构建多源混频数据长短期记忆神经网络模型(MM-LSTM),利用中国2011—2022年的相关数据进行实证研究,并考察模型的精度与时效性。结果表明,投资相关指标与中国GDP增长率之间存在正向关系;网络搜索数据的加入有助于提升宏观经济预测的精度;MM-LSTM模型提高了短期和中期的预测精度,具备提前预测能力,可为相关部门提供决策依据。  相似文献   

11.
Spatial generalised linear mixed models are used commonly for modelling non‐Gaussian discrete spatial responses. In these models, the spatial correlation structure of data is modelled by spatial latent variables. Most users are satisfied with using a normal distribution for these variables, but in many applications it is unclear whether or not the normal assumption holds. This assumption is relaxed in the present work, using a closed skew normal distribution for the spatial latent variables, which is more flexible and includes normal and skew normal distributions. The parameter estimates and spatial predictions are calculated using the Markov Chain Monte Carlo method. Finally, the performance of the proposed model is analysed via two simulation studies, followed by a case study in which practical aspects are dealt with. The proposed model appears to give a smaller cross‐validation mean square error of the spatial prediction than the normal prior in modelling the temperature data set.  相似文献   

12.
Abstract. For certain classes of hierarchical models, it is easy to derive an expression for the joint moment‐generating function (MGF) of data, whereas the joint probability density has an intractable form which typically involves an integral. The most important example is the class of linear models with non‐Gaussian latent variables. Parameters in the model can be estimated by approximate maximum likelihood, using a saddlepoint‐type approximation to invert the MGF. We focus on modelling heavy‐tailed latent variables, and suggest a family of mixture distributions that behaves well under the saddlepoint approximation (SPA). It is shown that the well‐known normalization issue renders the ordinary SPA useless in the present context. As a solution we extend the non‐Gaussian leading term SPA to a multivariate setting, and introduce a general rule for choosing the leading term density. The approach is applied to mixed‐effects regression, time‐series models and stochastic networks and it is shown that the modified SPA is very accurate.  相似文献   

13.
由于常用的线性混合效应模型对具有非线性关系的纵向数据建模具有一定的局限性,因此对线性混合效应模型进行扩展,根据变量间的非线性关系建立不同的非线性混合效应模型,并根据因变量的分布特征建立混合分布模型。基于一组实际的保险损失数据,建立多项式混合效应模型、截断多项式混合效应模型和B样条混合效应模型。研究结果表明,非线性混合效应模型能够显著改进对保险损失数据的建模效果,对非寿险费率厘定具有重要参考价值。  相似文献   

14.
Summary. Varying-coefficient linear models arise from multivariate nonparametric regression, non-linear time series modelling and forecasting, functional data analysis, longitudinal data analysis and others. It has been a common practice to assume that the varying coefficients are functions of a given variable, which is often called an index . To enlarge the modelling capacity substantially, this paper explores a class of varying-coefficient linear models in which the index is unknown and is estimated as a linear combination of regressors and/or other variables. We search for the index such that the derived varying-coefficient model provides the least squares approximation to the underlying unknown multidimensional regression function. The search is implemented through a newly proposed hybrid backfitting algorithm. The core of the algorithm is the alternating iteration between estimating the index through a one-step scheme and estimating coefficient functions through one-dimensional local linear smoothing. The locally significant variables are selected in terms of a combined use of the t -statistic and the Akaike information criterion. We further extend the algorithm for models with two indices. Simulation shows that the methodology proposed has appreciable flexibility to model complex multivariate non-linear structure and is practically feasible with average modern computers. The methods are further illustrated through the Canadian mink–muskrat data in 1925–1994 and the pound–dollar exchange rates in 1974–1983.  相似文献   

15.
鲁万波  杨冬 《统计研究》2018,35(10):28-43
考虑宏观经济变量具有明显的非线性特征,将非线性误差修正项引入存在协整关系的非平稳混频数据抽样(MIDAS)模型中,构建半参数混频数据抽样误差修正(SEMI-ECM-MIDAS)模型。使用广义似然比(GLR)检验,拓展了混频数据下模型函数形式的一致性检验问题。模拟结果表明SEMI-ECM-MIDAS模型对存在非线性误差修正机制的数据具有显著的预测优势。最后使用该模型研究中国股票市场周度数据、广义货币发行量月度数据和国际原油市场月度数据对中国CPI的短期预测效果。基于AIC准则,对包含半参数模型在内的4种混频数据抽样模型和2种同频模型的连续预测效果进行了全面的比较。研究结果发现:GLR检验表明误差修正项具有明显的非线性特征且在回归中具有显著的反向修正机制,无论采用递归样本、滚动样本还是固定样本,本文提出的SEMI-ECM-MIDAS模型在进行连续预测时均具有最优的预测精度,且预测结果不受混频动态协整关系选择的影响。  相似文献   

16.
唐晓彬等 《统计研究》2018,35(11):71-81
传统SVR模型可预测房价变化趋势,但不恰当的参数设置会影响预测的精度。本文针对北京二手房同比价格指数的非线性变化特征,将蝙蝠算法(BatAlgorithm,BA)引入到SVR模型中,使其对模型的三个参数进行优化设置,结合网络搜索数据(Web Search Data,WSD),构建了BA-SVR&WSD混合模型,并给出了该模型算法的预测流程,通过引入多个基准预测模型和预测性能度量指标进行对比研究。研究结果表明:基于蝙蝠算法的SVR模型的具有较好的泛化能力、预测效果更准确且预测精度更高,该预测方法也为北京二手房价格的监测和调控提供有价值的参考。  相似文献   

17.
唐晓彬等 《统计研究》2021,38(8):146-160
本文创新地将半监督交互式关键词提取算法词频-逆向文件频率( Term Frequency- Inverse Document Frequency, TF-IDF )与基于 Transformer 的 双 向 编 码 表 征 ( Bidirectional Encoder Representation from Transformers,BERT)模型相结合,设计出一种扩展CPI预测种子关键词的文本挖掘技术。采用交互式TF-IDF算法,对原始CPI预测种子关键词汇广度上进行扩展,在此基础上通过BERT“两段式”检索过滤模型深入挖掘文本信息并匹配关键词,实现CPI预测关键词深度上的扩展,从而构建了CPI预测的关键词库。在此基础上,本文进一步对文本挖掘技术特征扩展前后的关键词建立预测模型进行对比分析。研究表明,相比于传统的关键词提取算法,交互式TF-IDF算法不仅无需借助语料库,而且还允许种子词的输入。同时,BERT模型通过迁移学习的方式对基础模型进行微调,学习特定领域知识,在CPI预测问题中很好地实现了语言表征、语义拓展与人机交互。相对于传统文本挖掘技术,本文设计的文本挖掘技术具有较强的泛化表征能力,在84个CPI预测关键种子词的基础上,扩充后的关键词对CPI具有更高的预测准确度和更充分的解释性。本文针对CP 预测问题设计的文本挖掘技术,也为建立其他宏观经济指标关键词词库提供新的研究思路与参考价值。  相似文献   

18.
Linear structural equation models, which relate random variables via linear interdependencies and Gaussian noise, are a popular tool for modelling multivariate joint distributions. The models correspond to mixed graphs that include both directed and bidirected edges representing the linear relationships and correlations between noise terms, respectively. A question of interest for these models is that of parameter identifiability, whether or not it is possible to recover edge coefficients from the joint covariance matrix of the random variables. For the problem of determining generic parameter identifiability, we present an algorithm building upon the half‐trek criterion. Underlying our new algorithm is the idea that ancestral subsets of vertices in the graph can be used to extend the applicability of a decomposition technique.  相似文献   

19.
Finite memory sources and variable‐length Markov chains have recently gained popularity in data compression and mining, in particular, for applications in bioinformatics and language modelling. Here, we consider denser data compression and prediction with a family of sparse Bayesian predictive models for Markov chains in finite state spaces. Our approach lumps transition probabilities into classes composed of invariant probabilities, such that the resulting models need not have a hierarchical structure as in context tree‐based approaches. This can lead to a substantially higher rate of data compression, and such non‐hierarchical sparse models can be motivated for instance by data dependence structures existing in the bioinformatics context. We describe a Bayesian inference algorithm for learning sparse Markov models through clustering of transition probabilities. Experiments with DNA sequence and protein data show that our approach is competitive in both prediction and classification when compared with several alternative methods on the basis of variable memory length.  相似文献   

20.
Abstract

Time averaging has been the traditional approach to handle mixed sampling frequencies. However, it ignores information possibly embedded in high frequency. Mixed data sampling (MIDAS) regression models provide a concise way to utilize the additional information in high-frequency variables. In this paper, we propose a specification test to choose between time averaging and MIDAS models, based on a Durbin-Wu-Hausman test. In particular, a set of instrumental variables is proposed and theoretically validated when the frequency ratio is large. As a result, our method tends to be more powerful than existing methods, as reconfirmed through the simulations.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号