首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于递归特征消除方法的随机森林算法   总被引:1,自引:0,他引:1  
基于随机森林算法中的相关预测因子进行变量选择,在高维回归或分类框架中,变量选择是一项艰巨的任务,甚至在高度相关的预测中变得更加具有挑战性,文章提供了在回归模型上置换重要性测量的理论研究,这使我们能够描述相关性预测和排名的重要性之间的影响.相比于原始随机森林算法使用重要性排名做变量选择,研究结果使用了递归特征消除(RFE)方法做变量选择.通过实验证明了RFE-RF方法对机器学习算法的正确预测有很大的帮助.  相似文献   

2.
基于主成分与BP神经网络的股票价格预测分析   总被引:4,自引:0,他引:4  
一、主成分与神经网络的股票价格预测模型 1.输入变量的选择 在应用人工神经网络模型预测股票价格的过程中,并非每个信息都要设置一个输入变量,有效地选取输入变量是决定该神经网络预测准确性的关键因素.  相似文献   

3.
当使用剔除变量法解决线性回归模型的多重共线性问题时,根据方差膨胀因子的大小来选择被剔除变量是存在缺陷的.解释变量显著性检验的t统计量的绝对值大小反映了该解释变量对被解释变量的贡献程度的大小,因此可以将t统计量绝对值作为剔除解释变量的依据,从而得到一类多重共线性的解决办法.  相似文献   

4.
采用模拟研究的方法,分别在回归预测和分类判别两种环境中讨论有监督Group MCP方法在不同结构错误率下进行变量选择和结果预测的稳健性,并通过实例分析讨论本研究的实用价值。研究结果显示:忽略解释变量的内部结构进行变量选择会导致很多重要解释变量被疏漏,而有监督Group MCP方法考虑了解释变量的内部结构,在结构错误率低于5%时会以不低于98%的概率选出有效解释变量,并尽量降低冗余变量被选择的可能性。此研究成果为有监督Group MCP方法的合理使用奠定了基础。  相似文献   

5.
文章考虑了Cox模型的变量选择问题,将自适应Lasso引入到Cox模型中,提出了一类基于惩罚偏似然函数的自适应Lasso估计程序.通过对偏似然函数采用二阶泰勒展开式近似逼近,运用循环坐标下降法求解模型,再借助牛顿-拉普森迭代完成整个变量选择和估计过程.随机数据模拟的结果表明该方法具有优良的变量选择效果,并适用于高维数据.  相似文献   

6.
文章将幂单变量整体模式累加多层统计模型和单变量整体模式累加多层统计模型应用到仅有两个调查数据的香蕉组织形式绩效的预测中,计算了预测误差,并且比较了幂单变量整体模式累加多层统计模型和单变量整体模式累加多层统计模型的预测结果.  相似文献   

7.
博客用户在线行为分为发文行为和流失行为.由于这两种行为分别与交易过程中客户的购买行为和流失行为具有相似性,选择借鉴客户基分析中的Pareto/NBD模型进行预测.考虑到用户间交互性对博客用户在线行为具有重要影响,通过比例风险模型向经典的Pareto/NBD模型中加入体现用户间交互性的协变量.Pareto/NBD模型经过改进,实现了对博客用户在线行为的预测.实证研究以用户博客空间中的总评论量和总浏览量作为协变量.数据分析结果显示,当使用总评论量作为影响流失行为的协变量时,改进模型的预测精度显著提高.进一步分析还发现,总评论量对博客用户“存活”时长的正向激励存在着阈值.  相似文献   

8.
王娜 《统计研究》2016,33(11):56-62
为了研究大数据是否能够帮助我们预测碳排放权价格,本文讨论了结构化数据和非结构化信息对预测碳价所起的作用。结构化数据选取了国际碳现货价格、碳期货价格和汇率,非结构化信息选择百度搜索指数和媒体指数。考虑到当解释变量很多时,平等对待每一个解释变量是不合理的,所以提出了网络结构自回归分布滞后(ADL)模型,在参数估计和变量选择的同时兼顾了解释变量之间的网络关系。实证分析表明,网络结构ADL模型明显优于其他模型,可以获得较高的预测准确性,更适合基于大数据的预测。  相似文献   

9.
两项相关及其应用杭州商学院李金昌社会经济按变量的性质不同可分为两类:一类是其变量可以用具体数值表示它们之间的相关关系,如人均收入与食品支出之间的相关等,称之为数值变量相关;另一类是其变量不能或不完全能用具体数值表示它们之间的相关关系,如是否为文盲与是...  相似文献   

10.
方匡南  杨阳 《统计研究》2018,35(8):104-115
针对分类问题,本文提出了稀疏组Lasso支持向量机方法(Sparse group lasso SVM, SGL-SVM),即在SVM模型的损失函数中引入SGL惩罚函数,能同时进行组间变量和组内变量的筛选。由于SGL-SVM的目标函数求解比较复杂,本文又提出了一种快速的双层坐标下降算法。通过模拟实验,发现SGL-SVM方法在预测效果和变量选择上均要好于其他方法,对于变量具有自然分组结构且组内是稀疏的数据,本文方法在提高变量选择效果的同时又能提高模型的预测精度。最后,将本文提出的SGL-SVM方法应用到我国制造业上市公司财务困境预测中。  相似文献   

11.
文章研究了一种高维数据聚类特征选择方法——稀疏聚类,稀疏聚类是通过对特征变量赋予权重,并添加lasso惩罚因子,压缩权重,得到对变量的权重排序,即重要性排序,使其在进行分类预测的同时达到自动剔除冗余变量的效果,从而起到了对高维数据聚类时的特征选择作用.将此方法运用于中国环保问题,将中国31个省份根据环保情况分为3类,并从现有的104个环保指标中筛选得到20个重要指标.  相似文献   

12.
一、不良数据及其影响究竟什么是不良数据? 这与研究的问题和背景有关,如果原始数据是错的,显然是不良数据,然而实际背景却可以使问题更扑朔迷离.例如在回归分析中,预测变量错误可以导致回归系数产生偏差从而在解释变量时产生问题,但是如果预测来源于同一分布的变量时却不会产生任何问题.同样地,数据的"良好"与否也取决于研究目的,准确、精密的测量对于错误的问题是无效的.  相似文献   

13.
一、引言 现实经济生活中,两个经济变量之间的关系可分为两类,一类是确定性的函数关系,即某些现象的数量变化完全决定了另一种现象的数量变化,这种关系可写为y=f(x),x∈Rd,d≥1,y∈r;另一类是随机关系,即若干个随机变量之间伴随着某种随机关系,这种关系往往很不确定,没有明确的数量对应关系。 人们从现实生活中搜集数据,运用相关分析的理论和方法对数据进行加工和处理,其目的就是要对各经济变量之间的这种随机关系进行探索,力图  相似文献   

14.
王小燕等 《统计研究》2014,31(9):107-112
变量选择是统计建模的重要环节,选择合适的变量可以建立结构简单、预测精准的稳健模型。本文在logistic回归下提出了新的双层变量选择惩罚方法——adaptive Sparse Group Lasso(adSGL),其独特之处在于基于变量的分组结构作筛选,实现了组内和组间双层选择。该方法的优点是对各单个系数和组系数采取不同程度的惩罚,避免了过度惩罚大系数,从而提高了模型的估计和预测精度。求解的难点是惩罚似然函数不是严格凸的,因此本文基于组坐标下降法求解模型,并建立了调整参数的选取准则。模拟分析表明,对比现有代表性方法Sparse Group Lasso、Group Lasso及Lasso,adSGL法不仅提高了双层选择精度,而且降低了模型误差。最后本文将adSGL法应用到信用卡信用评分研究,对比logistic回归,它具有更高的分类精度和稳健性。  相似文献   

15.
范新妍等 《统计研究》2021,38(2):99-113
传统信用评分方法主要利用统计分类方法,只能预测借款人是否会发生违约,但不能预测违约发生的时点。治愈率模型是二分类和生存分析的混合模型,不仅可以预测是否会发生违约,而且可以预测违约发生的时点,比传统二分类方法可以提供更多的信息。另外,随着大数据的发展,数据源越来越多,针对相同或者相似任务,可以收集到多个数据集,本文提出了融合多源数据的整合治愈率模型,可以对多个数据集同时建模和估计参数,通过复合惩罚函数进行组间和组内双层变量选择,并通过促进两个子模型回归系数符号相同,提高模型的可解释性。通过数值模拟发现,所提方法在变量选择和参数估计上均有明显优势。最后,将所提方法应用于信用贷款的违约时点预测中,模型表现良好。  相似文献   

16.
对多变量时间序列进行预测,单变量ARIMA模型和普通多元回归分析并不适用,这种情况下应用多变量ARIMA即传递函数模型是很好的选择。以一种受原油和原材料多种因素影响的合成化纤产品为例,说明利用传递函数模型对其价格进行预测的建模过程中,如何进行模型识别、参数估计及诊断的有关问题。  相似文献   

17.
删除截距项和遗漏解释变量是线性回归模型估计中的两个常见错误,删除截距项错误发生的原因是检验过程中发现其不显著而将其剔除,这会造成模型参数估计和假设检验的失真;遗漏解释变量的错误发生原因是人们错误认为只要变量存在相关性且存在因果联系就可以进行回归分析,以至于不考虑其它重要的解释变量,此时建立的模型不能用于经济结构分析和政策评价,最多只能用于预测目的。  相似文献   

18.
文章以产品族为对象,以改进后GBOM为基础,对比传统MRP,基于预测需求、客户订单、可存等变量的逻辑运算,构建了GMRP模型。通过GMRP生产活动流程分析,推导出GMRP两阶段运算过程,即面向类BOM结构节点的BOM中心算法阶段和选择树的选择子集前序遍历阶段。  相似文献   

19.
动态组合型神经网络的预测模型   总被引:1,自引:0,他引:1  
经济预测方法常可分为两类:一类是解释性预测方法,即找出预测量的各影响因素,建立回归分析模型;另一类是时间序列分析方法,它只依赖于被预测量的历史观测数据及数据模式,通过序列分析,找出其顺序变化规律。目前采用  相似文献   

20.
Excel变量与三次指数平滑模拟预测方法   总被引:3,自引:0,他引:3  
指数平滑法是对预测对象的全部历史序列数据,通过加权平均从而进行预测的一种方法.在进行指数平滑预测时一般要通过对加权系数α取不同的值,经过多次模拟运算并比较预测误差,从而选择适当的预测结果.然而,当采用二次或三次指数平滑模型,进行预测分析时,由于计算公式较为复杂,模拟运算过程参数的改变就非常繁琐.本文以我国肉类产量三次指数平滑预测为例,利用Excel变量和工作表相结合,建立数据、图表间的链接关系,从而实现了方便、快捷的模拟运算预测分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号