首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
对随机森林做修剪的目的就是要把随机森林中重要的分类器找到,使得修剪后得到的子森林不仅具有可解释性,而且能充分利用数据的信息量.文章提出一种新的修剪随机森林方法,基于样本的边缘函数,采用逐步向后算法,得到嵌套子森林,采用1-se法则挑选最优子森林.在两份实际数据中和已有随机森林的修剪方法做了对比,结果表明,所提出的方法,在修剪后子森林预测率的分布和子森林中分类器个数的分布,以及选出的解释变量三个指标上均具有优势.  相似文献   

2.
文章考虑了大样本下线性回归中同时进行快速估计和变量选择的问题,即针对一个存在稀疏解的大样本线性模型,根据重要性抽样分布从全数据集抽取少量子样本,对该子样本进行自适应Lasso估计。通过随机模拟研究,将该算法分别应用在几种不同的数据集中,并从模型预测精度和可解释性两个方面比较了四种子抽样方法在该算法下的表现。模拟结果表明,所提出的算法具有良好表现,在计算开销上也具有一定优势。  相似文献   

3.
为解决传统非参数众数回归模型没有考虑解释变量间复杂交互影响的局限,文章将众数回归与机器学习方法相结合,提出了一个新的非参数众数回归模型:众数回归森林模型。该模型一方面充分考虑了各个解释变量之间的交互影响;另一方面采用Bagging技术汇总多个众数回归树的结果,提高了预测性能。数值模拟结果表明:第一,与线性众数回归模型和众数回归树模型相比,众数回归森林模型极大地提高了估计和预测精度;第二,当数据为偏态分布时,众数回归森林模型的估计和预测精度显著优于中位数回归森林和均值回归森林模型。此外,将众数回归森林模型应用于收入分配研究中,得到了与中位数回归森林和均值回归森林模型不同的结果。  相似文献   

4.
随机森林算法是一类在机器学习中较为常见的算法,其在数据的分类以及非参数回归中都有重要的作用。如何更好地处理数据,进行特征选择是随机森林的重点研究领域。自编码神经网络在深度学习中有着不可替代的作用,其在数据压缩、特征提取等方面有着优异的性能。结合两者优点,提出一种基于使用稀疏降噪自编码器对原始数据进行特征提取的随机森林算法。采用多种常用数据集进行实验分析,对原始数据分别采用不同的特征提取方法,并利用随机森林将提取后的特征进行分类。实验结果表明,利用稀疏降噪自编码神经网络进行特征提取所得到的特征,能够使随机森林的分类精度得到一定程度的提高。  相似文献   

5.
采用模拟研究的方法,分别在回归预测和分类判别两种环境中讨论有监督Group MCP方法在不同结构错误率下进行变量选择和结果预测的稳健性,并通过实例分析讨论本研究的实用价值。研究结果显示:忽略解释变量的内部结构进行变量选择会导致很多重要解释变量被疏漏,而有监督Group MCP方法考虑了解释变量的内部结构,在结构错误率低于5%时会以不低于98%的概率选出有效解释变量,并尽量降低冗余变量被选择的可能性。此研究成果为有监督Group MCP方法的合理使用奠定了基础。  相似文献   

6.
文章在响应变量随机缺失下研究非线性均值方差模型的参数估计问题.基于回归插补和随机回归插补两种缺失插补方法以及结合Gauss-Newton迭代计算算法给出该模型中未知参数的极大似然估计.并通过对两个随机模拟例子实际例子的研究分析,结果都表明了所提出的模型与统计方法具有可行性和实用性.  相似文献   

7.
在含潜变量的纵向数据混合效应模型应用中,通常包含大量截尾数据,若直接采用一般贝叶斯Tobit分位回归模型,参数估计的马尔科夫链蒙特卡罗抽样算法将会极其复杂,造成计算效率低下且估计结果偏差较大。同时,在高维情形下,由于受大量未知随机效应的干扰,固定效应中关键变量的选择与系数估计变得更为困难。为了解决上述问题,文章提出了一种新的双Adaptive Lasso惩罚贝叶斯Tobit分位回归方法,主要研究响应变量左删失情形下高维纵向数据的变量选择与参数估计问题。通过将Adaptive Lasso惩罚同时引入固定效应与随机效应的先验分布中,构造了参数估计的Gibbs抽样算法。蒙特卡罗模拟结果表明,新方法较无惩罚法和Lasso惩罚法在重要变量选择及系数估计上均更占优势。  相似文献   

8.
在数据驱动时代,如何挖掘金融资产的信息、挑选恰当的资产,对稳定收益、控制风险意义重大。多因子量化模型是选择股票的常用方法,选取最优解释力的因子集合是其主要目的之一。现有因子选择方法没有考虑到控制错误发现率(FDR),不利于构建稳健的投资策略。为此,在Logistic回归的基础上引入Knockoff方法进行因子选择,通过Lasso实现因子选择,利用Knockoff控制变量选择的FDR从而提高准确率。基于所选因子,在Logistic回归下进行股票预测,并与线性判别分析、支持向量机以及随机森林模型的预测结果进行对比。对沪深300指数和中证500指数成分股2007—2020年的数据进行实证研究,采用滑动回归法进行收益预测,并建立季度换仓的投资策略。研究表明,从变量选择上来看,基于Knockoff方法选出的因子所构造的选股模型具有更好的市场表现;从模型对比上来看,Logistic回归预测的投资组合具备高收益、低风险的优势。综合来看,将Knockoff方法引入到多因子选股模型有利于提高因子选择的准确度,对优化资产配置具有参考意义。  相似文献   

9.
需水预测对于有效的水资源管理有重要的作用。文章引入随机森林方法对需水预测问题进行了实证研究。实验结果表明,随机森林方法不会受到训练集中异常值的影响而出现过度拟合的情况,模型稳健性较高。在地区需水量的各解释变量中,地区人口和灌溉面积的影响较为重要。文章的结论和方法有助于管理部门更有效的进行需水管理。  相似文献   

10.
分别以筛选的4种技术指标和6个宏观经济指标作为国债期货指数预测变量,利用随机森林算法构建4种机器学习预测模型;依据价格波动集聚性设计跟踪交易规则,通过比较4种模型的预测精度和跟踪交易收益率,检验宏观经济指标、技术指标和随机森林算法对国债期货指数的预测能力。研究结果发现:用主成分精选技术指标构建的预测模型,对国债期货指数的跟踪交易收益率虽然明显优于市场收益率,但不如遵循单个技术指标经验交易规则的跟踪交易收益率;用主成分精选技术指标和宏观经济指标构建的模型能够取得很好的预测精度和跟踪交易收益率,这表明宏观经济指标与技术指标都对国债期货价格具有预测意义,可以利用随机森林机器学习算法构建有效的国债期货量化投资模型。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号