首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。  相似文献   

2.
文章通过构建月度景气指标与季度实际GDP增长率之间的混频动态向量自回归模型,并采用期望最大值算法和卡尔曼滤波来实现混频数据和缺失数据的估计和迭代预测.大量月度景气指标的MFVAR模型的伪实时数据的多步滚动迭代样本外预测结果表明:虽然不同类别的月度景气变量在不同预测期的预测结果存在一定的差异,但实时预报、短期预测,以及组合预测结果均表明混频动态向量自回归预测模型对我国季度实际GDP增长率的实时预报和短期预测具有精确性、有效性与适用性.  相似文献   

3.
在回归问题中,惩罚特征即正则化是特征处理的常用方式。但在集成分类问题中,惩罚特征以改善训练效果的研究较少。文章提出一种基于GBDT模型训练的SHAP值对各样本特征惩罚加权,进而提升分类精度的集成模型;其中,对于测试样本的SHAP值估计,通过其与训练集的样本距离权重结合训练集的SHAP矩阵近似得到。实验结果表明:选择GBDT_SHAP值惩罚特征后,模型的预测精度均有显著提升,验证了该算法的有效性。以GBDT_SHAP_GBDT模型为例,其在多组经典数据集上的分类效果良好,且在不平衡数据集上性能突出;若干组仿真实验表明,该方法能使模型快速达到较优且较为稳定的拟合效果,鲁棒性较强。  相似文献   

4.
针对目前用于住宅消费预测中的神经网络模型存在模型结构较难确定以及过学习等问题,提出了一种基于支持向量机的住宅消费预测新方法。用1998—2008年杭州城镇居民的住宅消费数据组成样本集,前8个样本作为训练集,后3个样本作为检验集,分别建立SVM模型和神经网络模型,比较两种模型的预测效果,结果表明:基于支持向量机的城镇居民住宅消费预测模型具有更高的预测精度。  相似文献   

5.
针对基于众包竞赛中欺诈者筛除机制的黄金标准数据方法、聚类算法的离群点检测算法K-means-算法和DBSCAN算法,依赖于事先给定的参数,不适合大规模数据集检测的问题,提出基于样本连通图的离群点检测算法。首先,给定参数并重复调用离群点检测算法,识别数据中的离群点和聚类;其次,计算每两个样本之间的连接次数和连接强度,在给定连接强度下界δ的情况下,根据样本的连接强度来构造样本之间的连通图;最后,根据样本之间的连通情况,对样本进行标记,把样本标记为聚类节点和离群点。实验结果表明,该算法在放宽参数设置范围的情况下,缩小了离群点个数波动范围,提升了离群点识别准确率,优于对比算法和经典的黄金标准数据方法。  相似文献   

6.
结构方程模型的Gibbs抽样与贝叶斯估计   总被引:1,自引:0,他引:1  
吉布斯(Gibbs)抽样可以在给定协方差数据和参数的先验分布条件下获得结构方程参数的后验分布样本.参数的点估计、区间估计和标准误就可以用这些样本数据计算.然而,在小样本的情况下,不考虑样本规模和似然面形状时,吉布斯抽样能得到较为正确的后验分布.当参数的先验分布充分,它的后验估计值可以被用于对不可识别结构方程模型的参数进行贝叶斯推断.  相似文献   

7.
为探索一种较为有效的工具来提高税收收入预测精度,利用1985-2004年的样本数据,建立了五个模型来预测中国2005年的税收收入。结果表明:ARMA(1,1)模型中,以GDP为外生变量的自回归模型、以政策因素为虚拟外生变量的自回归模型以及对数线性移动平均模型都是预测税收收入的有效模型,但以GDP为外生变量的自回归模型在预测2005年税收收入时,预测值与实际值的预测偏差仅有1.23%,此模型在预测税收收入时预测精度最高,是预测税收收入的一种较为有效的工具。  相似文献   

8.
自回归单整移动平均模型(ARIMA)是目前较为广泛应用的时间序列建模方法之一,文章以北京市1998年1月~2013年5月的CPI月度数据为样本,采用Eviews6.0软件,建立了ARIMA(12,18)模型,模型对样本内数据拟合较好,预测误差较小,用该模型对北京市2013年6月~2013年12月的CPI指数进行了预测。  相似文献   

9.
考虑到面板数据的选择性偏误、不响应、样本流失及轮换面板数据的高成本,在实际应用中,根据研究的需要和两种样本各自的特征,有时将两种样本结合使用,从而得到普通面板数据和轮换面板数据的混合样本。文章提出了混合样本下双因素误差面板回归模型的迭代极大似然估计方法,得到了未知参数的迭代公式。使用蒙特卡罗模拟方法分析了面板数据和混合样本下参数估计的平均绝对偏差和均方误差,结果显示:与面板数据下的极大似然估计量相比,混合样本下迭代极大似然估计方法整体上降低了估计量的平均绝对偏差和均方误差,优于面板数据下的极大似然估计量。  相似文献   

10.
小样本实验数据较小,工程上常用Bayes Bootstrap方法来估计小样本的参数问题,文章研究了置信度一定、样本量不同的情况下,用插值法自助扩充了小样本数据的样本量,对Bayes Bootstrap方法提出改进.最后,运用蒙特卡罗方法对具体算例建模仿真,验证改进方法的优越性.  相似文献   

11.
文章针对模糊时间序列模型目前存在的缺乏客观论域划分方法和模糊关系前件单一等缺陷,首先应用模糊聚类方法将数据分类,以相邻两个聚类中心的中点作为子区间的分界点来划分论域;其次将数据模糊化后根据证券市场主要量价指标建立了具有多个前件的高阶模糊关系;最后根据序列对比规则计算预测值。将该模型用于股票指数的价格预测和涨跌预测,与传统模型比较的结果表明其预测准确率有了较大提高。  相似文献   

12.
随着我国金融市场的蓬勃发展,信用评价中的拒绝推断问题越来越受到重视。针对信用评分模型中存在的有类别标签的样本占比低,并且样本中的类别分布不平衡等问题,本文在半监督学习技术与集成学习理论的基础上,提出了一种新的算法——BCT算法。该算法通过使用动态Bagging生成多个子分类器,引入分类阈值参数来解决样本类别分布不平衡问题,以及设定早停止条件来避免算法迭代过程中存在的过拟合风险,以此对传统半监督协同训练法进行改进。通过在5个真实数据集上的实证分析发现,在不同数据集与不同拒绝比例下,BCT算法的性能均优于其他6种有监督学习和半监督学习算法的信用评分模型,显示了BCT算法具有良好的模型泛化性能和更高的模型评价能力。  相似文献   

13.
数据挖掘的任务之一:分类   总被引:1,自引:0,他引:1  
一般说来,数据挖掘问题可以分为以下几类:分类、推估、预测、同质分组和关联分组。每种问题都有许多具体的数据挖掘或统计模型来加以解决。分类简介分类问题是数据挖掘中最重要的任务之一,很多数据挖掘问题都可以转化为分类问题。分类的目的在于运用分类方法构建一个分类函数或分类模型(也常常称作分类器),该模型可以将输入数据(比如数据库中的数据项)映射到给定类别中的一个类别。比如根据个人资料预测客户是否会流失,这里就把顾客分为将流失与不会流失两个类别,再根据输入的个人资料将该客户映射到两个类中的一个里去。分类首先要做的工作…  相似文献   

14.
文章提出了一种基于聚类组合和支持向量机的短期负荷预测方法.该方法首先使用SOM网络训练规格化的特征数据并获得初始聚类中心;然后将初始聚类中心作为C-均值算法的输入,使用DB指数评价聚类结果以获得最佳聚类数,通过训练可得到相似日样本;最后选择合适的参数和核函数构造支持向量机模型来进行逐点负荷预测.  相似文献   

15.
在基于抽样调查数据对总体参数进行估计的方法中,小域估计方法能够借助于辅助信息对小样本乃至无样本区域的参数进行有效的估计,并被广泛应用于抽样估计领域。单元水平模型作为小域估计的基本模型之一,是处理单元级别数据估计的有力工具之一。在单元水平模型的应用条件中,需假定区域随机误差和模型随机误差均服从正态分布。然而,在抽样调查中,满足这一条件的调查数据是很少的,尤其是在观测数据中出现离群值时。不满足正态性假设条件下的小域估计量会产生较大的偏差和均方误,因此有必要研究针对正态性假设和离群观测值不敏感的稳健估计方法。通过引入γ散度和γ似然函数,构建了基于单元水平模型的小域稳健估计方法,得到了模型参数的稳健估计和小域目标变量的稳健估计。与现有的稳健估计方法相比,所提新方法能更好地处理区域随机误差和模型随机误差非正态的情形,对于目标变量存在离群观测的情形,具有更好的稳健性,估计均方误更小。在利用模拟数据进行验证中,比较了不同误差分布情形下几类常用估计方法得到的估计量的均方误差,并进一步探究了随着污染分布的方差和比率变化,所得估计量的均方误差变化情形。最后,通过应用于经典的小域估计数据,进一步验证了所提新...  相似文献   

16.
条件自回归极差模型(CARRX)是一类新的描述波动率的模型。为了提高CARRX类模型的预测精度,文章将最小二乘支持向量回归机(LSSVR)应用于CARRX模型。先将CARRX模型转化成ARMAX形式,再利用LSSVR对ARMAX模型的参数进行估计(LSSVR-ARMAX)。通过对沪深300指数的预测实证分析,发现无论是采用直接预测还是迭代预测,LSSVR-ARMAX模型的样本外预测能力均优于Perez-Cruz(2003)提出的方法;LSSVR的估计方法能够在长期预测中捕捉到极差波动率的变动趋势,而CARRX类模型对中短期极差波动率的预测准确度较高。  相似文献   

17.
通常情况下,对用电量进行预测的问题可以采用广义可加模型(GAM),但当数据集很大时,在计算机上实现起来就非常困难,甚至是不可行的.因此,本文给出了大数据集下实用的广义可加模型拟合方法,模型中的平滑项用惩罚回归样条函数来表示.只需保证在任何时候模型矩阵的子矩阵可以在计算机上实现,该方法就可以通过迭代更新的方式得到模型矩阵的因子.本文研究证明,该方法可以有效地对平滑参数进行估计.当有新数据加入时,用电量预测模型需要不断地拟合更新,并且需要对新的用电量数据序列的自相关性进行处理.本文给出了处理这些问题的方法,以及在计算机上的实现过程.该方法可以实现使用一般的中型计算机来处理大数据集的广义可加模型的估计问题.最后,对法国用电量预测的实证研究表明,降秩样条平滑方法也能够很好地处理复杂的模型问题.  相似文献   

18.
日益膨胀的股票市场信息远超出人们的处理能力,股票价格变得越来越难以预测。神经网络方法可以模拟人工智能处理海量信息。提高对股票市场的预测水平。运用中国1998-2005年股票市场数据,利用梯度下降法拟合了一个BP神经网络模型,在实证过程中重点讨论预测过程中出现的分类标准、过抽样、过度训练等问题。认为正确运用神经网络方法可以提高预测分析效果,神经网络模型可以谨慎地作为一种股票投资分析方法加以运用。  相似文献   

19.
文章首先在已实现波动和多重分形波动率的基础上提出了一种改进的波动率测度,即已实现多分形波动率测度.其次,以上证综指2008年1月2日至2012年12月31日一分钟高频数据为样本,构造了7种常用的基于高频金融序列的波动率测度,并分别采用ARMA和ARFIMA模型对波动率进行建模和预测.最后通过使用统计自举方法与模型置信度设定(MCS)检验相结合的方法,对各种波动率模型预测效果进行了检验.检测的结果证实已实现多重分形波动率预测模型的预测效果明显优于其他模型.  相似文献   

20.
徐雪松  王四春 《统计研究》2012,29(4):108-112
根据免疫否定选择原理,设计了基于掩码分段匹配的否定选择分类器,克服连续r位匹配法的缺陷。给出了适用于免疫优化的分类规则编码及分类信息分的评价。通过免疫进化对其进行群体优化以约简数据规则集。避免了传统分类算法缺乏全局优化能力的缺点,提高了对样本的识别能力。实验结果表明本文方法提高了数据分类的准确性,在数据分类准确率及平均信息分上优于传统的分类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号