首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 671 毫秒
1.
在采用聚类方法产生训练集的基础上,运用粗集理论离散化预处理该训练集,可以更好的提高分类精度.文章运用PAM算法聚类原始样本构成训练集,再利用布尔逻辑和粗集理论结合的离散化算法离散化该训练集,并以此离散化的训练集训练分类器.实验结果证明,基于该方法在相同的数据集上分类,比仅基于PAM算法预处理的RDDTE方法产生的分类精度最高提高了15.5%,且选用更少量的训练集.  相似文献   

2.
针对不平衡数据的分类问题,文章利用焦点损失函数可以挖掘困难样本的特性,提出了一种新的逻辑回归算法。首先,定义逻辑回归模型新的损失函数;其次,基于牛顿迭代法,设计FL逻辑回归算法;最后,在比较实验中,运用随机森林进行特征选择,以阈值优化逻辑回归模型为分类模型进行实验。实验结果表明,与传统逻辑回归算法相比,改进后的算法提高了少数类样本的分类精度,增强了模型的整体分类性能。  相似文献   

3.
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。  相似文献   

4.
自标记方法能用少量有标记样本和大量无标记样本来训练给定分类模型。误标记是自标记方法中的主要挑战。尽管学者们用数据剪辑技术去识别和移除在自标记方法迭代过程中被误预测的样本,但是许多数据剪辑技术严重依赖于特定假设。为了克服误标记问题和相关解决方案中的缺陷,文章提出一种基于近邻规则和粒子群优化的自标记方法 SLM-NNPSO。首先,SLM-NNPSO用有标记集去训练一个给定的分类模型。其次,SLM-NNPSO用近邻规则来发现具有高置信度的无标记样本,并用被训练的分类模型来预测他们。再次,SLM-NNPSO用粒子优化来识别和移除被误预测的样本,并把被正确预测的样本加入有标记集中。上述过程不断迭代,直到SLM-NNPSO没有发现具有高置信度的无标记样本。最后,SLM-NNPSO输出在迭代过程中被训练的分类模型。经仿真实验证明,就训练k近邻分类器的平均分类正确率而言,在来自销售市场、医学检测、图像识别等领域的12个真实数据集上,SLM-NNPSO优于5个流行的自标记方法。  相似文献   

5.
为解决马田系统多分类算法存在的样本重复训练以及分类准确率下降等问题,文章提出了一种基于改进的类间相似方向数(Number of Inter-class Similarity Direction,NISD)的偏二叉树马田系统多分类算法。该算法利用马氏距离改进类间相似方向数,获得更为科学的样本分类顺序,依此顺序自上而下生成整个偏二叉树,在非叶子节点构造马田系统二分类器,生成最终的分类模型。对于含k个类别的待分类样本,该算法只用训练k-1个二分类器,便可得到马田系统多分类模型,与此同时,层层剥离样本减少了样本的重复训练。UCI数据集实验结果表明,该算法分类效率更高,分类准确率也较高。  相似文献   

6.
针对目前用于住宅消费预测中的神经网络模型存在模型结构较难确定以及过学习等问题,提出了一种基于支持向量机的住宅消费预测新方法。用1998—2008年杭州城镇居民的住宅消费数据组成样本集,前8个样本作为训练集,后3个样本作为检验集,分别建立SVM模型和神经网络模型,比较两种模型的预测效果,结果表明:基于支持向量机的城镇居民住宅消费预测模型具有更高的预测精度。  相似文献   

7.
文章针对传统SMOTE及BSMOTE过采样方法会导致多数类样本识别率下降的问题,提出基于局部密度的改进BSMOTE算法(LDBSMOTE)。首先,根据样本分布特点计算局部密度值并筛选根样本,最大限度地保证具有潜在价值的样本不会被丢失,然后通过SMOTE合成样本,最后利用集成学习算法进行分类。为了验证LDBSMOTE的有效性对15个公共数据集进行实验,结果表明,相比SMOTE和BSMOTE,LDBSMOTE算法在F1、G-mean及AUC上平均提升了2.25%,且平均得分均为最高,能在保证多数类样本识别率的基础上提升少数类样本的识别率,有效提升分类性能。  相似文献   

8.
在数据挖掘的分类问题中,经常出现数据集内类别不平衡现象。大部分分类方法对于不平衡数据集内的小类数据,分类精度并不理想。文章分析了多目标线性规划分类方法(简称MCLP)在不平衡数据集上的表现;然后从模型角度,提出了面向不平衡数据集的加权MCLP分类模型。从理论上分析了加权MCLP分类模型的有效性,并从实证角度,与其他方法进行了比较。  相似文献   

9.
在分类预测模型的自变量间存在交互效应时,传统Shapley值法的可加性无法满足,造成变量筛选效果变差,导致分类模型的预测精度降低。针对此问题,文章提出使用稳健独立成分分析,从原始数据中估计出具有独立性的数据集并对其进行Shapley值分解,从而提高变量筛选的准确度。统计模拟与实证分析的结果表明,改进后的方法在变量筛选上的表现优于传统Shapley值法。  相似文献   

10.
异常检测作为一种智能化的数据管控手段,在网络入侵检测、欺诈识别和故障检测等场景中都扮演着重要角色。大数据时代下,数据来源众多,给多源数据集的异常检测建模分析带来了较大挑战。本文将惩罚整合分析的思想应用到异常检测中,通过对不同数据集的模型系数差异进行惩罚,提出了基于多源数据的整合单类SVM异常检测方法。该方法可以同时对多源数据进行异常检测并自动将相似数据集聚为一类,可以大幅减少模型待估参数个数并降低后期维护成本。模拟实验表明,本文提出的方法不仅能准确将数据集聚类,而且模型预测效果优于合并数据集建模和每个数据集单独建模。该方法在某银行网站日志异常检测中也有较好的表现。  相似文献   

11.
鲁万波  杨冬 《统计研究》2018,35(10):28-43
考虑宏观经济变量具有明显的非线性特征,将非线性误差修正项引入存在协整关系的非平稳混频数据抽样(MIDAS)模型中,构建半参数混频数据抽样误差修正(SEMI-ECM-MIDAS)模型。使用广义似然比(GLR)检验,拓展了混频数据下模型函数形式的一致性检验问题。模拟结果表明SEMI-ECM-MIDAS模型对存在非线性误差修正机制的数据具有显著的预测优势。最后使用该模型研究中国股票市场周度数据、广义货币发行量月度数据和国际原油市场月度数据对中国CPI的短期预测效果。基于AIC准则,对包含半参数模型在内的4种混频数据抽样模型和2种同频模型的连续预测效果进行了全面的比较。研究结果发现:GLR检验表明误差修正项具有明显的非线性特征且在回归中具有显著的反向修正机制,无论采用递归样本、滚动样本还是固定样本,本文提出的SEMI-ECM-MIDAS模型在进行连续预测时均具有最优的预测精度,且预测结果不受混频动态协整关系选择的影响。  相似文献   

12.
方匡南  杨阳 《统计研究》2018,35(8):104-115
针对分类问题,本文提出了稀疏组Lasso支持向量机方法(Sparse group lasso SVM, SGL-SVM),即在SVM模型的损失函数中引入SGL惩罚函数,能同时进行组间变量和组内变量的筛选。由于SGL-SVM的目标函数求解比较复杂,本文又提出了一种快速的双层坐标下降算法。通过模拟实验,发现SGL-SVM方法在预测效果和变量选择上均要好于其他方法,对于变量具有自然分组结构且组内是稀疏的数据,本文方法在提高变量选择效果的同时又能提高模型的预测精度。最后,将本文提出的SGL-SVM方法应用到我国制造业上市公司财务困境预测中。  相似文献   

13.
非平衡数据集的改进SMOTE再抽样算法   总被引:1,自引:0,他引:1       下载免费PDF全文
薛薇 《统计研究》2012,29(6):95-98
非平衡数据集的不均衡学习特点通常表现为负类的分类效果不理想。改进SMOTE再抽样算法,将过抽样和欠抽样方式有机结合,有针对性地选择近邻并采用不同策略合成样本。实验表明,分类器在经此算法处理后的非平衡数据集的正负两类上,均可获得较理想的分类效果。  相似文献   

14.
随着我国金融市场的蓬勃发展,信用评价中的拒绝推断问题越来越受到重视。针对信用评分模型中存在的有类别标签的样本占比低,并且样本中的类别分布不平衡等问题,本文在半监督学习技术与集成学习理论的基础上,提出了一种新的算法——BCT算法。该算法通过使用动态Bagging生成多个子分类器,引入分类阈值参数来解决样本类别分布不平衡问题,以及设定早停止条件来避免算法迭代过程中存在的过拟合风险,以此对传统半监督协同训练法进行改进。通过在5个真实数据集上的实证分析发现,在不同数据集与不同拒绝比例下,BCT算法的性能均优于其他6种有监督学习和半监督学习算法的信用评分模型,显示了BCT算法具有良好的模型泛化性能和更高的模型评价能力。  相似文献   

15.
大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析(Integrative Analysis)同时分析多个独立数据集,避免因地域、时间等因素造成的样本差异而引起模型不稳定,是研究大数据差异性的有效方法。它的特点是将每个解释变量在所有数据集中的系数视为一组,通过惩罚函数对系数组进行压缩,研究变量间的关联性并实现降维。本文从同构数据整合分析、异构数据整合分析以及考虑网络结构的整合分析三方面梳理了惩罚整合分析方法的原理、算法和研究现状。统计模拟发现,在弱相关、一般相关和强相关三种情形下, Group Bridge、 Group MCP、Composite MCP都表现良好,其中 Group Bridge的假阳数最低且最稳定。最后,将整合分析用于研究具有来源差异性的新农合家庭医疗支出,以及具有超高维、小样本等大数据典型特征的癌症基因数据,得到了一些有意义的结论。  相似文献   

16.
文章考虑了带有个体效应和时间效应的双因素面板数据动态二值logit模型,在周期T固定的条件下,提出了一种新的方法估计模型参数。从理论层面指出了该估计量满足一致性和渐近正态性;数值模拟研究了估计量的小样本性质,模拟结果表明,该估计方法在有限样本下具有良好的统计性质。最后,将该方法应用于洗涤剂的购买数据进行实证分析。  相似文献   

17.
过滤式特征选择是一种在基因表达数据上广泛使用且简单有效的方法。针对其特征子集冗余性问题,使用皮尔逊相关系数,提出一种带冗余去除的特征选择算法。研究了在不同相关强度下特征子集冗余去除及分类准确度效果。实验选用三个不同的基因表达数据集,使用支持向量机、k近邻、随机森林作为分类器分别进行了测试。实验结果表明,带冗余去除的过滤式特征选择方法在不同分类器上均能获得良好的分类性能,另外,此方法在降低特征子集维度的同时能够提高分类准确度。  相似文献   

18.
该文建立了一种基于聚类分析与决策树分析相结合的服务订制预测模型,利用聚类提取训练集训练决策树,将生成模型应用于某地区用户对有线电视交互服务的订制意愿预测,最终确定高响应率客户群。实验证明,该模型相对于仅通过决策树进行预测能更大程度地提高分类精度,能更有效地识别出高响应率客户群。所提出的研究框架与方法,为企业在商业竞争中制定有效的营销决策提供了重要依据。  相似文献   

19.
吴梦云等 《统计研究》2021,38(8):132-145
多分类数据分析在实证研究中具有重要意义。然而,由于高维数、小样本及低信噪比等原因,现有的多分类方法仍面临信息量不足而导致的效果不佳问题。为此,学者们通过收集更多信息源 数据以更全面地刻画实际问题。不同于收集相同自变量的不同源样本,目前较为流行的多源数据收集了相同样本的不同源自变量,它们的独立性和相关性为统计建模带来了新的挑战。本文提出基于典型变量回归的多分类纵向整合分析方法,其中利用惩罚技术实现变量选择,并独特地考虑不同源数据间的关联结构,提出高效的ADMM算法进行模型优化。数值模拟结果表明,该方法在变量选择和分类预测 上均具有优越性。基于我国上证50的多源股票数据,利用该方法对2019年股票日收益率的影响因素进行了实证探究。研究表明,本文提出的多分类整合分析在筛选出具有解释意义变量的同时具有更好的预测效果。  相似文献   

20.
秦磊等 《统计研究》2018,35(6):109-116
针对具有多个来源的异质性数据,文献中通常提出复杂程度较高的模型用于描述每个数据子总体的特征,而本文着眼于刻画不同数据子总体的共性进而建立一个简单的模型。在参数估计方面,本文借鉴了普通线性模型的Maximin估计思想,提出了适用于广义线性模型的Maximin似然比估计方法及稀疏结构下的惩罚估计。该方法通过最大化所有子总体中似然比统计量的最小值,构建成一个简单而保守的模型,以减少数据来源较多而呈现的复杂性。所提方法适用于因变量服从正态分布、两点分布、泊松分布等指数族分布的情形,丰富了前人的研究成果,具有更好的实践意义。模拟分析显示,相比于经典的估计方法,Maximin似然比估计方法不仅能够有效地探寻子总体的共性,而且具有较高的样本外预测精度。本文提出的方法也适用于政府统计和经济统计中具有异质性的大型数据集。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号