共查询到20条相似文献,搜索用时 493 毫秒
1.
2.
随着我国金融市场的蓬勃发展,信用评价中的拒绝推断问题越来越受到重视。针对信用评分模型中存在的有类别标签的样本占比低,并且样本中的类别分布不平衡等问题,本文在半监督学习技术与集成学习理论的基础上,提出了一种新的算法——BCT算法。该算法通过使用动态Bagging生成多个子分类器,引入分类阈值参数来解决样本类别分布不平衡问题,以及设定早停止条件来避免算法迭代过程中存在的过拟合风险,以此对传统半监督协同训练法进行改进。通过在5个真实数据集上的实证分析发现,在不同数据集与不同拒绝比例下,BCT算法的性能均优于其他6种有监督学习和半监督学习算法的信用评分模型,显示了BCT算法具有良好的模型泛化性能和更高的模型评价能力。 相似文献
3.
本文以UCI数据库为研究样本,分析logistic模型对不同程度非平衡数据的敏感性.研究表明:①数据非平衡程度越高,logistic回归对稀有类的识别能力越差.②相对于其他修正方法,OSS方法的改进效果不显著且不稳定;相对于复杂抽样,简单抽样修正结果更优.③AUC值不适宜于非平衡数据条件下的模型选择,因为在非平衡数据条件下,它不能有效区分四种修正方法的优劣,而且修正前后的差异亦不能辨. 相似文献
4.
针对不平衡数据集中的少数类样本在实际应用中分类准确率较低的问题,提出一种利用多数类样本的自然最近邻进行欠采样的数据处理方法。自然最近邻算法根据每个样本的分布特征动态地为样本选择数量不同的自然最近邻样本,通过自然最近邻的个数反映样本分布的疏密程度。文章所提方法先计算多数类样本在整体数据集中的自然最近邻,根据自然最近邻情况移除多数类中的噪声样本和局部密度较小的样本,再计算剩余样本的相似度,保留密集区域中的代表性样本,去掉部分冗余样本,获得平衡数据集。该方法的计算无须预先指定参数,减少了欠采样过程中多数类分类信息的损失。对比实验利用支持向量机对不同欠采样方法平衡后的12个数据集进行分类,结果表明此方法在大多数数据集上具有较优的分类性能,提升了少数类样本的分类准确率。 相似文献
5.
国际经验表明,信用评分技术可较好地解决小企业贷款高成本、高风险及信息不对称难题.本文广泛选取了可适用于小企业主信用评分领域的12种数据挖掘模型(包括本文的改进模型门限Logistic),并以3个银行微观客户数据集为案例,通过10折交叉验证和预期分类错误成本的方式,检验了这些模型的综合信用评分能力.分析结果及稳健性检验表明,本文改进的门限Logistic模型在模型预测能力及预期错误分类成本等多方面表现优秀;而基于决策树的组合方法也表现良好.本研究对国内商业银行建立合适的小企业主贷款信用评分模型具有参考意义,也有助于推动银行微观金融统计,完善金融统计工作. 相似文献
6.
在大数据时代,网贷平台每天流动着海量交易数据。为充分利用这些数据控制信用风险,运用数据挖掘算法建立了信用风险评估模型。由于网贷数据多为非平衡数据,所以通过多次尝试使用SMOTE算法进行处理,提高了模型评估性能。研究发现:随机森林模型更适合用于信用风险评估,其次是CART、ANN、C4.5。用户的婚姻、房/车产(贷)等信息重要程度较低,而公司规模、工作时间等信息,历史借款、信用评分等信用档案信息在信用风险评估中尤为重要。 相似文献
7.
8.
银行信贷风险评估计量模型探讨 总被引:2,自引:0,他引:2
本文运用聚类分析和Fisher判别分析对银行信贷风险作计量评估,详细介绍了模型的数学原理,指标和数据的前期处理,并建立了信用评级的判别函数.通过对估计样本和检验样本的分类精度的分析和讨论,可知两种模型对信用风险评估均具有较高的科学性和精度.在此基础上,我们编写了应用程序以便于金融机构建立内部信用风险评估体系,促进银行信贷资产质量的提高. 相似文献
9.
文章使用空间广义线性混合模型为连续空间非正态变量建模,在MATLAB中实现模型参数估计的MCEMG算法,即结合Monte Carlo样本的EM梯度法,求解参数的极大似然估计及采样点随机效应的最小均方误估计。在GS+中进行随机效应的普通克里格插值,并最终对非采样点响应变量进行预测。模拟仿真结果显示该方法参数估计与真实值较接近,响应变量预测结果能反应真实数据总体分布情况。 相似文献
10.
信用评分的目的是利用现有的样本数据建立模型,利用此模型对未来申请人的信用行为进行预测,从而区分出"好"客户和"坏"客户.这里,预测的精度是非常重要的,因为许多情况下即使预测的准确性只提高一点点,也会使信贷机构的损失减少很多.正因为如此,大量的分类技术被应用到信用评分领域.那么,到底哪种方法比较好?从现有的研究结果看,并不能得到一个一致的结论,有些结论甚至互相矛盾.如:Desai等(1996)发现,神经网络方法显著优于线性判别分析,而Yobas等(2000)的研究结论则正好相反.因此,到底选择哪一种方法建立评分模型,到目前为止即使在发达国家也仍然是一件困难的事情. 相似文献
11.
12.
针对小样本建模存在的模型拟合效果欠佳、参数估计不准确的问题,利用生成对抗网络可以捕获原始数据分布且能够生成服从其分布的数据的特性,文章将生成对抗网络用于扩展小样本数据的规模,并对生成的数据进行优化处理,使用优化后的数据集进行多元回归分析。结果表明,模型拟合结果与原始数据相比效果更好。生成对抗网络可以作为扩大样本量的一种方法,应用于经济社会统计中。 相似文献
13.
14.
一、问题的提出在建立个人信用评分模型时 ,预测精度是非常重要的 ,因为许多情况下即使预测的准确性只提高一点点 ,也会使信贷机构的损失减少很多。正因为如此 ,大量的统计分类技术被应用到信用评分领域。文 [1]首次利用中国某商业银行的信用卡客户数据对多种个人信用评分方法在中国的适用状况进行了全面的比较研究。结果表明 ,不同的模型有自己不同的优点和缺点 :神经网络等非线性方法的精度往往要高于 (线性 )判别分析、Logistic回归、线性规划等线性评分方法 ;而Logistic回归、判别分析、线性规划等方法的稳健性① 则比神经网络方法要好… 相似文献
15.
16.
采用Monte Carlo模拟方法对STAR模型样本矩的统计特性进行研究。分析结果表明:STAR模型的样本均值、样本方差、样本偏度及样本峰度都渐近服从正态分布;即使STAR模型的数据生成过程中不含有常数项,其总体均值可能也不是0,这与线性ARMA模型有显著区别;即使STAR模型数据生成过程中的误差项服从正态分布,数据仍有可能是有偏分布。 相似文献
17.
18.
随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问题的基本思路:一是入样概率的建模推断,可以考虑构建基于机器学习与变量选择的倾向得分模型来估计入样概率推断总体;二是目标变量的建模推断,可以考虑直接对目标变量建立参数、非参数或半参数超总体模型进行估计;三是入样概率与目标变量的双重建模推断,可以考虑进行倾向得分模型与超总体模型的加权估计与混合推断。最后,以基于广义Boosted模型的入样概率建模推断为例演示了具体解决方法。 相似文献
19.
20.
文章从统计学的角度介绍了社科研究建模中统计数据的主要来源和数据准备的一些基本方法,无论宏观数据还是微观数据,在建模之前都需要经过充分的准备和初步处理才可以应用。文章认为,样本充足、分布优良和均衡可比的统计数据是成功建模的关键,即好的数据等于建模成功一半。 相似文献