期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

范新妍等《统计研究》2021,38(2):99-113

传统信用评分方法主要利用统计分类方法,只能预测借款人是否会发生违约,但不能预测违约发生的时点。治愈率模型是二分类和生存分析的混合模型,不仅可以预测是否会发生违约,而且可以预测违约发生的时点,比传统二分类方法可以提供更多的信息。另外,随着大数据的发展,数据源越来越多,针对相同或者相似任务,可以收集到多个数据集,本文提出了融合多源数据的整合治愈率模型,可以对多个数据集同时建模和估计参数,通过复合惩罚函数进行组间和组内双层变量选择,并通过促进两个子模型回归系数符号相同,提高模型的可解释性。通过数值模拟发现,所提方法在变量选择和参数估计上均有明显优势。最后,将所提方法应用于信用贷款的违约时点预测中,模型表现良好。相似文献

2.

基于多源数据融合的个人信用评分研究

方匡南赵梦峦《统计研究》2018,35(12):92-101

随着信息技术的发展,数据来源越来越多,一方面可以更加精准、科学地刻画个人信用状况,但另一方面,由于数据来源多、结构复杂等问题,对传统的征信技术带来了挑战。本文提出了基于多源数据融合的个人信用模型,可以同时对多个数据集进行建模和变量选择,同时考虑了数据集间的相似性和异质性。通过模拟实验发现,本文所提出的整合模型在变量选择和分类效果方面都具有明显的优势。最后,将整合模型应用于城市和农村两个数据集的个人信用评分中。相似文献

3.

多源高维数据的多分类纵向整合分析及应用

吴梦云等《统计研究》2021,38(8):132-145

多分类数据分析在实证研究中具有重要意义。然而,由于高维数、小样本及低信噪比等原因,现有的多分类方法仍面临信息量不足而导致的效果不佳问题。为此,学者们通过收集更多信息源数据以更全面地刻画实际问题。不同于收集相同自变量的不同源样本,目前较为流行的多源数据收集了相同样本的不同源自变量,它们的独立性和相关性为统计建模带来了新的挑战。本文提出基于典型变量回归的多分类纵向整合分析方法,其中利用惩罚技术实现变量选择,并独特地考虑不同源数据间的关联结构,提出高效的ADMM算法进行模型优化。数值模拟结果表明,该方法在变量选择和分类预测上均具有优越性。基于我国上证50的多源股票数据,利用该方法对2019年股票日收益率的影响因素进行了实证探究。研究表明,本文提出的多分类整合分析在筛选出具有解释意义变量的同时具有更好的预测效果。相似文献

4.

大数据的整合分析方法

马双鸽等《统计研究》2015,32(11):3-11

大数据具有数据来源差异性、高维性及稀疏性等特点,如何挖掘数据集间的异质性和共同性并降维去噪是大数据分析的目标与挑战之一。整合分析（Integrative Analysis）同时分析多个独立数据集,避免因地域、时间等因素造成的样本差异而引起模型不稳定,是研究大数据差异性的有效方法。它的特点是将每个解释变量在所有数据集中的系数视为一组,通过惩罚函数对系数组进行压缩,研究变量间的关联性并实现降维。本文从同构数据整合分析、异构数据整合分析以及考虑网络结构的整合分析三方面梳理了惩罚整合分析方法的原理、算法和研究现状。统计模拟发现,在弱相关、一般相关和强相关三种情形下, Group Bridge、 Group MCP、Composite MCP都表现良好,其中 Group Bridge的假阳数最低且最稳定。最后,将整合分析用于研究具有来源差异性的新农合家庭医疗支出,以及具有超高维、小样本等大数据典型特征的癌症基因数据,得到了一些有意义的结论。相似文献

5.

基于SHAP值惩罚特征的集成分类方法研究

曹玉茹高洋洋《统计与决策》2023,(6):21-26

在回归问题中，惩罚特征即正则化是特征处理的常用方式。但在集成分类问题中，惩罚特征以改善训练效果的研究较少。文章提出一种基于GBDT模型训练的SHAP值对各样本特征惩罚加权，进而提升分类精度的集成模型；其中，对于测试样本的SHAP值估计，通过其与训练集的样本距离权重结合训练集的SHAP矩阵近似得到。实验结果表明：选择GBDT＿SHAP值惩罚特征后，模型的预测精度均有显著提升，验证了该算法的有效性。以GBDT＿SHAP＿GBDT模型为例，其在多组经典数据集上的分类效果良好，且在不平衡数据集上性能突出；若干组仿真实验表明，该方法能使模型快速达到较优且较为稳定的拟合效果，鲁棒性较强。相似文献

6.

一种加权的MCLP分类模型及其在不平衡数据集上的应用

朱梅红《统计与决策》2011,(21)

在数据挖掘的分类问题中，经常出现数据集内类别不平衡现象。大部分分类方法对于不平衡数据集内的小类数据，分类精度并不理想。文章分析了多目标线性规划分类方法（简称MCLP）在不平衡数据集上的表现；然后从模型角度，提出了面向不平衡数据集的加权MCLP分类模型。从理论上分析了加权MCLP分类模型的有效性，并从实证角度，与其他方法进行了比较。相似文献

7.

基于fused惩罚的稀疏主成分分析

张波刘晓倩《统计研究》2019,36(4):119-128

本文旨在研究基于fused惩罚的稀疏主成分分析方法，以适用于相邻变量之间高度相关甚至完全相等的数据情形。首先，从回归分析角度出发，提出一种求解稀疏主成分的简便思路，给出一种广义的稀疏主成分模型—— GSPCA模型及其求解算法，并证明在惩罚函数取1-范数时，该模型与现有的稀疏主成分模型——SPC模型的求解结果一致。其次，本文提出将fused惩罚与主成分分析相结合，得到一种fused稀疏主成分分析方法，并从惩罚性矩阵分解和回归分析两个角度，给出两种模型形式。在理论上证明了两种模型的求解结果是一致的，故将其统称为FSPCA模型。模拟实验显示，FSPCA模型在处理相邻变量之间高度相关甚至完全相等的数据集上的表现良好。最后，将FSPCA模型应用于手写数字识别，发现与SPC模型相比，FSPCA模型所提取的主成分具备更好的解释性，这使得该模型更具实用价值。相似文献

8.

基于变系数模型的高维数据异同性识别方法研究

孙怡帆等《统计研究》2021,38(5):136-146

随着信息技术的发展,高维数据日益丰富。现实中,很多高维数据由多个主体各异的数据集融合而成。如何准确识别出高维数据集间的异同性成为大数据分析的目标之一。本文提出了变系数模型下的高维数据整合分析方法。该方法可以同时对多个数据集进行变量选择和系数估计,并且能够自动识别出变量系数在数据集间的异同性。模拟结果表明本文方法在异同性识别、变量选择、系数估计和预测等方面明显优于对比方法。在肺癌致病基因识别的应用研究中,本文方法能够识别出具有生物解释的致病基因并发现了两种亚型之间的异同性。相似文献

9.

基于WGAN的小样本建模方法研究

赵文丽石洪波《统计与决策》2023,(2):20-23

针对小样本建模存在的模型拟合效果欠佳、参数估计不准确的问题，利用生成对抗网络可以捕获原始数据分布且能够生成服从其分布的数据的特性，文章将生成对抗网络用于扩展小样本数据的规模，并对生成的数据进行优化处理，使用优化后的数据集进行多元回归分析。结果表明，模型拟合结果与原始数据相比效果更好。生成对抗网络可以作为扩大样本量的一种方法，应用于经济社会统计中。相似文献

10.

基于小波变换的股票异常点检测研究

郭庆然《统计与决策》2012,(4):88-90

异常点的存在会导致股票数据模型的波动预测功能失效,因此,在对股票数据进行建模分析时,异常点的检测是至关重要的。文章对股票数据通过GARCH模型处理得到的残差进行小波变换,能够准确有效地检测异常点并很好的克服了异常点的"遮蔽效应"。最后,实验证明,该方法的效果良好。相似文献

11.

适用于大数据集的广义可加模型

西蒙·伍德阳宁·古德西蒙·肖许亦频倪苹《统计研究》2016,(4):104-112

通常情况下,对用电量进行预测的问题可以采用广义可加模型(GAM),但当数据集很大时,在计算机上实现起来就非常困难,甚至是不可行的.因此,本文给出了大数据集下实用的广义可加模型拟合方法,模型中的平滑项用惩罚回归样条函数来表示.只需保证在任何时候模型矩阵的子矩阵可以在计算机上实现,该方法就可以通过迭代更新的方式得到模型矩阵的因子.本文研究证明,该方法可以有效地对平滑参数进行估计.当有新数据加入时,用电量预测模型需要不断地拟合更新,并且需要对新的用电量数据序列的自相关性进行处理.本文给出了处理这些问题的方法,以及在计算机上的实现过程.该方法可以实现使用一般的中型计算机来处理大数据集的广义可加模型的估计问题.最后,对法国用电量预测的实证研究表明,降秩样条平滑方法也能够很好地处理复杂的模型问题. 相似文献

12.

提高灰建模数据列光滑度的一种新方法 总被引：2，自引：1，他引：1

郑锋魏勇《统计与决策》2007,(18):37-38

本文在对建模数据序列进行一定处理的基础上,提出了经函数cosx变换来提高数据光滑度的方法,理论上证明了这种变换可以有效地提高建模数据列的光滑度,其模型精度优于对数及幂函数变换所建模型的精度;并通过实例表明了该方法的有效性。相似文献

13.

高维数据的稳健二分类方法

史兴杰等《统计研究》2020,37(9):95-105

对于实证研究中经常遇到变量维数高和存在异常值的二分类问题,探索稳健的高维二分类方法显得尤为重要。本文提出基于Lasso惩罚的光滑0-1损失函数二分类法,并利用Fabs 算法高效地解决了变量选择和参数估计问题。数值模拟的结果表明,在不同异常值比例下该方法均具有良好的稳健性。基于CHIP 2013年度数据,利用该方法对农民工子女高中入学决定的影响因素进行了实证研究。分析发现,农民工父母的教育水平、教育水平与家庭经济状况的交互作用、农民工子女性别、性别与民族的交互作用均对农民工子女的入学决定有重要影响。相似文献

14.

基于聚类关联规则的缺失数据处理研究 总被引：2，自引：1，他引：2

下载免费PDF全文

方匡南谢邦昌《统计研究》2011,28(2):87-92

本文提出了基于聚类和关联规则的缺失数据处理新方法,通过聚类方法将含有缺失数据的数据集相近的记录归到一类,然后利用改进后的关联规则方法对各子数据集挖掘变量间的关联性,并利用这种关联性来填补缺失数据。通过实例分析,发现该方法对缺失数据处理,尤其是海量数据集具有较好的效果。相似文献

15.

异质性数据下广义线性模型的Maximin似然比估计及应用

秦磊等《统计研究》2018,35(6):109-116

针对具有多个来源的异质性数据,文献中通常提出复杂程度较高的模型用于描述每个数据子总体的特征,而本文着眼于刻画不同数据子总体的共性进而建立一个简单的模型。在参数估计方面,本文借鉴了普通线性模型的Maximin估计思想,提出了适用于广义线性模型的Maximin似然比估计方法及稀疏结构下的惩罚估计。该方法通过最大化所有子总体中似然比统计量的最小值,构建成一个简单而保守的模型,以减少数据来源较多而呈现的复杂性。所提方法适用于因变量服从正态分布、两点分布、泊松分布等指数族分布的情形,丰富了前人的研究成果,具有更好的实践意义。模拟分析显示,相比于经典的估计方法,Maximin似然比估计方法不仅能够有效地探寻子总体的共性,而且具有较高的样本外预测精度。本文提出的方法也适用于政府统计和经济统计中具有异质性的大型数据集。相似文献

16.

基于大项集组的互联网用户兴趣建模

廖开际叶东海席运江《统计与决策》2010,(15)

为解决互联网用户兴趣模型在实际应用中存在的数据稀疏度和用户多兴趣问题,文章提出了基于大项集组的用户兴趣建模方法,将项目和用户评价之间的映射关系转化为项目属性和用户评价之间的映射关系来解决稀疏度问题,并采用高阶大项集组来描述用户的多兴趣问题.最后通过网络爬虫在豆瓣网上采集用户对电影的评分数据对建模方法进行了初步实验验证.结果显示,这种基于项目属性大项集组的用户兴趣推荐方法,和现有的推荐方法相比,能够有效地降低目标用户和推荐知识之间的差异度. 相似文献

17.

基于稀疏结构连续比率模型的消费金融风控研究

张晶等《统计研究》2020,37(11):57-67

近年来,我国消费金融发展迅速,但同时也面临着更加复杂的欺诈和信用风险,为了更好地对消费金融中借贷客户的信用风险进行监测,本文提出了基于稀疏结构连续比率模型的风控方法。相对于传统的二分类模型,该模型的特点是可以处理借贷客户被分为三类或三类以上的有序数据,估计系数的同时能从众多纷繁复杂的数据中自动筛选重要变量,并在变量筛选过程中考虑不同子模型系数的结构特征。通过蒙特卡洛模拟发现,本文所提出的稀疏结构连续比率模型在分类泛化误差和变量筛选上的表现都较好。最后将本文提出的模型应用到实际的消费金融信用风险分析中,针对传统征信信息不足的借款人,通过引入高频电商消费行为数据,利用本文提出的高维有序多分类模型能有效识别借款人的信用风险,可以弥补传统征信方法的不足。相似文献

18.

基于特征提取的多指标面板数据聚类方法

党耀国侯荻青《统计与决策》2016,(19):68-72

多指标面板数据能够较全面的提供研究对象的信息和数据特征,但复杂的数据结构也给其聚类分析带来了一定的困难.针对这一问题,文章提出了基于特征提取的多指标面板数据聚类方法,该方法将能够表征面板数据动态变化的“绝对量”特征、“波动”特征、“偏度”特征、“峰度”特征及“趋势”特征引入动态聚类算法中,可以避免以往采用欧式距离进行聚类的局限性,还可以处理带有缺失数据的面板数据,同时大大提高了聚类效率,并最大限度地保证时间维度信息不受损失.利用该方法分析了2001至2013年我国不同省份道路交通事故的不平衡状况,通过实证分析表明该方法能够解决多指标面板数据聚类的问题. 相似文献

19.

Logistic回归的双层变量选择研究

王小燕等《统计研究》2014,31(9):107-112

变量选择是统计建模的重要环节,选择合适的变量可以建立结构简单、预测精准的稳健模型。本文在logistic回归下提出了新的双层变量选择惩罚方法——adaptive Sparse Group Lasso(adSGL),其独特之处在于基于变量的分组结构作筛选,实现了组内和组间双层选择。该方法的优点是对各单个系数和组系数采取不同程度的惩罚,避免了过度惩罚大系数,从而提高了模型的估计和预测精度。求解的难点是惩罚似然函数不是严格凸的,因此本文基于组坐标下降法求解模型,并建立了调整参数的选取准则。模拟分析表明,对比现有代表性方法Sparse Group Lasso、Group Lasso及Lasso,adSGL法不仅提高了双层选择精度,而且降低了模型误差。最后本文将adSGL法应用到信用卡信用评分研究,对比logistic回归,它具有更高的分类精度和稳健性。相似文献

20.

利用互联网大数据预测季度GDP增速的方法研究

何强董志勇《统计研究》2020,37(12):91-104

大数据为季度GDP走势预测创新研究带来重要突破口。本文利用百度等网站的互联网大数据,基于代表性高维数据机器学习(和深度学习)模型,对我国2011-2018年季度GDP增速深入进行预测分析。研究发现,对模型中的随机干扰因素作出一定分布的统计假设,有助于降低预测误差,任由模型通过大量数据机械地学习和完善并不总是有利于模型预测能力的提升;采用对解释变量集添加惩罚约束的方法,可以有效地处理互联网大数据维度较高的棘手问题;预测季度GDP增速的最优大数据解释变量集的稳定性较高。相似文献