首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 917 毫秒
1.
针对多响应的质量设计问题,本文结合似不相关回归(seemingly unrelated regression, SUR) 模型与因子效应原则提出了一种新的建模与优化方法. 该方法不仅结合 SUR 模型与因子效应原则筛选出各响应模型的显著性变量,而且运用多变量过程能力指数衡量了过程能力满足规格要求程度的水平. 此外,该方法还通过贝叶斯抽样技术考虑了模型参数不确定性和预测响应值波动对优化结果的影响. 首先,在 SUR 模型中针对每个变量设置了一个二元变量指示器以考虑因子效应原则,通过所构建的混合二元变量指示器修正了过程响应和试验因子之间的函数关系; 其次,通过计算混合二元变量指示器和模型结构的后验概率以识别显著性变量,从而确定最佳的模型结构; 然后,在此基础上结合贝叶斯抽样技术构建了一种新的多变量过程能力指数,并通过最大化所构建的多变量过程能力指数获得了最佳的参数设计值; 最后,实际案例研究表明: 本文所提方法不仅能够有效地筛选出多响应过程的显著性变量,而且能够获得最佳的参数设计值.  相似文献   

2.
由于错误分类代价差异和不同价值客户数量的不平衡分布,基于总体准确率的数据挖掘方法不能体现由于客户价值不同对分类效果带来的影响.为了解决错误分类不平衡的数据分类问题,利用代价敏感学习技术扩展现有决策树模型,将这一方法应用在客户价值细分,建立基于客户价值的错分代价矩阵,以分类代价最小化作为决策树分支的标准,建立分类的期望损失函数作为分类效果的评价标准,采用中国某银行的信用卡客户数据进行实验.实验结果表明,与传统决策树方法相比,代价敏感决策树对客户价值细分问题有更好的分类效果,可以更精确地控制代价敏感性和不同种分类错误的分布,降低总体的错误分类代价,使模型能更准确反映分类的代价,有效识别客户价值  相似文献   

3.
针对信用评分中有标记样本获取难度大、成本高的问题,本文提出一种新的基于半监督支持向量机的信用评分模型。通过给未标记样本引入新的参数,使得模型无需满足随机缺失假设,具有良好的适用性。同时,在损失函数中加入半监督部分鼓励有标记样本和未标记样本系数的相似性,从而能够有效融合未标记样本信息,提升估计效果。此外,本文利用Group LASSO进行变量选择,可以充分利用组结构信息,筛选重要变量。通过数值模拟和一个信用卡风险违约预测实例数据证明了所提方法的可行性,以及在变量选择、系数估计和分类预测上的优良效果。  相似文献   

4.
在利用分类器对文奉信息进行分类的实践中,,分辨率成为决定分类效果好坏的重要性能指标.模糊集问的贴近度作为一种直观有效的分类准则被广泛应用,但实际应用表明,现有模糊集贴近度计算模型对文本信息的区分度随模糊集中元素数量的增多而骤减.针对这一问题,本文构建了新的模糊集贴近度计算模型并证明了其在抑制不稳定部分、增强稳定性方面的效果.算例表明本文所构建的计算模型有效提高了分类器的分辨率.  相似文献   

5.
支持向量机(SVM)的二类分问题中针对不平衡数据集可以通过减少样本信息的不对称性和改进算法来解决。本文针对中小企业中有财务风险与无财务风险样本的不平衡性问题,使用一种带有主观权重约束条件的支持向量机新模型对样本进行分类。实验表明新模型确实提高了财务风险企业即少类样本的识别性能,是一种类别不均衡学习(class imbalance learning)的新方法。  相似文献   

6.
C2C电子社区成员信誉值的计算模型研究   总被引:3,自引:0,他引:3  
郭洪海  姜锦虎  蔡涵 《管理学报》2009,6(8):1056-1060
信任问题是关系C2C社区发展的主要因素之一.通过交易后相互评分,计算C2C社区成员信誉值并为潜在交易提供指导是建立社区信任的一种方法.通过在Sporas模型的基础上增加交易量、交易次数等变量和引入惩罚因子,提出了一种改进的C2C社区成员信誉值计算模型(E-Sporas),并针对信誉诋毁、信誉共谋这2类恶意行为设计仿真实验,检验模型的应用效果,从而为建立在线信誉系统提供一定的借鉴作用.  相似文献   

7.
区域产品分类与选择是区域经济发展中最重要和最基础的工作.在产品选择与分类时,需要确定指标权系数和分类阈值等参数,这在实际应用中是比较困难的.针对这种情况,提出了一种信息不完全确定的区域产品模糊区间聚类方法.该方法构建了指标权系数信息不完全确定的最优模糊区间聚类模型,利用遗传算法和改进的FCM算法联合求解所得优化模型,得到指标权系数、最优聚类中心和最优划分,进而确定各产品所属类别.最后将该方法应用于某区域的产品分类和主导产品的确定中,实例计算说明该方法的可行性和有效性.  相似文献   

8.
对流程制造型企业而言,产品质量状态的监测精度直接影响了企业的生产与运营成本。面对流程工业的多变量监测要求和数据不均衡性,以往研究主要采取局部建模策略或多输出模型,存在特征选择偏差和分类精度不高的问题。对此,本文设计了一种结合SRFML特征选择和Lift学习策略的质量状态监测模型,通过共享不同目标之间的信息以期提升模型的监测效果。首先,根据ReliefF过滤机制,引入重采样赋权思想对工业特征的选择过程进行优化(SRFML);然后,将选择结果作为Lift学习框架的输入,通过类属属性学习方式重塑各待监测特性的特有关联属性;最后采用多个SVM分类器进行训练,得到各目标的质量状态结果。结果表明,本文构建的SRFML-Lift充分学习了原始特征的关键信息,与其他组合策略相比,对质量状态的监测效果更佳,可应用于流程工业的生产管理实践。  相似文献   

9.
将自组织数据挖掘理论引入贝叶斯分类中,提出一种新颖的贝叶斯分类器结构学习算法.算法将基于依赖分析和评分搜索两种贝叶斯网络结构学习思想相接合,根据互信息测度值选择初始模型,用贝叶斯评分作为筛选中间模型的外准则,能够在不同数据集上完成自适应建模过程,包括选择进入模型的变量、确定具有最优复杂度的模型结构等.在 10 个UCI数据集上进行分类测试,结果表明,贝叶斯分类器结构学习算法分类器的分类精度要高于常用的朴素贝叶斯、树扩展朴素贝叶斯以及基于K2算法的分类器.进一步地,在信用卡客户分类数据集german上的学习曲线和抗干扰试验还表明,与朴素贝叶斯、树扩展朴素贝叶斯以及K2等分类器相比,贝叶斯分类器结构学习算法分类器具有更加稳定的分类性能和更强的抗干扰能力.  相似文献   

10.
本文利用现有信用风险研究所蕴含的信息,构建了一个新的贷款信用风险评估模型—PIPL。该模型先通过文本挖掘技术对现有研究进行文本信息搜集,得到关于信用风险指标的先验词频以体现指标的重要性,再通过惩罚变量选择法将先验词频量化为先验因变量,最后基于先验因变量和原始数据构建模型,并通过弹性网筛选风险指标。模拟分析显示PIPL模型能自动识别先验信息的质量,当先验信息质量高时,它赋予先验信息较高的权重,从而改进了指标选择和分类效果,当先验信息质量较低时,它能自动降低先验因变量在模型中的权重,表现出稳健的分类效果。实证分析从知网挖掘123篇文献获取文本信息,并以P2P网贷数据为例,发现PIPL模型通过先验信息提高了分类的准确性,并表现出了良好的稳健性。  相似文献   

11.
在现实的很多信用评估问题中,由于对样本进行类别标记需要花费大量的人力、财力和物力,往往只能获取少量有类别标签的样本来训练分类模型,而把数据库中大量无类别标签的客户样本舍弃。为解决这一问题,本研究引入半监督学习技术,并将其与多分类器集成技术中的随机子空间方法(Random Subspace, RSS)相结合,构建了类别不平衡环境下基于RSS的半监督协同训练模型RSSCI。该模型主要包括三个阶段:1)使用RSS方法训练得到若干基本分类器;2)从大量无类别标签数据集中选择性标记一部分最合适的样本加入到原始训练集中;3)在最终的训练集上训练分类模型,并对测试集样本进行分类。在三个客户信用评估数据集上进行实证分析,结果表明,RSSCI模型的信用评估性能不仅优于常用的监督式集成信用评估模型,也优于已有的一些半监督协同训练信用评估模型。  相似文献   

12.
研究了小额贷款公司对客户进行信用风险评估时面临的问题,构建了信用风险评估指标体系,改进了支持向量机(Support Vector Machine, SVM)对非均衡样本分类时分类超平面偏移的不足。首先分析小额贷款公司业务区域性强、信用数据来源不规范、评价标准不一致等特点,给出用于客户信用风险评估的四个维度指标。针对传统SMOTE算法在处理非均衡数据时对全部少数类样本操作的问题,提出仅对错分样本人工合成的改进思想,给出具体算法步骤。将改进算法用于某小额贷款公司客户信用风险评估案例中,分类精确度较其他算法有所提升,表明该方法的可行性和有效性。  相似文献   

13.
数据缺失会显著降低信用评估模型的准确性和可用性,尤其是多变量同时有数据缺失时。本文针对模型应用阶段的多变量数据缺失问题,提出了一种新的数据填补算法。该算法由两阶段构成:准备阶段和数据填补阶段。在准备阶段,算法基于朴素贝叶斯方法以初始数据集进行训练,对每个可能缺失的变量构建起相应的单变量预测估计模型;而数据填补阶段则借鉴了EM算法的思想,利用前期的单变量预测估计模型,对给定的多变量数据缺失样本进行交替迭代,逐步填补更新。理论证明,该算法具有单调收敛性。以人人贷数据集和UCI提供的德国和澳大利亚两个信用评估基准数据集为例,将其与众数填补法、EM填补法进行性能对比实验,结果表明本文方法的数据还原性能和填补后信用评估准确性都明显更优。这为解决信用评估时的数据多变量缺失问题提供了一种更好的处理方法。  相似文献   

14.
We present the Integrated Preference Functional (IPF) for comparing the quality of proposed sets of near‐pareto‐optimal solutions to bi‐criteria optimization problems. Evaluating the quality of such solution sets is one of the key issues in developing and comparing heuristics for multiple objective combinatorial optimization problems. The IPF is a set functional that, given a weight density function provided by a decision maker and a discrete set of solutions for a particular problem, assigns a numerical value to that solution set. This value can be used to compare the quality of different sets of solutions, and therefore provides a robust, quantitative approach for comparing different heuristic, a posteriori solution procedures for difficult multiple objective optimization problems. We provide specific examples of decision maker preference functions and illustrate the calculation of the resulting IPF for specific solution sets and a simple family of combined objectives.  相似文献   

15.
本文应用半正定规划支持向量机模型,将核函数特征子空间的组合作为核映射矩阵,提出一种新的将特征选择整合在数据分类过程中的学习算法。首先,将样本按其特征进行分组,计算每组样本子集的核矩阵;然后将这些核矩阵线性组合后加入基于半正定规划的支持向量机模型中,利用半正定规划支持向量机学习器求解得到各子特征空间的权重系数,其次,根据特征权重系数建立特征贡献度和支持度用于特征选择并控制分类准确率、特征数量和对不同类别样本的分类能力;最后根据最优分类准确率、最少特征数量、最佳泛化能力三项不同目标计算所对应的特征数量和分类结果。实证中采用医学、植物学、文本识别和信用等领域数据以及人工数据集比较该方法和SFS、Relief-F以及SBS算法的特征选择效果。结果表明,在实际数据中,本文提出的方法不但能够保持较好的分类学习效果,而且可以比SFS、Relief-F以及SBS特征选择算法的特征子集数目大幅减少;在人工数据中,该方法可以正确地选出真正的特征,去除噪声特征。  相似文献   

16.
A Flexible Count Data Regression Model for Risk Analysis   总被引:1,自引:0,他引:1  
In many cases, risk and reliability analyses involve estimating the probabilities of discrete events such as hardware failures and occurrences of disease or death. There is often additional information in the form of explanatory variables that can be used to help estimate the likelihood of different numbers of events in the future through the use of an appropriate regression model, such as a generalized linear model. However, existing generalized linear models (GLM) are limited in their ability to handle the types of variance structures often encountered in using count data in risk and reliability analysis. In particular, standard models cannot handle both underdispersed data (variance less than the mean) and overdispersed data (variance greater than the mean) in a single coherent modeling framework. This article presents a new GLM based on a reformulation of the Conway-Maxwell Poisson (COM) distribution that is useful for both underdispersed and overdispersed count data and demonstrates this model by applying it to the assessment of electric power system reliability. The results show that the proposed COM GLM can provide as good of fits to data as the commonly used existing models for overdispered data sets while outperforming these commonly used models for underdispersed data sets.  相似文献   

17.
张婷婷  贺昌政  肖进 《管理评论》2012,(6):83-87,123
在管理决策的制定中,分类已经成为一种十分重要的方法和技术。由于现实客户数据常常是不完整的,因此,研究不完整数据的客户分类问题具有重要意义。通过分析以往分类过程中对不完整数据的处理方法,提出了一种基于动态分类器集成选择的不完整数据分类方法DCES-ID。分别在UCI客户分类数据集以及某券商客户数据集上进行分类的实验和实证分析。结果表明,与已有的6种分类算法相比,DCES-ID算法具有更高的分类准确性及稳定性,能够更有效地进行客户分类。  相似文献   

18.
The performances of two types of pure random walk (PRW) algorithms for a model of constraint satisfaction problem with growing domains (called Model RB) are investigated. Threshold phenomenons appear for both algorithms. In particular, when the constraint density \(r\) is smaller than a threshold value \(r_d\), PRW algorithms can solve instances of Model RB efficiently, but when \(r\) is bigger than the \(r_d\), they fail. Using a physical method, we find out the threshold values for both algorithms. When the number of variables \(N\) is large, the threshold values tend to zero, so generally speaking PRW does not work on Model RB. By performing experiments, we show that PRW strategy cannot do better than other fundamental strategies.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号