随机森林个人信用风险评估研究

时间:2022-12-18 03:32:20

随机森林个人信用风险评估研究

一、文献综述

近年来,随着消费金融市场的迅速发展,越来越多的消费金融机构涌入,以蚂蚁花呗、借呗、京东白条为代表的消费金融服务盛行。从受众群体来看,消费贷款的发放对象是个人,还款来源主要为工资、奖金、投资收益、生产经营性收入等。这些来源易受多种外部因素影响,包括宏观经济变化、所在企业经营状况、个人健康及意外等。与此同时,与企业相比个人的流动性和不确定性更高,借款人还款行为易受个体思想观念、态度、行为习惯等主观因素的影响。因此,个人信用风险成为风控的核心,如何把各借款人纷繁复杂的信息数据映射成其自身详细的信用水平成为这一行业亟待解决的问题。在个人信用风险评估领域,国内外的研究主要集中在个人信用风险的指标选取和个人信用风险评估方法及模型构建两个方面,后者居多。信用风险指标的选取,主要基于传统信贷的指标选择和基于消费场景多样性对指标体系的补充优化。BillFair和Earllsaac(2015)提出的FICO信用分模型是个人信用评估领域最早且在银行使用最广泛的。FICO模型根据违约风险来计算客户的信誉,它所选用的指标主要有五类:信用偿还历史、信用账户数、使用信用的年限、正在使用的信用类型以及新开立的信用账户[1]。MariolaChrzanowska(2008)以一家在波兰经营的外资银行中的个人客户贷款为例,通过单一和集成的方法,发现“已偿还贷款的份额”是体现个人信用等级最重要的指标[2]。龙新庭、王晓华(2013)指出德国国际项目咨询IPC公司通过客户的信用历史、贷款申请书信息、个人声誉等方面综合评估其还款意愿[3]。消费场景的多样性使得实践中基于互联网的个人信用风险指标在构成上与传统的金融机构有所不同,在其基础上更多地获取关于个人生活消费的指标。国内首个个人信用评分——阿里巴巴芝麻信用分的评分标准主要由五部分组成:信用历史(35%)、行为偏好(25%)、履约能力(20%)、身份特征(15%)和人脉关系(5%)[4]。不同于阿里巴巴的是,京东与腾讯达成深度合作,将自身的电商数据和腾讯的社交数据结合,所以京东白条能更精确地把握用户的信用信息[5]。信用风险评估方法的实质是将一个数据样本总体按不同特征分为若干组的方法,个人信用评估模型构建主要包括统计和非统计方法。统计方法主要包括判别分析法、Logistic回归、K近邻判别分析法等。何晓群等(2015)认为信用风险评估模型是金融机构开展信贷工作的核心,模型结果则是信用评级的依据来源[6]。李萌(2005)将不良贷款率、T检验、主成分分析相结合,基于Logistic回归建立判断信用风险的评估模型[7]。姚路(2017)在对个人基本信息、信贷担保交易信息等认知的基础上建立多元线性回归模型,间接地对信息主体进行信用评价[8]。姜明辉等(2004)通过确定相应的评估指标体系,建立了基于K近邻判别分析法的个人信用评估模型,并对模型应用中需要注意的问题进行了分析[9]。基于统计方法的信用风险评估模型需要对样本数据进行严格的假设,如线性关系、正态分布等,这些都在一定程度上影响模型的适用性及使用效果[10]。非统计方法主要包括依托计算机技术的人工智能方法,以人工神经网络(ANN)、支持向量机(SVM)、决策树(DT)和随机森林(RF)著名。HussainAliBekhet(2014)设计了两种信用评分模型,并采用人工神经网络方法为约旦商业银行贷款决策提供技术支持,证实人工神经网络的应用将改善信贷决策效率,帮助金融机构节省分析时间和成本[11]。TonyBellottti和JonathanCrook(2008)运用大型信用卡数据库的信息,将支持向量机与Logistic回归等传统方法进行对比研究,表明支持向量机更具竞争力,还可用作特征选择方法来分辨出决定违约风险大小最重要的特征[12]。姚潇和余乐安(2012)将模糊隶属度引入支持向量机进行实证研究,结论表明模糊近似支持向量机能够显著地提高信用风险分类精度[13]。庞素琳和巩吉璋(2009)以德国银行个人信贷数据为样本,采用C5.0算法(DT模型的一种)构建信用评估模型,并使用了Boosting算法技术提升模型对样本数据的拟合度,最后通过参数调节进一步提高分类精确率[14]。GasparCano等(2017)对不同的数据集用RF算法进行特征选择并用其对数据集分类,结果表明由RF选出相关变量并据此进行分类的性能效果比SVM和ANN更具优势[15]。戴昕琦(2018)把更加适合处理不平衡数据的SMOTE算法改进,再与RF模型结合运用于供应链金融信用风险管理研究中,发现C-SMOTE-RF模型在很大程度上减少了银行的“取伪”概率,从而能帮助银行更好地对风险企业进行识别[16]。随机森林(RF)的提出者BreimanLeo(2001)指出RF明显优于单个分类决策树模型[17]。方匡南等(2010)将RF算法用于零售信贷领域的信用卡违约风险识别,并发现RF算法无须对数据样本标准化预处理,且比SVM、单一决策树以及Logistic回归有更高的准确率[18]。综上所述,RF算法是基于决策树的集成式算法,一般无须对数据标准化预处理,且分类性能优于传统统计方法和SVM等智能算法。大数据技术使得用于个人信用风险评估的数据指标的可获得性变强,数据维度变大,导致风险预测时间变长,成本变高。而RF算法是采用多棵决策树分类产生结果并以加法投票的方式得出最终结果。RF算法中单棵决策树每个节点的选择与分裂都是基于该节点随机选取的特征确定的,因此信用指标之间的自相关性会使决策树之间的选择与分裂规则相似;各决策树选择的相似性会使得以加法投票方式确定的最终分类结果呈现“一边倒”,这样会极大地降低分类准确度。因此,考虑到个人信用风险评估时数据维度及数据的预测能力,在传统随机森林模型的基础上加入XGBoost算法来对指标进行降维,剔除关系密切和对预测信用风险影响小的指标,并采用实际的数据集验证了模型的合理性和有效性,为个人信用风险评估提供更好的决策支持。

二、改进的随机森林模型建立

构建的改进的随机森林模型(即XGBoost-RF模型)如图1所示。第一阶段运用XGBoost算法进行特征选择,输出数据样本中的特征重要性柱状图,这样不仅能最直观地看到每个指标的特征重要性得分,而且能提升模型的解释性;此外,从中筛选出的影响较大的特征指标,也能为个人信用评估指标选择提供参考。第二阶段运用随机森林(RF)算法对第一阶段筛选出的指标进行分类。XGBoost算法是基于梯度提升树(GBDT)模型原理改进后的算法。与RF算法在特征选择时运用Gini指数计算节点不纯度不同的是,XGBoost是通过该特征每棵树中分裂次数的和计算的。与神经网络的“黑箱操作”相反,XGBoost所用决策树内在的可解释性降低了算法计算的复杂度,提升了整个模型的可解释性。可解释性也是信用评估的一个重要组成部分,因此将其用于对各个特征指标的重要性进行估计十分合适,一般重要性分数越高则该特征指标越重要,该特征指标在数据集中的贡献越大。RF算法是由LeoBreiman和AdeleCutler[17]提出的一种集成分类器,但它摒弃了单棵决策树容易产生过拟合现象的缺点,RF算法最终的分类决策fRF(x)由式(1)得出:fRF(x)=argmaxΣnk=1I(hk(x,θk)=Y)Y(1)其中,hk(x,θk)是单棵决策树分类器,是用CART算法构建的未剪枝的分类树,其中θk是服从独立同分布的随机变量,决定单棵树的生长过程;Y为目标变量,表示是否违约,在本文中用1(违约)和0(未违约)分别表示;I(•)表示满足括号中表达式的样本个数。式(1)为使用多数投票法来确定最终分类结果的表达式。对于随机森林算法中的单棵决策树,首先在每一节点随机选择m个特征,再从这m个特征中根据Gini指数最优分割选择最优特征进行该节点的分裂。Gini指数由式(2)得出:Gini(Q)=Σjj=1Pj(1-Pj)=1-Σjj=1Pj2(2)其中,Q为S个数据样本的集合;Pj为随机数据样本属于j类别的概率,近似值可用SjJS表示;J为数据集的类别总数,本文中J包括违约与未违约两类。通过求Gini(Q,F)的最小值得到Gini指数最优分割,Gini(Q,F)表达式如式(3)所示:Gini(Q,F)=SSjGini(Qj)+SSjGini(Q-j)(3)因此,使得Gini(Q,F)值最小的特征即为该节点应选择的最优特征。其中,Sj为属于j类别的样本个数,S-j为不属于j类别的样本个数,F为分裂特征。

三、数据选择与处理

本文采用著名的德国信用数据集(数据集网址为http://archive.ics.uci.edu/)来验证模型的可行性和有效性。因为德国信用数据集的指标比较全面,对个人信用风险评估指标的构建具有借鉴意义;基于互联网的信贷也大多以此信用指标体系为根基,在其基础上进行细分补充。德国信用数据集是德国一银行记录使用信用卡的个人特征及违约与否的数据集,一共有1000个客户的基本信息,包含了700个好客户(客户信用良好,没有信用违约记录)和300个坏客户(客户信用较差,有违约记录)。每个客户的信息都包含24个属性指标,由7个离散型指标、13个连续型指标构成,其他4个指标未知,以及每个客户的类别,取“1”代表“好”客户,“0”代表“坏”客户。该数据集指标可分为个人指标、信用指标和经济指标三大类。个人指标主要是描述个人自然信息,包括婚姻状况、性别、年龄等信息,透过这些信息商业银行能够间接获悉申请人的还款意愿和还款能力;信用指标包括贷款信息、信用卡信息、历史信用信息等,从中可了解贷款申请人的信用风险、债务压力及其历史信用;经济指标包括贷款申请人的职位、工龄、收入等信息,是衡量贷款申请人还款能力的重要指标。而4个未知指标对信用分类预测能力非常小,因此将其作为无关指标剔除。

四、结果分析

经济金融领域中的指标错综复杂,个人信用指标更是如此,指标变量间的相关性等降低了模型预测及信用风险评估的有效性。因此,对数据样本的原始指标进行筛选来建立风险评估指标体系,有助于个人信用的审核以及风险的重点监控。(一)基于XGBoost的信用指标筛选。首先采用XGBoost算法用Python软件进行编程计算,得到所有指标的特征重要性分数。图2是德国数据集指标的特征重要性分数柱状图。再根据XGBoost特征重要性得分进行指标筛选。从图2可以看出,f3(信贷用途)、f1(信贷期限)、f9(担保人)、f5(储蓄账户情况)、f2(信用历史)、f0(经常性账户情况)这几个指标的特征重要性得分较高,可见这些指标对借款人违约风险影响较大;而f19(是否为外籍工作者)、f12(年龄)和f13(其他分期付款方式)重要性得分较低,影响较小,这与实际经验基本吻合。同时,考虑到德国数据集样本量较多,进入分类步骤的指标不能过少,同时从排名第15位的特征指标开始,其重要性得分大幅度下降,因此根据特征重要性柱状图选取特征重要性,得分前14位的指标进入第二阶段的RF算法对数据样本进行分类,所选指标包括f0、f1、f2、f3、f4、f5、f6、f7、f8、f9、f10、f15、f16、f17。由图2可以发现,除f3(信贷用途)、f1(信贷期限)等显性指标对个人信用风险影响重大外,f9(担保人)对个人信用风险的影响不容忽视。担保人的资金实力、信用水平对贷款申请者个人信用风险影响重大,而担保人的选择体现了贷款申请者的“人脉关系”。但国内现有的个人信用评分机制,鲜少选择诸如“担保人”等“人脉关系”相关指标。因此,评估个人信用风险时,在不违背保护隐私的前提下,应完善对“人脉关系”的调查与审核,以降低贷款申请者个人信用风险。(二)基于RF算法的个人信用分类分析。依据得到的14个属性指标,运用随机森林(RF)算法对1000条数据样本进行分类测试,并将结果与传统RF算法对比,得到以下结果及结论。(1)利用未经XGBoost筛选的原始数据集建立100棵决策树分类可以发现:在5倍交叉验证下,节点分裂时随机选取的指标个数m为15时,平均分类准确率为68.6%;当m取10时,平均分类准确率为70.6%;当m取5时,平均分类准确率为64.2%。结论1:在交叉验证倍数不变的情况下使用德国信用数据集进行分类,当把每一节点分裂时随机选取的指标个数设置较大时,那么在一定范围内减小指标个数,分类效果会变好,而如果指标选取的个数过少,分类效果会减弱。结论1的得出表明德国信用数据集中存在对预测个人信用风险影响较小的冗余指标或者某些指标间存在自相关性。(2)利用原始数据集和经XGBoost筛选后的数据集建立100棵决策树分类可以发现:在5倍交叉验证下,每一节点分裂时随机选取的指标个数均为10时,筛选后数据集的分类准确率分别为0.73、0.735、0.63、0.72、0.69,与之对应的原始数据集的分类准确率分别为0.73、0.715、0.67、0.69、0.72;而且,在大部分子样本中,经XGBoost筛选过的数据集得出的分类准确率比原始数据集得出的准确率高;当选取的指标个数m取5时,原始数据集的平均分类准确率为64.2%,而新数据集的平均分类准确率为69.7%。

2:利用XGBoost特征选择后建立的新数据集在同样的倍数交叉验证下,不论是单次的分类准确率还是平均分类准确率都不亚于原始数据集的分类结果,甚至更高。(三)基于ROC曲线的模型性能比较ROC曲线是用于展示试验中效果是否优良的一种图形,一般通过ROC曲线下的面积AUC来衡量模型效果,曲线下面积AUC的值越大,可认为效果越好。对改进前后两种方案的性能进行ROC曲线分析,其ROC曲线及其比较结果如图3所示。将(a)和(b)放于同一坐标轴进行比较如(c)图所示,发现除左上角两曲线有所偏差之外其余基本重叠;从(d)图可以看出明显的差别:新数据集ROC曲线位于原数据集ROC曲线的上方,即利用新数据集的分类性能比原始数据集要好,更具有准确性。基于上述分析,可以得出改进后的XGBoost-RF模型通过优化数据指标而使模型性能比改进前更好,分类准确度更高。五、启示与展望通过分析研究,可以发现以德国信用数据集为样本,改进后的随机森林模型通过优化特征选择从而降低指标维数,最终提高了分类准确率,因此本文所构建的XGBoost-RF模型具有一定的合理性和有效性。进一步,研究得出的结论对互联网金融下个人信用风险评估的启示如下:(1)在对德国信用数据集进行特征选择时发现“担保人”对个人信用有较大影响,但国内现有的个人信用评分机制对于贷款申请者的诸如“担保人”等“人脉关系”指标缺乏重视,因此相关企业在保护个人隐私的前提下可以完善“人脉关系”相关指标的信息采集。(2)在个人信用风险评估领域,大数据带来了丰富的数据信息,更完整地勾勒出个人信用状况。利用所有的数据进行评估成本高且效率低,因此应该探索更有效的方法进行个人信用指标的筛选,文中提出的XGBoost-RF模型是一个很好的尝试。(3)近年的研究集中在分类算法的改进上,而算法的推陈出新花费时间成本很高。本文指出选择好度量指标会达到事半功倍的效果,因此改善现有的个人信用评估指标体系具有根本性的作用。企业需要审视现有指标体系,积极探索挖掘对个人信用具有重大影响的其他因素。本文将XGBoost算法引入传统的随机森林算法(RF)来优化信用指标的选择,突破了以往研究中数据维数大、关联性强所带来的局限性,不足之处在于有些因素却未能充分考虑。鉴于国内相关个人信用数据的保密性,本文利用了公开的德国信用数据集。考虑到互联网的个人信用数据指标在构成上有所差异,并且在现实中个人信用水平往往被分为多个等级,不仅限于“好”客户和“坏”客户,因此研究效果有所减弱,但构建的个人信用风险评估模型以及研究成果对现阶段工作仍有借鉴作用。未来的研究可以考虑在信用等级细分情况下多元分类的问题,以及大数据背景下对个人信用风险影响重大的其余指标。

作者:周永圣 崔佳丽 周琳云 孙红霞 刘淑芹 单位:北京工商大学