机器学习方法及信用风险评估

时间:2022-09-02 10:31:03

机器学习方法及信用风险评估

摘要:基于信用风险评估的文献随着时间的推移以及技术创新的不断更新,相关机器学习方法运用近年来也与时俱进。基于此,主要从传统的机器学习方法、近现代机器学习方法以及近三年来最新研究三个方面进行信用风险评估领域文献梳理与评述,归纳现有机器学习方法存在的问题和不足,并对未来机器学习方法在金融风控领域研究方向做出展望,提出发展趋势。

关键词:机器学习方法;信用风险;评估

随着人工智能的发展和大数据时代的到来,众多学者利用机器学习方法对信用风险评估展开广泛研究。信用风险管理在国内外金融机构的稳健运行中扮演重要角色,传统的判断用户是否违约的方法已经不能满足当今数据类型多、用户量大、风险预测准确率高的要求,大量学者运用机器学习方法深入展开相关讨论并做出一系列研究成果,证明该方法具有较好的预测和泛化能力。整体来看,我国的个人信用风险评估较国外起步较晚,起初的文献大部分都是进行传统单一模型的风险评估,近年来才开始利用集成机器学习方法进行风险预测。信用风险对于我国金融风控领域尤为重要,因此,对此进行相关文献梳理以及发展趋势研究具有重要意义。

一、基于统计学习方法的信用风险评估综述

回归分析等方法最早用于开展信用风险评估领域。在国外,Durand(1941)利用线性判别分析法应用信贷评估系统,提出使用基于数理统计的模型对信用风险评估问题进行了研究,是已知文献中最早被用来进行信用风险评估的方法,自此信用评估由单纯的定性分析转向了定量分析。同时,这一方法存在一定的局限性,它对于数据分布要求的假设性太强,并且样本分类依据不是均值而是方差,因此导致最终的分类效果不是特别强。Orgler(1970)在1970年最早使用线性回归方法针对贷款者的信用状况结合实际情况进行分数评级,预测银行客户信用风险。在国内,姚路(2017)结合个人信用数据对用户进行信用评价,运用多元线性回归方法进行模型构建。线性回归方法从本质上来说是用现有用户信用数据对未知信用状况的用户进行回归预测,最终得出用户是否违约的概率。但是线性回归也有一定的弊端,它所得出的值域介于正负无穷大之间,而逻辑回归方法的出现正好解决了这一问题。Wiginton等(1980)最先提出Logistic回归模型用于进行信用评估。逻辑回归将线性回归后得出的值进行Sigmoid函数转换成概率值,在0—1之间设定经验阈值从而实现二分类问题。Grablowsky(1981)在Logistic基础上进一步提出Probit回归模型进行风险评估。该模型主要是将Logistic回归模型中的似然比对数函数调整为正态分布函数的反函数。Steenackers等(1989)对Logistic回归模型进行优化,将用户信息的各种变量关系通过该模型进行反映,增强了该模型的可解释性。Ziari(1997)进行信用风险评估时将线性分析模型与统计分析模型相结合,对比单一的线性分析和统计分析模型发现效果更好。在国内,胡滨(2011)利用logistic回归模型对银行信贷状况进行分析,以减少信用经济带来的损失和风险。李淑锦(2018)运用logistic回归实证得出传统金融借贷机构风险低于网贷平台,同时考虑阈值的设定对规避模型判断失误而导致的资金损失有重要意义。

二、基于现代机器学习方法的信用风险评估综述

基于机器学习的个人信用风险评估模型在近年来逐渐兴起,展现了相比传统风险评估方法较强的优越性。常见的现代机器学习方法有BP神经网络、K近邻、SVM支持向量机等。此外,基于树模型的机器学习方法也广泛应用于个人信用风险评估,如基础的决策树模型、相关集成模型如随机森林、GBDT、XGBoost、light-GBM等。在国外,Makowski(1985)是最先开启现代机器学习方法在个人信用风险评估领域应用的学者,他利用用户信用数据在分类树上构建模型,对好坏客户进行分类并取得了一定效果。Cover和Hart(1986)提出K近邻方法,对于二分类的问题处理比较高效且被广泛应用于信用风险评估中。Odam(1990)最先将人工神经网络模型应用于个人信用评分模型,根据用户信用数据构建评分体系,指出人工神经网络在信用评分过程中有较好的解释性与应用性。Li(2000)对XGBoost进行信用风险建模研究。Baesensl等(2003)针对2003年之前的个人信用风险评估模型进行对比研究验证发现,线性判别分析法和Logistic回归模型在进行信用风险评估表现出较好的效果。StefanLessmann等(2015)在41种分类器对不同数据集进行分析,实验结果表明,集成模型如随机森林在信用风险评估效果上表现最佳。Brown(2012)指出,机器学习方法主要是通过监督学习对用户的信用数据进行模型构建,经过数据处理、特征提取等一系列操作对构建的模型进行用户行为和特征的预测,以此来判断用户下一次交易违约的可能性。在国内,姜明辉等(2004)利用K近邻方法研究了信用风险评估,对小数据集的分类风险问题进行实验分析。刘昕(2007)将人工神经网络运用于银行信用风险管理,得出神经网络比传统的打分法和统计模型判别正确率更高,并且在第二类错误率这一关键指标上优势较好。王润华(2010)改进支持向量机进行风险评估,得出多项式核进行分类在高斯核和线性核三种方法中表现效果最好。方匡南等(2014)引入Lasso-Logistic模型,运用Lasso方法对重要的变量特征进行选择,这一组合进行个人信用评估可以明显加快计算速度。付永贵(2016)改进线性回归模型,并在大数据的基础上对网络供应商信用数据进行了研究。罗雅晨(2018)研究了数据不平衡问题,基于改进的随机森林方法提出比例平衡的随机森林模型用来建立个人信用评分模型。

三、信用风险评估文献最新研究进展

近年来,针对数据不平衡、特征选择、数据维度高等问题,新的改进机器学习集成模型不断被提出,各种模型的组合器模型将几种算法相结合。最新研究表明,随着人工智能和大数据的发展,信用风控领域不断增强信用风险评估模型的预测效果和性能,基于深度学习的神经网络方法和组合模型运用的兴起成为了当今时代研究个人信用风险评估的重点领域。深层神经网络相较于传统的机器学习方法性能更高,风险控制能力更强,显著提高了金融行业风险测度水平,提供一个更安全的金融交易环境。JianLuo(2020)改进支持向量机非线性核函数的敏感和对非线性核函数的敏感随机初始化,计算代价高、不适合非平衡数据集等问题,提出无核二次曲面支持向量机(QSSVM)模型。MirkoMoscatelli(2020)通过实证分析对比统计学方法,如线性判断分析和逻辑回归以及机器学习方法,如随机森林和梯度提升,比较得出在数据量较大的情况下机器学习方法在信用风险评估上精确度和表现性能明显优于统计学方法。NishaArora(2020)利用随机森林改进特征选择过程,提出Boot-strap-Lasso这一新方法,对比多个基础机器学习方法效果得出Bolasso使能随机森林算法(BS-RF)提供信用风险评估的最佳结果。DiegoPaganotiFonsecaa(2020)结合模糊分级和神经网络两阶段方法对现有数据进行简单分析,采用模糊逻辑将专家和从业者的意见结合在一起证明该方法可行性,解释了比商业广告提供的信用评分更便宜的解决方案评级机构。YuelinWanga(2020)比较分析了不同机器学习方法在信用风险评估中的应用,随机森林在五种基本分类器中表现性能最好,因此也有很多学者将随机森林作为预测模型的基分类器。GuanlinLi(2019)结合XGBoost,随机森林,SVM三种模型的高精度、鲁棒性和泛化能力的特点进行信贷违约风险的预测,结果证明组合器模型比单个模型预测效果更好,更有利于降低平台的坏账率,对金融风控起到较好作用。吴金旺,顾洲(2018)结合随机森林和逻辑回归两种方法对商业银行客户信用进行信用风险评估。王春才(2018)将主动学习和径向基网络进行融合,提出基于机器学习技术的风控模型用来进行异常用户检测和信用评分。王超(2019)利用一个神经网络模型、一个K均值聚类模型以及三个贝叶斯网络模型将多个算法进行相互验证,建立数据驱动的自适应优化学习机制进行贷款诈骗风险预测。杨德杰等(2019)运用深度学习方法提出基于堆栈降噪自编码网络风险评估模型,充分考虑数据特征之间的相关性进行分析。刘潇雅等(2019)针对支持向量机在训练高维数据不能主动进行特征选择导致准确率下降的缺点,构建C4.5决策树优化支持向量机的信用评估模型。莫赞(2019)针对在个人信用评估问题和风险日益剧增问题和数据集的不平衡问题,从梯度提升树组合特征和集成算法的角度出发提出一种基于Bagging集成学习算法的个人信用风险评估模型。关于集成学习模型的应用,王思宇(2019)运用lightGBM模型评估个人信用风险,结果表明对普通的决策树模型来说,该模型鲁棒性更好且预测更加精准。王心逸(2020)将GBDT模型进行风险控制,引入一系列评估系数作为模型评估指标对个人贷款数据集进行实证研究。李欣(2020)利用XGBoost改进传统的网格搜索法,解决参数寻优时耗费时间长的问题,由此建立风险评估模型。为处理高维特征,张雷(2020)针对特征选择和数据不平衡问题提出了RF-SMOTE-XG-Boost模型,训练阶段采用粒子群优化算法对XGBoost模型做分类精度提高。刘伟江等(2020)将反映客户信息四个方面的特征变量相互连接综合成灰度图,建立基于卷积神经网络的客户信用评估模型,实证了基于深度学习的神经网络模型在信用风险评估上的可解释性。王重仁等(2020)提出的一种基于长短期记忆神经网络和卷积神经网络融合的深度神经网络个人信用评分方法,融合了基于注意力机制的LSTM模型和CNN模型两个子模型,显著提高了评估精度。

四、研究评述

统计学习方法在信用风险评估中因结构简单、解释力度较强而被广泛应用,但以变量之间存在线性关系为假设,预测效果缺乏准确性,在很多情况下并不能完全反映客户的信用状况,特别是对具有真实分析价值的信息难以提取。现代机器学习方法构建的风险评估模型通过数据训练精度较高,比较支持向量机、随机森林、决策树、集成学习等现代的机器学习方法,可以看出随机森林精度较高且具有良好的泛化能力,SVM预测风险准确度较低但稳健性较好,XGBoost和light-GBM作为比较新的方法,预测风险准确率更高。由于多种组合模型相较单一模型预测精度更高,最新研究将不同的机器学习方法进行结合,或者采用集成学习方法进行数据的特征处理,这种方法能够更好探索信用数据内部的相关结构,形成预测精度更高的分类组合模型。但这些机器学习方法也存在一些问题,如在计算用户风险指标权重时没有考虑到指标之间的相互作用,对于计算指标权重的风险评估模型较少,同时,由于其计算过程复杂、稳定性较低,还由于其解释能力不足而容易被认为是“黑箱”。随着大数据时代到来,人工智能不断深入金融风控领域,未来可以从以下三方面进行深入研究。第一,现有的机器学习方法主要针对特定的数据集进行静态风险预测,由于数据隐私问题,很多信息无法获取。运用机器学习方法结合人物画像对用户信息进行更加深度的动态提取也是一大方向,目前在此领域进行相关探索主要应用在银行风控等领域,未来可以对此进行深入挖掘,在对渠道多平台进行大数据累计并进行动态预测。第二,在风险评估模型建立上,现有一般模型属于常权综合模型,各指标值由于相互替代导致评估结果高估,以及各指标权重计算方法与标准不统一,并且对指标间存在相互影响的缺失值问题缺乏深度研究,对此也值得进一步分析和讨论。此外,人工智能时代本质上促进了深度学习的发展,智能人脸识别、智能渠道管控、智能数据监测等应用也加深了风险控制与管理,卷积神经网络、循环神经网络等复杂网络对人工智能做出更大贡献。目前国家大力提倡金融与科技创新性复合人才培养力度,打造深度学习性人才促进金融风控的发展。深度神经网络在信用风险评估方面的应用显示了金融风控强大的优势,未来结合大数据与深度学习进行风险评估,在保护用户隐私前提下进行更加精确地预测将是开展信用风险评估的一大趋势。

参考文献:

[1]JianLuoa,XinYanb,YeTian.Unsupervisedquadraticsurfacesupportvectormachinewithapplicationtocreditriskassessment[J].EuropeanJournalofOperationalResearch,2020:1008-1017.

[2]MirkoMoscatellia,FabioParlapianoa,SimoneNarizzanob,GianlucaViggiano.Corporatedefaultforecastingwithmachinelearning[J].Ex-pertSystemswithApplications.,2020:1-12.

[3]NishaArora,PankajDeepKaur.ABolassobasedconsistentfeatureselectionenabledrandomforestclassificationalgorithm:Anapplica-tiontocreditriskassessment[J].AppliedSoftComputingJournal,2020:1-15.

[4]DiegoPaganotiFonsecaa,PeterFernandesWankea,HenriqueLuizCorrea.Atwo-stagefuzzyneuralapproachforcreditriskassessmentinaBraziliancreditcardcompany[J].AppliedSoftComputingJournal,2020:1-13.

[5]YuelinWanga,YihanZhanga,YanLua,XinranYua.AComparativeAssessmentofCreditRiskModelBasedonMachineLearning—acasestudyofbankloandata[J].ProcediaComputerScience,2020:141-149.

[6]王思宇.基于LightGBM算法的信用风险评估模型研究[J].软件导刊,2019,18(10):19-22.

[7]杨德杰.基于堆栈降噪自编码网络的个人信用风险评估方法[J].计算机科学,2019,46(10):7-10.

[8]刘伟江.基于卷积神经网络的客户信用评估模型研究[J].数据分析与知识发现,2020,(6):80-90.

[9]张雷.基于RF?SMOTE?XGboost下的银行用户个人信用风险评估模型[J].现代电子技术,2020,43(16):76-81.

[10]刘潇雅,等.基于C4.5算法优化SVM的个人信用评估模型[J].计算机系统应用,2019,28(7):133-138.

作者:毛子林 刘姜 单位:上海理工大学管理学院