大数据下个人信用评价研究综述

时间:2022-11-22 09:27:57

大数据下个人信用评价研究综述

摘要:由于大数据的兴起,使得我国对个人信用的评价方式发生了改变,庞大的数据来源为征信指标选择、数据收集方式、分析模型的构建提供了更多的选择。本文主要从征信的指标设计、数据来源、征信数据分析模型等方面展开论述,仅供参考。

关键词:征信;指标体系;评分模型

个人信用评价是体现自然人信用水平的判断方式,通过信用评价得出自然人的信用水平,以方便金融机构为自然人提供对等的服务。个人信用的功能是以自然人的信誉为保证,个人用协议的方式做出偿还承诺,征得出资方的信任,在未支付完账单的情况下提前消费,得到商品、服务或资金,个人信用是社会信用体系中的重要一环。征信是在合法前提下获取并处理企业和个人的信用信息,形成具有公信力的信用报告,确定被评价企业或个人的可授信额度,为消费提供信用额度参考。大数据征信日益受到业界和学者的关注。大数据可以从多角度、多维度挖掘数据。将大量的碎片信息整合为可用信息。如阿里芝麻信用从个人生活情况、消费情况、资金往来等角度构建指标体系对用户数据进行分析,进而提供与其信用相符的金融服务。

1个人信用指标体系构建

信息的采集与指标体系构建息息相关,任何指标都有其作用,组合分析就能获得人们的信用水平。海外第一个构建指标体系的DavidDurand(1941)提出,个人地产、个人资产、年龄、性别、居住的稳定性、职业、职业的稳定性、行业、个人有人身保险九个因素,我国指标体系建设相对较晚。1.1国有银行指标体系我国最早提出指标体系建设的是黄大玉。(2000),认为要根据国情建立适当的信用评估办法,以个人收入、资产、借贷历史为依据用以信用评判[1]。戴志敏、姜宇霏(2003)从用户的信贷情况提出思路,信贷次数与金额是不断变化的,银行也应建立动态评价,根据客户的信贷记录变化来调整信贷额度[2]。国有银行基本上是以最直观的用户个人基本信息、工作信息、经济来源、信贷记录等作为评价指标,如表1所示。直至互联网时代的到来不仅能将个人信用信息汇集起来,还能采集各种各样的数据,构建多样化指标体系,为征信带来更多可能。1.2互联网金融企业指标体系。互联网时代为征信带来了更多的可能,国家征信系统或商业银行难以采集人们日常生活中的金融行为,往往是这些看似不重要的行为更能反应出个人的信用情况。但信息采集渠道的合作是远远不够的,采集信用信息的角度不同,信用评价方向也会略有侧重,可以达到优势互补的效果,更全面的反应出个人信用水平。大数据几乎覆盖了我们的生活,从生活服务类平台采集到水、电、煤气等公共资源缴费信息,也从互联网企业平台采集个人行为信息,主要有社交信息、电商、互联网金融信息等。大数据的广阔覆盖与深度挖掘领域提升了信用评价水平,为指标体系的选择提供了很大的空间[3]。叶文辉(2015)以阿里集团旗下的芝麻信用为例,它是以收集人们在淘宝、支付宝等相关APP的金融数据为主,来对用户进行信用评分[4]。除此之外还可以通过收集人们的社交数据,生活缴费数据等来评判人们的信用水平。表2为阿里巴巴芝麻信用的指标。1.3以阿里巴巴(表2)与国有银行(表1)为例分析指标之间的关系。截至2019年6月,央行征信系统已覆盖9.9亿自然人,但约有4亿人未与银行产生业务联系,为获取他们的信用记录,占总人口的比例28%。国有银行评价指标的优点在于更能直观的反应出个人信用水平,了解授信人的个人信息、偿还能力、家庭情况、是否有不良记录等,而且个人信息安全性较高,但其不足之处在于覆盖人群相对较窄。阿里巴巴的芝麻信用优点覆盖人群较广,以互联网和大数据技术从支付宝、淘宝等平台收集个人金融业务信息、社交信息、生活信息等,可供分析指标多,收集成本低。但随着信息科技对生活的覆盖越发广泛,它存在的问题也不容忽视,大范围收集个人信息是否侵犯隐私,个人信息是否安全,不可出现类似Facebook信息外泄事件,以及人们使用支付宝、淘宝等平台所涉及金额较小,所得评价结果是否具有说服力等问题。

2大数据时代下征信信息采集

信息的采集是征信系统的关键。在李寿林(2007)的研究中发现,我国征信发展初期,个人征信数据库采集工作存在多个个难点。涉及部门多,实施推进难。资料不统一,信息共享难[5]。当前的政策环境下能弥补这些困难,沈燕(2007)认为我们可以借鉴国外经验,美英是市场主导型模式,政府发挥监管立法的作用,私营征信机构收集、加工个人和企业的信用信息。或借鉴欧洲国家政府主导型模式,央行与企业联合收集用户的信用信息。当下各大金融机构的数据来源方向主要是:电商平台、银联业务、社交平台、第三方支付企业、生活服务平台。据央行征信中心公告,信用信息不仅收集于各类国有金融企业、公积金中心、养老保险机构、公安系统等提供的个人信息以及个人名下的资产,还来源与客户群体众多的民营企业,作为私营机构的数据来源相对广泛些,与水电燃气、电信、联通等公共事业单位的合作可以采集到人们的日常生活缴费,与社交网购企业的合作可以获得人们的电商数据、社交数据、网贷情况等,数据来源广泛对于指标选取有帮助。

3信用分析模型

3.1传统信用分析模型。当下的信用分析模型百花齐放,各具特色。根据不同的数据类型采用不同的方法。传统评分模型多以统计方法为主,AHP法、线性回归、逻辑回归、分类树[6]。AHP法直观的呈现出变量关系,方便理解;线性回归法更能直观的反应出信用的好或坏;在银行信贷评价中,由于逻辑回归预测精度较高而运用较多;分类树的核心内容是将评价主体按评价规则分类,最后以集合多数原则确定信用水平。这类模型多采用的大都是结构化的数据,在数据预处理的过程中强调仔细地数据清洗以提升数据质量。3.2大数据技术分析模型。大数据征信的分析模型其作用是数据规模上弥补精确性不足。评分方式多以人工智能和机器学习为主,个人信用评分实质是分类问题,根据消费者的信贷消费记录以及偿债能力构建分类模型,再根据该模型分析出消费者的信用水平,依据这一水平为其提供相应的信用服务[7]。人工神经网络是模拟大脑处理信息的智能化分析技术,可进行联想、综合、推理,处理条件复杂、数据模糊的样本。在个人信用评价中,由于各类数据结构复杂,理论基础匮乏,这类方法在信用评分中比较流行,依据实际的风险类别,建立信用模型算出信用评分。随机森林即是多个决策树模型的分类,其输出的类别由决策树输出的类别的众数而定,最后对分类结果进行汇总。决策树是依靠样本属性进行分类。其构建过程不长,精确度较高。支持向量机的目标是为了缩小分类误差,利用非线性映射将样本映射到高维空间,进而通过二次优化约束问题,寻找最优分类面,从而使数据与最优分类面的距离最大化。数据的类型不同,使用的模型也不同,各大征信机构在模型算法上有很多成果,如蚂蚁金服采用深度学习算法对征信数据进行分析。总体来看支持向量机的精度相对较高些。

4结语

信用环境是国家金融发展的保障,目前我国的政府主导型模式已有成果,以央行征信系统为主导,联合私营征信金融机构收集企业和个人信用信息,当下央行征信系统出具的信用报告已然成为人们的第二张“身份证”。对我国而言,互联网个人征信也是近几年才逐渐建立起来。但我国信息化的飞速发展使得完善信用评价体系刻不容缓。从未成年人到中老年人,都在学习使用微信支付、淘宝购物等;信用卡、蚂蚁花呗、房屋借贷、助学贷款,各种各样的借贷行为我们提供了便利,同时也提醒着我们,需要尽快建立健全的信用体系,要提高科技创新,完善核心模型的构建,能精准的评析个人信用。

参考文献:

[1]黄大玉,王玉东.论建立中国的个人信用制度[J].城市金融论坛,2000(3):27-31.

[2]戴志敏,姜宇霏.关于我国银行个人信用评估模型的设计[J].企业经济,2003(4):148-149.

[3]陈志.我国大数据征信发展现状及对征信监管体系的影响[J].征信,2016,34(8):47-50.

[4]叶文辉.大数据征信机构的运作模式及监管对策:以阿里巴巴芝麻信用为例[J].新金融,2015(7):60-63.

[5]李寿林.个人征信数据库采集工作存在“四难”[J].青海金融,2007(7):60-61.

[6]杨力,汪克亮,王建民.信用评分主要模型方法比较研究[J].经济管理,2008(6):37-42.

[7]姜明辉,许佩,任潇,等.个人信用评分模型的发展及优化算法分析[J].哈尔滨工业大学学报,2015,47(5):40-45.

作者:胡景淇 赵丽 单位:贵州财经大学