某保险赔款数据研究

时间:2022-06-23 11:08:25

某保险赔款数据研究

[摘要]以四川某保险的理赔数据为研究对象,采用SPSS和Excel针对赔款金额与费用金额使用了均值分析法,从而获得哪种金额的理赔金额最高;针对险种,赔款金额进行单因素方差分析,根据p值得到拒绝方差具有齐次性的原假设,再在数据表中根据p值得到拒绝不同险种类别的赔款金额没有显著性差异。根据以上两个结论,能够直观地看出其不同险种的差异,使其进一步改进和完善。

[关键词]理赔数据;数据分析;SPSS分析

自肺炎疫情暴发以来,保险业的作用得到更多重视[1],但是与此同时还是有很多的群众并不了解其购买的保险好不好,购买的费用与其所理赔的金额是否合理。群众在维护自身利益的同时,也要选择对的保险才能更加放心。在保险行业中,理赔这项工作,既是风险的晴雨表,也是反映保险行业的经营状况的重要依据[2]。本文通过SPSS分析对理赔数据进行相关性分析,并通过结论提出建议。

1.分析思路

1.1分析工具

此研究里所用到了SPSS和Excel两种工具,应用SPSS软件,有利于方便、快捷地处理统计图形、图表,使过程变得直观、形象[3]。Excel工具,则是可以进行数据清洗,将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除,最后整理成为标准的、干净的、连续的数据,提供给数据分析、数据挖掘等使用[4]。

1.2思路

先通过用Excel对数据进行清洗,检测数据是否符合完整性,如果不符合,则要修复数据。如果在数据修复之后依然存在着与数据完整性约束不一致的情况,则要再次修复数据,直到数据符合要求[5];再通过SPSS分析将数据可视化,使用均值分析、单因素方差分析等一系列分析得出结果。

2.数据准备与清洗

2.1数据准备

理赔数据共16列212182行,主要包括的是机构、险种、案件号、保单号、赔款金额,赔款时间、费用类型、总保费、保额、客户号、性别、年龄、婚姻状况、过去三年平均收入、职业。其中总保费代表客户第一年投的所有保险费用,保额代表机构赔付的最大限额。

2.2数据清洗

(1)删去表格中过去三年平均收入为0、1、4的行。(2)隐藏无用的数据列,机构、赔款时间、性别、婚姻状况以及职业。(3)将险种进行编号归类,把类型一样的险种分别编号为1、2、3、4、5、6。

3.SPSS数据分析

3.1赔款金额与费用金额的均值分析

使用均值分析方法分析因变量赔款金额与自变量费用类型,从而获得那种类型的赔款金额更高。均值分析的步骤:因为费用类型有很多需要先将它们重新编码分组,采用的是SPSS转化里的自动重新编码将费用类型重新命名fylx,然后开始点击分析,选择比较均值选择均值分析,将fylx放入自变量列表,将赔款金额放入因变量列表可得出报告表,激活报告表点击编辑创建图选择点,可得出散点图。图1散点图在费用类型中他杀的赔款金额是最高的,而精神病的赔款金额是最低的,所有类型的平均赔款金额是2664.1RMB,其中癌症各类器官重大疾病占赔款金额的主体部分。

3.2赔款金额、年龄以及过去三年平均值收入的相关性分析

相关性分析步骤:在SPSS上的分析选项中选择相关中的双变量相关性分析,将赔款金额、年龄和过去三年平均年收入放入变量中,选择皮尔逊相关系数和双尾显著性检验,可得出相关性表。从相关性表中可以看出,赔款金额与年龄没有显著的相关性,与过去三年平均收入有着显著的相关性;年龄与过去三年平均年收入有着显著相关性;并且在表中,三者之间存在显著相关性时,显著性(双尾)均<.001,说明这个相关显著会犯错的可能小于1%。

3.3总保费、缴费期限、年龄以及过去三年平均年收入与保额之间的线性回归分析

回归分析步骤:在SPSS上选择分析选项下的回归,再在回归选项下选择线性回归,在因变量那一项当中将右边的保额选中,块内将总保费,缴费期限,年龄以及过去三年平均年收入与保额选中,再在方法当中选择步进,这样方便看出加入不同参数进去过后各个回归方程的拟合程度的高低,最后通过查看模型摘要当中各个R方的值可以看出将4个参数都加入回归方程的情况下R方会大于0.6且R方最大。所以选择建立总保费,缴费期限,年龄以及过去三年平均年收入的回归方程,最后在系数当中可以看到各个参数所带有的参数值的大小以及常数,最后可以建立回归方程:保额=5061.178+1.062*总保费+1103.919*缴费期限+0.026*过去三年平均年收入-137.095*年龄。3.4险种、赔款金额的单因素方差分析此刻Excel中在险种后插入一列命名为XD种别,然后点击公式选项卡中的逻辑函数中的IF函数,在Logical_test中输入LEFT(B873,1)="4",Value_if_true中输入1,Value_if_false中点击左上角,选择IF函数,在弹出的Logical_test中输入LEFT(B2,1)="6",Value_if_true中输入2,Value_if_false中点击左上角,选择IF函数,在弹出的Logical_test中输入LEFT(B2,1)="B",Value_if_true中输入3,Value_if_false中点击左上角,选择IF函数,在弹出的Logical_test中输入LEFT(B2,1)="F",Value_if_true中输入4,Value_if_false中点击左上角,选择IF函数,在弹出的Logical_test中输入LEFT(B2,1)="S",Value_if_true中输入4,Value_if_false中输入5,点击肯定,然后保留Excel表格。先在SPSS中导入表格,然后在SPSS分析选项卡中点击分析中比较平均值中的单因素方差分析,将赔款金额导入因变量列表,将险种类别导入因子列表,点击选项,勾中方差齐性检验,点击继续,点击事后比较,勾中假定等方差中的LSD,勾中不假定等方差中的T2,点击继续,点击对比,添加系数1、1、-1、-1、-1、-1,确定后将会得到方差齐次性检验表。因为方差不具有齐次性,方差齐次性表中险种类别为1与险种类别为2、3、4的P值大于0.05,说明险种类别为1与险种类别为2、3、4的赔款金额没有显著性差异;险种类别为1与险种类别为5、6的P值小于0.05,说明险种类别为1与险种类别为5、6的赔款金额有显著性差异,其中平均值差值(i-j)的值为负,说明险种类别为1的赔款金额小于险种类别为5、6的赔款金额。同理可得,险种类别为2与险种类别为3、4、5、6的赔款金额有显著性差异,险种类别为2的赔款金额大于险种类别为3、4的赔款金额,小于险种类别为5、6的赔款金额;险种类别为3与险种类别为4的赔款金额没有显著性差异,险种类别为3与险种类别为5、6的赔款金额有显著性差异,险种类别为2的赔款金额小于险种类别为5、6的赔款金额;险种类别为5与险种类别为6的赔款金额有显著性差异,险种类别为5的赔款金额小于险种类别为6的赔款金额。

4.结论和建议

4.1结论

在费用类型中他杀的赔款金额是最高的,而精神病的赔款金额是最低的,所有类型的平均赔款金额是2664.1RMB,其中癌症各类器官重大疾病占赔款金额的主体部分;从相关性表中可以看出,赔款金额与年龄没有显著的相关性,与过去三年平均收入有着显著的相关性;年龄与过去三年平均年收入有着显著相关性;并且在表中,三者之间存在显著相关性时,显著性(双尾)均<.001,说明这个相关显著会犯错的可能小于1%;险种类别为5与险种类别为6的赔款金额有显著性差异,险种类别为5的赔款金额小于险种类别为6的赔款金额。

4.2建议

其一,保险公司可以将年平均收入高和年平均收入低的客户进行筛选分类,对不同平均年收入的客户制定其针对性的方案,有效的推荐,可以使客户通过理赔的金额来选择自己所能承担的最可靠回报大的险种。其二,可以将卖得好的保险的理赔金额适当调高,将保险费用降低可以让收入并不是很高的客户群体,有更多样的选择,让客户更加愿意相信这份保险。其三,可以着重理赔过后的服务,更好地建立公司的形象。对于客户群体,笔者给出如下建议:第一,量力而行,选择自己所能承担的保险费用的保险,而不是盲目跟风,不要因为理赔金额高就选择它,而是要看是否适合自身情况。第二,多重选择,可以购买多个理赔条件并不苛刻的保险项目,而不是一味选择理赔金额高的项目。在大数据时代的大环境下,许多隐私已经不能称为隐私,如果能在普通信息中深度发掘出更有意义更有价值的信息,就需要权衡利用底线与信息保护之间的关系。一个公司能否把产业做好,取决于它是否能够知道客户真正所需求的是什么。像所研究的这所公司一样,理赔所包含的保险种类十分的多,但是所真正能够达到收益真正能够对客户带来的好处的保险并不多,并不是能够对客户的要求需求覆盖得多就能够达到很好的效果,一个机构虽然拥有很多种类,虽满足了当今社会群体的大部分需求,但是又因为客户群体太大了,每个方面又不能同时兼顾,使得运营起来又十分有风险。公司需要降低某些险种的赔款风险,在不伤及客户权益的情况下要让自身的收益达到最大化,使机构与客户双方都达到合作共赢的局面。

5.结语

本文通过对理赔数据的分析,得出了相关的结论和建议。保险公司可以调整理赔金额以及保险费用来吸引客户购买,客户则要做到不能只看到理赔金额高而不考虑自身的经济情况就盲目购买。

【参考文献】

[1]王笑.强调保障属性保险业服务民生更“给力”[N].金融时报,2021-02-04.

[2]徐高凯,杨杉.基于大数据的保险公司理赔数据画像研究[J].商业文化,2021(01):53-55.

[3]喻平.SPSS在统计学中的应用[J].中国商界(上半月),2010(03):46-47.

[4]滕文惠,闫媛媛,姚晓芳.基于Excel的数据清洗应用研究[J].科技资讯,2019,17(15):28+30.

[5]刘政宇.基于大数据的数据清洗技术及应用[J].数字技术与应用,2019(04):92.

作者:王浩 杨杉 单位:四川大学锦城学院计算机与软件学院