保险新投保数据研究分析

时间:2022-06-23 09:39:52

保险新投保数据研究分析

[摘要]以四川某保险公司的新投保数据为研究对象,使用SPSS作为工具,对该公司年度新投保数据进行分析研究,通过相关性分析、探索分析、线性回归分析找出总保费和各个变量间的关系,帮助公司找寻最优方案,调整或改善策略以增加盈利。

[关键词]数据分析;保险;新投保数据

疫情的爆发,自然灾害的频繁出现,使得不确定风险因素增加,对人们的生活产生较大的影响。投保可以在灾难发生时,对人们的生活有一定的保障[1]。如今保险业积累的大量数据在大数据技术的冲击下又是一个新的风口。保险行业希望通过利用新技术的运用在逆境中寻求更大的发展就成为了一种必然[2]。保险的本质是要求保险产品确定尚未发生的风险。在风险预测过程中,往往需要将数据信息与相应的分析技术结合起来,这就需要大数据分析来提高风险预测的准确性[3]。研究新投保客户,建立客户画像,是抓住老客户、增加新客户的有效方法,因此,要分析客户选择投保的因素,以及能增加盈利的因素。了解后公司就能针对性地调整策略,推出更符合消费者需求的产品。推出更多符合不同情况的大众保险,提高保险对大众的受用程度和保障度,从而提高有效保险的量,使得双方受益程度实现最大化。

1.研究思路

分析工具采用SPSS软件。SPSS(StatisticalPackagefortheSocialScience)软件是世界上著名的统计分析软件之一,2000年SPSS公司由于产品升级及业务拓展的需要,将其产品正式更名为SPSS(statisticalproductandservicesolutions),即统计产品与服务解决方案[4]。分析思路如下:以四川省某保险公司的新投保数据为研究对象,采用SPSS作为分析工具,对数据中年龄,性别,婚姻状况,险种类型,保费等数据进行分析比对,对新投保的客户进行画像,分析保险的选择是否和客户的某种特征有关,从而可以对不同的客户选用不同的策略帮助公司收获新客户,也帮助新客户选择出好产品,实现双方共赢。

2.数据说明

数据来源于四川某保险公司年度新投保数据。其中包含了机构、险种、投保时间、缴费方式、缴费期限、投保份数、总保费、保额、客户号、性别、年龄、婚姻状况、过去三年平均年收入、教育程度、职业、家庭人口。共16列900648行。进行数据清洗,因为在信息时代,数据即是资源。数据可靠无误才能准确地反映现实状况,有效地支持组织决策[5]。因此首先应该做的就是筛选有用的数据,剔除无用数据;还包括空值的清理,无效值、异常值的删除。

3.数据分析

3.1总保费与职业、年龄等变量的相关关系

由于本数据集所持有的数据含有一定量的脏数据以及无效数据,为提高分析的准确度和有效度,所以在进行数据分析之前,需要做出一定的数据清洗与处理,即删除数据中不正确填写的教育程度、家庭人口列。用SPSS中的自动重新编码功能将字符串类型的值转换为数字类型,便于后续的分析操作。然后进行数据分析,首先将变量测量类型更改为标度,然后通过相关分析得出与总保费相关性较高的变量(见表1)。结果显示,其中与总保费相关性系数较高的变量有险种、缴费方式、性别、婚姻状况、职业、保额、年龄、过去三年平均年收入、机构、缴费期限,其中年龄和保额的相关性最强,为正相关;相关性系数较低的有投保时间、投保份数、客户号。由此可得出年龄与总保费相关性强,呈正相关。说明年龄大的人群在保险方面的支出大,而较年轻群体在保险方面的支出则较少。因此保险公司可以通过将年龄较大人群喜爱的产品进行改进或是保持其特色来稳固在这一方面的收入;通过推出更适合较年轻人群的例如理财方面的产品来增加较年轻群体这部分的收入。保额与总保费相关性强,呈正相关。说明人们对保险的投入与他们期望的保额有很大的关系,因此可以通过人们对保额的期望来增加产品的竞争力或是以此来推荐与客户期望值相匹配的产品。

3.2具体分析总保费与年龄的关系

上文我们得出了总保费和年龄有很强的相关性,因此我们将年龄分化,进一步分析。首先通过SPSS软件中的频率分析的功能计算出年龄的四分位数从而进行分组(见表2)。由此我们可以将年龄分为四个区间:34岁及以下设置为第一个年龄组---青年组并把该组数据全部重新编码为1;35岁到40岁设置为第二个年龄组---壮年组,并把该组数据全部重新编码为2;41岁到48岁设置为第三个组---中年组,并把该组全部数据全部重新编码为3;49岁及以上设置为第四个组---老年组,并把该组数据全部重新编码为4。将总保费设为因变量、经过重新编码后的年龄段设置为因子进行探索分析。分析结果得出:在4组年龄组中,5%剪除后平均值最高的组为第四组(49岁及以上),然后是第三组、第二组、第一组依次下降。这一结果也印证了上文所分析的年龄与总保费的强相关性,年龄越大的人在保险上的投入越多。其次中年组(41岁到48岁)的标准差最大,数据的离散程度最大,说明中年组对于不同价位的保险选择更为分散。4组数据的偏度均大于0,为右偏分布(均值>中位数>众数),说明同组里高保费的人较少,大部分人所交总保费是低于平均值的。且4组数据峰度均大于0,为尖峰分布,说明样本之间差异较大,右边(高保费区域)极端值较多,保费更多地集中在众数周围。青年组的四分位距和标准差最小,保费缴纳情况最为集中。3.3总保费与年龄、保额等变量的线性关系通过上文的相关性分析,我们已经得出了与总保费相关性较高的一些变量,下面我们找出是否这些变量具有某些线性关系。数据处理方面,线性回归分析需要所有的参数都是属于数字型的,然而险种、缴费方式、性别等变量都为字符型的变量,不能用于线性回归分析,因此我们将险种、缴费方式、性别等变量自动重新编码。线性分析,首先我们得出以下模型摘要表(表3)。发现第7、8、9种模型R方最大,且第9种模型标准估算的错误最小,所以最后选择第九种模型进行建模。接着是方差分析,发现显著性都小于0.01,说明这些变量能够建立有效模型。可以得出线性回归方程的常量是:-147262.49,保额的系数为0.601,缴费期限的系数为-760.667,缴费方式(编码为数字型)的系数为-5550.119,职业(编码为数字型)的系数为8.701,年龄的系数为56.481,婚姻状况(编码为数字型)的系数为404.014,险种(编码为数字型)的系数为26.904,性别(编码为数字型)的系数为105.779。得出如下线性回归方程:总保费=保额*0.601+缴费期限*(-760.667)+缴费方式*(-5550.119)+职业*8.701+年龄*56.481+机构*0.442+险种*26.904+性别*105.779-147262.49。从此线性回归方程也能看出年龄与保额是和总保费呈正相关关系的。分析结果表明,总保费和年龄、保额等变量的关系,未重新编码的变量中保额、年龄、缴费期限对于总保费的影响很大,客户选择产品时重点关注所选产品的保额和缴费期限。限公司和客户都能运用这样的方程针对自身的各项指标来大致得出合适的保费,也能通过总保费、年龄、职业等等指标来计算大致能获得的保费。帮助公司和客户实现共赢。

4.结论及建议

总保费主要受年龄和保额的影响,且多数购买保险的都是年龄较大的人群,较年轻群体购买保险的情况最为集中,选择的都是近似价格的产品,而较大年龄的群体购买情况就比较分散,形成此结果的原因大概是因为较年轻群体身体状况较良好,且较为均衡,发病率较低,所以对于保险的需求也较为均衡。而较大年龄群体的身体状况较差、发病率较高且患病的情况更为复杂、离散,所以对于保险的需求也有较大的不同,但较大年龄群体的平均保费高于较年轻群体,说明目前保险的需求量在较大年龄群体中高一些。保额对总保费有较大影响,说明人们在购买保险时,对于该款保险的保额在客户心里的比重是很大的,能够付出多大的保费和人们心中想得到的保障有很大关系。公司在设计产品时,建议针对不同年龄的人群来推出不同类型的产品。较大年龄人群依然占保险市场的很大份额,想出更多办法,结合保额对人们购买产品时的影响,推出更好的产品更能保持这一人群的支持。对于较年轻群体,市场的空间较大,推出针对年轻群体的产品,抓住较年轻群体的市场,能进一步提升公司盈利。

【参考文献】

[1]陈英.大数据时代下保险业发展趋势及风险应对策略[J].今日财富,2020(24):51-52.

[2]廖伟革.大数据支撑保险业发展状况研究[J].现代经济信息,2019(04):361-363.

[3]李弘熙.浅析大数据背景下保险业发展[J].中国集体经济,2020(21):98-99.

[4]吴占福,马旭平,李亚奎.统计分析软件SPSS介绍[J].河北北方学院学报(自然科学版),2006(06):67-69+73.

[5]郝爽,李国良,冯建华,等.结构化数据清洗技术综述[J].清华大学学报(自然科学版),2018,58(12):1037-1050.

作者:王智毅 杨杉 单位:四川大学锦城学院计算机与软件学院