Bootstrap方法统计数据质量评价研究

时间:2022-07-03 03:13:38

Bootstrap方法统计数据质量评价研究

摘要:统计的作用在于服务国家宏观决策和人民生产生活,它在反映国民经济和社会发展水平、为党和国家制定正确的决策、预测未来发展趋势等方面发挥着举足轻重的作用。统计数据要实现以上功能,必须保证统计数据高质量。数据作为生产要素,在数据要素市场化过程中,如果不能保证其质量,数据价值不但得不到体现,反而会给使用者带来不良的后果。本文首先介绍了数据质量的概念和Bootstrap方法的基本原理,然后基于Bootstrap抽样并应用统计分布验证方法对统计数据质量进行评估,最后对山西统计局公布的地区国内生产总值数据质量进行验证评估。

关键词:数据质量;Bootstrap方法;统计分布

毋庸置疑,大数据时代下,数据充分发挥其价值的必备条件是要有高质量数据。2021年1月19日统计局局长宁吉喆在题为“推进统计现代改革”中指出:“统计数据作为国家经济发展的晴雨表已经取得了显著的成绩,但它发挥的作用还不够充分,还有待开发,数据质量需要进一步提升”。统计数据质量的内涵也不再仅仅是准确,大数据背景下,适合的才是最好的,用户需求也是衡量数据质量的一个方面。近年来,科技发展迅猛,新型技术的发展突飞猛进,物联网、人工智能、云计算的发展让人应接不暇,海量的数据纷繁复杂,如何保证数据的质量,已成为上到国家,下到每一位统计相关者关注的问题,也是我们亟待解决的问题。在此背景下,数据质量评估无疑是保证高质量数据的前提条件。在数据评估研究方面,祝君仪(2015)6在《大数据时代背景下统计数据质量的评估方法及适用性分析》一文中分析了目前常用的包括逻辑规则检验、核算数据重估、计量模型分析、统计分布验证、调查偏差评估、多维评估延伸六种评估数据质量的方法,但仅仅是定性分析。成邦文等(2001)2已经证明如果统计指标反映的是经济社会规模(如产量、销售收入等),则统计量均趋于对数正态分布,并提出了统计数据质量评估的对数正态分布检验法。本文基于社会规模服从对数正态分布,利用Bootstrap抽样法对统计数据质量进行评估。

一、基本概念及理论

(一)统计数据质量

对于统计数据质量还没有形成统一公认的定义,随着大数据时代的到来,统计数据质量的内涵从准确性这一个维度扩展到多个维度。衡量数据质量最明显的标准就是数据的准确性,即数据信息准确描述其所代表的真实机构或现象的程度。除了准确性这一特征外,数据的时效性、精确性、完整性、一致性都是数据质量的重要表现。当然在众多的维度中,准确性是摆在数据质量的第一位的,只有数据准确,数据分析结果才有效,管理者据此做出的决策才正确。本文的研究是基于数据准确性进行研究。

(二)Bootstrap基本思想

Bootstrap是1979年Efron在他的论文<Bootstrapmethods:anotherlookatthejackknife>一文中首次提出,又名拨靴法,Bootstrap方法在现代统计学中应用非常广。Bootstrap方法是一种利用计算机软件实现抽样的方法,其基本原理是基于初始给定样本重复抽样,本文设置1000条抽样路径,故可得到1000个样本,基于所得样本计算研究者关心的统计量,在抽样次数足够大条件下很容易得到统计量的分布图。Bootstrap抽样的优点在于不需要事先对总体分布进行假设,根据中心极限定理,在样本量足够大条件下,样本统计量会无限逼近总体分布。

(三)评估步骤

步骤1:假定为初始样本,利用Matlab中Bootstrap函数从此样本中有放回抽取m个样本,本文规定m=1000。步骤2:根据1中抽样结果,计算各自样本统计量,具体利用Matlab中mean函数计算均值统计量,即可得到1000个样本均值;步骤3:基于2中计算结果,调用log函数计算统计量的对数值;步骤4:利用QQ图及单一样本Kolmogorov-Smirnov检验3中结果是否服从正态分布,如果是,说明统计量服从对数正态分布,统计数据质量符合要求,否则,统计数据误差大,需要修正。

二、数据收集与实证研究

(一)数据收集

本文以山西省2000-2019年地区生产总值为研究对象,对其进行数据质量评估。表1是山西省2000-2019年地区生产总值。

(二)验证对数正态分布

利用Bootstrp方法对2000-2019年山西省地区生产总值进行可放回的重复抽样1000次,进而得到1000个Bootstrap样本,然后根据每一个样本计算对应的均值,从而得到1000个样本均值,接着计算样本均值对数,然后通过spss绘制其对应的直方图,如图1所示。从图1可以直观的看出,统计量的对数服从正态分布,从图中只是很形象的观察出统计量对数的分布,要想进一步证实其为正态分布,还需要进行统计检验。本文使用Q-Q图检验和K-S检验两种方法对统计量对数进行正态性检验。(1)Q-Q图又名分位数图,通过比较实际观测数据分位数与正态分布分位数是否一致来检验数据的正态性。具体是通过做散点图,观测两列数据的分位数是否分布在参考直线上,如果是,说明被检验数据服从正态分布,否则非正态。通过SPSS中Q-Q图功能对样本统计量对数进行检验,结果如图2所示,从Q-QPlot中,各点几乎全部落在参考直线上,说明被检验数据服从正态分布。(2)K-S检验。在利用Bootstrp方法得到1000个样本均值对数后,为了检验样本均值对数的分布,提出原假设和备择假设,原假设为样本均值对数服从正态分布,备择假设为样本均值对数不服从正态分布。通过SPSS中的非参数检验K-S方法进行检验,输出结果如表2,从表里可以看出,K-S检验中,Kolmogorov-SmirnovZ值为0.022,P值(双侧)=0.2,在给定显著性水平α=0.05条件下,显然P>α,所以接受原假设,说明样本均值对数服从正态分布。

结语

本文研究新时代统计数据质量评价方法,利用对数正态分布来评估数据质量,鉴于研究数据分布需要足够的样本容量,然而现实数据无法满足此要求,故采用Bootstrap重抽样方法解决两者间矛盾。通过以山西省2000-2019年地区生产总值为研究对象,验证采用Bootstrap方法构造的统计量是否服从对数正态分布判断真实数据的数据质量,通过检验,结果表明山西省2000-2019年地区生产总值统计数据质量可靠。

参考文献

[1]宁吉喆.推进统计现代化改革[R/OL].[2021–01–19].

[2]成邦文.研究与开发机构统计数据质量与异常点的对数正态分布检验与识别[J].统计研究,2000(1):42–45.

[3]EfronBradley.Bootstrapmethods:anotherlookatthejackknife[J].TheAnnalsofStatistics,1979(1).

[4]白永昕,闫懋博,基于Bootstrap方法的多维统计数据质量评估[J].统计与决策,2020(11):5–9.

[5]宗威,吴峰.大数据时代下数据质量的挑战[J].西安交通大学学报(社会科学版),2013(5):38–43.

[6]祝君仪.大数据时代背景下统计数据质量的评估方法及适用性分析[J].中国市场,2015(29):41–42.

[7]王华.政府统计数据质量的用户满意度测评——基于多层次模糊综合评价的实证研究[J].商业经济与管理,2010(5):62–70

作者:张会清 单位:晋中信息学院