区域自动站数据质量分析与评估

时间:2022-11-04 11:16:43

区域自动站数据质量分析与评估

常规气象观测数据,尤其是空间密度较高的区域自动站观测数据,是制作天气预报和气候预测的基础资料,其正确与否直接影响着天气预报和气候预测的质量[1-3]。近年来,国内外针对自动站观测资料质量控制已作了大量研究,为自动站质量控制的业务应用奠定了良好的基础[4-8]。气象资料业务系统(简称MDOS)就是在此基础上研发的一个集数据传输监控、质控信息处理与查询反馈、基础信息管理、产品制作与数据服务、元数据处理于一体的业务平台。本研究基于MDOS中区域自动站小时数据的质控结果,重点就MDOS正式运行之后广东省区域自动站小时数据的质量进行分析和评估,希望能够为天气应用提供可信性参考,以进一步提高中小尺度天气系统的预报准确率和预警能力。

1考核区域自动站数据质量

1.1考核标准。按数据上传时效考核与否,区域自动站分为考核站和非考核站。本研究首先利用国家气象局业务内网的广东省2015年7月至2018年12月考核区域自动站资料质量,对资料可用率、错误率、可疑率、缺测率进行统计分析。考核标准中所使用的质控码是Z文件质控码,Z文件质控码及其描述如表1所示。可用率的分子对应于一体化的质控码为0、3、4的数据个数;错误率对应于一体化数据质控码2的个数;可疑率对应于一体化数据质控码1的个数;可用率、错误率、可疑率分母均对应于考核要素个数;缺测率分子由3部分数据累加得到:1)考核要素中,质控码为8的个数;2)考核要素中,质控码为7(无观测任务)的要素个数;3)快速质控文件未上传的考核站的考核要素个数,分母对应于考核要素个数。1.2考核区域自动站总体质量评价。图1反映了自MDOS正式运行以来,区域自动站的各月平均可疑率及错误率随月份的分布情况。由图1可知,考核区域站的错误率各月份普遍偏低,冬季(12月—次年2月)错误率接近于0,而可疑率冬季相对其他季节偏高,12月为013%。但是与缺测率横向比较发现,二者对可用率的影响较小,贡献最大月份也低于014%,相对而言,其影响可以忽略。图1考核区域自动站疑误率随月份变化2015年7月至2018年12月广东省考核区域自动站月平均可用率、缺测率的分布如图2所示。由图2可知,可用率存在明显的季节变化趋势,秋冬季节较好,数据可用率均达到975%以上。4月以后逐渐变差,7—10月是一年中数据可用率最差的时段,这与广东省的汛期(4—10月)基本一致。结合各月平均缺测率随月份变化曲线可知,考核区域站可用率随月份变化的趋势,与缺测率变化有明显的对应关系,可用率与缺测率的皮尔逊相关系数高达-0999,通过了显著性为1%的显著性检验。导致区域自动站要素缺测的因素有移动通信故障、数据采集处理软件故障、台站仪器故障以及质控确认缺测4个方面,结合广东省几类故障情况,统计同时段区域站数据缺测率可以发现,通讯故障和数据采集处理软件故障由于其影响范围广,是目前影响区域自动站数据缺测率的主要原因,约占所有缺测情况的75%以上。1.3考核区域自动站要素质量分析。区域自动站按观测要素个数可分为4要素站(温度、雨量、风向、风速)和6要素站(温度、雨量、风向、风速、气压和相对湿度)2种。考核区域站各要素的正确率、错误率、可疑率及缺测率统计结果如图3所示。由图3可知,经过MDOS质量控制后的区域自动站考核要素的错误率及可疑率均较低,二者加起来也不到总量的05%,对各要素可用率影响较大的均为缺测率,气温、风速和降水的缺测率为2%左右,而气压和相对湿度相对较高,气压缺测率为50%,相对湿度缺测率为87%。考虑缺测率对数据可用率的影响较大,本研究进一步对各要素缺测率月分布情况进行分析,所得结果如图4所示。由图4可以看出,各要素2—5月缺测率普遍较高,4月达到最大值,此后缺测率开始降低,7—9月较低,10月以后缺测率分布又有抬升趋势。气温、风速和降水的缺测趋势基本一致,对各要素缺测率进行两两相关性检验,所得结果可以看出各要素缺测率相关性均较好,并且相关性均通过了显著性为1%的相关性检验。

2MDOS质量评估系统中区域自动站数据质量

2.1各地市省级查询与台站反馈情况统计及时反馈率指疑误信息的“查询时间”与“反馈时间”之间的间隔未超过24h的数据个数占总下发疑误数据的比例,它能够量化反映台站对疑误信息的及时处理情况,目前在广东省作为台。站对于MDOS疑误信息反馈的考核标准存在。2016—2018年,广东省气象局发往台站的总疑误信息查询数为270766条,从反馈时效来看,及时反馈率为9307%、超时反馈率为682%、未反馈率为011%。利用MDOS质量评估规则,分别对全省21个地市反馈及时率进行统计可知,东莞、深圳、中山3市台站及时反馈率较高,均达到98%以上,而汕头、河源、茂名、清远的及时反馈率较低,均低于90%。2.2区域自动站疑误信息统计。MDOS平台质量控制结果的疑误类型分为错误、可疑、缺测3类,2016—2018年区域自动站共产生了978691条疑误信息,系统判断或人工判断为错误的数据共计80252条,占据异常数据总体的82%;而可疑数据较多,占异常数据总体的622%;置缺测处理的疑误信息共有289694条,占所有疑误信息的296%。区域自动站数据的缺测过多,一是由于观测设备故障或者通讯异常[9]导致的数据缺测;二是由于观测数据经过质量控制后被标记为疑误数据,经过反馈审核后确认为错误数据,但无可用数据替代,所以当成缺测处理。分析不同要素的疑误信息条数的结果(图略)可知,区域自动站产生疑误信息较多的要素分别为气压(32%)、湿度(35%)、风(18%),其中,气压的疑误信息较多主要是由于广东省土地面积大约3/5是坡地和丘陵[10],受海拔高度影响,气压经常会提示未通过内部一致性检查等疑误信息;风要素疑误信息共181681条,极大风速、最大风速出现时间不在观测时间范围内,存在较多错误。2.3区域自动站疑误信息质控方法统计。由2016—2018年广东省区域自动站产生的所有疑误信息所采用的质控方法(图略)可以看出,区域自动站数据的978691条疑误信息,主要由于数据未通过内部一致性检查及人工检查得到,二者共占了所有疑误信息引起原因的637%,快速质控(154%)、范围值检查(81%)及包含多重检查在内的其他检查(58%)也是发现疑误信息的主要检查方法;而未通过界限值检查、持续性检查、时变检查、空间一致性检查的疑误信息共有67627条,占所有疑误信息引起原因的69%。自MDOS在广东省正式运行以来,区域站数据可疑率和错误率均较低,对数据可用性影响较小,各考核要素可用率主要受缺测率影响。而区域站各考核要素缺测率相关性较好,致使区域站数据缺测的的主要原因是通信故障和数据采集软件故障。为了降低区域站数据缺测率,2018年下半年开始广东省对新增区域站采集传输软件进行了全面升级改造,2019年开始区域自动站通信系统也逐步进行升级,相信这些举措都能有效改善区域自动站数据质量。

作者:侯灵 杨玉红 陈晓庆 单位:广东省气象探测数据中心