统计基础数据库建设研究

时间:2022-11-24 03:02:23

统计基础数据库建设研究

山东省统计基础数据库是在“互联网+”政务的时代大背景下提出的面向统计数据深度分析的新一代统计大数据管理系统。系统可以有效整合现有的所有数据资源以及对未来产生的数据资源进行更好的管理,形成具备处理百亿级统计数据的高性能、专业化统计数据分析工作平台,有利于更好地开展统计数据生产,建设现代化服务型统计,满足各级党委、政府和人民群众对统计数据服务越来越高的要求。伴随着现代统计业务的快速发展,建设“覆盖全面、调查准确、核算科学、运作高效”的现代统计体系的要求不断提高,这就要求统计部门能够随时对所掌握的统计数据进行大规模、随机场景的专业化统计分析。建设统计基础数据库能够帮助统计部门管理海量、多来源异构统计数据,并对数据进行多层次的分析和利用,解决当前各级统计部门在统计数据管理使用过程中所面临的以下问题:1)数据资源分散,各种来源的统计微观数据、综合数据、宏观数据分散在数管部门、业务处室,数据资源目录不清晰,数据资源管理困难,大规模、跨专业使用困难。2)不同种类的调查历史数据存储在固定的硬件设备上,查询历史数据需要使用相应的软件系统,效率低。年代久远、硬件损坏、软件丢失,导致数据丢失风险大。3)设管、专业、数管、各软件开发商对统计调查元数据的术语不统一,建模方法不统一,导致在数据生产的各个流程阶段,元数据可比性、延续性差。历年的统计制度中,元数据的口径变化没有得到有效管理。4)生成指标时间序列数据困难,不能够方便快速的查看数据随时间的变化情况。5)数据交换效率低。数据库系统与分析系统之间进行数据交换的能力弱,元数据交换质量差,主要数据文件载体无法直接跨系统使用。统计基础数据库的建设应具备以下两大目标:第一,整合各种原始数据资源。使用标准化的元数据来描述来自不同调查的原始数据,使各种格式的原始数据都能够方便的进入到基础数据库中,同时纳入部门宏观数据以及部分微观数据,未来根据分析需求纳入企业数据以及互联网数据,实现对统计数据资源的整合和统一管理,方便按时间序列、主题、地区、行业等多维度多角度的查询,使山东省统计数据资源都达到可以直接用于分析的状态。第二,为统计数据分析工作提供支撑。使各种分析应用、分析工具都能够方便的访问基础数据库中的数据资源,提高数据资源的利用效率,提升数据资源的价值。

1总体架构设计

基础数据库的总体架构如下,从上至下依次分为数据应用展示、数据管理服务层、应用支撑层、数据资源层以及基础设施层。1.1数据应用展示层。数据应用展示层包括元数据门户、数据分析子系统、数据查询展现门户。数据应用展示层直接面向数据分析用户,提供包括了元数据查询、数据查询、数据分析、数据计算等系统核心业务功能。元数据门户可以查询和展示基础数据库中各类元数据、元数据的关联关系、元数据的属性信息等。数据分析子系统包含两个部分,分析应用工具集和可视化分析工具。可视化分析工具是基础数据库提供的基于R语言的集成化数据分析环境。分析工具集是常用的数据分析工具的统称,包括SPSS、SAS、马克威等。数据查询展现门户能够实现用户快速查找、对比数据、数据图表展示等。1.2数据管理服务层。数据管理服务层作为后台支撑数据分析和各种数据应用,核心是数据资源服务平台,各种数据管理模块、数据应用模块以组件的方式连接到数据资源服务平台上。数据资源服务平台应用多种先进的数据查询访问技术、数据缓存基础开发,集成分析引擎、图形引擎、报表引擎的多种组件,针对R和其他多种数据分析工具定制外部访问组件。元数据管理系统基于DDI标准进行构建,主要功能包括元数据编辑、元数据管理、元数据注册、元数据等功能。数据整合工具用于数据入库,通过数据整合工具,多种源头的基础数据都能够匹配上标准的元数据被写入到基础数据库中。1.3应用支撑层。应用支撑层包括基础开发平台、高性能数据加载引擎、混合数据访问引擎、报表工具、公式引擎、图形引擎等。1.4数据资源层。数据资源层包括元数据库、整合资源库、数据仓库和数据集市四个大的组成部分。其中元数据库用于支撑元数据管理系统存储和管理元数据,相对其他三个库是独立出来的,元数据库中的内容通过元数据管理系统进行编辑入库。整合数据资源库采用NoSQL数据库,实现非结构化数据以及元数据、标准化数据文件、数据描述文件的存储。整合资源库的数据内容,按照元数据描述的情况,被打散后逐条保存到数据仓库中。数据仓库的数据结构根据元数据动态生成,方便用户随时根据各种条件进行数据查询,支持对海量数据的即席查询和汇总分析。1.5基于大数据的基础设施层。基础设施基于大数据分析架构搭建,整合资源库、数据仓库和元数据库都由分布式数据库、分布式文件存储系统和应用服务引擎组成,共同为数据存储和数据分析应用服务,具备处理海量结构化数据、非结构化数据的能力,能够满足快速查询、高性能数据运算、复杂数据挖掘的需求。

2基于标准的理论模型设计

基础数据库系统的理论模型可以从业务模型、元数据标准、信息技术和最终实现四个层面。理论模型研发设计参照多个国际统计标准,包括GSBPM、GSIM、DDI、SDMX、ISO11179、CSpro等。标准规范体系按照国家统计局相关元数据标准、国家统计局相关业务流程规范设计,做到完整覆盖和完美兼容。采用标准体系不但可以提升业务融合性、数据可读性、系统可扩展性,而且可以实现统计数据的平台无关性,系统数据和元数据脱离本系统一样可以被理解被使用。系统设计应遵循统计通用业务模型、统计通用信息模型和企业联网直报系统等,采用DDI和SDMX进行统计业务和数据的组织,运用XML和数据仓库等信息技术,形成最终的产品。

3统计分析设计

统计分析设计为全流程一站式,彻底改变过去进行统计分析时需要先去多个系统找数,再逐一进行指标化预处理,再进行分析的低效能弊端,将数据提取、数据处理、数据分析、数据可视化的过程集成在一个平台内,应用高性能的数据计算技术保证整个过程流畅,基于R语言实现描述性分析、模型分析和挖掘分析的多种层次的分析能力,保障用户可以进行任意组合的查询分析,提供即查即所见,使探索式分析成为可能。

作者:侯昭民 单位:山东省统计数据管理中心