首页文章中心正文

政务大数据开放及共享问题分析

时间：2022-06-08 08:50:26

政务大数据开放及共享问题分析

摘要：政务大数据开放与共享对于促进政府自身转型、社会需求获取模式转型及产业型经济转型都具有重要意义。政府作为政务大数据的主要拥有者，在宏观层面发挥公共管理与公共服务的导向作用时，也必须承担相应的责任。本文从政务大数据全生命周期管理角度出发，重点聚焦政务大数据在采集、传输、存储、共享与应用、销毁等阶段涉及的安全问题并提出相应解决思路和方法。

关键词：政务大数据开放及共享安全；数据全生命周期管理

国家高度重视政务大数据安全、开放、共享工作。2021年9月的《中华人民共和国数据安全法》[1]明确提出，国家建立数据分类分级保护制度；建立集中统一、高效权威的数据安全风险评估、报告、信息共享、监测预警机制；建立数据安全应急处置机制；建立数据安全审查制度；国家机关为履行法定职责的需要收集、使用数据；国家机关应当按照法律、行政法规的规定，建立健全数据安全管理制度，落实数据安全保护责任，保障政务数据安全。随着政务大数据开放、共享工作的有序推进，数据的安全性问题也日益突出，亟待开展政务大数据开放及共享安全问题研究。政务大数据涉及国家利益、公共安全、商业秘密、个人隐私，具有高度敏感性。因此必须加强政务数据平台的数据安全保障能力建设，打破数据孤岛，促进数据共享，以数据全生命周期的安全建设为核心建立政务大数据安全开放及交换体系。下面从数据生命周期的五个阶段分别阐述政务大数据开放共享中所面临的安全问题及解决思路。

1数据采集

大数据时代，我们需要更加全面的数据来提高分析预测的准确度，这就需要依赖于更多便捷和自动的数据采集工具。然而，在政务大数据采集时将面临以下几类安全问题：

1.1数据采集的合法性、正当性、必要性

2021年11月1日，《中华人民共和国个人信息保护法》[2]正式施行，昭示着我国个人信息保护法制进程即将进入新篇章，将与《中华人民共和国网络安全法》[3]和《中华人民共和国数据安全法》构成我国网络空间和数据保护的三驾马车。处理个人信息，应当遵循“合法、正当、必要”并不得过度处理个人信息采集的基本原则，并建立以“知情同意”为核心的个人信息处理系列规则。政务数据采集更需要秉持上述基本原则和规则体系，应按照国家、省、市下发的政务信息资源目录按需采集各部门特定的政务数据，禁止数据的过度采集及滥用。政府主管部门应制定相关协议约定数据使用和保护措施，明确数据提供方、使用方双方的责任和义务。

1.2采集终端的安全性

采集终端如果缺少必要的安全防护或身份认证手段，会给一些假冒的、非授权的采集设备接入网络，从而伪装成合法用户非法监听、窃取甚至篡改政务数据。因此，采集终端设备的注册、认证、准入控制和恶意程序防护，采集人员身份、权限的认证显得尤为重要。建议通过终端杀毒及恶意代码检测软件、准入网关、密码、密钥、令牌、手机短信等多因子认证、数字签名技术、建立统一身份认证系统、零信任安全等技术手段来加强对终端可信度及访问权限的管控。达钰鹏、陈艳春[4]提出的基于零信任模型的电子政务信息共享方案，是一种基于身份、访问权限更细粒度的访问控制方法，能够实现对资源本身全生命周期的动态监测预警。同时，在身份及权限认证通过后，应向数据需求方发起特定数据项或数据集的申请，并明确数据使用期限，上传需要数据共享的文件或依据。待数据提供方同意后方能继续共享交换，这是政务数据开放、共享、传输的前提和基础。

1.3数据分类分级保护

数据分类分级在数据采集、数据治理过程中至关重要，是数据重要性的直观化展示。例如，可以将政务数据资源分为基础政务数据资源与业务数据资源两大类，其中基础政务数据可继续细分为人口、法人、电子证照、社会信用、自然资源和空间地理等信息，业务数据资源则可以依托各行业领域，细分为经济运行、政务运行、电子档案、公共安全、公共服务类等主题数据。从各政务部门数据分析归类逻辑上，又可分为决策类、业务类、管理类等不同层次，再对每个层次生存的政务数据进行有效识别及标记等级，确定政务数据资源的编码、名称、类型、管理方式等信息，为后续的政务数据整理与目录编制提供支撑。只有提前做好数据的分类分级，才能有针对性地对结构化、非结构化、不同类别的数据进行分类识别、保护。同时，利用大数据及云计算能力，根据各政府部门行业内政务应用需求，按照部门、主题、服务对象等资源属性对政务数据进行智能化管理，由系统自动生成不同的政务数据目录。

1.4数据采集的安全边界

政府部门目前仍存在各类业务专网，政务系统及相关数据也大多部署在业务专网内。在逐步整合进国家政务外网或政务内网的过渡期内，跨网络、跨部门数据采集时应按照网络安全等级保护规范及相关部门跨网数据交换的标准建立相应跨网数据安全交换区域。通过部署前置服务器、安全边界设备，安全流量探针等方式实现数据跨网安全及态势感知。应在上述跨网数据交换安全设备中严格制定访问策略，对跨网数据交换进行细粒度的身份、权限访问控制及审计追溯。同时，数据采集部门应与数据提供部门明确双方的权责边界，签订数据安全交换协议，并通过网络入侵检测防御系统、态势感知系统、沙箱蜜罐系统等安全防护设备及软件对数据采集的过程进行实时监测预警，确保在数据采集的过程中，能够做到事件可追溯、问题可排查、责任不推诿。

2数据传输

政务数据在传输时应重点保障其完整性、可用性、真实性、保密性和不可篡改性，通常会采用零信任技术、安全网络协议、对称或非对称加密机制、数字签名技术、区块链技术等手段增强数据传输时的安全性、可靠性。

2.1数据传输安全

政务数据的重要性、敏感性大大提高了在传输过程中被窃听、被冒充、被篡改、事后否认的可能性，因此采用加密的传输通道及技术手段显得尤为重要。在应对窃听问题上，会使用到加密技术；在应对假冒、篡改问题上，会使用到消息验证码或数字签名技术；在应对事后否认问题上，会使用到数字签名技术。同时，在数据传输过程中应采用数据传输安全协议（SSL/TLS）和可信证书认证机制，这同时也要求证书颁发机构在颁发证书时，有义务维护其认证站点的权威性和安全性，在证书过期时应立即撤销，否则易遭受“中间人攻击”，恶意节点会通过持有非法证书和客户端交互，之后替代客户端，向真实服务器发起请求，并把服务器的请求返回给客户端，从而神不知鬼不觉地窃取了中间信息。数据传输的安全，就是通过上述安全技术及协议保障数据点到点、端对端的安全传输。

2.2时间戳及限流机制

政务数据在传输过程中很容易被第三方程序抓包，虽然经过上述提到的加密处理方式无法获取到真实数据，但仍有可能被黑客利用发起重放攻击。为避免上述问题发生，应采用时间戳机制，在每次发起请求中加入当前时间，服务端将比对当前时间和消息中的时间，当超过规定的时间范围后自动归为非法请求。当用户频繁调用接口网络吞吐量过大时，会发生网络通道堵塞，甚至影响服务端的正常响应，这时应采取必要的限流算法，例如：计数器、漏桶、令牌桶等限制巨大流量信息的瞬间提交。

2.3区块链技术

现有的政务系统都是中心化架构系统，很容易在传输过程中出现数据伪造篡改的问题，一旦发生违法违规事件，证据的缺失将给调查取证带来困难。区块链技术采用去中心化的方式，具有透明可信、不可篡改、可追溯等特性，能够有效解决上述痛点难点问题。区块链系统根据应用场景和设计体系的不同，分为公有链、联盟链和私有链。政务大数据共享涉及多个政府委办局，各个单位都具有明确的行政职责，因此建议选择基于领导型成员治理方式的联盟链技术，这样产生的数据更具权威性。欧阳光、石秀伟、赵冬临[5]从区块链应用场景、治理模式、顶层框架设计、开发技术路线及核心策略设计等方面进行了阐述，为解决政务数据共享难、使用监管难、数据安全难以保证等问题提供了解决方案。

3数据存储

政务数据在应考虑存储介质的稳定性、可靠性，尽最大限度避免因物理损坏、人为因素、自然灾害所导致的数据丢失、篡改、不可用等情况发生。同时也要保障政务数据共享交换平台的数据库数据不被泄露、篡改和删除，通过数据加密、权限管控、数据安全网关等技术方式实现。

3.1入库数据的质量安全

当数据源信息重复、不完整、不准确，进入五大基础数据库（人口库、法人库、电子证照、社会信用、自然资源和空间地理）前又未清洗、校验、二次确认，会大幅降低政务大数据整体工作效率，甚至引发社会公众对政府数据的信任危机。这就需要建立统一的数据质量标准。田淼、田继亮[5]设计的基于数据标准体系的政务数据清洗融合系统，通过配置相应的SQL规则、值域规则、正则规则等数据质量稽查规则，对数据的重复性、准确性、时效性等指标进行数据稽查，生成质量评分。同时，可借助数据清理规则（包括字典映射、数据格式转换、潜在数据提取、业务数据核验、数据关联等）和ETL工具等技术方法对部分可恢复数据进行修复。对于不可用技术手段修复的数据，应及时通过数据工单形式进行数据溯源的人工修复。

3.2存储介质及容灾备份的可靠性

对于PB级的海量政务大数据系统而言，单纯的硬件容错已经很难确保其可靠性。为保障数据存储的稳定性、可靠性，应按实际需求选择相应的RAID技术、分布式文件系统多副本技术、容错池技术等。同时，通过数据库同步及高可用技术实现“两地三中心”的系统主备双活并做好跨机房的容灾备份，在遭遇网络及病毒攻击、导致网络故障或系统瘫痪时可以迅速切换主备系统，更换网络出口，或采用主流灾备厂家的CDP技术应急接管系统，待故障解决、系统、数据还原后再切换回主业务系统。

3.3数据库加密及密钥管理

为防止内部运维人员登录数据库通过记录、截屏、录频、拍屏、打印等方式泄露政府敏感数据，应充分利用密钥管理系统来实现对政务大数据共享交换平台数据库的加密解密，上述加解密过程应做到对系统透明无感知，不影响数据交换效率。对不同层级的人员进行权限分级管控，只有合法、合规的使用者才能访问、获取到自身权限范围内的数据源。密钥管理就是管理密钥从产生到销毁的过程，包括密钥的产生、存储、分配、保护、更新、吊销和销毁等。在这一系列的过程中，都存在安全隐患威胁系统的密钥安全，如果密钥管理不好，即使加密算法强度再高，一旦被泄露或被窃取，加密也就形同虚设，毫无安全性可言。因此，密钥管理在数据库加密系统中也处于举足轻重的地位。数据库加密系统的密钥分为用户密钥和数据密钥，数据密钥由分为主密钥和工作密钥两类。主密钥就是用来加密/解密数据密钥的密钥，工作密钥用于对数据库表、记录、数据项加密/解密的密钥。密钥存储的过程中，可根据密钥重要性及数据量大小，自主选择密码装置、密文形式的数据字典进行保存。当政务云环境下的数据库停用或数据删除时，应保证从密钥管理系统中废除所有密钥，以确保任何残留（数据冗余备份、内存残留、操作系统残留等）的政务数据都不能被解密。

3.4日志、数据库以及云审计

服务器日志审计、数据库审计系统的应用既是等保合规的必查项目，也是保障服务器、数据库操作留痕、可追溯的重要技术手段。服务器、数据库审计除了能对基本的应用访问行为实时监控，追溯访问来源定位终端用户信息外，还能有效针对越权高危行为、外部SQL注入、缓冲区溢出、权限提升、拒绝服务攻击等危险行为实时监控预警，提醒管理员用户及时发现可疑行为，并采取有效安全手段，防范安全风险。同时，在角色划分方面，应按照最小特权和权值分离为原则对系统管理员、安全保密管理员、安全审计管理员进行三员管理、三权分立，相互监督。王会金，刘国城[7]提出的大数据时代电子政务云安全审计框架，从基础层、应用层和体系层三个层面为建立科学、可行的标准化电子政务云安全审计体系提供了理论支撑和实践参考。

4数据共享及应用

数据共享及应用会经历数据的汇聚、传输、存储、应用、API接口的调用等过程，同时也将面临更大的安全风险，包括政府、商业及个人敏感信息的泄露、数据的非法篡改和滥用、网络上黑客的攻击等。为降低政务数据在共享应用上的风险，一方面需要政府及相关责任单位制定并实施数据安全管控办法，包括立法、立制、立标等；另一方面需要通过技术手段保障数据共享全程的可检测、可管控、可追溯。

4.1数据共享安全管理制度

对数据共享的安全管控，不仅要健全国家法律法规，还要依法依规、因地制宜地建设配套的、系统的数据安全管理制度。管理制度的设计要上承国家法律法规要求，下接地方或行业标准，确保数据共享组织管理机构职责明确、数据共享活动流程清晰、数据共享过程安全可控和监管有效。

4.2数据共享交换平台安全

大数据共享交换平台是政务数据交换互联互通的基础支撑平台，通过建设基础数据库、信息资源目录系统、数据采集交换系统、信息资源共享服务系统、数据管理平台、安全标准体系等，整合信息资源，打破数据壁垒和信息孤岛，实现对城市领域可共享数据的统一建设、统一流通、统一维护，成为城市公共数据交换、清洗、整合和加工的智慧工厂。图1政务数据共享交换平台体系架构图。图2为国家、省、市政务数据级联交换图。平台的安全性也至关重要，应根据《中华人民共和国网络安全法》规定，对关键基础性信息系统分级实施保护，将共享交换平台系统的定级、备案、建设整改、登记测评和监督检查5个常规动作，贯穿平台的全生命周期。

4.3数据共享全流程监控预警

针对数据共享过程中数据泄露之后无法追溯的痛点，应建立完备的共享数据溯源系统。张涛[8]提出的一种基于数据标签的共享数据溯源方法，通过数据溯源管理系统和数据标签分发中心相互配合，在数据标签分发中心分发给系统数据标签信息的同时，将数据标签同步发送给数据溯源管理系统。数据溯源管理系统可通过在数据传输链路上的探针实时采集数据信息流，在剔除正常业务交互信息流的情况下，依据数据共享规则库和数据标签位置信息实时发现非法的数据共享。

4.4数据防泄露、身份防伪造

在数据应用安全上，如果政务数据被提前或非法泄露将严重威胁到用户隐私甚至政府公信度、国家安全。这就需要通过数据安全检测分析、数据安全网关、零信任安全等技术手段保障敏感数据的安全。如图2所示，零信任可信应用接入可用于用户终端和业务应用之间的安全访问，具有传输加密功能，应用、页面水印、动态脱敏及日志审计等相关功能。只有通过统一授权的认证中心或安全网关为其授权后才允许进入政务数据共享交换平台，这样能够有效阻截非法、恶意的请求。其中，堡垒机作为可信运维，用于运维用户终端、开发人员终端和系统资源之间的安全访问。堡垒机提供相应的对接接口供零信任安全管控平台做定制开发，最终让零信任安全管控平台实现运维操作日志、终端会话信息同步，并接受零信任安全管控平台下发的动态鉴权访问控制指令。同时，通过API旁路监测行为，可以实现对访问行为、页面访问频次及敏感信息访问的实时监测。

5数据销毁

数据可以是资产，也可能是负债。如果不及时销毁在数据共享交换过程中多余、残留的数据，数据资产就演变成了负债。随着政务大数据规模的不断膨胀，无用、多余的数据长期得不到释放、清理，将严重影响到业务数据的实时查询效率、业务运营水平。及时对无用数据进行销毁，不仅可以节省存储空间，节约运营成本，提高交换效率，还可以提升安全性，避免某些敏感数据的泄露及追溯性攻击[9]。因此，应当及时建立起定期对无用、多余政务数据的清理和审查制度。

5.1数据销毁方法及适用范围

数据销毁的手段一般分为硬销毁和软销毁两种。软销毁是通过数据删除格式化或数据重写等软件方法将数据销毁或擦除，如美国国防部的DOD5220.22-M标准[10]便是通过多达7次的重写达到销毁作用，目前主流的重写算法还有RCMPTSSITOPS-Ⅱ标准[11]以及Gutmann数据35次重写算法[12][13]。硬销毁则是采用物理、化学方法直接销毁存储介质，以达到彻底将硬盘数据销毁的目的。软销毁适用于密级要求不是很高的场合，数据覆写较为经济安全，但仍有被他人刻意恢复的风险。硬销毁则适用于高密级要求的场景，销毁后硬盘将无法继续使用。同时，国家保密局已经制定颁发了强制标准《涉及国家秘密的载体销毁与信息消除安全保密要求》[14]，对于涉密载体的销毁一定要遵照此标准执行，不可心存侥幸，擅自处理。

5.2云计算中的数据自我销毁技术

除了人工可控的数据销毁方法外，目前研究者也将关注点放在如何提高销毁效率以及自动进行数据销毁等技术上。随着各地政府相继建立政务云平台，政务数据上云后往往以静态存储或动态计算两种方式存在。在静态存储时，它们往往会拷贝多份副本文件或备份文件以容错容灾；在动态运行时，他们可能存在于内存、网络或磁盘缓存等介质中。如果没有一定的技术手段及自我数据销毁协议支撑，用户无法保证无用的数据被彻底销毁。Boneh等人[15]提出了一种不销毁数据本身而销毁加密数据密钥的方式实现数据的不可访问，首次将数据销毁问题转移至密钥销毁问题，这种方案可大大提升数据销毁的性能。同样，Peterson等人[16]在数据块层使用全有或全无的转换技术（AllOrNothingTransform，AONT）来实施数据销毁。通过AONT算法生成数据块且重写其中任意一部分数据块就会使得整个数据都不可用，达到数据销毁的目的。这些方法为远程数据销毁技术提供了很好的理论支撑。卢张逢喆，陈进等人提出了Dissolver的可信计算系统模型[17]，该模型基于Xen[18]虚拟机监控器和CHAOS[19][20]系统，保证了敏感数据只存在于私密的运行空间中，用户密钥只存在于虚拟机监控器的内存空间中，不能被操作系统或其他程序访问。同时，设计了一种数据销毁协议，将敏感数据生存时间达到用户指定的时限或未达到时限但用户显示发送数据销毁命令时，内存中的数据、关联的备份文件以及用户密钥被强制销毁。该模型首次提出云端数据的全生命周期保护和自我销毁框架和协议，为建立软件层面的可信计算基础提供了参考。只有在云计算环境中建立起一套切实可行、安全可靠的自动化数据销毁机制，在保证安全性的同时降低性能方面的消耗，才能使用户获得真正的数据掌控权及支配权。

作者：朱海涛单位：镇江市市域社会治理现代化指挥中心