公共文化大数据系统的实践

时间:2022-08-11 11:00:21

公共文化大数据系统的实践

摘要:本文针对公共数字文化服务高效、高质量发展问题,介绍了以数据分析为抓手的公共文化大数据系统建设思路。总结实践经验,提出大数据系统建设过程中需要重点关注的问题,为各地公共文化服务机构大数据建设提供参考。

关键词:公共文化服务;大数据;系统建设;实践

近年来,我国公共文化服务体系建设得到了长足发展,公共文化服务正在从“有没有”“缺不缺”向“好不好”“精不精”转型升级,大数据系统的建设在改善公共文化服务质量、提升服务效能方面得到了社会的广泛认同。文化和旅游部全国公共文化发展中心基于带动、引领全国公共数字文化服务工作的考量,开展了公共文化大数据系统的探索性建设研究,为今后公共文化机构的决策方式调整,更科学、更准确地保障大众的文化权益,奠定了理论和实践基础。

公共文化大数据系统建设基础

“十三五”时期,我国通过规划实施公共文化云平台、中国文化网络电视、边疆万里数字文化长廊、数字文化馆、数字图书馆等一系列项目,有力地推动了全国公共文化服务的数字化提档升级。数字化工作的逐步开展,为公共文化大数据分析与利用奠定了基础,也使今后利用大数据为公共文化服务赋能成为了可能。

公共文化大数据系统建设实践

明确当前需求与云计算、区块链等应用技术不同,大数据建设是一个工程体系。公共文化大数据系统,是现代公共文化服务体系数字化服务的一种高度浓缩。公共文化大数据系统在建设上需要围绕未来的核心服务集群设计,逐步建立知识库、模型库、知识图谱和算法库,既要利用数字化技术面向公共文化机构采集数据,作为决策依据,也要面向个人用户采集数据,开展“千人千面”的智能推荐。这些工作,需要庞大的人力、物力和财力的支持,比较可行的方式是采取分步走的方式开展建设。在现阶段,考虑到后续经费的可持续投入等因素,笔者所在单位文化和旅游部全国公共文化发展中心将分析与展示问题的优先级提到了前面,考虑优先对公共数字文化工程已有的数据进行采集,优先建立相应的分析模型对数据进行统计、分析,生成部分成果数据集,并提供数据的可视化展示。通过基本系统的搭建和探索,为今后公共文化大数据系统的体系化建设奠定起步基础。系统设计与搭建在建设公共文化大数据系统过程中,我们首先按照网络安全等级保护三级标准建设一个基于hadoop(分布式系统基础架构)的、可扩展的大数据架构体系。在系统功能方面,要求系统具备大数据采集、数据存储、数据加工、数据展示等多种功能。在技术设计方面,采用模块化建设,使系统具有良好的可扩展性和伸缩性,以适应业务系统自身的不断调整、修改和优化。在成果展示方面,采用可视化技术,支持不同场景、不同终端可形象地展示各类数据。同时提出应允许第三方平台(如:文化和旅游部应急指挥平台)调用或集成相应的展示页面,通过标准接口进行数据共享服务等要求。在分析了当前公共数字文化服务主要需要后,将后台管理、数据展示、数据应用、MPP数据仓库、数据分析、数据管控、数据安全、数据采集、数据抽取、数据转换、数据加载(ETL)、数据存储等定为核心业务模块。考虑前期采集数据量及计算任务量有限的因素,系统建设支出可按最小配置部署,在10台服务器上完成初步搭建,部署数据展示Web端、存储集群、核心软件、管理节点、计算分析和负载均衡等服务即可。数据的采集与处理大数据系统的数据采集,决定着系统的成败。在数据采集上,我们现阶段主要考虑采集的对象为国家公共文化云系统集群及以往全国公共数字文化工程建设项目中所取得的存量数据。之所以这样考虑,是依据先易后难的原则,优先将能采集的、好采集的一网打尽。之后再考虑比较难以采集的外部数据以及技术上的半结构化和非结构化数据。在第一阶段,我们通过接口方式采集日志数据、报表数据,线下采集统计数据、文字介绍、报告等约4亿条。完成数据采集后,需要对数据进行处理。经过筛选,我们共提取出了2379个有效指标项,约1500个数据字段,形成84张原始数据存储表和2283万条可用数据。这些数据,将成为后续的分析和可视化的基础。数据的分析与可视化在数据分析方面,结合公共数字文化服务的实践,我们探索尝试建立了12个业务模型、3个数学算法模型提供决策使用。其中业务统计与分析模型包括:经费投入模型、人才队伍模型、两馆一站模型、软硬件设施模型、线上服务模型、活动情况模型、用户情况模型、公共文化云模型、地方文化馆站模型、基础数据模型、群体倾向模型和服务效能模型。数学算法模型包括:基础数据相关性模型、一元线性回归模型和欧几里得距离模型。对于业务模型的分析,主要采用统计、聚类、对比的方法,包含的内容为:中央转移支付各省经费情况、各级公共文化机构基本情况、各省两馆一站从业人员情况、各省软硬件设施情况、两馆一站线上线下活动情况、网站实时访问情况、新媒体和社会化合作服务效果、用户数量/访问来源/年龄段分布情况、服务人群到馆/活动参与/男女比例/网站访问时段倾向、服务能力/服务效率/服务效益情况等。数学算法模型中,如:相关性算法模型,主要利用皮尔森相关系数(Pearson),通过对图书馆从业人员数、各活动参加人次、总流通人次、网站访问量、文化馆文艺活动观众人次、本单位受训人次、志愿者服务队人数等数据的分析,得到文化馆(站)的相似性,从而进一步分析不同地域、不同文化馆之间的共性联系,用于指导相关机构进一步改善服务。数据分析的目的是为决策提供支撑,因此在完成数据的分析后,需要以可视化的形式提供一目了然的呈现。可视化的核心是突出重点,而非将所有信息平铺直叙式罗列。在最初阶段,可优先考虑突出呈现访问量、活动人次、注册用户、数字资源总量、馆舍面积、从业人员数量等。实时访问情况、各地投入和服务情况则可以单独界面进行呈现。此外,为了满足使用数据的实时性和便捷性要求,也针对移动端进行了可视化的建设。

系统建设的经验与启示

做好整体规划。这里既包括对数据采集分析流程的规划、对数据类型的规划、基础运行环境的规划,也包括数据分析结果与应用系统服务形成完整反馈闭环的规划。在顶层设计的基础上开展具体工作,可使工作事半功倍。以需求为驱动、可扩展性为灵魂。公共文化大数据的落地,需抓住几个典型需求驱动型的应用,让大数据分析效果立竿见影。同时,大数据系统的建设必须考虑可扩展性。需求不断变化,大数据系统也会随着需求的变化不断更新升级。大数据系统的可扩展性是应对未来变化的基本要求。重视数据标签的管理。数据标签是大数据应用质量的基石。好的数据标签可以产生质量高的大数据应用系统。建立一个可编辑、可修改、可扩充、可升级的大数据标签管理系统是公共数字文化服务未来高质量发展的必然需求。强化数据安全。数据安全问题,包括系统本身设计的安全、数据库安全、数据传输与交换的安全、数据内容的安全以及数据管理的安全等。在建设大数据系统之初,就应严格按照《中华人民共和国数据安全法》《中华人民共和国网络安全法》的要求设计和执行。提供人才保障。大数据系统从建设到使用产生效果,离不开高素质人才的参与。专业技术机构可以协助建设的只能是与业务内容相关度较低的部分,而诸如数据的采集要求、内容鉴别、分析利用等则需要既懂公共文化业务又懂大数据技术的人才参与其中。加强人才队伍建设,加大人才队伍持续培养,是未来公共文化大数据建设必须作为长期战略进行考虑和开展的内容。

结语

公共文化大数据建设是一项系统工程,从目前的实践看来,尽管我们在探索过程中取得了一些成效,但是建设过程中涉及的一些重要理论问题、关键技术、标准规范、适用指标还有待进一步研究和突破。近日,文化和旅游部正式印发《“十四五”公共文化服务体系建设规划》,对公共文化大数据系统建设也指明了发展方向。“十四五”时期,相信在各地公共文化机构的共同努力下,公共文化大数据建设必然会取得长足的发展,推动公共文化服务向着更高水平迈进。相信在各地公共文化机构的共同努力下,公共文化大数据建设在“十四五”时期必然会取得长足的发展,推动公共文化服务向着更高水平迈进。

参考文献:

[1]完颜邓邓,王子健.大数据环境下公共数字文化服务模式创新研究[J].图书与情报,2020(05):59-66.

[2]冷小严.新时代文化馆数字化建设的几点思考[J].中国民族博览,2018(08):54-55.

[3]周奚如.文化馆数字化建设困境和思路[J].剧影月报,2019(04):97-98.

[4]芦丽丽.5G新媒体平台大数据系统运维体系的建设[J].现代电视技术,2021(04):104-108.

[5]易成岐,窦悦,陈东,郭明军,王建冬.全国一体化大数据中心协同创新体系:总体框架与战略价值[J].电子政务,2021(06):2-10.

[6]马霖,余倩男.智慧黄山时空大数据建设与应用实践[J].测绘与空间地理信息,2021,44(05):101-104,109.

作者:刘平 焦延杰