大数据知识管理与服务平台建设研究

时间:2022-09-23 10:04:30

大数据知识管理与服务平台建设研究

摘要:信息科技发展水平是国家的核心竞争力,建设以知识服务为目标的科技资源已成为国家软实力的重要标志。本文以中国科协数据中心的大数据为支撑,围绕计算机科学与人工智能领域的前沿方向、研究机构、高端人才、科技成果等科技管理与服务要素展开讨论,提出了构建大规模实体要素之间的知识网络图谱,形成立体全景科技态势感知服务能力,为宏观科技管理与决策提供支持服务的具体设想。

关键词:大数据;知识管理与服务;平台

1背景综述

信息科技发展水平是国家的核心竞争力,建设以知识服务为目标的科技资源已成为国家软实力的重要标志。当今世界,各国科技资源在影响区域决策、引导社会舆论、服务公共事务、体现国家软实力等方面发挥着重要作用。高端科技资源建设,不仅是国家进行宏观决策的有力支撑,也是推进国家治理体系和治理能力现代化的重要内容,加快以计算机科学与人工智能为代表的科技领域知识管理与服务能力建设,是科技强国的紧迫需求。在产业数字化发展的背景下,国家大力支持大数据融合应用在产业创新发展中发挥更大作用。我国国家发展和改革委员会于2020年12月23日的《关于加快构建全国一体化大数据中心协同创新体系的指导意见》中提出,要加强全国一体化大数据中心顶层设计,以形成行业数据大脑、城市数据大脑为发展目标,利用政务大数据、工业大数据、城市大数据、大数据公共服务、行业数字转型五点措施深化大数据融合应用创新,提升政务大数据综合治理能力,加强大数据公共服务支撑,推动行业数字化转型升级,推进工业大数据平台建设,加快城市大数据创新应用[1]。中国科学技术协会(以下简称“中国科协”或者“科协”)是中国科学技术工作者的群众组织,是中国共产党领导下的人民团体,是党和政府联系科学技术工作者的桥梁和纽带,是国家推动科学技术事业发展的重要力量。汇聚科协系统数据资源的科协数据中心是“智慧科协”建设的核心和基石,是驱动“三驾马车”高速发展的重要支撑[2]。汇聚科协内外部数据,尤其是外部数据,引领数据资源的有效治理和共享融合,开展以数据的深度挖掘与融合应用为特征的智能化应用,打造科技行业动态感知、互联、智能的“智慧科协”,是中国科协信息化建设的重要内容。中国科协信息中心于2018年年初启动了中国科协数据中心建设,目前已建成集数据采集、存储、加工分析和展示等功能于一体的数据中心技术平台,汇聚了中国科协、全国学会和地方科协各组织节点的数据资源,一定程度上解决了数据分散、数据标准不一致、数据共享互通难等问题。本平台的建设是在此基础上,围绕计算机科学与人工智能领域的前沿方向、研究机构、高端人才、科技成果等科技管理与服务要素,构建大规模实体要素之间的知识网络图谱,形成立体全景科技态势感知服务能力。

2建设目标

大数据知识管理与服务平台的建设目标是依托中国科协学科门类齐全、领域交叉充分、智力资源密集的独特优势,聚焦科技领域,坚持问题导向,以全球视野动态汇聚、融合关联中国科协内外资源,构建面向全球科技领域的覆盖面广、权威性高、实时性强的科技大数据资源池,形成“科技领域—专家人才—科研成果”的科技资源知识图谱,建成“研究兴趣/学术影响/研究方向”等立体、多维、高精度的专家画像标签体系,建成计算机科学与人工智能科技领域研究热点、趋势、人才态势感知服务,利用复杂网络关系分析、机器学习等挖掘技术,为宏观科技管理与决策提供支持服务。

3设计思路与主要功能

平台的设计思路是围绕建设智慧科协大数据知识管理与服务平台的总体目标,以计算机科学、人工智能两个重点领域为需求牵引,建设可扩展的科技资源网络关系图谱、面向领域的科技态势感知等服务。平台总体设计架构如图1所示。平台的主要功能包括大数据知识管理与服务平台、计算机科学与人工智能科技资源池、科技资源知识图谱处理与融合和科技态势感知服务四个方面。

3.1大数据知识管理与服务平台

大数据知识管理与服务平台主要基于已有数据基础和技术基础,快速开发、定制计算机科学与人工智能大数据知识管理与服务平台(以下简称“平台”),针对科协实际需求,重点面向计算机科学与人工智能科学两个典型的学科,实现包括知识查询、合作分析、网络挖掘、热点趋势等功能的定制性研发。3.1.1知识查询知识查询包括人才查询、机构查询、学会查询和成果查询四大类。其中成果查询又分为国内期刊查询、国内论文查询、国际论文查询、专利查询四大类。针对查询的人才、机构、学会、期刊、国内论文、国际论文,点击对应的检索结果会提供对应的人才画像、机构画像、学会画像、期刊详情、国内论文详情、国际论文详情等信息。3.1.2合作分析合作分析是指在科技网络图谱中,以指定两个实体作为输入,通过一些指标要素包括成果—论文、成果—标准、成果—专利、成果—奖励合作情况进行科技实体之间合作关系的网络分析,从而可以获得两个指定实体间的合作分析图谱。3.1.3网络挖掘网络挖掘是指通过查询发现指定科技人才之间或指定科技机构之间基于知识网络的直接关联网络信息,并用可视化网络图谱形式展示出来。在查询中,首先指定科技人才的姓名或科技机构的名称,同时指定查询条件,如时间范围等,查询当前指定科技实体与其他同类科技实体及相关各类成果,组成科技实体与各类成果的网络图谱。网络图谱中科技人才、科技机构、科技文献等都可链接到该实体知识主页。3.1.4热点趋势科技文献代表着科学研究的最新前沿,科技文献中的关键词在一定程度上可以反映一段时间内科技发展的热点方向。在不同学科领域内,学术研究热点状况与热点发展趋势都是科技人员、科研管理部门普遍关注的焦点。因此,研究指定学科领域内的研究热点趋势,分析指定热词的历史研究趋势,并对未来某段时间某一领域的研究热点进行预测,对科学研究及科技管理具有非常重要的参考价值。

3.2计算机科学与人工智能科技资源池

计算机科学与人工智能科技资源池(以下简称“资源池”)是平台所有数据资源的综合集成,是查询、统计、关联、图谱及可视化等各类功能的数据基石。资源池实现了各来源科技数据资源的导入和集成管理。资源池支持中国科协现有业务数据资源导入并支持开放数据的获取。主要导入的科协数据包括学会基本信息、学会LOGO图片数据、学会人员数据、青科奖及青年女科学家等各类人才数据。资源池中的资源种类覆盖计算机科学与人工智能领域中高端人才基本信息、科技组织(企业组织、研究机构、学会等)、研究成果(论文、专利、标准、专著)等信息。其中,中高端人才覆盖中国科学院院士、中国工程院院士、杰青、优青、青年女科学家、中科院“百人计划”等。

3.3科技资源知识图谱处理与融合

科技资源知识图谱处理与融合以科技人才、科技成果、组织机构为核心,结合基于规则的方法和人工智能方法,实现数据的高效消歧与融合,构建基于科技大数据的多维统计数据仓库,建成面向科技服务的知识图谱。

3.4科技态势感知服务

基于统一的逻辑数据视图,面向科技领域发展态势,梳理态势感知决策支持的指标体系,研究能够反映高端科技态势感知的模型,如高端人才合作网络图谱、研究热点分析、科研专家画像、影响力分析等。运用大数据、可视化等技术构建动态的态势感知决策支持系统,从而更客观、更科学地反映领域的发展态势与水平,为科技管理与服务提供辅助决策。科技态势感知服务以高端科技知识服务为核心,建立机构、人才、成果等的态势感知服务,为计算机科学相关领域的研究者及科技管理者提供更全面的领域知识和更具针对性的学科领域和合作者信息,为科技人员与科技管理者提供很好的信息获取服务和帮助。建立科技态势感知算法库,以大数据中心建成的数据仓库为数据来源,利用其提供的多维数据统计结果和面向科技服务的知识图谱进行分析输入,以对科技态势感知的决策支持指标进行分析。

4总结

为进一步强化“智慧科协”建设示范落地工作,发挥第二引擎的支撑作用,中国科协信息中心结合我国大数据、人工智能、新能源、区块链等新一代信息技术的发展动态,聚焦中国科协、全国学会核心业务需求的痛点,依据“盘活数据资产、发挥数据效能,科学性、可行性、创新性、前瞻性相结合”的原则,统筹开展了大数据知识管理与服务平台建设工作,尝试在科技人才精准服务、科技人才成长规律以及科技人才区域流动等方面提供大数据决策支撑服务。截至2020年年底,平台站在全球人才制高点,从全球、全国两个视角汇聚各类实体数据资源,共设计了数据实体14大类,数据资源池实体数据总量超过1.7亿;以人、机构、成果为纽带和数据组织核心,对所有类型实体数据资源进行全面融合,形成融会贯通的大规模关系网络,并基于此实现了多类深层知识分析挖掘,系统边(关系)数据量超过17亿。在一定程度上,实现了科协现有业务数据资源与互联网数据资源的消歧与融合,在资源共享、业务协同、决策支持等方面取得了一定效果。数据作为生产要素的属性表明,其未来必将走向市场。数据应用范围将从传统的组织内部应用为主,发展为支撑内部和服务外部并重,数据资产应用和服务范围的扩大,将成为组织战略发展的一部分。今后一段时期,组织能否树立数据作为生产要素的战略意识,挖掘和利用数据价值、盘活数据资源,实现数据资产保值到增值,决定了组织能否迈出生产要素到生产力转化的重要一步。

参考文献:

[1]杜小勇,卢卫,张峰.大数据管理系统的历史、现状与未来[J].软件学报,2019,30(1):127-141.

[2]冯新翎,何胜,熊太纯,等.“科学知识图谱”与“Google知识图谱”比较分析:基于知识管理理论视角[J].情报杂志,2017,36(1):149-153.

作者:李森 单位:中国科协信息中心