本体电子政务数据平台研究运用

时间:2022-03-18 02:56:00

本体电子政务数据平台研究运用

全球性的网络化、信息化进程正改变着人们的生活方式,Internet技术应用以及电子商务的飞速增长给人们生活工作的各个层面带来了深刻的影响。随着计算机与网络技术的迅猛发展,“政府信息化”越来越受到政府机关的重视,各地政府机关纷纷开始建立电子政务业务系统。目前大多数政府机关已建立了大量的信息系统,例如档案管理系统、税务系统、工资系统、人事管理系统、OA系统、公共服务一卡通、资产管理系统等。但众多业务应用系统相互独立,它们各自采用不同平台、不同数据库、不同编码,致使各业务系统之间的数据交换和信息资源共享存在困难,信息孤岛现象明显¨1]。

同时,众多的应用系统所带来的身份的认证和管理的复杂性既使得管理成本不能降低,又使得整个系统的安全性、可整合性降低,这已成为电子政务信息管理系统进一步发展的瓶颈所在。因此,要想改变电子政务信息化水平的现状,整合信息资源,解决“信息孤岛”问题,就必须建立一个公共数据平台,它是在政府部门原有的各业务系统层面上搭建的一个高层应用平台,将各业务系统的异构数据集成应用,向下屏蔽各异构信息源异构性,向上提供数据集成基础服务,实现各种信息系统的互通互联和数据共享、数据的一致性,并在此基础上实现规范的信息管理。近年来,随着语义Web的发展,其核心技术本体在数据集成方面得到了应用。本体作为共享领域概念模型,可以通过定义领域内一致的术语和术语间的关系来描述异构信息源的语义信息,从而消除异构数据源的语义冲突。

在国外,对本体的研究较早,本体已经应用到各个领域。相比国外,国内对本体的研究起步较晚,尤其是在电子政务方面,缺乏一致的本体模型,相关的应用也少。目前,本体技术很少在电子政务信息化建设中应用,因此,如何把本体技术应用到电子政务异构数据管理集成中,采取何种策略进行构建,消除电子政务各信息系统异构数据库模式的语义冲突,从而解决电子政务中异构系统导致的信息孤岛问题,构建统一的数据平台,以便提高政府管理效率,就显得尤为重要。

1电子政务与本体

1.1电子政务与本体概述

电子政务是政府机构广泛深入地应用现代信息和通信技术,将政府内部和外部(社会)的责权与职能通过计算机网络硬件和软件技术进行集成、整合、优化、重组,做到跨越时间和空间,突破部门分割和传统组织、工作方法与工作流程的限制,力求全方位地、有效地施行与提供安全、高效、优质、规范和符合国际水准的管理与服务。本体是为了某种目的描述世界时的一组抽象化概念,并且该组概念是得到广泛认可的、以规范化形式描述的。根据定义描述本体时目的的不同,本体可以分为多种类型,依照领域依赖程度,可以细分为顶级(top—leve1)、领域(domain)、任务(task)和应用(application),这里研究的是领域本体,领域本体由属性、对象、关系和子领域本体组成。引入本体的思想,借助本体对领域知识进行详细描述,以抽象出概念化的语义层次,为进一步研究语义化的信息交互提供了基本的语义层次2J。从形式上来说,本体由概念、关系、函数、公理和实例5种元素组成。本体中的概念可以是一般意义上的概念,也可以是任务、功能、行为、策略推理过程等;关系表示概念之间的关联;函数则是一种特殊的关系;公理用于表示一些永真式;实例是指属于某种概念的基本元素,即某概念类所指的具体实例。

1.2本体在电子政务中的应用案例

美国印第安纳州电子政府建设是很多文献介绍的典范,其成功之处在于利用本体方法建设电子政府数据库J。美国印第安纳州电子政府IndianaFamilyandSocialServicesAdministration(FSSA)本体,属于最上层的域本体设计,它在“家庭与社会服务”这一本体下定义了9个本体(即低收入、处于危险的儿童、精神病与吸毒、弱智、区域健康与人性化服务、医疗补助、政府机构、法律实施及财政),建立了最上层的概念关系,并用图形和箭头形式标示出了各下层本体之间的关系以及在一个专业本体里所包括的术语。

1.3电子政务中本体的核心概念及抽取方法

目前,大多数本体学习方法和本体学习系统都是直接将术语识别为概念。术语的抽取被认为是进行本体自动构建的关键。针对术语抽取的研究主要有基于语法规则的方法、基于统计的方法、ICT—CLAS系统法J。利用语法规则的方法来进行术语抽取具有提取术语准确度较高、处理过程简单、计算量较小、能够有效提取低频术语等多项优点。但是,由于语言学规则本身难以掌握,尤其是针对开放性的语料,语言学的规则更是难以准确应用,利用人工来研究语言学的规律越来越难以实现;使用统计的方法来抽取术语可以高效地识别领域术语,只要一个词在文本集中出现的频率高,就可以被有效抽取出来,可移植性较好。但是,这种方法计算量大,在处理低频术语的时候,效果较差;ICT—CLAS系统法主要采用ICTCLAS系统对内容进行分词处理,然后对分词进行抽取处理,这样抽取的优点是抽取内容比较全面,但效率比较低,并且需要人工手动处理。

以上抽取方法都有优缺点,在本体抽取中单独地使用其中一种方法都不能达到最优的效果,笔者把以上多种方法混合起来,采用程序自动分词合并方式,加入TF—IDF算法,增加对领域术语的相关度的计算,筛选出与领域相关度低的术语,从而提高领域术语抽取的正确率。基本步骤如下:

1)采用语法规则的方法提取相关候选术语;

2)采用程序自动处理方式,对相关候选术语进行分词;

3)采用统计法对分词进行统计,根据频度提取术语;

4)使用TF—IDF算法对提取的词进行相关度计算,求出每个候选术语在政务领域文本中的相关性,抽取出政务领域独占性强的词作为政务领域术语。

2电子政务公共数据平台架构

为了确保异构数据获取和更新的准确性,同时又不改变原有硬件设施和人力资源,要想实现真正意义上的异构数据库间信息资源的共享,集成后的数据必须保证较高的集成性、一致性和完整性,这是公共数据平台建设的重要环节。

2.1本体模型构建

电子政务中大量不同的应用系统,其异构是普遍存在的,要想向下屏蔽异构数据,建立数据中心,向上提供公共数据平台,就必须构建本体模型对元数据进行抽象概念化处理。电子政务本体构建中的2个核心问题是概念抽取和概念关系的获取,概念抽取是对数据源进行分析,抽取出概念集合和每个概念的属性集合。概念抽取本体有很多方法,可以由领域专家手工进行,也可以利用领域概念词典,自动抽取数据源中的概念。概念关系的获取可以通过2种方法实现,即基于语言规则的方法和基于统计的方法。在对所有数据源进行分析的基础上,找出其中所涵盖的术语,进行概念抽取,定义共享的词汇表,根据相关本体规则进行本体抽象和语义处理。

2.2公共数据平台架构

使用公共数据平台的好处在于所有的共享数据被存储在中心数据库,可以向上层提供统一的数据,便于资源共享和集中管理,而电子政务网内各应用系统中异构数据库就拥有了完全的自治性,这样首先需要对底层异构数据库进行本体抽象处理,向下屏蔽异构数据,然后采用数据交换技术和数据同步技术保持中心数据库数据和底层异构数据库数据的实时同步。

电子政务公共数据平台架构分为应用层、异构数据集成层、本体模型层和异构数据本体库层,如图2所示。异构数据本体库层主要包含各大应用系统异构数据库,通过不同的连接器及适配器向本体模型层提供本体的元数据;本体模型层对元数据进行概念化,按照本体规则进行抽象处理和语义处理;异构数据集成层在本体模型之上利用AGENT同步模块对数据进行交换、同步而实现数据集成,公共数据都集中到中心数据库,向上层提供公共数据平台;应用层主要是用户访问层,针对不同用户提供统一身份认证,实现单点登陆。

3电子政务公共数据平台设计

3.1构建电子政务领域本体的方法步骤

W3C组织推荐的在语义网上应用的标准本体表示语言是OWL,目前本体的构建方法主要有TOVE法、骨架法、KACTUS工程法、SENSUS法、IDEF5法、七步法等。这些方法大多数是以不同领域为背景,从个案的开发过程中通过逆工程总结出来的J。例如:TOVE专用于构建TOVEOntology,是关于企业建模过程的知识本体;骨架法专门用来构建企业本体;KACTUS是指“关于多用途复杂技术系统的知识建模”工程,目的是要解决技术系统生命周期过程中的知识复用问题-l;SEN。SUS法是开发用于自然语言处理的SensusOntolo。g)r的方法路线¨;IDEF5法是用于描述和获取企业本体的方法-l。;七步法是斯坦福大学医学院开发的,主要用于领域本体的构建_l。这些方法各有特点,但都不是针对电子政务领域的,没有充分考虑电子政务领域的特点。笔者结合电子政务领域特色,提出基于电子政务业务模型,抽取概念,建立电子政务领域知识本体的方法,步骤如下:

1)需求分析,确定电子政务领域本体应用的目的、范围、表示方法和用途等。电子政务领域本体建设要以应用需求为牵引,要对人类在认识世界过程中形成的不同“本体”(知识体系)进行认真分析,最终达到需求分析的定位准确、涵盖得当。

2)概念化及抽取,通过各种渠道获得电子政务领域本体的主要概念,确立概念间等级关系,并用精确无歧义的语言加以描述,形成该领域本体的核心语义内容。获得领域信息最根本的方法应该是考虑复用已有本体的可能性。通常的也是最行之有效的方法是复用已经广泛使用于各个学科领域的主题词表和分类表。

3)概念间联系,确定电子政务领域本体概念间联系,如属性、种属关系、总体与部分关系、领域中的特有关系;对所收集的名词术语进行规范,罗列重要的词和短语,并将其归类。还要确定概念间结构,定义类别和等级结构。

4)本体生成,采用SFCA算法,对概念之间的关系进行分析,自动生成局部本体,再采用PROMPT算法,把局部本体合并,生成全局本体,存放在本体管理器中。

5)本体编码,利用形式化描述语言对“概念化”的电子政务领域本体进行编码,使机器易于处理,尽量将相关领域已存在的本体集成到要构建的政务领域本体中,既避免重复建设,又可以形成领域内共享的本体。

6)确认、维护与评价。对电子政务领域本体按照一定的标准进行确认和评价,包括本体的清晰性、一致性、可扩展性等;随着电子政务领域知识的增加,本体要不断更新、不断进化,增加本体概念,完善本体概念间的语义关系。

3.2电子政务公共数据平台设计

电子政务公共数据平台是在原有的各业务系统层面上搭建的一个高层应用平台,将各业务系统的异构数据集成应用,向下屏蔽各异构信息源异构性,向上提供数据集成基础服务,实现电子政务各应用系统的数据共享和数据一致性,有效解决信息孤岛问题,并在此基础上实现规范的信息管理。设计基于本体的电子政务公共数据平台,首先研究数据集成方法与本体技术及基于本体的语义集成,在此基础上构建公共数据平台异构数据库集成框架,基于本体的异构数据库集成框架是设计公共数据平台的基础。目前数据平台的建设主要有3种模式:全局中心数据库模式、数据交换模式和共享数据中心模式。全局中心数据库模式:建立一个数据中心,各应用系统直接应用于该数据中心之上,逐步取消原有业务数据系统;数据交换模式:保持原有业务数据系统,用数据缓存的模式进行各业务数据系统之间的数据转换和抽取;共享数据中心模式:原有各业务数据库保持不变,通过触发器或者开发数据接口抽取需要共享的数据,并且进行转换,汇总生成共享数据库。上面的模式各有所长,但也存在不足,这里提出一种统一公共数据平台模式,即制定统一信息编码标准,从而建立核心数据库,存放最基本的公共信息,保留原各业务数据系统。这样公有数据存放在中心数据库,一方面可以实现资源的最大共享,另一方面各专业数据仍保留在原系统中,保证了数据独立和安全。平台结构如图3所示。公共数据平台建立在中心数据库之上,中心数据库中存放的公共数据可以通过数据交换、数据同步的方式更新到各业务系统数据库中,数据的同步更新采用事件驱动方式,通过触发器和AGENT同步模块来更新数据。AGENT同步模块基于本体模型之上,本体模型层对元数据进行概念化,按照本体规则进行抽象处理和语义处理。

4结论

笔者重点介绍了基于本体的电子政务公共数据平台的设计,首先介绍了本体的概念及电子政务中本体的抽取,接着建立了本体模型,在此基础上构建了基于本体的电子政务数据平台架构,然后重点介绍了电子政务本体的构建方法步骤和公共数据平台的设计,最后建立了电子政务公共数据平台的统一身份认证机制。基于本体的电子政务数据平台能够较好地解决政务系统中的信息孤岛问题,实现数据的统一和共享。但是,有些地方的研究深度还不够,例如电子政务中语法规则的制定还不全面,本体抽取的相关度还需要进一步提高。