电子文件存用分离研究和实现

时间:2022-06-27 09:15:35

电子文件存用分离研究和实现

1引言

信息化是当今社会发展的一大趋势,以计算机技术和网络技术为核心的现代信息处理技术正深入到社会的各个领域和各个层次,大量的信息资源以电子文件的形式产生和出现。这些电子资源中,相当大一部分具有相当高的保存和利用价值。如何安全、高效和长久的利用好这些电子资源已经成为一个迫切需要解决的问题。

2电子文件存用分离的必要性

伴随电子政务和办公自动化在我国的的快速发展和高度普及,大量具有保存价值的电子文件不断产生。但是,目前对这些电子文件的管理和利用仍然存在着很多问题。

2.1电子文件的安全性堪忧

目前,我国大部分档案系统中对电子文件的利用都是基于电子文件原件的利用。对于这种利用方式,电子文件的真实性无法得到有效的保障,电子文件的外泄和扩散缺乏有效的控制手段,电子文件受到病毒感染和人为破坏的风险性比较高。

2.2电子文件的利用效率比较低

电子文件能否有效利用是衡量一份电子文件存在价值的一个重要的指标。在我国,目前电子文件的利用效率仍然比较低。产生这种现状的主要原因是我们缺乏对电子文件进行有效利用的手段,对电子文件进行利用的成本比较高。2.3电子文件的管理还缺乏统一的事实标准和格式自1999年以来,我国相继了《电子文件归档与管理规范》(GB/T18894-2002)、《纸质档案数字化技术规范》(DA/T31-2005)、《公务电子邮件归档与管理规则》(DA/T32-2005)等电子文件管理的规范和规则。但是我们现有的管理系统和与规范相适应的技术手段仍然有限,我们还缺乏对规范实现的技术支撑体系。

3电子文件存用分离的设计思路

电子文件的存用分离是指对各种类型格式的电子文件,通过中间件的加工和转换后以一种统一的标准格式进行利用的技术手段。通过存和用的分离,可以保护原电子文件的安全,提高电子文件的利用效率,并且能够统一文件的格式以完成对规范和标准的支撑。

4电子文件的特点———多样化和封闭性

实现电子文件存用分离的瓶颈是电子文件类型和格式的多样化和相当大一部分电子文件格式的封闭性。电子文件格式的多样化是指当前我们所产生的电子文件的类型多样化和电子文件格式的多样化。我们所常见的电子文件型和电子文件格式如表1所示。电子文件格式的封闭性是指某种类型或者某种格式的电子文件是某一厂商私有的电子文件格式,他实现的时候并没有遵循某种格式标准,实现之后也没有将他所使用的格式公开化,也没有将其格式提交给某一标准组织。要想对该文件进行标准化解析有一定的难度。所幸的是,对于这种文件格式,厂商一般会为开发者提供部分的API来访问电子文件的部分信息。要实现电子文件的存用分离,我们必须借助某一种手段,规避电子文件的多样化和封闭性的特点。标准化是实现复杂问题简单化的一种有效方式和手段,借助标准化的定义,对文件的结构进行标准化约束和规范,从而能够达到解决问题的目的。图1描述了实现电子文件存用分离的系统架构图。文件解析引擎接口实际上就是定义了一套标准。它包括文件属性接口API、文件内容接口API和文件样式接口API。

4.1文件属性解析接口

文件属性接口API用于规范提取文件的属性信息。这些属性接口API包括的接口方法如表2所示。

4.2文件内容解析接口

文件内容解析接口主要定义了读取各种格式文件的文本内容的规范。为了保持文本信息使用过程中的一致性和通用性,应该采用一种通用的、标准化的规范来定义这些文本信息。HTML作为应用非常广泛的规范和标准,我们可以采用这种标准来定义我们的文件内容信息。HTML通过标记符号来标记要显示在网页中的各个部分。网页文件本身是一种文本文件,通过在文本文件中添加标记符,可以告诉浏览器如何显示其中的内容(如:文字如何处理,画面如何安排,图片如何显示等)。

4.3文件样式解析接口

文件样式接口API定义了格式化文件内容中文本信息的规范。级联样式表(CascadingStyleSheet)简称“CSS”,通常又称为“风格样式表(StyleSheet)”,它是用来进行网页风格设计的。通过设立样式表,可以统一地控制HMTL中各标志的显示属性。级联样式表可以使人能有效地控制网页外观。使用级联样式表,可以精确指定网页元素位置,外观以及创建特殊效果的能力。

5电子文件解析相关技术

文件解析仍然是制约电子文件存用分离发展的瓶颈,选择合适的技术平台是实现存用分离的关键。以下将列出对当前比较流行,使用比较广泛的电子文件进行解析的关键技术和平台。

5.1JAVA平台

Java是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由SunMicrosystems公司于1995年5月推出的Java程序设计语言和Java平台(即JavaSE,JavaEE,Ja-vaME)的总称。Java技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于个人PC、数据中心、游戏控制台、科学超级计算机、移动电话和互联网,同时拥有全球最大的开发者专业社群。在全球云计算和移动互联网的产业环境下,Java更具备了显著优势和广阔前景。

5.2Office文档解析技术———POI

ApachePOI是用Java编写的免费开源的跨平台的Ja-vaAPI,ApachePOI提供了对MicrosoftOffice格式文件读和写的功能。ApachePOI是创建和维护操作各种符合OfficeOpenXML(OOXML)标准和微软的OLE2复合文档格式(OLE2)的JavaAPI。ApachePOI可以使用Java读取、创建和修改MSExcel文件、MSWord和MSPowerPoint文件。ApachePOI主要包括如下模块。HSSF:提供读写MicrosoftExcelXLS格式档案的功能。XSSF:提供读写MicrosoftExcelOOXMLXLSX格式档案的功能。HWPF:提供读写MicrosoftWordDOC格式档案的功能。HSLF:提供读写MicrosoftPowerPoint格式档案的功能。HDGF:提供读MicrosoftVisio格式档案的功能。HPBF:提供读MicrosoftPublisher格式档案的功能。HSMF:提供读MicrosoftOutlook格式档案的功能。

5.3PDF文档解析技术———PDFBox

PDFBox是一个开源的可以操作PDF文档的JavaPDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。它具有以下特性:(1)将一个PDF文档转换输出为一个文本文件。(2)可以从文本文件创建一个PDF文档。(3)加密/解密PDF文档。(4)向已有PDF文档中追加内容。(5)可以从PDF文档生成一张图片。(6)可以与JakartaLucene搜索引擎的整合。

5.4图片文件解析技术———OCR光学字符识别中间件

OCR是英文(OpticalCharacterRecognition)的缩写,意为光学字符识别。通过光学扫描仪和计算机的配合,OCR软件将图像数据进行运算分类后,将图像数据转化为计算机内码。它可以极大地减轻数据录入工作的强度、提高数据录入的速度。OCR技术应用是信息资源建设中的最重要阶段,OCR技术同时是数据加工的核心技术。北京汉王科技有限公司自1985年起就开始从事OCR技术的研究工作,曾受到国家863计划、国家自然科学基金委员会、中国科学院的支持,研究内容涉及到中文、英文、日文、韩文的印刷体识别,中文的手写体识别,手写数字识别,表格识别与还原,版面分析与还原,中文OCR系统。汉王在处理各类资料方面积累了大量的经验,特别是汉王的录入工厂广泛应用于包括图书馆,档案馆,国家专利局,各类数据加工商如清华同方,万方数据等企、事业单位。在各行业中作为他们的有效工具,极大地提高了数据的处理效率。目前汉王OCR核心各项关键技术均位于国际领先水平。

6总结

实现电子文件存用分离的关键是标准的定义和推广,本文提出了一种实现存用分离的解决思路和解决方案。但真正将存用分离广泛运用到实际生产中仍然需要广大厂商的积极参与和推广。