数字资源保存探讨论文

时间:2022-03-15 03:56:00

数字资源保存探讨论文

1引言

随着数字信息的激增、数字化环境的形成,广大用户日益依赖数字资源和网络化服务。数字资源长期保存日益受到重视,是一个新的复杂的问题。我国在这方面尚处于起步阶段,而在欧美、澳大利亚等国家,数字资源长期战略保存方面的研究和应用已经取得长足进展,一些国家已经开始应用性部署,积累了大量的知识和经验。2004年7月在北京召开的“中欧数字资源长期保存国际研讨会”对于推动我国数字资源长期保存的研究和应用,具有重要意义。

2数字资源长期保存的关键问题分析

2.1标准问题

数字信息的长期保存主要涉及到两个方面,一是防止数字信息被非法变更与破坏,另一个是维护数字信息的长期真实可读。前者,IT界极为重视,国内外已开发了不少技术产品来防范非法变更与破坏数字信息,只要技术措施与管理手段科学地融合,就有可能在一定程度上解决问题。然而,对于维护数字信息长期有效读出,全球范围都在研究与努力,但至今仍在探索完美的解决方案。因为,它涉及的问题太多,其中最重要的是标准问题。标准是缓解技术更新与数字信息读出矛盾的一剂良方,但在这方面存在一些问题,一是某些标准,特别是行业标准严重滞后;二是完全按照标准操作,目前还有难度。制定标准应当广泛地征求相关技术人员与管理人员的意见,但现在有些行业标准的制定,仅仅是少数人在撰写,有些甚至是闭门造车,使指导与规范大家行为的标准严重滞后于国际发展水平。三是现实工作中存在标准兼容与选择的问题,如甲软件与乙软件都是符合标准的,但甲与乙又各有特点,这个特点就不在标准范围之内了,这为我们提出了一个棘手的问题,我们应当以哪个软件为主。如果以甲软件为主,则乙软件形成的非标准数据,或另类标准特色信息就要向甲软件形成的平台上迁移。因此,作为被保存的数字信息应当采用最稳定的技术与通用的标准归档,与相关行业标准及国际标准相互兼容,这也是我们首先应考虑解决的问题。

在数字资源长期保存中,标准化试图以某一为公共接受的标准来进行数字资源的存储、描述、组织与检索,其中OAIS参考模型是一项重要内容。OAIS是由美国国家航空和航天局与美国太空数据系统委员会(CCSDS)联合制定的标准,规定了数字资源长期保存的术语、概念和参考框架,确定了一个存档系统的基本功能,提出了一个管理数字对象和信息包的信息模型。在一致性方面起了很重要的作用,并逐渐成了众多存储项目遵循的标准,被广泛的用于开发保存工具和存储系统。

2.2管理问题

在数字资源长期保存中,管理是从整体上进行宏观规划、组织和控制,是数字资源长期保存的基础与保障。内容主要包括:保存政策、责任体系及合作机制、知识产权等。保存政策是有效实施数字资源长期保存的管理上的保证,内容应该涉及技术、组织、人文、法律、权益管理等方面,还应该包括国际国内合作、商业运作、相关者培训、质量管理和审计策略等内容。对于保存目标,许多专家认为基本的选择标准是首先保存那些容易丢失的、与未来有关联的、有重要价值的数字资源,保存重要的科学数据,特别是“原始数据”。数字资源长期保存不仅仅是图书馆、档案馆、博物馆等文献机构的职责,内容创造者、出版商等也应当承担相应的责任。为了有效实施长期保存,需要数字对象生产者(如科学家)、提供者(如图书馆)、传播者(如出版商、网站)等之间相互合作,需要图书馆之间相互合作,需要国家、国际层面上的合作。另外,数字资源长期保存中还面临一些法律问题,在制定数字资源长期保存策略时不仅要考虑版权法,而且还要考虑相应软件版权保护问题。目前数字资源所有者主要通过许可方式授权合法用户使用数字资源。如果我们希望长期保存这些数字资源,就应当在协议中增加“永久保存”条款。进行数字资源的长期保存,如果未获得版权所有者的许可,也没有法律“合理使用”、“法定许可”等条款的支持,就很容易触犯知识产权法。如何能有效地解决这些问题,还有待于进一步研究。

一种值得推荐的管理模式是合作管理。其功能主要体现在:首先,有助于从长期保存协作网整体上协调组织,形成数字资源长期保存布局的合理性。具体来说,在学科内容上,避免出现不必要的重复保存,避免因信息缺乏造成某些内容方面的遗漏;在地理分布上,避免造成服务提供的死角;在经济和技术保障力度上,避免长期保存责任者与数字资源对象组配的失误等。其次,借鉴以往和他人的相关经验和教训,尽可能使自己在长期保存决策制定和方案实施中避免某些失误。第三,展示数字资源发展现状与动态、长期保存发展现状与动态,帮助管理协调者、具体责任者等进行对策研究和制定等。合作管理的这些功能,主要是通过数字资源管理流程来实现。

2.3数字资源存储介质的选择问题

数字媒介的倍增性使信息时代的数据量成倍增长,而数字媒介的高创新性却使信息技术日新月异,各种大容量的存储介质不断涌现。这使得数字信息存储的热点将不再是技术本身,而是如何选择存储介质高效地对存储资源进行管理。存储媒体的好坏是影响数字信息长期存取的一大因素。因此要保证数字信息的长期存取,就必然涉及到存储媒体的选择问题。

目前,我国仅有一个国家标准《电子文件归档与电子档案管理规范》对长期归档保存的文献媒体选择进行了推荐,“本标准推荐采用的媒体,按优先顺序分别是;只读式光盘、一次写入光盘、硬磁盘、可擦式光盘等。禁正使用软盘作为归档电子文件长期保存的媒体”。除这一标准外,国内尚无其他有关数字存储媒体选择的推荐意见。然而,这一标准仅仅只是对长期归档保存的数字对象的媒体选择进行了推荐,对广大数字信息产生部门和文献保存部门保存各类数字信息资源的媒体选择尚无参考意见。而且在现实工作中,存储媒体种类纷繁、标准不一的现象较为严重,存储媒体的质量也难以保证,这势必影响到数字信息的保存与有效读取。

选择数字信息存储媒体时需要考虑多种因素,如相关的国际、国家标准或推荐意见、数字信息的生命周期(产生、利用、归档、删除或永久性归档保存)、存储媒体的自身因素(媒体寿命、存储容量、系统独立性、成本)、部门的具体情况(如保存目的、效益、经济承受能力)。笔者认为,媒体选择标准不是绝对的,机构在选择存储介质时,既要考虑到符合标准的数据保存要求,也要权衡自身的经济承受能力。基于以上考虑因素,参照1999年澳大利亚维多利亚洲政府颁布的有关数字介质选择的指南,提出如下参考选择方案:

(1)直接存储器介质直接存储器介质是数据产生后直接进行记录的介质。这类介质极多,应视数据重要程度的不同加以选用。对于重要业务数据,5.25英寸的MO光盘,记录数据比较稳定,更适于作为这类重要数据的存储介质。目前,我国金融、保险、电信与政府部门等广泛使用MO光盘库进行重要数据的存储。WORM光盘适于数据量不大的记录的录入,WORM磁带适于数据量很大的记录的写入。对于普通业务数据,硬盘、MO盘都可以作为记录介质。

(2)备份介质对于海量数据备份介质,磁带存储技术是一种安全、可靠、易使用和相对投资小的备份方式,其容量大,可以在相对比较短的时间内备份大容量的数据,并可十分简单地对原有系统进行恢复,因而磁带是备份大容量数据的理想介质。对于数据量较小的文件备份,自动光盘机、自动光盘库以及硬盘等存储设备都可用来备份数据量较小的、访问频率较高的文件。与硬盘备份相比较,光盘能提供比较经济的存储解决方案,并且容量相对较小。备份大容量数据时,所需的光盘数量极大,将增加存储费用与管理难度。活动硬盘作为备份介质使用的较多,它比光盘具有更多的有利于活跃数据的读写的优势,如读取数据更快等。我国军队、金融等几个较大的需要保密的行业,对于重要的核心数据均使用可移动硬盘备份。可移动硬盘易丢失数据的弱点使它不能用作长期存储数据的介质,只适合于备份当前重要数据,并短期保存。对于档案数据的备份,可考虑使用WORM磁带或WORM光盘。对于部门数据的归档备份介质,MO光盘、CD-ROH光盘以及可擦写磁带都可以考虑。(3)档案数据存储介质WORM盘、WORM磁带都可以考虑作为档案数据存储介质。

(4)用于数据交换的临时存储介质一般说来,软盘具有广泛的通用性和便于携带的特点,可作为普通计算机用户交换数据的介质,但其不稳定性,不适于作为重要数据的交换介质。相对而言,CD-ROM、活动硬盘以及U盘等更合适。

2.4数字资源长期保存的关键技术问题

对于数字资源,必须采取积极的维护和保存措施,否则等到媒体开始老化或技术已被淘汰再去恢复将为时已晚,造成的损失也是不可估量的。保证数字信息的长期读取涉及到很多方面,既有技术因素,也有非技术的,如政策、标准、资金、人员、管理等等。但最重要的还是要有一整套保存数字信息的关键技术。目前常用的保存数字信息的关键技术方法主要有:

(1)迁移(Migration)迁移是目前实际运行中使用比较成熟和频繁的方法。为保证当前存储的数字信息总能被当前系统读取,采用数据“迁移”的方法,持续地将数字信息从旧的软硬件环境转换到新的计算机环境,是一种随着技术变化定期改变信息格式的处理过程。例如,把Wordstar文件转移到WordPerfect格式,再依次迁移到Word3.0、word5.0、word97、word2000、word2003格式,这样随着软件版本的新不断地进行迁移。迁移主要有两种情况,一是把数字信息从种类繁多的格式下迁移到当前广泛使用的几个标准格式中。二是将数字信息从稳定性低的媒体迁移到稳定性更高的媒体上,从对软硬件环境依赖强的格式迁移到对软硬件环境依赖程度低的格式下。但在迁移中可能会破坏文件的原貌、格式、结构、甚至是内容,所以在迁移过程中要格外小心。

(2)仿真(Emulation)仿真与迁移都是为了解决数字信息的读取问题,但与迁移不同,它不是着眼于信息的格式,而是关注读取信息的应用软件环境。所谓仿真就是制作一个仿真器,模仿数字信息产生时的软硬件环境,使数字信息能够以原始状态重现,而不管现在的技术环境如何。仿真法不仅能使在过时系统上形成的数字信息以原始面貌(初始格式、版面与内容等)显示出来,其功能性也随之得到保护。因而仿真引起了人们的重视,它有助于保护、辨认那些极大依赖特殊硬件与软件而又无法在新、旧技术平台间进行迁移的数字信息等(如超文本、多媒体等复杂文件)。仿真被视为理想的保存策略,但由于其技术的复杂性,仿真还处于研究和试验阶段,没有真正的可操作的系统能投入使用。

(3)数据再造(Resume,数据恢复或数据考古)是从原始的字节流中恢复数字资源的原貌,并保证数据资源的可读性和可用性。数据恢复包括数据灾难恢复、数据格式恢复等。数据恢复是具有技术挑战的技术方法,值得注意的是,如果已经无法获取数字资源的原貌,就无法评估数据恢复的成果。因此在正常的图书馆数字资源保存过程中,不赞成使用这种方法作为长期保存的技术方法,而是采用更为实际的运作方法。该方法仅在其长期保存方法无法发挥作用时使用。总之,确定某种方案是否适用,需要充分考虑它的可行性、可持续性、实用性和合理性。

2.5数字信息的安全问题

数字信息日益增多,较易受到干扰和攻击,给数字信息长期保存带来严峻的安全问题。具体实施数字信息安全管理可从以下五个方面着手。

(1)采用社会法律、法规手段,建立安全管理标准和规则。(2)加强用户认证。用户认证在数字信息的安全中属于技术措施的第一道大门,主要目的是提供访问控制和不可抵赖的作用。用户认证方法按其层次不同可以根据用户持有的证件、用户密码、用户特有的生物特征三种因素提供认证。(3)授权,这主要为特许用户提供合适的访问权限,并监控用户的活动,使其不越权使用。(4)加密,加密是信息安全应用中最早开展的有效手段之一,数据通过加密可以保证在存取与传送的过程中不被非法查看、篡改、窃取等。(5)审计、监控和数据备份。保证数字信息的安全,重要的是国家或部门应当制定一个备份机制与规范,对记录的备份规范时间要求、格式要求与份数要求予以规范,并给予财力的支持。备份规范也要考虑不同的工作环境,例如信息中心就应当要求进行时时备份,以防当前数据的丢失。对于数字记录保存部门,应当规定定期备份。

3结语

数字媒介的高渗透性、高倍增性、高创新性与高带动性具有无比的能量,是促进信息资源管理与时俱进的激活剂。它不断地向信息资源管理领域提出新问题,刻不容缓地迫使我们思考与变革。数字资源长期保存就是其中的一个非常重要的问题。我们对其关键问题进行思考,目的在于了解数字资源长期保存的理论知识、技术知识以及实践经验,掌握国际上大量有价值的信息及信息源,促进我国相关领域数字资源长期保存意识的提高及数字资源长期保存工作的开展。