图书馆数字化内容选择原则阐释

时间:2022-07-15 06:14:00

图书馆数字化内容选择原则阐释

【内容提要】内容选择是图书馆信息资源数字化项目的一个重要步骤。文章在对信息资源数字化内容选择原因分析的基础上,阐明了数字化内容选择应该遵循的基本原则。

【摘要题】信息资源建设与管理

【关键词】数字化/信息资源数字化/数字化内容/图书馆

【正文】

由于计算机技术、数字存储技术、现代通讯技术和网络技术的飞速发展及有机结合,信息存贮和检索的地理界限已经被打破,人们能通过计算机网络,查询分布于世界各地的数据、图表、文献等信息。图书馆作为信息资源的收集、整理、存贮和交流的中心,要改变以往的工作模式,能够在任何空间、任何时间,准确、快捷地为任何用户提供所需信息,需要图书馆将自己的信息资源数字化,由于各图书馆资金有限,不得不对数字化内容进行选择。图书馆信息资源数字化内容选择是依据确定的标准进行相符性判断,将符合条件的原始资源遴选出来,继而进行数字化加工的一个过程。良好的选择原则有助于确保以尽可能低的成本将最重要和最有用的信息资源进行数字化,避免知识产权纠纷,产生良好的社会效益和尽可能高的投资回报。

1进行数字化内容选择的原因

数字化内容选择的原因有很多,概括起来主要有:(1)存储空间的原因。数字化的产品是通过网络被广大用户存取利用,而大家都知道数字化产品是存放在磁盘阵列上的,磁盘阵列由服务器来管理,磁盘空间是有限的,服务器的能力也是有限的,不可能无限量地存入数字资源,这就需要我们对文献资源数字化内容进行选择。(2)解决数字化生产高成本和图书馆经费有限性之间矛盾的需要。几乎没有图书馆有充足的资源来对整个馆藏进行数字化,内容选择不可避免。(3)数字资源管理的需要。技术的快速发展使数字化项目所生成的数字资源的生命周期越来越短,投入巨资进行数字迁移是延长数字资源生命的一个重要途径,昂贵的维护成本就必须考虑数字化的内容选择。(4)产权保护的需要。图书馆对绝大多数馆藏都缺乏产权的拥有,只能选择那些能够得到产权许可的馆藏进行数字化。(5)特殊文献的考虑。图书馆大都收藏一些对文化伦理乃至民族问题敏感的信息资源,对这些资源进行数字化就要考虑很多因素。(6)残缺文献处理成本的考虑。图书馆馆藏文献中有一部分是残缺不全的,对这些文献进行数字化之前就要进行补缺或作相应的说明,其费用较多。(7)图书馆信誉的需要。图书馆作为责任机构,要对所数字化且的信息资源的可靠性和准确性负责。

2高校图书馆数字化内容选择应遵循的基本原则

不同的数字化项目其内容选择原则不尽相同,西南政法大学图书馆现在正在筹备两个数字化项目:一个是法律古籍的数字化;另一个是法律经典图书的数字化。选择这两个项目是因为这是一个政法大学的图书馆,它面对的读者是政法院校的学生,故选择的内容都是法律方面的。重庆大学图书馆选择的数字化内容主要是理工科类的和建筑类的文献资源;重庆师范大学选择的数字化内容是教育类的文献资源。无论哪个高校在数字化内容选择的时候都遵循了以下八个原则:

2.1原始文献知识价值原则

影响原始信息资源的知识价值因素有很多,但主要包括资源的唯一性、相关价值、对相关主题领域理解的重要性、对相关主题领域覆盖的广度和深度、实用性和准确度、特定主题领域中其他载体记录质量差的信息内容、具有强化项目实施的历史价值以及数字化产品潜在的长期价值等。另外,文献知识价值也可能包括管理价值、艺术价值、证据价值和市场价值,文献知识价值的判断具有很大程度的主观性。图书馆不同,对文献知识价值的判断也不相同,在国内,每个高校的图书馆都有自己的基本馆情,他们都积极对馆内自己认为有特色的东西进行数字化。例如,同样是法律文献,在政法院校的图书馆可能认为这些法律文献是很有价值的,数字化之后可以给更多学生访问下载。而法律文献不是理工科院校的重点,数字化的意义不大。

2.2知识产权原则

馆藏资源的产权状态识别与数字化项目实施和数字资源所在的国家地区有关,每个国家都有自己的知识产权保护法律。学者针对图书馆信息资源数字化项目制订了产权状态识别模型,比如,美国北卡罗莱纳州立大学法律图书馆主任LauraN.Gasaway建立并维护的用于图书产权状态识别模型;康奈尔大学PeterHitle教授构建了用于手稿产权状态的识别模型;印第安纳州立大学和得克萨斯州立大学的产权管理中心也分别提供了图书馆信息资源产权状态识别框架[3,4]。馆藏资源的产权归属有四种情况:第一,馆藏文献是通过接收的方式,把原本属于国家所有的文献收进馆中,这种文献的所有权和著作权都属于国家所有,图书馆代为行使,在这种情况下图书馆在遵守有关法律的前提下,有权根据需要自主进行数字化。第二,图书馆通过购买集体或个人所有的受著作权保护的作品,在这种情况下,如果图书馆没有购买其著作权,则著作权仍属于原所有者,因此图书馆要对此类档案进行数字化,必须在征得原所有者的同意,并向其支付一定的报酬后方可进行,否则就构成侵权。第三,馆藏中的一些文献资源是通过受捐赠的方式得来的,这种情况下,捐赠人一般只是将文献实体所有权赠给图书馆,自己仍保留著作权,所以在数字化这类文献时,与通过购买方式得来的文献一样,同样要征得文献著作权人的法定许可,并向其支付一定的报酬后方可进行。但也有在捐赠时,声明将所有权和著作权一并捐赠给图书馆的情况,这种情况除外。第四,一些寄存在图书馆里的文献资源,寄存只是由图书馆代为保存,不发生所有权和著作权的转移,这种情况下,图书馆在进行数字化之前,必须征得文献资源所有者的同意,否则就侵犯文献所有者的权益[2]。目前数字化项目中保护产权的主要技术有:对每个数字图像添加可视水印或版权戳;给每个数字图像添加不可视水印,这种水印标志可以用来证实数字图像的版权身份,也可用来跟踪这个数字图像在因特网上的传播轨迹;对数字图像加密,并仅把密钥发送给注册用户,这种方法会限制公共存取;将公共浏览的图像限制在低分辨率;将公共存取限制在截取数字图像的一小部分之中,这种方法在一些项目中应用得非常成功;将图像的浏览权仅限定在一些注册或被授权的用户。

2.3能获得更多的用户原则

用户利用的本质就是馆藏文献的利用率,从理论上讲,图书馆信息资源数字化项目应把有限的资金用在利用率高的资源的数字化上,但一些问题需特别关注:其一是要对利用率高的文献的原因进行分析,如果主要用户群体分布在本地,且类似文献又不存在,这类文献的利用率自然可能高,但数字化后在网络上,其利用率如何就比较难以判断,因为这时的用户就不仅局限于本地了。其二是文献的利用率有时与文献的知识价值并不一致,有些具有高知识价值的文献由于存放地点和图书馆存取方针的限制或目录的不完整等因素,可能导致利用率偏低,比如说,西南政法大学的法律外文图书,其实它对读法律的学生来说是非常有知识价值的,由于这些书经济成本很高,一般每本书就是几十上百美元,折合人民币就是几百上千,为了降低这些图书的丢失率和预防别人翻版这些外文图书,以至于这些图书只能复印,并且不用复印全本图书。其三是利用率也会与文献的物理状态有关,一些文献的物理状态限制了用户对其的访问,比如易碎载体的文献、古旧的手稿等。如西南政法大学图书馆的法律古籍,许多都是线装书,并且纸张都已经发黄,很容易被损坏,如果开放由读者随意借阅,会使这些珍贵的古籍被损坏,以致消失,这对西南政法大学图书馆乃至整个法律界都是一个不可估量的损失。其四是在多馆合作数字化项目中,一些大部头的系列文献分散在各成员单位,对这些文献的访问率可能较低,但数字化后可以形成完整的虚拟馆藏,其访问率可能就会提高。其五是一些技术因素不应该成为阻止一些文献数字化的原因,比如,一些文献的数字化文件的格式或像素导致在网上传播速度慢,乃至用户难以浏览,但网络技术的快速发展(如带宽的不断提高)可能在数字化周期之内就能得到解决,另外文献数字化后的格式改变也是促进技术发展的一个重要动因。

2.4原始文献存在状态原则

在数字化内容选择过程中,需要考虑的与原始文献存在状态相关的问题有:原始文献的存在状态是否有利于数字化?其内容是否能被目前的数字化技术完全和充分地抓取?物理材质和形状是否会对数字化过程构成障碍?是否有保存良好的替代品(如缩微胶片)?最常见的物理材质有一般纸张、牛皮纸、草纸、微缩胶片、光学材料、三维物体、玻璃器皿、记录音频的盒带光盘和磁带、视频等。不同物理材质的文献需要不同的技术进行数字化,比如,一般纸张可以采用数字扫描,但三维物体只能采用数码拍照。存在状态对其内容的充分抓取也有重大影响,比如,一般纸张中内容的抓取要比草纸充分得多,甚至,有些物理材质的内容数字化目前还难以实施。所以,只能选择那些当前技术条件下适合于数字化的载体材质馆藏资源,载体的物理尺寸也是影响内容选择的一个重要因素。比如,常见扫描设备对大型地图和海报进行数字化很困难,这时,也许对其替代物(如照片)进行扫描是一种较好的选择[1]。载体的健壮性对数字化内容选择也会产生影响,比如,一些珍贵或易损的资源需要在特殊环境中数字化。牛津大学的“难民研究数字化项目”和耶鲁大学的“开放图书项目”支持资源载体的拆分,以提高数字化设备的吞吐量。健壮性的另一个体现是对数字化处理的特殊要求,如牛津大学的“塞尔特语和中世纪手抄本数字化项目”要求设计一种特殊的保护托架来放置手稿。

2.5对文献资源进行保存原则

为了保存的需要,数字化内容选择的原则之一是安全数字化(safedigitiza2tion),包括原始信息资源的状态允许被完全数字化;数字化实施过程需要搬运原始资源时,其状态适合于搬运;尽可能扫描原始资源的替代品(如照片),从而减少对原始资源的损伤;数字化的产品必须建档,并制订由于时间和技术变化等因素导致的长期维护策略。数字保存的另一层含义是保护易碎载体的原始资源,数字资源的本身就是原始资源的新版本,可以代替原始资源供用户访问,并由此减少对原始文献的操作从而使其得到保护。如对古籍来说,由于它极其容易被损坏,从这个原则上来讲它是应该拿来数字化的,但在数字化过程中,特别要注意不要将这些珍贵的图书损坏,这也将对数字化带来很多麻烦。

2.6经济效益原则

馆藏文献的数字化成本受众多因素影响。分辨率越高的图像所需的成本也越高,彩色图像的成本要比黑白图像的成本高,数字化生成纯文本文件有助于全文检索,且占用较少的存储空间,但需要OCR识别,并需要大量的人工校对,如果生成带标记的文本文件(如XML文件),虽然有助于各种分析乃至纳入数据库管理,但成本必然增加。成本也取决于数字化过程,比如,单页扫描比装订在一起扫描成本要低,保存状态良好的资源扫描要比保存状态差的资源扫描所需成本要低,因为后者需要更多的人工处理。从效益角度看,受益最大的是用户。另外,数字化也便于图书馆管理人员对馆藏资源的管理,并能更高效地提供服务,尽可能提高成本效益是数字化内容选择的宗旨。实现相同功能而采用不同方法的成本会有所不同,比如,数字化生成文本文件与生成图像文件,后者加入元数据与图像文件链接,两种方法得到的效果可能差不多,但很明显后者的成本要低些。另外,规模很大的项目单件数字化成本要低,长期保存的费用也会降低。

2.7避免重复数字化原则

对于已有数字化版本的馆藏避免再次数字化是目前内容选择的一个基本原则。目前,都觉得数字图书馆有利可图,于是国家图书馆、各地区各行业图书馆甚至是一些企业,都一哄而上,从自身利益出发,纷纷建立自己的数据系统,在内容上缺乏明确的分工,相互之间在技术上、数据格式和标准并不兼容,往往好大喜功,力图“最大”、“最全”,无法实现资源共享,实际上形成一种“信息割据”的局面[5]。但要考虑已有数字化版本的质量、记录状况和功能是否能够满足用户的需要,以及获取数字化版本的条件,甚至还要评估获取数字化版本与重新数字化两者所需费用。一般来讲,自己再数字化的成本要比获取数字化版本的费用要高,如果我们确实需要这部分数字化资源,我们可以向这部分数字化资源的所有者购买使用权。这样就可以节省自己图书馆的开支,也达到了目的。在其它条件都允许的情况下,最好不要重复数字化,因为重复数字化,是对金钱、时间、人力、物力的一种浪费。

2.8技术条件限制原则

数字化内容选择将受现有技术条件的限制,我们在选择数字化内容的时候必须要考虑现在的技术是不是能够顺利地把这个内容数字化。考虑的主要因素有:数字化过程中对原始资料识别技术方面的问题,会导致数字技术生成的文献数字版与原始文献包含信息相比出错率很大;数字资源显示在用户终端的质量;图书馆支持的现行平台和网络环境对数字资源的存取能力;数字资源网络传播速度的合理性;对未来用户使用先进设备的预测,以免日后需重新扫描;搜索引擎对图书馆数字资源的索引能力。另外,还要考虑一些特殊资源数字化的技术可行性,如,需要超高分辨率的文献资源、颜色至关重要的原始资源、超大尺寸的资源、三维形态的资源以及易读性很差的资源载体等。

图书馆在进行数字化内容选择的时候,只有满足了以上的原则,数字化才有价值,才能给图书馆和读者都带来好处。

【参考文献】

[1]臧国全.图书馆信息资源数字化内容选择原则研究.图书情报知识,2006(1):21-24

[2]向立文.档案数字化建设中若干问题的研究.湘潭大学硕士学位论文,2004

[3]CopyrightManagementCenter.[2005-07-30].www.copyright.iupui.edu/

[4]CopyrightCrashCourse.[2005-07-30].www.copyright.iupui.edu/

[5]陆娜,李纲.论我国数字信息资源建设.情报科学,2006(2):204-205

a