高校档案管理的实施与探讨

时间:2022-11-21 03:34:35

高校档案管理的实施与探讨

1构建Hadoop项目的高校分布式档案管理

Hadoop项目已经大量的应用于实际项目之中。淘宝、百度、腾讯、网易等都在使用Hadoop项目,加上很多高校也在研究Hadoop项目,所以本项目使用的Hadoop已经是相当成熟的技术。Hadoop平台下的高校分布式档案管理系统,主要目的就是利用软件来实现档案文档的归档、查询、浏览以及下载等一系列流程管理,使工作人员对文档的管理工作更加容易,既可以提高工作效率,又可以降低管理的成本。在充分考虑高校档案工作的各种共性,避免重复投资、浪费人力和物力情况发生的同时,采用分布式技术模型来构建—个档案管理系统平台,具有深远的意义。

2Had项目管理系统需要解决的问题

2.1Had项目管理系统研究内容

本项目方案首先是构建档案文件的录入、存储、归档功能,用以实现档案的数字化,所有的文件信息都构建在HDFS系统之上,实现分布式的文件存储。其次,完成档案的检索和分析功能,实现用户对存入档案的查询和数据分析,这部分将利用MapReduce(Hive)实现大规模数据的分析和处理。最后是档案的浏览和下载功能,通过JSP技术实现档案的页面展示和下载。此外,项目还考虑到安全性问题,实现对档案的加密,操作人员的身份认证等功能。构建基于HDFS系统上分布式档案文件系统,从而完成对大量高校档案文件的安全存储。构建基于MapReduce(Hive)的档案数据查询、计算系统,从而完成对已经存储的档案数据进行处理。构建基于技术的档案管理信息系统,通过简洁方便的WEB界面实现对整个档案系统的操作。设计和实现海量档案数据处理过程中的MapReduce。在海量数据查询中结合Hive与MapReduce。

2.2Had项目管理系统研究方法

首先熟悉已有的相关成果,深入分析其中方法技巧,然后针对研究问题的特点及难点,通过不断的实验,大量的实践来分析比较各种方法及方案配置的优缺点,以期解决问题。除了进行个人研究以外,还将积极参加相关学术会议,与同行专家进行交流。同时充分利用现代通讯工具,如网络等,即时了解与本项目有关的最新文献、学术动态,以使研究和应用工作更有成效。在技术上,采用原型化的程序设计方法,逐步求精,最后开发出目标平台。在设计时,特别考虑数据存储问题,尤其是海量数据的存储,同时考虑基于MapReduce检索和分析的效率,注重文件存储的安全性和可靠性。

3实验方案及可行性分析

本项目的研究是基于linux平台进行相应的技术研究,所使用的工具基于Windows/Linux,其研究从技术上是可行的,主要从以下两个方面进行分析:(1)由于ubuntu具有界面好、操作简单以及先进的应用软件集成能力,而且价格适中,拥有广泛的企业用户群,特别适用于提供网络服务。其相关技术资料也较为丰富,在研究过程中如果遇到与平台有关的问题可以在短时间内得以解决,保证项目的正常进行。(2)Hadoop是Apache下的一个项目,由HDFS、MapReduce、HBase、Hive等成员组成。其中,HDFS和MapReduce是两个最基础最重要的成员。(3)本项目的创新之处是在技术上使用了Hadoop项目,通过Hadoop项目解决档案文件的存储、检索等工作,并且能够有效的解决海量档案数据的计算和分析工作。整个项目组的人员大多从事过软件的开发工作,熟悉软件开发流程,熟悉Hadoop平台;(4)HDFS是GoogleGFS的开源版本,它能够提供高吞吐量的数据访问,适合存储海量(PB级)的大文件(通常超过64M)MapReduce是大规模数据(TB级)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言。Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现map和reduce两个接口,即可完成TB级数据的计算,常见的应用包括:日志分析和数据挖掘。基于Apache的Hadoop分布式平台已经开始在各大软件公司使用,HDFS和MapReduce框架也为分布式存储和计算带来了新鲜气息,提高了分布式存储和计算在具体应用场合的使用。当然还存在着Hadoop开发平台中计算机数量和存储数量较小等问题。相信经过开发人员的不懈努力,Hadoop项目的高校分布式档案管理会发挥出其应有的作用。

本文作者:蔡劲松工作单位:安徽新闻出版职业技术学院计算机中心