首页文章中心正文

高校档案管理的实施与探讨

时间：2022-11-21 03:34:35

高校档案管理的实施与探讨

1构建Hadoop项目的高校分布式档案管理

Hadoop项目已经大量的应用于实际项目之中。淘宝、百度、腾讯、网易等都在使用Hadoop项目，加上很多高校也在研究Hadoop项目,所以本项目使用的Hadoop已经是相当成熟的技术。Hadoop平台下的高校分布式档案管理系统，主要目的就是利用软件来实现档案文档的归档、查询、浏览以及下载等一系列流程管理，使工作人员对文档的管理工作更加容易，既可以提高工作效率，又可以降低管理的成本。在充分考虑高校档案工作的各种共性，避免重复投资、浪费人力和物力情况发生的同时，采用分布式技术模型来构建—个档案管理系统平台，具有深远的意义。

2Had项目管理系统需要解决的问题

2.1Had项目管理系统研究内容

本项目方案首先是构建档案文件的录入、存储、归档功能，用以实现档案的数字化，所有的文件信息都构建在HDFS系统之上，实现分布式的文件存储。其次，完成档案的检索和分析功能，实现用户对存入档案的查询和数据分析，这部分将利用MapReduce（Hive）实现大规模数据的分析和处理。最后是档案的浏览和下载功能，通过JSP技术实现档案的页面展示和下载。此外，项目还考虑到安全性问题，实现对档案的加密，操作人员的身份认证等功能。构建基于HDFS系统上分布式档案文件系统，从而完成对大量高校档案文件的安全存储。构建基于MapReduce（Hive）的档案数据查询、计算系统，从而完成对已经存储的档案数据进行处理。构建基于技术的档案管理信息系统，通过简洁方便的WEB界面实现对整个档案系统的操作。设计和实现海量档案数据处理过程中的MapReduce。在海量数据查询中结合Hive与MapReduce。

2.2Had项目管理系统研究方法

首先熟悉已有的相关成果，深入分析其中方法技巧，然后针对研究问题的特点及难点，通过不断的实验，大量的实践来分析比较各种方法及方案配置的优缺点，以期解决问题。除了进行个人研究以外，还将积极参加相关学术会议，与同行专家进行交流。同时充分利用现代通讯工具，如网络等，即时了解与本项目有关的最新文献、学术动态，以使研究和应用工作更有成效。在技术上，采用原型化的程序设计方法，逐步求精，最后开发出目标平台。在设计时，特别考虑数据存储问题，尤其是海量数据的存储，同时考虑基于MapReduce检索和分析的效率，注重文件存储的安全性和可靠性。

3实验方案及可行性分析

本项目的研究是基于linux平台进行相应的技术研究，所使用的工具基于Windows/Linux,其研究从技术上是可行的，主要从以下两个方面进行分析：（1）由于ubuntu具有界面好、操作简单以及先进的应用软件集成能力，而且价格适中，拥有广泛的企业用户群，特别适用于提供网络服务。其相关技术资料也较为丰富，在研究过程中如果遇到与平台有关的问题可以在短时间内得以解决，保证项目的正常进行。（2)Hadoop是Apache下的一个项目，由HDFS、MapReduce、HBase、Hive等成员组成。其中，HDFS和MapReduce是两个最基础最重要的成员。（3)本项目的创新之处是在技术上使用了Hadoop项目，通过Hadoop项目解决档案文件的存储、检索等工作，并且能够有效的解决海量档案数据的计算和分析工作。整个项目组的人员大多从事过软件的开发工作，熟悉软件开发流程，熟悉Hadoop平台；（4）HDFS是GoogleGFS的开源版本，它能够提供高吞吐量的数据访问，适合存储海量（PB级）的大文件（通常超过64M）MapReduce是大规模数据（TB级）计算的利器，Map和Reduce是它的主要思想，来源于函数式编程语言。Map负责将数据打散，Reduce负责对数据进行聚集，用户只需要实现map和reduce两个接口，即可完成TB级数据的计算，常见的应用包括：日志分析和数据挖掘。基于Apache的Hadoop分布式平台已经开始在各大软件公司使用，HDFS和MapReduce框架也为分布式存储和计算带来了新鲜气息，提高了分布式存储和计算在具体应用场合的使用。当然还存在着Hadoop开发平台中计算机数量和存储数量较小等问题。相信经过开发人员的不懈努力，Hadoop项目的高校分布式档案管理会发挥出其应有的作用。

本文作者：蔡劲松工作单位：安徽新闻出版职业技术学院计算机中心