数据挖掘档案管理应用研究

时间:2022-06-04 03:03:12

数据挖掘档案管理应用研究

一、数据挖掘技术

当今社会科技迅速发展,以往收集数据的模式已经无法适应当代社会发展需要。而数据挖掘技术的诞生,提高了数据收集的速度和质量,且在某种程度上还促进了社会的发展。

(一)数据挖掘技术的概念

数据挖掘技术是从许多的、不完全的、相对模糊的、存在噪声的、任意的实际数据当中,找出其中隐藏的、人们原先不了解的、但又是实际存在的、有用的信息和知识的过程[1]。数据挖掘所得信息具有先前未知、有效和实用三个特征。决策者对挖掘所得信息进行分析,从中提取出隐藏的关系和模式,来对未来发生的行为进行预测。

(二)数据挖掘技术的运用

在使用数据挖掘技术的过程中,数学方法经常被用到,但在一些特殊的时候,也会用到非数学的方法。另外,使用数据挖掘技术过程中,除了上面提到的方法外,还可以用演绎的方法和归纳的方法收集数据。在使用数据挖掘技术过程中,利用对相关数据进行挖掘、收集和分析得出相应的结果,并且这个结果在某些情况下,恰好能被用在管理信息、优化查询、过程控制、决策支持及数据维护等方面[2]。然而,由于数据挖掘技术特性,其在使用的过程中,涉及学科比较广,并且还涉及数据库、数理统计、人工智能、并行计算、机器学习、可视化等许多领域。数据挖掘技术中,常用到的有规则归纳、决策数、人工神经网络、遗传算法,以及可视化等技术。

二、数据挖掘技术的形式

数据挖掘分为描述型与预测型两种形式。描述型是对数据中存在的规则进行描述,并且依据数据具有微观性的特点找出其表征的、普遍性强的、概念层次较高的、比较宏观的知识,并对数据进行概括总结和抽象来描述出同一类事物的相同属性。预测型是分析和处理现有的数据,来获得某类事物中某些属性的内容,或者是预测出某类事物将来形成的规律等。在使用这两种挖掘技术时,经常用到的方法有分类方法、关联方法和粗糙集方法。

(一)分类

在运用计算机数据挖掘技术的过程中,分类是挖掘技术里的重点部分。数据收集的好坏,以及收集的数据的属性分析都是由分类决定的。因此,分类在运用挖掘技术的过程中具有非常重要的作用。分类是对数据库属性进行分析,把元组划分成不同种类的过程。并且在其划分过程中,根据数据形成的训练集,来集中对部分数据进行处理划分。然后,再对余下的部分数据做测试,在测试满足要求以后,遵守对应的规则对其分类。在实际分类过程中,比较有代表性的分类过程是:明确分类的范围、找出目标属性、组成训练集、研究属性、算法选取、分类计算、结果显示、选出测试集、分类规则验证、输出分类规则等[2]。

(二)相关规则

相关规则是数据挖掘技术中,比较简单实用的关联分析规则。它可以准确地将相关数据进行描述,并且能够对数据进行严格分析。在相关规则使用过程中,主要是对具体事物进行描写,并按照相同属性进行结合,然后对其进行总结概括,找出其共同属性和模式。一般会将关联规则直接应用到数据库中,统一地记录下每个事物得出的数据,不但可以正确地记录数据,同时消减了数据的搜索空间,使得整个运行系统得到改善和提高。

(三)粗糙集

数据挖掘技术中的粗糙集是被用作对不精确和不确定性知识进行研究的一种数学工具,在系统整个使用中占的优势比较大[3]。首先,在使用粗糙集方法时,相应的信息不需要了解,并且在运算的时候,算法比较简单且容易控制,得到大量的计算机用户的喜爱。其次,在运行粗糙集的过程中,能从数据中发现异常,排除知识发现过程中的噪声干扰,同时还能将这类数据的规律在最短时间内找出,并利用表格对其进行归纳总结,将其变成决策表,为使用者的查询提供方便。最后,在客观世界,应用有些规则的过程中也会出现不确定性。应用数据库的时候会产生许多不确定性的信息,而这些不确定性都得依赖粗糙集对其进行处理,这样就使得数据挖掘的效率得到大大提高。

三、挖掘技术在档案管理中应用的意义

记录历史资料的重要工具就是档案,它直接反映了档案管理人员的智慧和成果[3]。由于计算机网络的迅速发展,在管理档案信息的实际应用中,引入挖掘技术可以使档案的管理水平得到提高,并且改革了档案信息管理的模式。因此,数据挖掘技术应用在档案信息管理中是具有非常重要意义的。

(一)提高档案信息管理的安全性

档案信息是记载一些比较宝贵的资料,由此可知其价值的表现就是档案信息的实体。对档案管理者来讲,保存有历史意义的档案信息的时间应越长越好。保存得越长远,越体现了档案信息的价值。其使用价值相对应地增大了,被使用的频率也相应地增加,使保管工作非常困难,使用次数越频繁,就越容易缩短档案信息的寿命。同时,保密性是档案信息管理的另一项重要工作,万一档案信息外漏,不仅相关人员的隐私权受到侵犯,还有可能对其以后生活造成消极负面的影响,造成了档案保管与使用之间存在矛盾[4]。将数据挖掘技术运用到档案管理中,可以很好地避免这种情况的发生,从而保护档案信息实体和内容的安全。

(二)加快档案管理的效率,降低档案管理的成本

档案管理工作中引用数据挖掘技术,能够有效改变以往传统的档案管理模式。使得档案管理人员的工作效率和档案信息管理水平得到提高。引入数据挖掘技术,工作人员的管理时间被大量节省,处理档案信息的速度得到提高。同时,还可以加快档案鉴定工作的发展。档案管理工作中的一个重要环节就是档案的鉴定,传统的档案鉴定工作是由档案管理人员凭借多年经验来实现的,具有主观性。数据挖掘技术的运用,可以防止在鉴定档案工作中因档案管理人员的主观性而造成有价值的档案丢弃,为档案管理工作提供了比较有效的定量化方法,使档案的鉴定工作有据可依。

四、数据挖掘技术在档案信息管理系统中的运用

随着计算机信息化的迅猛发展,档案管理工作也需要进一步的完善。过去的档案管理方式已经不能适应当代社会的需要,很多数据信息无法有效地使用。要想有效地利用现有的档案数据,使其价值得到充分发挥,使用数据挖掘技术把那些隐含的信息挖掘出来,对其总结和使用是非常有必要的。档案信息管理中使用数据挖掘技术,能让挖掘出的知识信息得到发挥,并且能使档案数据信息价值被充分地利用。档案管理中应用数据挖掘技术的方法有以下几种:

(一)档案分类法

档案分类法是按照不同的种类把许多档案进行整理的方法。把档案中属性相似的放在同一个类别中,把那些档案属性不同的放在不同的类别当中。在档案进行分类的过程中,数据挖掘技术能够详细地划分这些档案的类别,帮助管理员进行档案归类,档案的检索效率和速度得到有效提高。

(二)档案收集法

档案收集法是先分析数据库中的数据,并通过对这些数据做详细的描述建立模型。然后用这些模型和所有的测试样本进行对比,一旦经测试后有一个模型与样本相符合,就可以依据这个模型对管理对象进行分类。

(三)档案保留法

档案保留法其实就留住老的人员,使其档案不流失的过程。对某个单位来讲,使用新人员的成本比留住一个老人员的成本要高很多。因此,在研究保留老人员时的一项很重要的工作是找出人员档案流失的原因。并且通过数据挖掘技术,来对人员档案流失的现象进行详细分析,并采取相应的办法,留住老的人员,避免其档案的流失。档案管理中,不同使用者所需档案使用程度和需求也不一样[4]。但把数据挖掘技术运用到档案管理中之后,利用数据挖掘技术对档案进行分类,提高档案检索效率,利用对档案目录和信息的挖掘找出档案收集工作的重点,利用对档案数据的挖掘,找出档案管理人员和档案使用人员与档案实体之间的关系,利用对档案使用情况的挖掘找出档案内容与档案使用人员之间的关系,针对不同人员提供不同的个性化服务,为使用人员快速查询出所需档案信息提供了方便,同时也使得档案管理工作变得更加顺利。随着数据挖掘技术在学术界和工业界的影响越来越大,数据挖掘的研究向着更深入和实用技术方向发展。由此可知,未来数据挖掘技术和档案管理的结合也会更加紧密。数据挖掘技术应用到档案管理中,改变了传统的档案管理模式,且为未来的档案信息管理提供了良好的平台和技术支持,是开发信息化档案管理系统必不可少的技术。(本文来自于《黑河学院学报》杂志。《黑河学院学报》杂志简介详见.)

作者:索向峰工作单位:黑河学院计算机科学与信息工程系