关联规则下的图书借阅数据挖掘

时间:2022-02-24 11:19:00

关联规则下的图书借阅数据挖掘

摘要:文章根据高校图书馆的实际业务需要,运用关联规则对高校图书馆学生的借阅数据进行了挖掘分析。首先将图书馆历史借阅数据进行预处理,预处理包括对数据进行清理、集成、转换以及建立事务数据库;然后利用关联规则挖掘算法(MFP-Miner算法)对事务数据库进行挖掘处理,挖掘出图书借阅的关联规则,为图书借阅、图书推荐等服务提供科学的数据支持,从而提升图书馆服务质量。

关键词:数据挖掘;关联规则;MFP-Miner算法

0引言

在高校的教学和科研活动中图书馆发挥着重大作用,被称作“大学心脏”。随着计算机技术和网络技术的广泛应用,图书馆也应不断提高图书管理的信息化程度,完善服务功能,满足当前用户的需求。为了提高图书馆工作管理效率,当前,高校图书馆采用了数据库技术实现图书信息化管理。采用数据库技术后图书馆的流通服务工作比过去有了很大的进步,但仍然存在着一些问题。学生借阅信息是图书流通管理中最重要的数据之一,如何利用这些数据,快速挖掘到有效信息,是图书信息数据挖掘研究热点。本文重点研究关联规则在高校图书馆借阅信息的挖掘应用。

1数据挖掘技术

1.1数据挖掘概念

数据挖掘就是从海量信息中挖掘出有用的数据,这些海量信息模糊、随机、不完整及有噪声,通过数据挖掘发现隐蔽有规律可用的信息并转化成可理解的知识。数据挖掘过程主要包括几个步骤:数据预处理、数据集成、数据变换、数据挖掘及模式评估。

1.2MFP-Miner算法

关联规则的挖掘算法有很多种,其中MFP-Miner是一种基于FP-Tree的快速挖掘算法。它提取出事务数据库中的每条事务所包含的频繁项目,并按支持度降序排序,然后压缩存储到频繁模式树中,在进行最大频繁项目集挖掘过程中只需对该树进行搜索,而不需扫描数据库,在挖掘过程中不需产生最大频繁候选项目集,因此,本文采用MFP-Miner算法对图书借阅关联规则进行数据挖掘。

2图书借阅数据关联挖掘实例分析与应用

2.1数据预处理

一般情况下,因于某些属性值的空缺或不确定,可能造成数据库中的数据不完整,因为同一个属性在不同表中的名称不同,相同属性名在不同的表中有不同的含义又往往造成数据库中的数据不一致。利用这些不完整、含噪声、不一致的数据进行数据挖掘,挖掘质量很难得到保证,得出的结论也往往是不准确的。并且图书馆的工作中数据库中的数据量往往非常大,数据的冗余、不一致、不完整现象很难避免,数据分布也较为分散,不易进行综合查询。为了改善数据质量,提高数据挖掘的效率和质量,在数据挖掘前必须对数据进行选取与清洗、集成、变换等预处理,这个阶段也称为数据准备阶段,是数据挖掘过程中很重要的、必不可少的一个环节,在整个过程中占有十分重要的地位,同时这个阶段工作量也相当大,甚至占总工作量的4/5。从图书馆借阅数据挖掘中,数据准备阶段一般包括以下几个步骤。2.1.1数据选取数据选取是指根据用户需求,从原始数据库中选择与知识发现任务相关的数据表项。图书管理系统中数据库的数据量往往非常巨大,涵盖范围相当广泛,数据选取时应尽量选取足以完成知识发现任务的最小数据表项。为了描述各类借阅图书之间的关联度,选取数据集应包括读者号(dzh)、借阅日期(jsrq)、图书分类号(tsflh),所以只要选取包括这3项的图书借阅表(见表1)即可。2.1.2数据筛选根据研究目标选取所需的信息,即计算机科学与技术专业学生的读者号(dzh)和图书分类号(tsflh)。查询语句为:SELECTdzh,tsflhINTOjsjtbFROMltkWHERE(SUBSTRING(dzh,1,3)=′310′)说明:计算机科学与技术专业读者号以310开始。执行后,得到所需的计算机专业读者借阅表(见表2)。从表2中可以看出,表中的每一条记录描述了读者的一次借阅行为,包含读者号和图书分类号,从图书分类的角度分析,这里的图书分类号指的是某一种图书,分类太细,信息分布是分散的,这种格式的数据不符合基于关联规则数据挖掘的输入要求,但可以利用MicrosoftSQLServer2000的DTS工具将数据转换成所需要的布尔型事务数据库。2.1.3数据转换数据转换主要是对数据进行规格化操作。“图书分类号”属性不是针对某一本书,而是针对某一类或者某一大类,因此应该采用较高层次的类来替换图书分类号。在这里,只取分类号中的大类,忽略小类。如TP368-44取为TP368。查询语句为:UPDATEjsjtbSETtsflh=LEFT(tsflh,CHARINDEX(′-′,tsflh)-1)WHERE(CHARINDEX(′-′,tsflh)>0)2.1.4删除重复记录读者借阅的同一类图书的记录只需保留一条即可,使用语句如下:SELECTdzh,tsflhINTOjsjtb2FROMjsjtbGROUPBYdzh,tsflh2.1.5删除无效数据在图书借阅中,读者在只借阅一本书的记录的情况下,不存在图书类别关联,所以要将此类数据删除。使用语句:SELECTdzh,tsflhINTOjsjtb3FROMjsjtb2WHERE(dzhIN(SELECTdzhFROMjsjtb2ASjsjtb2_1GROUPBYdzhHAVING(COUNT(*)>1)))2.1.6用DTS工具将数据转换成算法所需要的布尔型事务数据库(见表3)

2.2基于MFP-Miner算法的图书借阅数据关联规则的挖掘

构造FP-Tree的步骤如下:(1)根据图书分类对事务数据库进行分类统计,求出各类图书的支持计数,并筛选出大于等于最小支持计数的频繁项目(在此假定最小支持计数为120),对结果按支持计数降序排列,生成频繁项目列表L1(见表4)。第一列属性名proj指的是项目,第二列属性名pronum指的是项目的支持计数。(2)第二次扫描排序后的事务数据库,以NULL作为根节点构造频繁模式树,步骤如下:①扫描第一个事务,事务中的频繁项目以第一列作为关键字排序,得到项目列表〈(TP311.13∶1),(TP368.3∶1)〉,该分支具有2个节点,其中TP311.13是根的子节点,TP368.3链接到TP311.13。②同理,依次扫描事务数据库中其他事务,遍历树并搜索与该项节点同名的节点,如果不存在同名节点,那么就新建频繁模式树分支;若某项目列表与FP-Tree的路径具有相同的前缀,则对公共前缀各节点计数累加1而无须另外创建新节点。这样,第二遍扫描完事务数据库后,FP-tree建立完成。生成关联规则表(见表5)。2.3数据分析本文通过数据挖掘方法找出类似于“读者借阅了A文献也会借阅B文献”的规律,挖掘出如下规则:(1)有15.8%的读者在借阅国际互联网类图书的同时有63.8%的可能再借阅操作系统类图书。(2)有16.2%的读者在借阅计算机网络类图书的同时有60.2%的可能再借阅模式识别与装置类图书。(3)有17.6%的读者在借阅BASIC编程语言类图书的同时有58.9%的可能再借阅信息处理类图书。(4)有17.9%的读者在借阅表格处理系统类图书的同时有56.5%的可能再借阅C编程语言类图书。

3结语

本文基于高校图书馆的海量借阅信息,引入数据挖掘和关联规则技术,建立了基于MFP-Miner算法的图书借阅数据关联规则的挖掘,快速、准确地挖掘出隐藏在图书借阅数据背后有价值的规则和潜在的信息,为图书借阅、图书推荐等服务提供科学的数据支持,从而提升高校图书馆的读者服务工作质量。面对信息化的浪潮,充分利用数据挖掘来扩充图书馆数据库的实际应用,是图书馆数据库高层应用的必然趋势,数据挖掘技术在图书馆信息管理方面必定会发挥更大的作用。

作者:吴玉春 龙小建 单位:井冈山大学

参考文献

[1]JochenHipp,UlrichGuntzer,Gholamreza.AlgorithmsforAssociationRuleMining-AGeneralSurveyandComparison[J].SIGKDDExplo-rations,2000(1):58-64.

[2]KleinbergLetal.Amicroecnomicviewofdatamining[J].DataminingandKnowledgeDiseovery,1998(2):311-324.

[3]J.Han,M.Kamber.DataMining:ConceptsandTechniques[M].SanFrancisco:MorganKaufman,2001.(