多层次技术的XML数据挖掘研究

时间:2022-02-24 11:17:14

多层次技术的XML数据挖掘研究

摘要:随着互联网的广泛使用,Web的数据挖掘技术成为现阶段数据挖掘技术研究的重点,但由于其数据挖掘控制的复杂,对人们的数据挖掘和使用带来了困难。而XML数据挖掘的出现弥补了Web数据挖掘的缺陷,为其带来了方便。

关键词:多层次技术;XML数据挖掘;Web数据挖掘;研究

0引言

数据挖掘就是从大量的信息数据中发现潜在的规律性内容,进而对数据应用的质量问题进行解决,实现对数据的充分利用。在互联网发展支持下的数据挖掘技术得到了快速的发展,特别是以结构化数据为主的数据挖掘技术。数据挖掘技术被广泛地应用到各个领域,并获得了好的效果。但这种结构化的数据挖掘技术无法对Web数据挖掘的特性进行处理,Web上的HTML文档格式也不规范,导致没有充分挖掘和利用有价值的知识。由此,如何优化传统数据挖掘技术,实现其和Web的结合成为数据挖掘技术研究领域关注的热点。而XML的出现,弥补了Web的不足,成为现阶段互联网数据组织和交换的标准,并逐渐出现在Web上。文章对基于多层次技术的XML数据挖掘进行研究。

1Web数据挖掘的难点

第一,异构数据库的环境。因特网上的信息可以说就是一种数据路,具有大量的数据资源,每个站点的数据源都是异构的,因此,每个站点之间的信息和组织结构不一样,形成了一种异构数据库环境。想要获得和利用这些数据资源需要进行数据挖掘,这种数据挖掘需要对站点的异构数据集成进行研究,同时还要对因特网上的数据查询问题进行解决。第二,半结构化的数据结构。传统的数据库具有数据模型,能够通过这种模型来对特定的数据进行描述。但因特网上的数据较为复杂,没有统一的模型让人进行描述,且自身具有独立性、动态性的特点,存在自述层次,因而是一种半结构化数据。

2XML数据挖掘技术

2.1XML技术概述

XML是由万维网协会设计的一种中介标示性语言,主要被应用在Web中。XML类似于HTML,主要被设计用来描述数据的语言,为数据挖掘提供了一种独立的运行程序,能够实现对数据的共享,并利用计算机通讯将信息传递到多个领域。

2.2XML和HTML的比较

HTML是Web的重要技术要素之一,简单易学,被很多计算机专业人员应用于创建自己的、具有超文本特定的多媒体主页,能够实现网络和普通人的联系,创造出丰富的网页。但其在因特网的应用存在以下几点缺陷:第一,只是对信息的显示方式进行描述,没有对信息内容本身进行描述;第二,需要因特网服务器帮其处理任务工作,加重了网络的负担,降低了网络运行的效率。根据上文对XML技术的概述,可以看出,XML不是一种单纯的标记语言,而是一种定义语言,能够根据需要设定不同的标记语言,突破了HTML固定标记的限制,能够更好地推动Web的发展。

3基于XML数据挖掘框架设计

3.1设计的特点

第一,具有自然、性能良好、个性化设计的系统用户界面;第二,主要应用元搜索引擎页面。这种页面设计的主要思想是首先对用户的查询请求进行预处理,之后向各个搜索引擎发送查询的请求,最后,在经过处理之后向用户反馈检索结果。第三,Web页面的设计充分应用了HITS的算法。第四,利用XML技术对检索的数据进行预处理。主要表现为将数据库中的所有文档形式转化为XML文档形式,之后在数据仓库的应用下实现各种文档的集成。

3.2系统设计的结构

XML数据挖掘系统的结构主要包含用户界面模块、数据预处理模块和数据挖掘模块。第一,用户界面模块主要作为用户和系统交接的端口存在,用户通过这个界面来实现对数据挖掘系统的使用。在这个模块中,用户能够在对数据挖掘之前设定挖掘的参数,之后提出请求、对挖掘成果分析,实现个性化的数据挖掘。第二,数据预处理模块主要是指在对数据检索之后,应用XML技术对检索的数据进行预处理。第三,数据挖掘模块主要是对数据预处理后的模块信息进行挖掘,并将成果展示给用户。

4基于XML技术的Web数据挖掘

4.1数据挖掘方案的选取

基于XML技术的Web数据挖掘主要分为内容上的挖掘和形式上的挖掘两种,其中,内容挖掘主要是针对文档标记的开始和结束之间的文本部分,即对标记值的一种挖掘。具体的内容挖掘方案主要有三种:第一,利用专门的XML数据、半结构数据开发查询的语言,充分开发其查询功能,并将这种语言渗透在应用程序中,从而实现对数据的有限挖掘。这种挖掘方案能够将XML技术和数据挖掘技术进行有效的结合,且具有操作简单的特点。第二,实现对XML文档数据的结构化处理。在处理之后将其映射到现有的关系对象模型中,从而实现对数据的挖掘。第三,将XML文档视为一种文本,采用传统的数据挖局处理技术对数据进行挖掘。

4.2XML技术数据挖掘实现

XML技术的挖掘实现主要利用XQuery实现关联挖掘来进行数据挖掘,且不需要对其文档进行预处理和挖掘后处理,具有操作简单的优势。主要采用两种方式来执行XQuery。第一,使用XhiveNodeIf对象的executeXQuery进行语句的执行,使得集合的每个元素都是对应的对象,并将对象转换成DOM的节点来进行数据的挖掘。第二,利用XhiveXQueryQueryIf对象调用execute进行语句的执行。在这个过程中会涉及对外部参数的使用。

5结语

XML数据挖掘能够有效解决因特网数据挖掘难的问题,实现数据挖掘的简单化操作。XML数据挖掘将不同结构、不容易兼容的数据进行结合,并利用自身的灵活性和延展性将各种应用软件中的数据进行不同描述,从而方便因特网中数据的收集和记录。同时,基于XML数据是自我描述性的,不需要内部的描述处理就能实现数据的交换,为其对数据的处理和应用提供了便利的支持。因此,技术XML技术的数据挖掘成为当今因特网数据挖掘的研究重点,需要有关人员引起足够的重视,进而不断促进该技术对数据挖掘的应用。

作者:袁园 单位:重庆电讯职业学院

参考文献:

[1]卢珊.基于XML技术的Web数据自动挖掘新方法[J].信息技术与信息化,2014,12:141-143

[2]王雅轩,顼聪.基于XML的Web数据挖掘模型的设计研究[J].电子技术与软件工程,2015,03:213-214

[3]周晓梅,王潜平,苏琳.基于XML的Web数据挖掘模型的设计[J].计算机工程与设计,2007,02:272-274+277

[4]唐明灯.基于数据库技术的数据挖掘分析与研究[J].信息与电脑(理论版),2010,02:138-139