数据挖掘技术研究十篇

时间:2023-03-29 17:20:31

数据挖掘技术研究

数据挖掘技术研究篇1

1 空间数据挖掘研究概述

空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在GIS中的应用

空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空

间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

数据挖掘技术研究篇2

【关键词】 计算机 数据挖掘技术 开发

引言:计算机数据挖掘技术是基于计算机原有的功能基础之上,融入了一些统计学理论,使人们可以利用数据挖掘技术在众多的计算机系统内部的信息中抓取自己需要的信息和数据。计算机数据挖掘技术的出现极大的促进了社会整体的进步,引领了社会各个领域内的数据量潮流,人们要想在无限的数据中采集有用信息,就必须深入计算机数据挖掘技术的开发研究。

一、计算机数据挖掘技术开发流程

1.1明确数据挖掘目的

由于数据挖掘技术的功能是多种多样的,所以在开发具体的计算机数据挖掘技术过程中需要根据自身需要明确数据挖掘目的,进而选择对应数据库。因为在开发过程中,不同的数据挖掘目标需要依靠不同的挖掘技术数据算法,如果目的不明很容易造成最终开发结果的偏差[1]。

1.2数据选择和预处理

明确数据挖掘目标、数据库后还要对所持有的数据进行选择和预处理,数据选择是要将数据中的部分信息纳入数据挖掘研究范围内,预处理是将这些数据中的错误信息进行删除和修正,确保列下有用信息。

1.3数据挖掘

数据挖掘过程中要有两个步骤,其一是根据挖掘目标确定接下来要利用的开发技术和采用的算法,其二是在确定了挖掘技术和数据算法后构建出数学模型,以此来推动挖掘技术的开发。

1.4评估结果

评估结果的最大作用就是对开发出的数据挖掘结果进行科学评估,对数据挖掘技术的开发成果进行检测和验证。如果数据挖掘结果不能够达到数据挖掘开发目的要求,就要及时进行修正,如果数据开发结果符合数据开发目的要求,那么就可以将其投入到实践应用之中[2]。

二、计算机数据挖掘技术开发

1、可视化技术开发。要想得到有效的信息,就需要从计算机系统中获得的信息入手,但是当前的网络信息中存在不少的隐性信息,这些信息的获得就要依靠计算机数据挖掘技术。采用计算机挖掘技术可以有效的抓取隐性信息的某些特征,当利用散点图的方式将这些隐性信息表现出来。所以可视化技术是计算机数据挖掘技术开发项目中的一个重点。

2、联机分析处理。网络是复杂的,其中的网络信息和数据更是十分的庞杂,要想快速、准确的抓取到自己想要的信息,需要依靠联机分析出不同地域和时段的多维数据,联机分析处理方式需要依靠用户的配合。在处理多维数据时,需要所有计算机用户自行的使用或者筛选出分析算法,利用这些分析算法对数据做处理,这样对探索数据也有巨大的推动作用。

3、决策树。计算机数据挖掘技术的开发中需要对决策树进行规则化建立,决策树是一项重要的开发项目,因为决策树的作用是发挥预测和分类的功能,对所处理的数据信息进行具体的预测和分类。目前开发的决策树算法已经有很多种,主要有SLIQ、SPRINT、ID3、C4.5等,SLIQ算法具备连续性属性,还可以对数据做出具体的分类,SPRINT算法与SLIQ算法有同样的功能属性,并且这两种算法可以通过大型训练集对决策时做出归纳[3]。

4、计算机神经网络。计算机数据挖掘技术在开发之中借助了医学神经系统的研究结果,将人体神经元研究脉络通过技术处理形成了计算机网络神经的研究,并且经过一系列的深入探索,目前已经取得了重大的成果。计算机中研发出的神经网络是安全输入、输出和处理单元三种类型进行规划的,这三个层面代表了计算机神经网络系统,当前的开发结果中显示,可以利用计算机神经网络技术实现数据的调整、计算和整理。

5、遗传算法。计算机数据挖掘技术的开发中借鉴了许多其他学科领域中的研究方向和理论,在自然学科中,生物基因可以通过遗传中的不同变化促进后代的自我优化,利用这种思想理论,在计算机数据挖掘技术的开发中也可以通过对不同模型进行组合、演变来创新开发出新的数据算法。

结束语:计算机数据挖掘技术属于当前社会中最重要的分析工具之一,数据挖掘技术已经被各个领域广泛的应用,并且其功能得到验证,极大的促进了社会行业的快速发展。随着科技水平的日益提升,相信计算机数据挖掘技术将会得到更多方面的创新研究和开发,给社会带来更大的促进作用。

参 考 文 献

[1]夏天维. 计算机数据挖掘技术的开发及其应用探究[A]. 《Q策与信息》杂志社、北京大学经济管理学院.“决策论坛――管理科学与工程研究学术研讨会”论文集(下)[C].《决策与信息》杂志社、北京大学经济管理学院:,2016:1.

数据挖掘技术研究篇3

关键词:Web 数据挖掘技术 相关研究

中图分类号:TP391 文献标识码:A 文章编号:1674-098X(2016)08(b)-0100-02

在互联网技术应用越来越广泛的情况下,互联网已经成为人们日常生活的一部分。基于此,互联网内容不断增多,信息过载现象日益明显。此种情况下,为了使人们的生活能够更加顺畅,及时且快速的获取到所需信息,需要科学、合理的运用基于Web的数据挖掘技术,充分发挥起作用,对数据进行深度的挖掘,进而有效地处理和检验数据,在此基础上将数据转化为完整的信息,供用户所用[1]。由此看来,在互联网内容不断增多,Web数据库系统的数据量不断增多的情况下,基于Web的数据挖掘技术的科学、合理应用是非常重要的,可以帮助用户快速获取所需信息。

1 数据挖掘技术及基于Web的数据挖掘技术

1.1 数据挖掘技术

数据挖掘技术是为了方便人们在大量的数据中快速、正确的找到自己想要的信息而应运而生的技术。在现代化的今天,数据挖掘技术的应用日益广泛,尤其是在计算机技术和数据特征的支持下所构建的数据挖掘系统,可以确定数据挖掘目标,在此基础上以数据库为挖掘对象,从中挖掘所需数据,再对数据进行预处理和再加工,进而检查数据的完整性,确定数据完整的情况下会将其转化成可以被理解的信息,供用户应用。所以,在现代化的今天,人们对信息需求越来越大的情况下,数据挖掘技术的研究与应用是非常有意义的[2]。

1.2 基于Web的数据挖掘技术

1.2.1 基于Web的数据挖掘技术的概述

基于Web的数据挖掘技术,简单来说就是将数据挖掘技术应用到Web上。在现代化的今天,Web所涉及的服务越来越广泛,这使得Web上的信息量不断增多,此种情况下,有效的利用数据挖掘技术,可以对用户所需信息的相关数据挖掘、处理,进而转化为信息供用户应用。

1.2.2 基于Web的数据挖掘的特点

在Web所涉及业务越来越广泛的情况下,Web上的数据量不断增多,直接存在庞大的数据库系统之中。此种情况下,用户需要使用所需信息,就需要在Web的数据库系统中进行数据挖掘,但因数据库系统中的数据量较多,利用传统的方式方法难以快速且准确的找到所需信息。但基于Web的数据挖掘技术的应用则不同,其结构模式不严格,可以灵活的运用,在数据库系统中进行数据挖掘与处理,进而转化为用户所需信息。另外,基于Web的数据挖掘技术适应Web环境且在Web上应用,因此在设置Web数据挖掘时是结合了Web的实际情况,因此基于Web的数据挖掘与Web的特点相贴合,所以,基于Web的数据挖掘具有动态性、异构性、灵活性、有效性等特点[3]。

1.2.3 基于Web的数据挖掘的分类

从目前基于Web的数据挖掘应用实际情况来看,基于Web的数据挖掘主要分为Web结构挖掘、Web内容挖掘及Web访问挖掘3类。

(1)Web结构挖掘。

Web结构包括不同网页之间的超链接结构和一个页面内部的树形结构,以及文档URL中的目录路径结构等。Web结构挖掘的使用,将会把Web表示成一个有向图,图中的点对应的是Web的页面、图的边对应的是Web的超级链接,此种情况下,可以获得一个站点的主页到任意一个定点的最短路径,进而快速而准确的获得相关数据,加之整理与处理,检验与转化,可以为用户提供高质量的、有效的信息。如Robot到Web站点,将会构成最短路径,进而快速发现较多文档,便于应用;而HITS、PageRank及链接结构中增加Web内容信息,在模拟Web站点的拓扑结构,进而设置好Web页面的等级,如此可以使HITS、PageRank及链接结构更加快速地挖掘信息。

(2)Web内容挖掘。

Web内容挖掘是指从Web上的文件内容及其描述信息中获取潜在的、有价值的知识或模式的过程。从目前Web内容挖掘应用情况来看,其主要包括Web文本挖掘和Web多媒体挖掘,两者最大的区分是挖掘对象不同。Web文本挖掘,顾名思义是对Web上大量文档进行挖掘,挖掘过程中包括文档集中的内容的总结、分类、关联分析及趋势分析等,以便文档信息应用中,可以快速进行数据挖掘;而Web多媒体挖掘,则是对Web上的音频、视频数据进行挖掘,对图片进行预处理[4]。

(3)Web访问挖掘。

通常情况下,Web访问挖掘主要应用于网站LOG文件分析之中,挖掘网页浏览数据、网站点击术、独立IP访问数等,以便相关工作人员可以通过数据统计了解网站整体运行情况、了解用户需求等,为更好地设计和运作网站指明方向。

2 基于Web的数据挖掘技术的应用研究

事实上,在现代化的今天基于Web的数据挖掘技术已经应用到一些领域之中,并且发挥重要作用。

2.1 电子商务领域

目前基于Web的数据挖掘技术在电子商务领域中的应用,主要是:(1)客户分类和聚类。也就是利用基于Web的数据挖掘来挖掘电子商务平台用户的访问数量、用户访问方向等,进而明确用户的需求、用户的层次、用户的共同特征等,从而合理进行用户分类和聚类。(2)寻找潜在用户。也就是利用基于Web的数据挖掘对用户访问数据进行挖掘,再利用分类技术对用户进行分类,找到潜在用户及其可能产生的需求。(3)保留客户的驻留时间。对于电子商务的商家来说,用户停留在平台上的时间越长,其购买意向就越大,购买的可能性越大。所以,利用基于Web的数据挖掘进行用户在电子商务平台上驻留时间的数据挖掘,可以为电子商务的商家制定战略决策提供依据[5]。

2.2 网络教育领域

在互联网技术应用日益广泛的今天,教育领域也充分认识到互联网的应用价值,将其应用到教育中,开展网络教育,如此可以打破教育教学活动的时间限制和空间限制。在网络教育日趋成熟的今天,很多教育机构开设网络教育,使更多的需求者可以获取知识,同时也可以促进教育机构更好发展。在教育网络中应用基于Web的数据挖掘,主要是挖掘学生人数、教学课程点击率、教学模式选用频繁度等相关方面的数据,将其转化为有价值的信息,为教育机构优化调整网络教育服务创造条件[6]。

3 结语

在互联网应用日益广泛的今天,Web所涉及的服务越来越广泛,这使得Web上的信息量不断增多,大大增加了Web数据库系统的数据量。此种情况下,科学、合理的运用基于Web的数据挖掘技术,其可以充分发挥起作用,对数据进行深度的挖掘,进而有效地处理和检验数据,在此基础上将数据转化为完整的信息,供用户所用,满足用户的应用需求。目前,基于Web的数据挖掘技术在电子商务、网络教育等领域有重要的应用,相信随着此项技术的不断完善,将会更加有效、广泛的应用。

参考文献

[1] 张嘉丰.浅析基于Web的数据挖掘技术[J].数字技术与应用,2015(11):43.

[2] 于桂宾.基于Web的数据挖掘技术及其应用[J].承德石油高等专科学校学报,2014,16(5):41-43.

[3] 孙兴富.基于Web的数据挖掘技术及应用问题探讨[J].中国新技术新产品,2010(3):21.

[4] 范建中,王福庆.基于Web的数据挖掘技术研究与应用[J].电脑编程技巧与维护,2009(12):32-33,42.

数据挖掘技术研究篇4

关键词:空间数据挖掘;地理信息系统;研究分析

随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。

1 空间数据挖掘研究概述

空间数据挖掘(spatial data mining,简称sdm),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在gis中的应用

空间数据挖掘技术与地理信息系统(gis)的结合具有非常广泛的应用空间。数据挖掘与gis集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将gis当作一个空间数据库看待,在g is环境外部借助其它软件或计算机语言进行空间数据挖掘,与gis之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在gis中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用gis提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了gis在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

数据挖掘技术研究篇5

[关键词] 数据挖掘 数据仓库 知识发现

随着计算机网络与数据库技术的迅速发展和广泛应用,各单位拥有的数据量与日俱增,而传统的数据库管理系统(DBMS)仅能提供数据的存取和查询,如何从信息海洋中提取有价值的知识,从而为企业的业务决策和战略发展服务,进一步提高信息的利用率,这就引发了一门新兴的自动信息提取技术――数据挖掘和知识发现(Data Mining and Knowledge Discovery in Databases),并逐渐形成了一个热门研究方向。

基于数据库的知识发现(KDD)一词最早是在1989年8月于美国底特律市召开的第一届KDD国际学术会议上正式形成的。1995年,在加拿大召开了第一届知识发现和数据挖掘国际会议。2002年,麻省理工学院的《科技评论》杂志提出未来5年对人类产生重大影响的10大新兴技术,“数据挖掘”位居第三。

一、数据挖掘与知识发现

数据挖掘(Data Mining),又称为数据采掘、数据开采等。数据挖掘是从大量的数据中抽取出潜在的、不为人知的有用信息、模式和趋势。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、统计学等技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。其中需要强调的几点是:得到的必须是有用的信息;得到的必须是清晰、明确的信息;要有一个很快的、可行的算法。

数据挖掘不同的术语和定义:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology。

一般认为数据采掘是数据库中知识发现(Knowledge Discovery in Database,简称KDD)的一个环节,是采用具体的数据采掘算法从数据中自动高效地提取有用模式的过程,而KDD是包含数据采掘、数据准备等环节的循环往复过程。在KDD研究领域一致认可的描述性定义是Fayyad等人给出的,定义如下:KDD是从数据集中识别出有效的、新颖的、潜在有用的、以及最终可理解的模式的非平凡过程。知识发现由以下步骤组成:⑴数据清理:消除噪声或不一致数据。⑵数据集成:把多种数据源组合在一起。⑶数据选择:从数据库中检索与分析任务相关的数据。⑷数据变换:数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作。⑸数据挖掘:使用智能方法提取数据模式。⑹模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式。⑺知识表示:使用可视化和知识表示技术,向用户提供挖掘知识。

对这两个术语更严格的区分是在KDD96国际会议上:Fayyad,Piatetsky-Shapiro和Smyth指出:知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程的一个特定、关键步骤。事实上,在现今文献的大多数场合,这两个术语仍然不加区分地使用着。

同时需要指出的是,这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达发现结果。因此DMKD的研究成果很讲求实际。

二、数据挖掘的对象及任务

1.数据源

根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、以及环球网Web.目前,用于数据挖掘的数据源主要是关系数据库、数据仓库、和环球网Web.

2.主要任务

(1)数据总结

数据总结的目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。

(2)分类

分类的目的是建立一个分类函数或分类模型(也称作分类器),该模型能把数据库的数据项映射到给定类别中的某一个。例:信用卡申请者,分类为低、中、高风险。

(3)聚类

聚类是把一组个体按照相似性归类,即“物以类聚”。它的目的是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。例:①一些特定症状的聚集可能预示了一个特定的疾病。②租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。

聚集通常作为数据挖掘的第一步。例如,“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,回答问题,可能效果更好。

(4)关联规则

决定哪些事情将一起发生。是形式如下的一种规则,“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油+牛奶)。关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间或序列上的规律。例:①超市中客户在购买A的同时,经常会购买B,即A=>B(关联规则)。②客户在购买A后,隔一段时间,会购买B(序列分析)。采用关联模型比较典型的例子是“啤酒和尿布”的故事。

三、数据挖掘的应用及效益

应用是数据挖掘的目标。数据挖掘技术不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。其应用范围涉及社会的所有领域,在商业上的应用尤其受到重视。各个领域在KDD应用上既有相同之处,又有各自不同的独特地方。

1.典型应用领域

(1)科学应用

在生物界,开发了HMMS两个智能发现系统,已经用于基因发现和构造核糖核酸模型。天文学上非常有名的系统是加州理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具SKICAT。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体。SKICAT使用了决策树方法构造分类器,结果使得能分辨的星体较以前的方法在亮度上要低一个数量级之多,而且新的方法比以往方法的效率要高40倍以上。

(2)市场销售

数据采掘在销售业上的应用可分为两类:数据库销售(database marketing)和篮子数据分析(basket analysis)。前者的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客以便向它们推销产品,而不是象以前那样盲目地选择顾客推销;后者的任务是分析市场销售数据(如POS数据库)以识别顾客的购买行为模式,从而帮助确定商店货架的布局排放以促销某些商品。

(3)金融投资

典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。这方面的系统有Fidelity Stock Selector,LBS Capital Management。前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术辅助管理多达6亿美元的有价证券。

贷款偿还预测和客户信用政策分析。将数据挖掘技术中的特征选择和属性相关性计算应用到贷款偿付预测和客户信用政策,有助于识别重要因素,剔除非相关因素,使银行优化调整贷款发放政策。

(4)欺诈甄别

银行或商业上经常发生诈骗行为,如恶性透支等。这方面应用非常成功的系统有:FALCON系统和FAIS系统。FALCON是HNC公司的开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;猎鹰的数据格式只有几种,因为流行的信用卡公司只有几家(如VISA,MASTER等),因此它的应用面很大。FAIS是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的政府数据表单。

(5)产品制造

在产品的生产制造过程中常常伴随有大量的数据,如产品的各种加工条件或控制参数,这些数据反映了每个生产环节的状态,通过数据挖掘对这些数据的分析,得到产品质量与这些参数之间的关系,可以对改进产品质量提出针对性很强的建议,而且有可能提出新的更高效节约的控制模式,从而为制造厂家带来极大的回报。

(6)Internet的应用

Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富,Web上的数据信息不同于数据库,数据库有规范的结构,Web上的信息则不然,主要是文档。因此Web上的开采发现需要用到不同于常规数据库开采的很多技术。Web信息发现也称信息搜索或查询,资源发现本质上是网上搜索,关键在于自动生成Web文档的索引。目前,这方面的研究主要有两个方面:研制新的更好的索引系统、利用已有索引系统或搜索引擎开发高层次的搜索或发现系统。相比之下,后者的研究更为活跃。从技术上看,自动文档分类或归类方法将对这方面的研究有很大作用。

(7)学校教育

学院分析学生历史信息,决定哪些人愿意报考何专业,发送手册给他们。分析教师的学历、年龄、职称等与授课效果的关联规则,制定教学方案,促进教学质量的提高。

总之,DM可广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、科研、远程通讯、软件开发、运输、生物信息或基因等各个企事业单位及国防科研上。

2.数据挖掘带来的效益

截止到目前,数据挖掘工程在很多领域取得了成果。这些成果使得各类机构和组织能更好地理解它们的组织结构、业务处理过程和顾客,从而得到很高的投资收益。在某些情况下,仅仅一小部分数据挖掘所得到的知识就能回报最初的投资。世界著名的GartnerGroup咨询顾问公司预计:不久将来先进的大企业将会设置“统一数据分析专家”的职位。

例如:①美国著名国家篮球队NBA的教练,利用某公司提供的数据挖掘技术,临场决定替换队员,从而赢得比赛,在数据库界被传为佳话。

②全球数据仓库与CRM解决方案领导厂商NCR公司(纽约股票代号NCR)Teradata的数据挖掘实验室基于20多年丰富的行业经验,协助包括银行、电信、航空、证券和保险在内的各行业企业善用商业数据挖掘,构筑竞争优势。据了解,全球前50大银行中,有一半以上采用NCR的Teradata企业级数据仓库解决方案,尤其是全球获利的前15大银行中就有8家是NCR的用户。

四、结束语

综上所述,数据挖掘虽然是一门新兴的技术,但有着鲜明的服务性、大众性、利益驱动性,显示了它强大的生命力。根据最近Gartner的HPC研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。” 数据挖掘将助你在海量数据面前迅速找到闪亮的知识,找到隐藏的商机,从而立于不败之地。相信在不远的将来数据挖掘会迅速普及。

参考文献:

[1][加]Jiawei Han. Micheline Kamber 著:数据挖掘:概念与技术[M].范明,孟小峰等译.北京:机械工业出版社,2007.3

[2]陈安陈宁:等著.数据挖掘技术及应用[M].科学出版社,2006.3

数据挖掘技术研究篇6

关键词:数据挖掘技术;数据显示;处理器开发

中图分类号:TP277 文献标识码:A 文章编号:1007-9416(2017)02-0128-02

1 数据挖掘技术的应用特点

数据是软件开发以及功能实现的重要部分,经过开发人员对系统的整合研究,使用者可以轻松的在数据中发现有用信息,并对有用信息进行挖掘,通过这种方法可以更好的解决功能隐患冲突问题,无论是系统控制还是功能实现,都能够达到更理想的使用效果。在对信息进行整合时。数据挖掘系统也能够发现深层次的安全隐患,对数据做出进一步处理,在此方法下数据显示处理器可以得到安全防护,以免在后续的使用中出现功能上的冲突矛盾,这也是提升处理器运行效率的有效技术方法。应用该挖掘系统在技术方面创新性得到了很大的提升,如果不能合理的对数据显示处理器功能进行整合,可能会造成数据挖掘系统中的部分功能闲置,最终影响到工作计划的稳定落实。下面文章将针对数据挖掘系统应用在显示处理器开发中的具体形式进行介绍,结合使用功能完善方面来进行。

2 数据挖掘流程

从数据本身来考虑,数据挖掘通常需要有信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘实施过程、模式评估和知识表示8个步骤。

步骤(1)信息收集:根据确定的数据分析对象,抽象出在数据分析中所需要的特征信息,然后选择合适的信息收集方法,将收集到的信息存入数据库。对于海量数据,选择一个合适的数据存储和管理的数据仓库是至关重要的。

步骤(2)数据集成:把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而提供全面的数据共享。

步骤(3)数据规约:如果执行多数的数据挖掘算法,即使是在少量数据上也需要很长的时间,而做商业运营数据挖掘时数据量往往非常大。数据规约技术可以用来得到数据集的规约表示,它小得多,但仍然接近于保持原数据的完整性,并且规约后执行数据挖掘结果与规约前执行结果相同或几乎相同。

步骤(4)数据清理:在数据库中的数据有一些是不完整的(有些感兴趣的属性缺少属性值)、含噪声的(包含错误的属性值),并且是不一致的(同样的信息不同的表示方式),因此需要进行数据清理,将完整、正确、一致的数据信息存入数据仓库中。不然,挖掘的结果会差强人意。

步骤(5)数据变换:通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。对于有些数型数据,通过概念分层和数据的离散化来转换数据也是重要的一步。

步骤(6)数据挖掘过程:根据数据仓库中的数据信息,选择合适的分析工具,应用统计方法、事例推理、决策树、规则推理、模糊集,甚至神经网络、遗传算法的方法处理信息,得出有用的分析信息。

步骤(7)模式评估:从商业角度,由行业专家来验证数据挖掘结果的正确性。

步骤(8)知识表示:将数据挖掘所得到的分析信息以可视化的方式呈现给用户,或作为新的知识存放在知识库中,供其他应用程序使用。如图1所示。

3 数据显示处理器概述

数据显示处理器可以归结为网络社区类软件,运行环境支持Android操作系统。可以建立自定义的数据收集格式传输到网络上,可打印报告、图表和进行即时数据分析。应用范围广泛,形式多样。

4 数据显示处理器开发过程中挖掘技术的应用

4.1 数据挖掘技术应用过程

运用数据挖掘技术首先会针对数据信息的采集范围进行定义,在此基础上探讨更有效的管理方法,并帮助进一步提升工作任务的完成效果,针对一些比较常见的数据资源限制现象,在确定功能基础上进行全面定义分析。数据挖掘技术是对传统处理器开发技术的一次创新,其特点是在运算速度上有明显的提升,可以在短时间内确定数据库中的有用信息并通过挖掘筛选来将其应用在程序汇编中,应用需要配合程序汇编语言来进行,这种方法下才更具有使用效率。将整体显示系统的设计分为若干个部分,对每一部分的功能做出设计,在考虑独立部分的运行情况时还要从整体层面来入手,确保最终的显示处理器能够更好地配合,在使用效率上得到明显提升,以免存在功能上的冲突导致部分现场使用功能不能实现。数据前期挖掘整合全部完成后,可以进入到后期的功能框架组合阶段,根据显示处理器使用方向来对现场工作做出进一步完善。

4.2 目标定义与数据准备

接下来需确定数据挖掘所针对的主体,确定目标范围后,数据挖掘可以节省大量时间。数据显示处理器在开发中会根据未来的使用需求来对其数据库进行完善,达到理想的运行使用效果,因此定义与数据准备成为了开展显示器开发的首步骤,将有用信息筛选整合后,设置一个用于开发的临时数据库,其内部存储信息全部为系统功能设计所需要的。对于数据的比较分析,可以将数学算法与计算机系统相结合来进行,通过运算来确定数据信息是否是有用的,数据准备就绪后在接下来的开发应用中能够快速的从数据库中对其进行提取,帮助节省更多时间,这也是提升工作效率的有效方法。将其作为设计进行的首要步骤,那么接下来的设计任务也都是在此基础上进行,所准备的数据会应用在后续程序开发中,目前数据挖掘技术在一些大型系统开发研究中得到了广泛的应用,可以在短时间内完成基础框架的建设,这也是提升设计效果的有效措施方法。

4.3 开发的结果解释与评估

数据挖掘结果需与数据库内的信息做出比较,即使是自动完成评估任务的,最终所得到的结果中仍然容易出现误差,这也是影响结果的主要原因,在此环境下所开展的各项评估任务要在额定数据范围内依次进行,通过这种评估解释能够帮助再次确定数据库中的有用信息,并为后续建设管理计划开展创造有利条件。数据库管理可以基于网络环境下进行,虽然管理效率得到了提升,但同时所面对的风险问题也因此而增多,这也决定了结果解释与评估在现场开展更加重要。评估时间确定也是十分重要的,可能会影响到最终的工作任务完成效果,对于一些比较常见的功能隐患问题,通过这种方法解释与评估的进行,可以帮助筛选出信息中不合理或者误差比较大的部分,方便对接下来的开发研究方向进行调整,确保显示处理器功能正常实现的前提下,在数据信息的稳定性上也得到了保障,这也是传统方法中所不具备的,是未来设计研发的主流方向。

5 结语

如何才能从数据中提取有价值的知识,进一步提高信息量利用率,这需要新的技术来自动、智能和快速地分析海量的原始数据,以使数据得以充分利用,由此引发了一个新的研究方向:数据挖掘与知识发现的理论与技术研究。数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。数据挖掘技术的运用还需要进一步加强研究。

参考文献

数据挖掘技术研究篇7

关键词:数据挖掘;决策算法;遗传算法;近邻算法

中图分类号:TP301 文献标识码:A 文章编号:1674-7712 (2013) 04-0065-01

一、数据挖掘概念及技术

数据挖掘就是又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Associationrulelearning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。其实实质是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。其方法如下:

(一)人工神经网络:数据挖掘中使用最为广泛的技术,神经网络的数据挖掘方法就是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据中发现用于预测和分类的模式。神经元网络适用于结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、关联、演变分析和离散点分析。

(二)决策树归纳算法:从关系数据库中提取关联规则是主要的数据挖掘方法之一,挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式,适合于探测式知识的发现,广泛用于医学、制造和生产、金融分析、天文学和分子生物学。

(三)遗传算法:分类和预测是数据分析的两种重要形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要方法包括:决策树,判定树、贝叶斯法、BP神经网络算法、遗传算法、粗糙集、模糊集等。预测方法有经典的统计方法、神经网络和机器学习等。

(四)近邻算法。是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例、数据聚类外的离群值等。所有这方面知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到宏观,以满足不同用户不同层次决策的需要。

(五)规则推导:属于无指导学习。对象应该根据最大化类的相似性、最小化类的相似性的原则进行聚类或分组。

(六)复杂类型的数据挖掘:是数据挖掘技术的当前一个重要的研究领域,极大提升了CRM数据分析能力的深度和广度,主要包括:多媒体数据挖掘、文本挖掘和web挖掘等。

二、数据挖掘的实施

数据挖掘研究具有广泛的应用前景,它可以应用于决策支持系统,也可以应用于数据库管理系统,现在关键问题是如何实施,以下谈论数据挖掘步骤如下:

(一)理解数据和数据的来源(understanding)。

(二)获取相关知识与技术(acquisition)。

(三)整合与检查数据(integrationandchecking)。

(四)去除错误或不一致的数据(datacleaning)。

(五)建立模型和假设(modelandhypothesisdevelopment)。

(六)实际数据挖掘工作(datamining)。

(七)测试和验证挖掘结果(testingandverification)。

(八)解释和应用(interpretationanduse)。

由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。

三、数据挖掘应用现状和存在的问题

数据挖掘所有处理的问题就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,获取有意义的消息,归纳出有用的结构,作为企业决策的依据。在零售业中商家从顾客购买商品发现一定的关系,提供打折购物卷等;保险金融行业利用数据挖掘可以辨别出欺诈行为;在企业中,半导体生产和测试过程差生大量数据,可以分析提高产品质量;可以电子商务网站进行分析,识别用户的行为模式,优化网站,提供个性化服务。当前引用最广的领域包括:数据库营销、交叉分析的市场分析行为,客户流失性分析、客户信用记分、欺诈发现、客户群体区分。

目前面临的问题:(1)数据挖掘的基本问题是数据的数量和维数,数据结构非常复杂。(2)面对庞大的数据,现有的统计方法等都遇到了问题。(3)面对海量数据,对数据变化的情况汇总分析做出考量和评价。(4)对于各种不同的模型应用,其应用效果进行有效的评价。(5)如何对互联网等非标准数据进行分析。(6)数据挖掘过程中必须保证涉及到了数据安全性和隐私性,加强防护措施。(7)数据挖掘结果必须和专业知识结合。

四、数据挖掘未来发展的前景

数据挖掘基于关系模式、DBMS系统、SQL查询等语言的方法理论为基础,涉及多学科技术的集成,包括数据库和数据仓库技术、统计学高性能计算、模式识别、神经网络、、机器学习、数据可视化、信息检索、图像与信号处理以及空间或时间数据分析。有专门用于知识发现的数据挖掘语言;寻求数据挖掘中的可视化方法;在英特网上建立数据挖掘服务器并与数据库服务器配合,实现数据挖掘;加强对非结构化的数据挖掘如文本、图形视屏、图像、声音乃至于多媒体数据挖掘技术。交互发现、提供交互、个性化服务;能够自动完成知识的维护和更新。

参考文献:

数据挖掘技术研究篇8

关键词:电子商务;数据挖掘;算法

1引言

电子商务是指利用互联网,通过数字化电子信息传送的方式进行的商业活动或者商业信息的交流,目前已经产生了各种各样的电子商务形式,例如网上购物、网上银行、网上付账、电子票据交换、网上招商广告等等。电子商务有它独特的特色优势:电子商务不受时间和地域的限制,只要能够上网,无论什么时间、身处何地,即使足不出户也能够通过网络时刻关注商业行情,进行买卖交易和商业活动;电子商务还大大降低了商家的运营成本,不再像传统商业那样需要实体店铺,也不需要销售员工和店员,可以直接通过网络进货、销售,减少仓储、节省出大量的人力、物力和财力,因此电子商务的经营方式更受到广大商家的青睐。

电子商务网站系统里面经常会用到数据挖掘技术,数据挖掘是一种使用广泛的价值信息提取技术。它的根本含义是从大量的、无规则的、不完全的并且伴随绝大多数垃圾信息的数据中筛选出对自己有用的、有价值的信息。而目前存储于WEB上的各种关联电子商务的数据信息量十分庞大,这些信息还有着动态性和不确定性,更是加大了提取有价值信息的难度。如果想从中获取对自己有用的信息,需要通过WEB数据挖掘对信息进行有效的筛选和提取,最终获得所需的价值信息。

2WEB数据挖掘在电子商务中的实际应用

目前随着电子商务的蓬勃发展,商家对于市场竞争也变得越来越激烈。对于商家来说,掌握任何买家的相关信息都有可能带来一次绝好的商机。例如商家如果能够从海量的WEB数据中发现买家的兴趣爱好、购买需求、价值取向等信息,就可以随时灵活的改变自己的销售策略,使产品的种类、价格更能迎合消费者的心理,取得更大的经济利益。而目前使用的WEB数据挖掘技术的目的都是为了获得这样的实际意义。WEB数据挖掘技术的应用在目前来看主要有几个方面,一是建立一些智能化的产品搜索引擎,通过WEB数据挖掘技术来找出顾客的兴趣爱好,从顾客以往的消费记录和浏览信息中分析出顾客的一些特点,提供适合顾客的一些服务,提高顾客对商务网站的满意度;二是在WEB客户访问信息中进行数据挖掘可以发现潜在的客户群体,获得更多潜在的客户市场;三可以通过WEB数据挖掘对客户的访问信息和访问模式进行分析,通过客户的使用习惯、兴趣爱好和消费习惯等信息来优化网站结构,使网站组织结构更加合理,符合客户的使用习惯,增加客户再次访问的几率。而这些都是WEB数据信息进行数据挖掘所带来的好处和实际利益。因此说在电子商务中进行WEB数据挖掘所带来潜在的经济收益是十分客观的。

3电子商务挖掘系统的逻辑架构

WEB数据挖掘技术如果应用在电子商务活动中,可以获得大量有用的商业信息,给电子商务网站带来丰厚的商业价值,因此如何使电子商务网站在海量的WEB信息中挖掘出这些商机,让WEB挖掘系统的功能变得更加强大、挖掘信息效率更高、实时性更好,这些就是电子商务挖掘系统的重点研究课题。基于普遍应用的电子商务系统,这里给出了一般的逻辑架构:首先逻辑架构的最外层模块是系统的WEB界面、图形操作界面和命令操作界面,这些都是管理者负责设计、修改、管理的可视化功能界面,可以根据需要对网站的界面、结构和内容信息随时进行修改。内部数据挖掘模块是数据挖掘、数据转换、数据处理的内部组件构成,主要负责从各类数据信息中截取挑选数据,并把挖掘转换出的数据输送到数据库,并处理掉垃圾信息,最后的数据模块就是网站的后台数据库管理模块,负责数据的存储和备份。在这个逻辑架构中,最重要的部分就是数据挖掘模块,是否能够挖掘出有价值的信息、对信息进行数据挖掘的效率是否够快就变得尤为重要,毕竟抢先一步获得商机就意味着巨额的利润。为了提高效率在数据挖掘过程中会应用到各种不同的算法,应用得比较多的有Apriori算法和K-means聚类算法。下面来具体介绍一下这2种算法以及改进的方法。

4Apriori算法及其改进

Apriori算法是在1994年由R.Agrawal和R.Srikant提出的布尔关联规则挖掘频繁项集的原创性算法。Apriori算法思想是通过使用了数据项频集理论,对关系数据库经过一定次数的遍历,最终筛选出符合关联规则的频繁项集,这些频繁项集则是数据挖掘算法的中心数据。Apriori算法的挖掘过程大致可以分为2步:第1步是搜索出符合关联规则的频繁项集,这些频繁项集需要满足本身的所具有的支持度要大于选定的最小支持度的项集;第2步是找出频繁项集之间的关联规则。但是Apriori算法在实际应用中有一个明显的缺陷,那就是在选出备用的候选项集时会浪费大量的时间,因为每次选取候选项集时都需要对数据库进行一次遍历搜索,如果在遍历搜索过程中产生大量的候选项目集时,需要遍历产生的时间就会大大增加,这样就降低了算法的效率。针对5:Apriori算法这个缺点,提出了算法的改进,改进的方面主要是为了提高算法的效率并且让产生的频繁项集更加准确。Apriori算法的改进可以分为4步:第1步,根据信息数据库的信息量大致分为若干个数据量相等的模块。第2步,对划分的这些模块各自进行频繁项集的搜索工作,最终每一个模块将得到一个频繁项目集。第3步,通过算法的筛选,去掉这个频繁项目集中包含错误信息的项集,形成一个最终的适合所有数据的候选频繁项目集。第4步,把产生的候选频繁项目集应用于整个数据库,计算出候选项目集中项目的实际支持度,最后确定出Apriori算法需要的频繁项目集。这样改进的好处就是频繁项目集的选取不再需要对数据库中所有数据进行遍历,节约了算法大量的时间,而且通过先找出潜在频繁项目集进行对比计算的方法,可以提高算法频繁项集选取的精确度。

5K-means聚类算法及其改进

K-means聚类算法是数据挖掘中使用比较广泛的经典算法。它主要的功能是为了研究检测数据对象之间的差异度,通过差异度的比较筛选出符合目标要求的中心元素。K-means聚类算法的核心算法是:从待选的所有数据信息中随意挑选出一定数量的数据作为最开始的聚类元素中心,起始数据的挑选具有随机性。然后通过具体的关联规则算法计算出余下的全部数据与中心数据的相异度,根据相异度的平均值确定新的中心元素,一直到所有元素都被划分到所选出的聚类集合当中为止。但是这种算法还是有一定的缺陷的。缺陷主要有2点:一是由于初始的聚类中心K个元素是随机选取的,有一定的随机性,那么再重新确定K个聚类中心就需要大量的时间重新计算。二是在选取好K个聚类中心后还有可能产生孤立点的因素,可能会造成筛选结果的偏差,这样还需要对产生的聚类结果进行检测分析,避免孤立点的情况出现。针对于这2种情况,对K-means聚类算法进行改进:首先在选取K个聚类中心的时候,可以使用模糊算法的理论,用模糊算法的C均值算法对K的数量进行计算划分,可以把所有信息数据看做是模糊算法中的整体类,信息数据之间的差异度看作是针对于这个类的隶属关系,每个数据项与整个类之间的隶属关系通过计算能得出一个[0,1]范围的隶属度。最后通过所有数据的隶属度的平均值来确定聚类中心数量K的值。在计算所有数据与聚类中心隶属度的时候,可以通过隶属度值的大小来判断所选取的聚类中心是否是孤立点,如果计算出的隶属度大,说明选取的两个聚类是相异度很大的区域,是高质量的区域,符合挑选的要求,如果隶属度值比较小,说明选取的聚类中心相异度小,那么这两个区域本身有可能是孤立点,就需要重新划分聚类中心。通过改进的方法可以使K-means聚类算法在选取聚类中心K值时降低计算的时间复杂度,而且选取的数值K比较准确,不会像传统算法那样具有随机性、不确定性,选取的K值也更加合理、降低了由于K值选取错误带来的对计算结果的影响。

数据挖掘技术研究篇9

关键字:数据挖掘技术;计算机;网络;病毒防御技术

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)02-0001-02

Abstract: In the computer network virus prevention technology, with respect to the application of data mining technology can quickly within its geographical scope of the data collected classification, so as to provide a reference for computer virus-related information determination. In this paper, the analysis of data mining techniques in computer network virus defense techniques.

Key words: data mining technology; computers; networks; virus defense technology

随着社会的进步,计算机技术迅速发展革新,人们已经进入暂新的网络时代,但与此同时,伴随着计算机技术的发展,与计算机网络一直都存在密切关系的计算机网络病毒技术也保持着同步发展,甚至推进到更高水平,给计算机网络系统安全造成极大的威胁,同时给广大计算机网络用户带来很大损失,因此,计算机网络病毒防御技术一直是人们比较关注的问题。数据挖掘技术是一种新型计算机技术,用于计算机网络病毒的防御系统中可以有效的解决目前发展猖獗的蠕虫病毒,进一步保障计算机网络系统的安全。

1 计算机网络病毒特点

第一,计算机网络病毒种类的多样性。计算机网络病毒的设计和开发没有太大难度,简单的几个程序编写指令就可以开发设计出各种各样的网络病毒,尤其是对于一些技术水平比较高的程序编写员来讲,很容易就可以完成计算机网络病毒程序的编写和修改,而且网络病毒的种类增长和繁殖速度特别快[1]。

第二,计算机网络病毒传播形式的多样性。计算机网络系统的传播形式有很多种,网络病毒在网络系统漏洞中的传播就是常见的一种病毒传播方式,计算机网络病毒程序通过对Internet 远程主机系统的搜索和扫描,利用系统漏洞到达控制对方计算机的控制。同时也有一种病毒通过对文件夹的搜索扫描,进行病毒复制,以到达入侵网络系统的目的。

第三,计算机网络病毒的针对性。在计算机网络技术发展初期,计算机网络病毒主要目标就是干扰网络技术人员的程序编写,随着计算机技术的快速发展,计算机网络病毒的开发技术和功能作用也发生了很多变化,如今,计算机网络病毒的设计和开发已经开始商业化,针对性的对计算机网络系统实施破坏,如通过盗用网银账号和密码等方式已到达非法获取利益的目的。

2 数据挖掘技术的基本认识

数据挖掘技术是通过对所处一定范围之内的所有数据进行数据收集、数据分类以及数据归类,进而来判断是否存在某种潜在的关系和数据规律,主要环节有3个:第一个是准备数据;第二个是寻找数据存在的规律;第三个是表现数据规律。数据挖掘技术的基本应用结构如下图所示:

数据挖掘模式设置好之后,技术系统中的挖掘引擎就会以数据库中的要求为依据,对准备好的数据进行数据分析和数据归类,找出各个数据之间存在的关系和相应的数据规律,以便成为之后数据分析的有利依据,数据挖掘步技术是比较全面的挖掘技术和数据应用技术,工作过程比较繁杂,工作操作步骤较多,其中存在很大部分的准备环节和规划工作,数据挖掘技术的重点工作是对数据的预处理阶段,对数据的预处理阶段是数据挖掘技术的基础,是后期的进行数据分析的必要条件[2]。

3 数据挖掘技术下的计算机网络病毒防御技术

3.1 数据挖掘技术的构成分析

在计算机网络病毒进行传播的时候,为了给数据挖掘技术提供相应的数据依据,需要对有关数据进行扫描,可以对网络用户方面数据进行扫描,也可以对系统数据进行扫描。数据挖掘技术在计算机网络病毒防御中的应用过程比较复杂,步骤繁多,为了便于日常操作应用,掌握每个环节的基本特征,可以对预处理模块、决策模块、数据收集模块、数据挖掘模块以及规则库模块进行分模块分析研究。基于数据挖掘技术的计算机网络病毒防御流程如下图所示:

3.1.1 数据预处理模块分析

简化数据挖掘技术中数据挖掘和数据分析之间的处理操作可以通过数据预处理模块来实现,利用数据预处理模块可以整体上提高数据挖掘效果,提高数据辨识度和准确度。在完成数据收集后需要把数据导入到预处理模块,实现数据的分析归类和数据变换,通过这样额方式把数据转换成可以被系统识别和处理的数据内容。以目标 IP地址、源 IP地址、端口信息等这些据数据包当中所包括的信息内容为依据,实施数据集合、数据归纳、数据处理等流程等[3]。

3.1.2 决策模块分析

在数据挖掘技术中的决策功能模块中,通过对数据的挖掘对数据库进行构建,然后对数据进行匹配,同时数据库还要和规则库密切联系起来。如果数据库有与规则库存在高度联系的信息出现,证明在决策模块里有病毒特征存在,很可能会感染到计算机病毒。如果是结果数据库的数据信息和规则库的数据不能相互匹配,那也就是说该数据包中存在有带有新型特征病的毒带,也就是出现了新型的规则类,这样的情况下就需要把该带有新型特征的病毒导入到系统的规则库当中,规则库的一种较新型的规则类别也就形成了。

3.1.3 数据收集模块分析

实现数据挖掘的基本要求是提供充分的数据信息,只有通过数据收集才能实现数据收集模块的功能。数据收集模块通过对计算机网络中数据包的抓取和收集来实现数据信息,数据信息被收集后就会具有一定的数据结构和比较重要的功能信息。

3.1.4 数据挖掘模块分析

数据挖掘技术的一个最关键部分就是数据挖掘模块。数据挖掘模块中的事件库和数据挖掘算法是数据挖掘模块的关键部分。数据挖掘对相关数据的收集构成了事件库,通过对事件库中数据的分类和数据整理,进而可以获取较为准确的数据结构。

3.2 以数据挖掘技术为基础的网络病毒防御系统

3.2.1 数据挖掘技术中的关联规则分析

数据挖掘技术的关联规则就是指在同一类别的数据中有可以被发现的知识存在,通过对两个或者超过两个的变量进行取值,如果发现数据具体一定规律的话说明这些数据和数据之间存在着某种关联性。因果关联、及时序关联以及简单关联是存在数据挖掘技术中的几种主要关联关系。要找到数据库中的关联网,就需要进行关联分析,然后结合数据和数据之间的关联性进行数据挖掘,进而得到数据和数据存在的关联规则。

3.2.2 数据挖掘技术中的聚类分析

根据数据的不同特点和类别,对所获取的数据进行分解,把它们分成多个不同的组别,各组数据之间在特征上都存在不同程度的相似之处,而且每组数据同时又存在着各种不同特征。系统对所有数据进行聚类之后,就可以发现并识别出整个系统数据分布的疏密情况,这样不仅可以呈现出组与组之间数据存在的联系,同时也可以对全局的分布模式有所体现。

3.2.3 数据挖掘技术中的分类分析

对个体进行分类并归类到预先设定的类别当中就是分类分析。分类的目的就是通过对各种各样的机器学习方法和各种统计方法的利用,建立数据的分类模型,进而把数据库中存在的所有数据按照一定的规律划分成各个类别,然后依据这个分类规则结果实现对其他数据的分析和归类。

4 结束语

计算机网络已经很大程度上渗透入人们的生活和工作当中,彻底改变了人们的生活和工作方式,同时也促进了计算机网络技术的进一步发展,但面对无法彻底避免的计算机网络病毒,大家一定要提高网络系统安全意识,把这场抵制计算机网络病毒入侵的持久战坚持下去。

参考文献:

[1] 李智勇. 数据挖掘在计算机网络病毒防御中的应用探究[J]. 电子测试, 2014 (12): 46-48.

数据挖掘技术研究篇10

【关键词】 数据挖掘技术;电子商务;推荐系统;研究

随着计算机互联网技术在社会工作与生活中的普及,电子商务产业也获得了快速的发展。为了进一步扩大电子商务的市场,提高电子商务企业的经济效益,电子商务推荐系统被开发出来。而数据挖掘技术作为支持该系统运行的重要技术,对电子商务推荐系统的发展具有重要意义。本文将主要对其进行分析与研究。

一、数据挖掘技术概述

数据挖掘技术至今还没有一个统一的、确定的概念定义。归结起来,笔者认为数据挖掘的概念应主要包括以下三方面内容:①未知。一些学者也将其表述为新颖。这一方面内容强调的是数据挖掘技术能够清楚的揭示出许多数据之间的相互关联关系,并对于隐藏在这些数据信息后的隐含信息也能随之被呈现。通常来说,被挖掘出的信息越隐秘,那么其价值也就越大[1]。②可用。一些学者也将其表述为有效、支持决策等。数据挖掘技术的这一内容主要强调对数据信息可用性价值的需求。因为只有挖掘出了有价值的、能够被人们利用的数据信息,才能满足人们的需求,推动某些事物的发展。③可理解。一些学者也将这一内容解释为可解释。然而无论表述之间存在着怎样的差异,这一内容都主要对被挖掘出的数据信息的可理解状况提出了要求。只有那些通被商家与客户理解的数据信息才能够被最终应用,发挥其自身的价值,带动相关利益主体的进步与发展。

二、协同过滤技术

数据挖掘技术有许多种类,如关联规则、聚类、贝叶斯网络和协同过滤技术等[2]。其中协同过滤技术作为数据挖掘技术中最具有价值的一种技术,被广泛的应用到了现如今的电子商务推荐系统之中。

2.1协同过滤技术的实现

协同过滤技术的实现并不是一步就可以完成的,而需要经过多个步骤。经过归纳,笔者将其分为三个主要步骤:第一,人们需要事先对用户进行调查,以记录和收集他们对企业商品项目的评价信息;第二,对企业项目集的搜索结果进行生成操作;第三,对企业项目集推荐结果进行生成操作[3]。在进行第一个步骤时,人们经常使用显示评价法与人工调查法对商品项目的评价信息进行收集。在电子商务时代,传统的人工走访方式已经逐渐被取代,更多的是应用显示评价法对商品项目信息进行收集。

2.2基于用户的协同过滤技术

此种协同过滤技术主要通过惯性分析方式将电子商务企业的用户作为研究对象,这种数据挖掘技术是以用户为研究对象的。也就是说当电子商务企业的某两个用户对于某一商品的评价信息趋于一致时,那么系统就会推断这两个用户对商品的喜好品味是相同的,而商务推荐系统在以后的工作中在对某一商品进行推荐评价等工作时就会认为这两个用户也会对此商品有着同样的喜爱程度。

将基于用户的协同过滤技术应用到电子商务的推荐系统中,电子商务推荐系统能够更加轻松的对商品项目用户的喜好倾向进行搜集与挖掘,从而为相关的商家提供一定的数据信息支持其新产品的研发设计等。并且通过这一技术电子商务推荐系统还能够对并未购买过某商品的用户,但是与其有着相同喜好的用户已经购买过的关联用户进行商品推荐,以发掘更多的潜在购买用户,扩大企业的市场,增加产品的销量,从而获取更高的利益。

2.3基于项目的协同过滤技术

基于项目的协同过滤技术主要将商品项目作为其作用对象。若电子商务推荐系统要想将某件商品Y推荐给某个用户S。就应该首先将用户S已经购买并评价过的商品(Y1、Y2……Yn)进行统计,然后对电子商务企业需要推荐的商品Y和这n个已经评价过的商品之间的相似度进行计算与对比。找出这n个评价过商品中与待推荐商品Y相似度最大的商品项目,从而建立起与待推荐商品Y相似的商品集合(n1、n2……nk)。由于商品用户S对待推荐的商品Y的评价情况与用户S对(n1、n2……nk)中商品集合的评价情况相似度较高,因此电子商务推荐系统会用用户S对(n1、n2……nk)商品集合的评价值进行加权的方式来得出用户S对待推荐商品Y的评价值F。当F大于推荐平均值w时,电子商务推荐系统就会对用户S推荐商品Y。

三、结束语

本文主要对基于数据挖掘技术的电子商务推荐系统进行了研究,并重点对协同过滤技术对电子商务推荐系统的重要性作用进行了分析,希望能够进一步推动电子商务推荐系统的发展。

参 考 文 献

[1] 韩家炜.数据挖掘――概念与技术(范明,孟小峰译)[M].机械工业出版社,2011.