数据挖掘技术研究范文

时间:2023-03-29 17:20:31

导语:如何才能写好一篇数据挖掘技术研究,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

篇1

1 空间数据挖掘研究概述

空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在GIS中的应用

空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

篇2

【关键词】数据挖掘 数据分类算法

在当前的时代背景下,很多的行业都引入了大数据挖掘的理念,这既给计算机产业带来了发展机遇,也带来了挑战。因为想要做好大数据挖掘的相关工作,就一定要掌握数据分类算法,而数据分类算法可称得上是数据挖掘中的一道难关。随着数据分析的研究不断深入,人们开发了多种多样的分类算法,用以不断减轻其难度。通常都是以数据分类器为基准,进行相应的数据分类,包括决策树类、Bayes类、基于关联规则类以及利用数据库技术类,本文将对它们进行简单的阐述。

1 决策树分类算法

1.1 传统算法

C4.5算法作为传统的数据分类算法,有着很明显的优点,如规则简单易懂,实际操作易于上手。但是随着计算机的不断普及,数据的规模变的越来越庞大,其复杂程度也是日渐增长。C4.5已经逐渐无法满足新时期的数据分类处理工作了。并且由于决策树分类算法的规则,决定了在数据分类的过程中,要对数据进行多次重复的扫描和排序。特别是在构造树的时候,这种缺点更加明显。这不仅会影响数据分析的速度,也浪费了更多的系统资源。对于大数据挖掘来说,C4.5更加无法胜任,因为C4.5算法的适用范围十分有限,只能够处理小于系统内存数量的数据,对于内存无法保留的过于庞大的数据集,C4.5甚至会出现无法运行的情况。

1.2 衍生算法

(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而来,在其基础上做了一些技术性的完善,例如增强了数据的排序技术,并采取了广度优先的处理策略。这使得SLIQ算法能够很好地记录数据处理的个数,并具有相当优秀的可扩展性,为处理大数据提供了基础条件。但是SLIQ算法也存在一些缺点,由于它是以C4.5算法为基础的,因此在进行数据处理时,仍需要将数据集保留在内存中,这就导致SLIQ算法的可处理数据集的大小受到了限制。即数据记录的长度一旦超过了排序的预定长度,SLIQ算法就很难完成数据处理和排序的工作。

(2)SPRINT 算法是为了解决SLIQ算法中数据集大小受到内存限制的问题而开发出来的。SPRINT 算法重新定义了决策树算法的数据分析结构,改变了传统算法将数据集停留在内存中的做法。值得一提的是,它没有像SLIQ 算法那样讲数据列表存储在内存当中,而是将其融合到了每个数据集的属性列表中,这样既避免了数据查询时重复扫描造成的速度缓慢,又释放了内存的压力。特别是在进行大数据挖掘时,由于数据的基数过大,在每个数据集的属性列表内寻找所需数据能够大大节省分析的时间,对数据进行分类的工作也变得更加便捷。但是SPRIT算法同样存在一些缺点,对于不具有可分裂属性的数据列表,由于它只能在数据集内进行分析,结果可能不是十分准确,导致其拓展性受到了限制。

2 其他分类算法

2.1 Bayes分类算法

Bayes分类算法是利用概率统计学而开发出来的一种算法,在目前数据分类中应用比较广泛。但是其缺点也比较明显,由于Bayes分类算法需要在分析之前对数据的特性做出一定的假设,而这种假设往往缺少实际数据的理论支持,因此在数据分析过程中就很难做到准确有效。在此之上,TAN算法又被开发出来,它是为了提高Bayes分类算法的假设命题的准确率,也就是降低了NB任意属性之间独立的假设。

2.2 CBA分类数据算法

基于关联规则的分类算法就是CBA分类数据算法。这种算法一般需要用到数据构造分类器,在数据分析的过程中,先搜索到所有的右部为类别的类别关联规则,这被称为CAR;然后再从CAR中选择合适的数据集。CBA算法中主要用到的是Apriori算法技术,它能够使潜在的数据关联规则呈现到表面,方便进行归纳整理。但是由于其在进行数据分类时容易出现疏漏,因此经常采用设置最小支持度为0的办法来减少遗漏的数据,这就造成了算法的优化作用不能完全发挥,降低了运行效率。

2.3 MIND和GAC-RDB算法分类算法

在大数据挖掘的背景下,未来数据分类算法的发展方向应当是以数据库技术为基础的的分类算法。尽管很久之前就已经有一些专门研究数据库的人员发现并提出了基于数据库技术的分类算法,但是并没有得到实际运用。因为在进行数据挖掘和数据分析的时候,很难将其与数据库的系统集成,目前来说,MIND和GAC-RDB算法还能够较好地解决这个问题。

2.3.1 MIND算法

MIND算法与决策树算法有些相似,都是通过构造数据分类器来进行数据分析。但是MIND算法采用了UDF方法和SQL语句来与数据库系统实现关联。在进行数据分析时,UDF方法能够大大缩短对每个节点的数据特性进行分析的时间,这样就在为数据库的集成提供了理论基础。SQL语句是通过对数据集的属性进行分析,以便从中选择出最合适的分裂属性,然后给数据排序,这样就节省了数据分类的时间。但是MIND算法还不能直接在数据库系统中实现查询功能,更重要的是,该算法的维护成本过高,不利于普及。

2.3.2 GAR-RDB算法

GAR-RDB算法在MIND算法的基础上进行了更多的改进,能够充分利用数据库系统进行聚集运算,也就是实现了数据库系统的集成。该算法拥有分类准确,分析迅速,执行更快的优点,同时可拓展性也比较出色。更重要的是,它可以充分利用数据库提供的查询功能,从而避免了重复扫描数据集的现象,缩短了分析的时间,节约了系统资源。只要在自动确定参数取值的技术上进行一些改进,该算法就能很好地胜任大数据挖掘的数据处理工作。

3 总结

大数据挖掘是时展的潮流,因此数据分类算法的重要性也将随着显现。通过分析几种不同的算法,能够在数据分析速度、可扩展性和结果的准确性上进行比较,从而选择最适合的数据分类算法。它们都在不同程度上有着各自的优缺点,因此要继续深入研究以开发出更好的分类算法。

参考文献

[1]钱双艳.关于数据挖掘中的数据分类算法的综述,2014(13).

[2]刘红岩.数据挖掘中的数据分类算法综述,2002(06).

篇3

【关键词】Web挖掘、网络舆情、分析处理

0 引言

网络舆情作为一种十分重要的舆情表现形式,是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析,及时发现舆情热点,及时对民意走势做出正确引导。在此情况下,我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量,实现网络舆情的分析。

1 Web挖掘

Web挖掘是数据挖掘在Web上的应用,它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法,Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题,为网络舆情的深入分析提供了技术支持。

1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解,Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析,以及利用Web文本进行趋势预测。在网络舆情分析中,Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。

1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息,为网络舆情的分析的提供了重要资源。通过Web结构挖掘,可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识,从而帮助舆情分析人员确定重要舆情源和中心页面,有助于深入挖掘舆情信息。

1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录,获取有价值的信息的过程。这些信息包括网络服务器访问记录、服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好,可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘,可以确定舆情热点和焦点,从而更准确地预测网民行为。

2 基于Web数据挖掘的网络舆情分析

2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息,为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。

(1)确定主题和选择采集地点。为了使采集效果更好,必须以主题的形式对信息需求进行描述。

(2)利用自动采集软件采集数据。数据采集软件可以自动采集相关信息,并下载到本地进行分析。

(3)页面分析。采集完页面之后,对页面进行分析,提取重要信息,以便进行后续的过滤和处理。

(4)URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。

(5)页面过滤。对采集页面进行主题相关性评价,去除相关性低的页面,从而提高采集页面的准确性。

2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成,而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息,简化并加速 了Web挖掘处理。

(1)语义信息集成。由于数据层的数据来自于不同的媒介,因而在结构和语义上都存在很多的不同,需要对其进行统一处理,并根据需要利用智能信息处理技术进行深入的预分析,从而提高挖掘引擎的效能和健壮性。

(2)Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分,执行Web挖掘任务。它定义了Web挖掘模型语言,选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律,并预测事件的发展趋势。可根据网络舆情信息源的特点,从多个方面更加深入的进行挖掘处理。

2.3分析层。分析层是核心部分,其主要技术应用于对网络舆情信息的智能分析,该分析从六个层面进行,分别是:主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述,并生成网络舆情分析报告来辅助决策机构。

2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理,从而发现隐藏的规律和发展趋势,同时也更易于舆情信息的理解和分析结果的应用。其次,为后续工作提供接口。由于计算机不能对随机出现的各种警情进行判断,因此需要提供系统交互接口,可以让专家进行分析,实现人机互动,从而提高舆情分析的准确性。

3 基于Web挖掘的网络舆情分析系统实例分析

本文以方正智思舆情预警辅助决策支持系统为例,讨论Web挖掘技术在网络舆情分析中的应用。正智思舆情预警辅助决策支持系统是一款由北大方正技术研究院研发而成的中文智能信息挖掘与处理的平台软件。其核心技术为中文信息处理技术与Web挖掘技术,采用B/S结构,利用J2EE技术框架,实现基于浏览器的瘦客户、服务器模式。它不仅能对舆情信息进行全方位采集,还能对舆情信息进行智能分析处理。其实时响应、智能分析、辅助倾向性判断等特点为相关职能部门全面掌握网络舆论动态,作出正确引导,提供分析依据,从而提高各级政府应对突发事件的能力。

4 结语

Web挖掘是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。实践表明,将Web挖掘融入网络舆情分析中,可以充分发挥Web挖掘技术从海量信息中发现隐藏的规律,实现对网络舆情信息全方面深入的分析,从而辅助相关职能部门正确引导民意。在网络舆情中应用Web挖掘技术,可以有效地提高网络舆情分析结果的正确性,也是其未来的发展方向。

参考文献:

[1]付业勤,郑向敏. 国内外网络舆情研究的回顾与展望[J]. 编辑之友,2013,12:56-58.

[2]张玉峰,何超. 基于Web挖掘的网络舆情智能分析研究[J]. 情报理论与实践,2011,04:64-68.

篇4

关键词:数据挖掘;信息系统集成;K均值算法;聚类算法;BOM系统

中图分类号:TP391

文献标识码:A

文章编号:16727800(2017)004018503

0引言

充分利用企I信息系统集成中所产生的生产业务信息数据成为企业的关键技术,数据挖掘技术则是企业系统中使用的技术之一。数据挖掘指对数据库中的海量数据进行过程复杂的数据分析,从而获得其中隐含信息的过程。根据用户需求,选择比较切合的数据挖掘算法,成为挖掘技术成功的关键。通过研究各种数据挖掘算法,笔者在众多算法中选择了K均值算法作为本文数据挖掘的基础算法。

1K均值算法概述

1.1K均值算法概念

聚类问题是将给定的数据集合D划分成一组聚类:{C1,C2,…},Ci∈D,使不同种类中的数据尽可能不相似(或距离较远),同一种类中的数据尽可能相似(或距离较近)。聚类是一种无监督的学习,所谓无监督学习指事先并不知道要找的内容,即没有目标变量,它将相似的对象归到同一个簇中[13]。K均值(Kmeans)算法在聚类算法中使用最为广泛。首先根据分类的个数k,随机地选取k个初始的聚类中心,当然这个k值是难以确定的,并把每个对象分配给离它最近的中心,分别得到起始的聚类点。然后,将当前每个聚类的中心作为新的聚类中心,并把每个对象重新分配到最近的中心。不断地循环迭代,直到目标函数的最小值,即最终的聚类中心点没有移动。其中,目标函数通常采用平方误差准则,即:其中,E表示所有聚类对象的平方误差和,S是聚类对象,Mi是类Ci的各聚类对象的平均值,即:

其中,|Ci|表示类Ci的聚类对象数目。每一次迭代时,每一个点都要计算一遍它和各聚类中心的距离,并取最短距离的类作为该点所属的类。直到E获取最小值,最终表现为最后的聚类中心无法移动。一般k的典型取值为2~10。

1.2K均值算法计算模型

假设在一片小区域中有若干数据点,如图1所示。先假设k=2,即最终这些数据点会聚类成两个类。K均值算法具体解释如下: (1)由于k=2,任意的两个数据点被选作初始类的聚类中心(图中用点F、G表示),如图1(a)所示。 (2)将其余的各个点分配到距离最近的聚类中心点(本例中为F点、G点)所代表的类中,即求图中所有点到各个聚类中心的距离。如果Si距离Ci近, 则Si属于Ci聚类。如图1(b)所示,A、B点与F点的距离相对G点更近,所以属于F点聚类,C、D、E点与G点相对F点距离更近,所以属于G点聚类。 (3)将聚类中心点F点、G点移动到“自己”的聚类中心,如图1(c)、图1(d)所示。 (4)重复步骤(2)、(3),直到每个类中的聚类对象(如图1(e)中的点)不再重新分布为止,第一个点聚合了A、B、C,第二个点聚合了D、E,此时重复循环的迭代过程结束。

2.1系统概述

通过对K均值算法的介绍及其算法处理模型,笔者结合某制造型企业的信息化系统平台用户实际需求建立数据仓库,在数据仓库的基础上使用数据挖掘中的K均值算法对大量数据进行潜在信息的挖掘,并开发出基于K均值算法的挖掘器,辅助决策者进行决策。假如数据库中的数据关于产品信息生成了k个聚类中心,即k个中心点point,将其余的各个点分配到距离最近的聚类中心点所代表的类中,距离为distance,并获取距聚类中心距离最小的距离min2,将该元素归类于距离聚类中心点最近的那个聚类中,核心代码如下:

private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //将聚类中心点移动到自己的聚类中心,求两点误差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求两点误差平方”的方法,计算误差平方和准则 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //设置新的聚类中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //对第2、3步进行重复迭代,直至得到算法最终结果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }

2.2零部件市场需求分析

在销售系统“零部件市场需求分析”模块,主要针对销售信息以及产品信息所建立的数据仓库中的信息进行数据挖掘。合同中记载了所销售的产品图号、数量、客户相关信息等,同时根据产品图号可以得到产品BOM信息。 产品BOM信息即该产品的设计信息,包括零件信息、物料进货方式及加工作业方式、工艺信息、图纸信息、层次码、总数量等。其中零件信息主要有:零件图号、零件名称、材料、牌号、外形尺寸等;物料进货方式及加工作业方式主要包括:物料类别(如:配套件、紧固件)、物料进场状态(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工内容(如:金工、电工);工艺信息即零部件加工的工艺信息;图纸信息包括图纸幅面等;层次码主要用来标注该零部件在产品中的所处位置;总数量即表明该零部件在产品中该层次码下的个数。 相同产品可能会有处于不同层次的相同零部件,不同产品可能会有相同零部件。因此,在所建立的数据仓库基础上,使用数据挖掘技术挖掘出查询条件,从销售的产品中具体细化到销售需求较多的零部件,从而在企业决策时察觉出该情况。通过针对性地制定预投生产计划、增加库存,能够帮助企业提高生产效率,对于市场快速反应,以提高市场占有率。 对于该部分功能,首先可以进行条件查询。查询属性有:产品图号、产品型号、代号、名称、规格尺寸、长度宽度、材料、牌号、年份和客户编号。 从查询属性看,这是多种搜索条件的组合;从数据挖掘角度看,这是在K-均值聚类算法设计的数据仓库基础上开发出来的一个数据挖掘工具。此项功能设计时是从月份出发,将每年的销量按照月份呈现,因此“年份”是必选项,其余条件用户可以自由组合。例如:选择“2012年”,查询结果如图2所示。

该图表示在2012年的销售产品里对零部件数量进行汇总的结果。通过该数据挖掘器,提出了销量最领先的4个零部件。曲线代表其在各月的销售总数及市场需求总数,单位以“百”计。每条曲线代表的零部件图号在图右侧进行了说明。该表示方法直观、清晰,可以给决策者提供明确的零部件市场需求变化曲线图。通过聚类结果可知,“零件图号”为“8UE.016.0211”的零件,从八月开始销量减少,并且其它3种零件在六月开始需求量变大,从而可使决策者在来年制定更合理的方案,以提高企业竞争力。

2.3废料统计情况分析

废料统计情况分析主要是针对生产中由于工人误操作、材料劣质、机器故障等各种原因造成所领物料报废,需要重新领料进行加工的情况进行统计分析。 物料是一个统称,它包括可以直接领的成品、需要再加工的半成品,以及需要加工的原材料。因此,对于物料有一个物料编码,专门对所有可领的成品、半成品、原材料进行唯一标示。物料编码根据零件图号、零件名称、材料、牌号、外形尺寸、物料进场状态、物料类别、加工方式8个字段进行唯一性区分。根据编码方式,产生唯一的物料码,例如“A00B021”。该企业的物料有“定额”和“非定额”两种情况。“定额”即可以用个数来统计的零部件物料;“非定额”指无法用个数来统计的物料,如:5米长的铜线等。具体而言,本文主要研究针对某个工作令从生产开始到生产结束,所有定额物料的生产料废情况。在工作令系统和领料单系统的基础数据库上建立数据仓库。工作令系统的数据库中存有工作令号、起始生产日期、结束生产日期及其它工作令的基本信息。领料单系统数据库中的废料表中存有料废的物料编码、材料、数量等信息。查询属性有:工作令号、合同号、起始时间和终止时间。 填入工作令号“2B7-1D044205”,点击“查询”按钮,会通过数据挖掘方法统计该工作令下的所有零件材料料废情况,如表1所示。

表1清晰表明了该工作令号“2B7-1D044205”中各个物料损失的比重。从表中可以看出,以废料“A03B004”、

“D03E334”和“E17B231”为聚类中心的废料占多数,从而可以使企业决策者从这些材料损失中发现问题,分析物料损耗原因,如:采购质量问题、工人操作失误,还是其它可避免的各类原因。因此,该基于数据仓库的数掘挖掘器,有利于辅助企业决策者从实际生产中找出各类潜在问题,从而制定合理的政策,降低生产损失,提高企业竞争力。

3结语

本文采用数据挖掘技术对数据库中积累的大量数据进行了分析处理,系统虽然实现了将基于K均值算法的数据挖掘技术应用于信息化系统集成平台中,但也只是实现了部分辅助决策功能。根据企业的具体使用情况,决策者肯定不会满足于系统中已经提供的决策支持功能,如何更近一步地发挥系统集成能力,开发更多决策支持功能,提高数据仓库查询速度,以满足企业决策者更多需求,是下一阶段研究的主要方向。

参考文献:

[1]王欣,徐腾飞,唐连章,等.SQL Server2005数据挖掘实例分析[M].北京:中国水利水电出版社,2008:15.

[2]李锐,,曲亚东,等.机器学习实践[M].北京:人民邮电出社,2013:184199.

[3]彭木根.数据仓库技术与实现[M].北京:电子工业出版社,2002:321.

[4]陈文伟.数据仓库与数据挖掘教程[M].第2版.北京:清华大学出版社,2011:190.

[5]孙水华,赵钊林,刘建华.数据仓库与数据挖掘技术[M].北京:清华大学出版社,2012:122.

[6]李晶,陈骥.数据挖掘技术对ERP实施的重要性[J].福建电脑,2008(8):6061.

篇5

在当今信息高速发展的科技时代,数据挖掘技术的发展也进入了一个新的高峰期。所谓的数据挖掘技术,已经逐渐的成为了我们当前的数据库与相关人工的智能领域所要研究的焦点。该篇文章主要是针对国内外一些数据挖掘技术方面的整体的状况进行比较笼统的介绍,这其中主要包括了其数据挖掘技术所产生的背景及其相关的应用领域等等。当然,还包括了数据挖掘技术的分类,并且还在一定的程度之上对目前数据挖掘技术一些相关的算法做出了详细的说明,然后列出一些数据挖掘技术在我们实际领域当中的简单的应用,当然,对其未来的发展方向也做出了美好的展望。我们相信,在不久的未来,数据挖掘技术定当渗透到我们生活的各个领域。

关键词:

数据挖掘的技术;发展现状;发展方向;趋势;分析与探讨

1、引言

在当今信息高速发展的科技时代,各个方面的发展都非常的迅速。且其数据库的应用规模和范围以及深度已经从点逐渐发展到一个面了,例如,从单台的机器发展到如今全面的网络,甚至是到我们如今的英特网全球性的信息系统。这使得一些商业和企业以及政府或者是相关的科研机构,都相应程度的积累了各种各样的数据资料。当然,这些资料是十分的复杂和散乱的,单单去依靠数据库进行查询是绝对不能够满足我们实际的需要的,所以,它非常迫切的要求自动和智能的去将一些有待进一步处理的数据,在一定的程度之上转换为有价值的信息与知识,从而达到相关的目的。

2、什么是数据挖掘技术

数据挖掘技术,通常又可称为数据库当中知识的发现,可以方便或者是自动的进行模式化的提取。数据挖掘在一定的程度之上是一个多学科的领域,因为它主要是从多个学科当中去提取相关的知识,这其中主要涉及到了人工智能、数据库技术和机器学习以及信息检索等等多个方面的领域。总之,数据挖掘技术的研究有着非常广泛的运用前景,这主要是因为其数据挖掘所产生的一些知识可以去用于信息管理和决策支持以及科学研究等等多个领域。

3、数据挖掘分类

既然我们知道了什么是数据挖掘技术,那么又是如何对数据挖掘进行分类的呢?还有具体可以分为几类呢?以下我们主要就技术方面的分类进行详细的探讨;

3.1 决策树 决策树的归纳法是一种非常经典的分类的算法。它主要是运用了从顶向下各个击破的方式去建造决策树。其树的每一个结点之上所运用的信息增加的度量可以选择测试的属性。

3.2 神经网络的方法 什么是神经网络的分类算法呢?神经网络分类的算法重点主要是去构造相应阈值的单元,它可以相应的输入一组加权系数,然后对它们进行求和,如果超过阈值,就相应的输出一个量,可以在一定的程度之上完成分类、特征挖掘和聚集等等多种的数据挖掘的任务。

3.3 可视化的技术 主要是指通过一些比较直观的图去将相关的数据和关联的关系等呈现给相关的决策者,在这些图形当中,我们运用最多的便是直方图、散点图和数据立方体了。

3.4 遗传的算法 遗传的算法主要是指模拟生物进化的一种算法。它主要是基于一些群体的、同时还具有随机与定向搜索的相关特征的一个迭代的过程。这其中主要包括了四种比较突出的算子:遗传、交叉、自然选择和变异。

3.5 统计学 在我们数据库的字段项之间存在着不同的关系。我们对这些数据的分析主要是根据这不同的关系,并且采取一些统计学的方法进行分析,例如回归分析、相关分析和主成份分析等。

4、数据挖掘技术的研究现状及发展方向分析

4.1 针对其相关的生物医学与其DNA的数据所分析的数据进行挖掘 在当今,数据的信息量是非常的庞大的,因为我们所获得的大量的实验数据的观测如果仅仅是去依靠一些比较传统的分析数据的工具,是非常的不靠谱的。所以,对一些具有强大功能且具有自动化的工具的需要就越来越迫切了,这很显然的推动了数据挖掘技术的发展,并且还在一定的程度之上取得了重要的成果。

4.2 针对其金融的分析 因为一些金融的投资一般都存在着很大的风险,所以我们在进行投资和决策的时候,就需要去对各种各样的投资方向相关的数据进行分析。那么数据挖掘技术在此刻就起到了巨大的作用了。它不但可以对我们现在所获取的一些信息进行加工和处理,还可以对市场进行预测。

4.3 零售业当中数据挖掘的应用 在零售业当中,运用数据挖掘技术不但可以在一定的程度之上了解相关消费者的消费倾向,从而迎合消费者的口味,制定出更加接地气的市场政策,以提高销售额。当然,还可以适当的预测行业状况。

4.4 保险业当中数据挖掘的应用 我们知道,保险业是一种风险性十分巨大的业务。相关的研究表明,数据挖掘技术的运用不但可以预测相关风险性,还可以在一定的程度之上为保险业务工作者提供正确的方向。很明显,这是非常的有利于保险业的持续性发展的。

5、结束语

综上所述,伴随着信息时代的到来,及其数据的挖掘和数据相关仓库集成进一步的优化与深入,势必会给我们广大的用户带来十分广泛的利益。当然,其数据挖掘技术的发展前景也是更加的广阔的,将会使我们更多的人获益。我们坚信,在不久的将来,数据挖掘技术将会使得我们的生活变得更加的美好与丰富。

参考文献:

[1]高丽,王丽伟. 数据挖掘技术在国内图书馆应用领域的研究[J]. 数字技术与应用. 2015(12)

[2]梁雪霆. 数据挖掘技术的计算机网络病毒防御技术研究[J]. 科技经济市场. 2016(01)

篇6

关键词:数据挖掘; 关联规则; 学生成绩; Apriori算法

中图分类号:TP392文献标识码:A文章编号文章编号:1672-7800(2013)012-0133-03

作者简介:岳超(1986-),男,西南科技大学计算机科学与技术学院硕士研究生,研究方向为教育技术与知识工程;范太华(1962-),男,西南科技大学计算机科学与技术学院副教授、硕士生导师,研究方向为数据挖掘和系统结构;姬亚利(1988-),女,西南科技大学计算机科学与技术学院硕士研究生,研究方向为网络教育教学设计;衣峰(1987-),男,西南科技大学计算机科学与技术学院硕士研究生,研究方向为网络教育与移动学习。

0引言

随着招生规模的不断扩大,教务管理系统中的数据急剧增加,普遍存在的问题是学生成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段,如何利用这些数据理性地分析教学中的成效得失以及找到有关影响学生学习成绩的因素是广大教师共同关心的问题[1]。 本文着重讨论了数据挖掘技术在学生成绩这一海量数据中的应用,发现成绩数据中隐藏的课程相关规则或模式,力图通过关联与分类,得出一些有用的知识,对教学质量的提高起到积极的促进作用。

1数据挖掘及关联规则

数据挖掘 (Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘是一个循环往复的知识发现过程,通过对挖掘结果的描述、分析与评价,不断优化数据挖掘模型和挖掘算法,最终获得最优化数据挖掘解决方案[2]。

1.1数据挖掘流程

(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

(2)数据准备。①数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据;②数据的预处理:研究数据的质量,为进一步的分析作准备,并确定将要进行挖掘操作的类型;③数据转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(3)数据挖掘。对所得到的经过转换的数据进行挖掘。除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成。

(4)分析和同化。①结果分析:解释并评估结果,其使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术;②知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。数据挖掘的过程如图 1 所示。

1.2关联规则简述

关联规则挖掘就是在海量的数据中发现数据项之间的关系,关联规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量。他们分别反映了所发现规则的有用性和确定性。 一般地,用户可以定义两个阈值,分别为最小支持度阈值(minsup)和最小置信度阈值(minconf)。 当挖掘出的关联规则支持度和置信度都满足这两个阈值时,就认为这个规则是有效的,否则,就是无效的。 这些阈值一般可由领域专家设定,也可以进行其它分析,揭示关联项之间的联系。

2基于数据挖掘的高校学生成绩分析

对学生成绩的正确分析,是保证教学工作顺利进行的关键,揭示一些“教”与“学”的现象和规则,能更好地指导教师的“教”与学生的“学”,为教育教学的计划和决策提供依据, 提高教学的效果和成果。

2.1数据采集

高质量的数据,是保证数据挖掘成功的前提保证。本研究所需数据取自计算机专业学生的期末考试成绩数据库文件,确定某门课程和其它课程之间的关联性。为减少不必要的影响因素,影响关联规则的产生,删除了英语类、思政类、体育类的课程,将数学类和计算机课程进行分析,最终随机抽取 385 名学生的《C&C++ 语言程序设计》、《线性代数》、《离散数学》、《计算机系统原理》、《计算机网络》、《计算机组成原理》、《软件工程》、《数据库原理》、《数据结构》等课程的期末考试成绩。

2.2数据预处理

数据预处理是数据挖掘的关键阶段,原始数据往往存在不完整的、含噪声的和不一致的数据,不能直接运用于数据的挖掘,需要对其进行数据预处理,包括数据清理、数据集成、数据变换等内容。

(1)数据清理。通过填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。从数据库中导出字段包括学号、课程名、成绩、备注等信息。对备注中显示补考、重修的成绩填充为50分。对缺失值的填充,我们运用了决策树归纳的方法,填写最可能的值进行填写,以便数据挖掘结果更准确。经数据清理的数据如表1所示。

(2)数据集成。将多个数据源合并到一致的数据存储,依据以往经验思政类和体育类课程对本研究的结果影响不大,予以删除。根据此类思想整理数据,并将所有数据集成到一个Excel中,最终数据包含4 065条271名学生的15门数据。

(3)数据变换。将数据转化成适合于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的区间内。由于成绩是按照数值形式存储的,不利于数据的挖掘,需要对各科成绩进行离散化处理,将成绩分为优秀、良、一般、差4个等级,分别用A、B、C、D进行标识,规定85~100为A,75~85为B,60~75为C,60分以下为D。笔者运用Apriori算法对表1数据进行关联规则的挖掘,进行数据转化后如表2所示。

2.3Apriori算法的运用

采用SPSS Clementine工具进行数据挖掘,预处理的数据已满足Apriori算法对数据的要求,导入数据可直接使用Apriori模型进行分析。为了得到更有效的数据,笔者进行了反复的验证。设置条件支持度为0.15,最小规则置信度为0.75,挖掘结果如图2所示。

2.4结果分析

上面挖掘的关联规则并非每条都有现实意义,我们进一步进行处理,将关联规则模型导出,分析这些关联规则,得到主要知识如下:

(1) 学好计算机应用基础、C&C++程序设计、数据结构是学好数据库的基础,数据结构又是学好软件工程的基础。

知识发现过程如下:计算机应用基础=A =>数据库=A,支持度为32.32%,置信度为85.3%。计算机应用基础和数据库同时是A的人数占总人数的32.32%,计算机应用基础为A中85.3%的人数据库原理也为A,所以说要学好数据库原理先要学好计算机应用基础,C&C++程序设计=A =>数据库原理=A,支持度为42.35%,置信度为86.56%,同上解释,C&C++程序设计也是数据库原理的基础。数据库原理=A =>软件工程=A,支持度45.36%,置信度为81.02%,数据库原理也是软件工程的基础。

(2) 学好离散数学是学好数据结构的基础。

(3) 要把计算机操作系统学好,计算机组成原理、C&C++程序设计、数据结构、离散数学是基础。

(4) 计算机操作系统取得好成绩的人数中76%的人计算机网络也学的好。

(5)C&C++程序设计、数据结构和数据库原理又是学好软件工程的基础。

此处只列出了部分知识发现,管理者可以以此为参考,结合实际情况对所学的课程进行调整,并通过预警对学生的学习进行提醒和帮扶。学生可以结合自己的成绩及时预测某门课程的成绩,及时补救,加大课程的学习力度。

3结语

利用关联规则中的Apriori算法对计算机科学与技术专业的课程进行了挖掘,找出了隐藏在课程背后有趣的规律,发现偏离正常学习轨道的学生,及时进行预警和干预,帮助学生顺利完成学业,对学生课程的学习和管理者的决策提供参考,也为关联规则在其它学科的应用提供了思路。

参考文献参考文献:

[1]朱艳丽,高国.Apriori算法研究及其在学生成绩分析的应用[J].福建电脑,2010(1):47.

[2]韩家炜.数据挖掘概念与技术[M].北京:机械工业出版社,2010:41-43.

[3]王海容.数据挖掘在学生成绩分析的应用[J].电子设计工程,2013,21(4):54-56.

篇7

    理客户信息的难题,为银行的经营决策带来了很多帮助。本文首先分析了银行客户关系管理的内涵,分析了目前银行客户关系管理存在的问题。然后,分析了数据挖掘技术在银行客户关系管理中的应用和实施,进而帮助提高银行客户关系管理的质量。

    关键词:客户关系管理;客户数据;数据挖掘

    中图分类号:F832 文献标识码:A 文章编号:1674-7712 (2012) 14-0060-01

    随着计算机技术、数据库技术和网络技术的发展以及中国银行业全面开放,金融市场的联系更加紧密、竞争日趋激烈,要想应对国内国外银行的挑战,在竞争中脱颖而出,就必须加快银行的信息化建设步伐。银行客户关系管理(CRM)是银行通过对其客户的管理来提升企业市场竞争力的一种电子商务解决方案,其核心技术就是数据仓库和数据挖掘技术。银行客户关系管理结合数据挖掘可以分析客户群体、客户行为、客户价值观、客户流失等主题,准确的发现和保持优质客户,为客户提供个性化产品和服务,有效预测和防范各类风险,真正做到以客户为中心。

    一、银行客户关系管理的内涵

    1995年,全球最着名的IT分析公司Gartner Group提出了客户关系管理(Customer Relationship Management,简称CRM)的概念:客户关系管理为企业提供全方位的管理视角;赋予企业更完善的客户交流能力,最大化客户的收益率。其宗旨一方面是为了加强企业与客户之间的联系,被用于市场营销、服务、技术支持等各个与客户有关的领域,银行CRM也是一个典型的应用,另一方面,为了降低企业的管理成本。可以说CRM的出现是企业从以产品为中心的模式向以客户为中心的模式转移的重要体现。

    CRM按其实施步骤分为三个部分:首先获取客户信息。收集当前客户信息,充分利用历史客户信息。与客户相关的数据可以存储在数据仓库中。其次是信息挖掘。通过传统统计方法、数据仓库技术、数据挖掘技术和联机分析处理系统(OLAP)分析海量客户数据,发现潜在的规律和隐藏的信息。最后,信息的利用。信息的作用是为了发现问题和解决问题。这些信息可以辅助管理者对市场进行准确的预测,从而做出正确的决策。

    二、银行客户关系管理面临的问题

    目前银行实施客户关系管理面临的问题主要有:

    客户识别和分类。银行业的客户面特别广、客户数量特别多、客户种类特别繁杂。如何把客户分成不同特征的客户群,如何识别这些不同特征,从而针对不同客户群提供差异化、个性化服务,提高客户满意度,是CRM首要解决的问题。目前,银行的客户信息采集不完全,采集过程分散,客户流动性大导致客户资料系统化程度不高。

    客户保持。即要充分满足客户现在的意愿,预测客户未来的潜在需求,提高客户忠诚度,长期与客户保持联系。

    客户流失。由于一些客观原因和主观原因,银行的优质客户流失严重。因此,银行需要建立预警机制,对客户的最近交易进行追踪,一旦异常,银行可以预测,并作出相应的应对措施。

    目前,银行CRM存在很多问题,数据挖掘技术正好可以解决这些问题,提高银行的竞争实力。

    三、数据挖掘的定义

    数据挖掘定义从技术上来说是一个利用各种分析工具,如统计方法、关联分析、聚类、可视化、归纳、神经网络、决策树等在海量数据中发现模型和数据关系的过程,这些模型和关系可以用来做出预测。数据挖掘是一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策。

    四、数据挖掘与客户关系管理的关系

    可以说,银行客户关系管理(CRM)应用水平的发展是伴随着数据仓库技术的应用和发展而逐渐成熟起来的。在国外,数据挖掘技术已在银行业CRM广泛运用。通过搜集和处理大量客户数据,并对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。在国内,中国银行业信息化有很大的发展,但是普遍现状是集中了大量数据,却缺乏挖掘数据底层隐藏的知识的技术,往往导致了“数据爆炸”。国内银行业CRM还处于报表和部分分析应用阶段,并不能进行智能预测,未来我国的商业银行必须朝着预测应用的阶段不断的努力,才能使得我国的商业银行在未来的竞争中 处于领先的地位。 五、数据挖掘在银行CRM中的实施 随着CRM软件的成熟.将来的CRM软件不仅能帮助商业流程的自动化,还能帮助管理者做决策的分析工具。如利用决策树技术研究客户流失状况,可以找出客户流失原因,提前寻找方法应对,防止客户流失;利用数据挖掘中的模糊聚类分析方法可以对广大的客户群进行快速细分,分析客

    户类型特征,实现个性化服务;利用数据挖掘中的关联分析可以加强各业务部分之间和各营业网点之间CRM的互通性,跨平台销售,提高客户价值。

    在数据挖掘实施过程中,首先要明确我们需要解决的问题,知道问题所属的应用类型,从而判断能否使用数据挖掘技术找到解决方案;其次要选择适合的数据挖掘技术和工具,如上述举例所言,不同的处理方法能达到不同的目的,因此正确的选择才能达到事半功倍的效果。第三,准备数据。我们应从数据仓库中大量的银行客户数据中找到与分析问题有关的样本数据子集。然后对数据进行预处理、分析、加工,保证数据有效性。第四,模型建立。这是数据挖掘的核心,不同的数据挖掘技术会有不同的模型,然后,根据模型对结果进行分析和描述。最后,进行评价和总结。

    六、总结

    数据挖掘是CRM的灵魂。随着技术更加成熟,它与银行业客户信息会更加紧密地结合,能自动预测个人客户的消费趋势、整个市场走向,指导银行建设个性化智能网站,带来巨大的商业利润,提高银行的核心竞争力。

    参考文献:

    [1]李嘉明.数据挖掘在商业银行CRM中的应用研究[D].东南大学硕士学位论文,2010.

篇8

关键词:大数据时代;数据挖掘技术;应用

大数据是对全球的数据量较大的一个概括,且每年的数据增长速度较快。而数据挖掘,主要是从多种模糊而又随机、大量而又复杂且不规则的数据中,获得有用的信息知识,从数据库中抽丝剥茧、转换分析,从而掌握其潜在价值与规律。所以大数据时代下的数据处理技术要求更高,要想确保数据处理成效得到提升,就必须切实加强数据挖掘技术教学工作的开展,才能更好地促进数据处理职能的转变,提高数据处理效率,优化学生的学习成效。以下就大数据时代下的数据挖掘技术教学做出如下分析。

1大数据时代下数据挖掘技术的基础教学方法分析

数据挖掘的过程实际就是对数据进行分析和处理,所以其基础就在于数据的分析方法。要想确保分析方法的科学性,就必须确保所采用算法的科学性和可靠性,获取数据潜在规律,并采取多元化的分析方法促进问题的解决和优化。以下就几种常见的数据分析教学方法做出简要的说明。一是归类法,主要是将没有指向和不确定且抽象的数据信息予以集中,并对集中后的数据实施分类整理和编辑处理,从而确保所形成的数据源具有特征一致、表现相同的特点,从而为加强对其的研究提供便利。所以这一分析方法能有效的满足各种数据信息处理。二是关联法,由于不同数据间存在的关联性较为隐蔽,采取人力往往难以找出其信息特征,所以需要预先结合信息关联的表现,对数据关联管理方案进行制定,从而完成基于某种目的的前提下对信息进行处理,所以其主要是在一些信息处理要求高和任务较为复杂的信息处理工作之中。三是特征法,由于数据资源的应用范围较广,所以需要对其特征进行挖掘。也就是采用某一种技术,将具有相同特征的数据进行集中。例如采用人工神经网络技术时,主要是对大批量复杂的数据分析,对非常复杂的模式进行抽取或者对其趋势进行分析。而采取遗传算法,则主要是对其他评估算法的适合度进行评估,并结合生物进化的原理,对信息数据的成长过程进行虚拟和假设,从而组建出半虚拟、半真实的信息资源。再如可视化技术则是为数据挖掘提供辅助,采取多种方式对数据的挖掘进行指导和表达[1]。

2大数据时代数据挖掘技术教学要点的分析

2.1数据挖掘技术流程分析

在数据挖掘教学过程中,其流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就引导学生对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道所需数据类型,才能避免数据挖掘的盲目性。在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,引导学生结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值,在激发学生学习兴趣的同时促进教学成效的提升。

2.2挖掘后的数据信息资源分析

数据信息资源在挖掘后,其自身的职能作用将变得更加丰富,所以在信息技术环节下的数据挖掘技术随着限定条件的变化,而将数据挖掘信息应用于技术管理和决策管理之中,从而更好地彰显数据在经济活动中的物质性质与价值变化趋势,并结合数据变化特点和具体的表现规律,从而将数据信息的基本要素、质量特点、管理要求等展示出来,所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展,而这也在一定程度上体现了网络拟定目标服务具有较强的完整性,且属于特殊的个体物品,同时也是对传统数据挖掘技术的创新和发展,从而更好地满足当前大数据时代对信息进行数据化的处理,并对不同种类业务进行整合和优化,从而促进数据挖掘技术服务的一体化水平。

2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制

数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥,尽可能地促进数据挖掘技术信息资源的升级和转型,以大数据背景为载体,促进整个业务和技术操作流程的一体化,从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性,这样我们就能及时的找到资源的消耗源头,从而更好地对数据资源的消耗效益进行评价,最终促进业务流程的优化,并结合大数据背景对数据挖掘技术的职能进行拓展,促进其外部信息与内部信息的合作,对数据挖掘技术信息的职能进行有效的控制,才能更好地促进信息失真的控制[2]。

3数据挖掘技术在不同行业中的应用实践

学习的最终目的是为了更好的应用,随着时代的发展,数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯,从而利用其将销售方式改进和优化,最终促进产品销量的提升。与此同时,通过对购物消费行为的分析,掌握客户的忠诚度和消费意识等,从而针对性的改变营销策略,同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用,其目的就在于对产品质量进行检验。引导学生深入某企业实际,对所制造产品的数据进行研究,从而找出其存在的规则,并对其生产流程进行分析之后,对其生产的过程进行分析,从而更好地对生产质量的影响因素进行分析,并促进其效率的提升。换言之,主要就是对各种生产数据进行筛选,从而得出有用的数据和知识,再采取决策树算法进行统计决策,并从中选取正确决策,从而更好地对产品在市场中的流行程度,决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用,主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选,从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估,就需要对教学质量有关项目进行整合与存储,从而更好地促进其对教学质量的评估,而这一过程中,就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理,促进其应用成效的提升[3]。

4结语

综上所述,在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,在实际教学工作中,我们必须引导学生切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升,最终达到学以致用的目的。

作者:何智文 邓伦丹 单位:南昌大学科学技术学院

参考文献:

[1]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014,03:45-47.

篇9

关键词:信息 挖掘 设计 计算机

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2013)02-0081-01

网络就是一个庞大的博物馆,人漫步在网络世界寻找着他们所需要的信息。由于万维网信息量庞大和不断增加的特性,人们研制了检索服务系统,以帮助用户将他们所需要的信息归集起来,方便他们查找信息。为了进一步提高信息质量,使网络对于信息的挖掘更加智能化和个性化,人们在信息挖掘过程中引入了人工智能(Agent)技术过程中。其中,Multi-Agent是这方面最具有优势的代表技术。

1 Multi-Agent协作系统

MultiAgent协作系统将多个智能Agent结合在一起,通过几个技术的综合应用来完成任务或达到某些目标。Multi-Agent协作系统就像现实生活中人们相互分工协作一样地工作,显现出社会性、自治性、协作性的特性,而且显现出智能化的特征,能够进行自主学习促进自身的增长,还能与其它系统磋商,分工协作完成预定任务。任务共担和结果共享是MultiAgent系统实现协作的关键。系统结构的运行可分为集中式和分布式两大类。应用该技术的最典型的信息挖掘系统是“网灯”。

2 “网灯”Weblight

“网灯”weblight是基于Multi-Agent技术的信息挖掘系统,是由我国的上海同济大学经济与管理学院课题研究组自主研发完成,是我国科技领域的杰出创新。网灯系统主要针对PC机上的个人用户习惯来开发的,但对于科研、商业、咨询等领域的信息搜索需求也有一定的满足能力。它依托于万维网上现有的四大著名搜索引擎,再加上MultiAgent对信息搜索的协助功能,相较于以往,提升了用户对网络信息搜索的体验,是一个具有建立用户个性化信息库能力的交互式系统。

3 网灯Weblight结构

图1是“网灯”Weblight的结构图,网灯有5个类型的Agent共同协助工作。

(1)交互Agent:是用户和计算机之间进行对话的接口,负责接收用户的需求信息,形成一个和用户需求对应的界面,并将最终结果呈递给对应的用户。

(2)问题分解Agent:将由交互Agent分配传递来的用户问题分解为多个相关子问题,并将这些分解后的子问题提交给检索Agent。

(3)控制Agent:Agent控制需要对各Agent的处理结果综合并进行评价,并负责其他Agent的同步与通讯,从中得出问题的解。为了确保问题的解是用户所需的,控制Agent会根据情况自动决定是否返回前面的Agent对问题进行反复提取。

(4)需求分析Agent:负责分析用户的来源和可能的偏好,得出结果后会提交到用户信息库,同时能够根据用户信息库中的信息,对用户需求进行解释。需求分析Agent还受到用户交互Agent的反馈指令控制。

(5)信息挖掘Agent:将检索各个Agent获得的部分信息,通过用户交互和信息智能挖掘处理,并反复核对,制作出可直接理解的归整信息,并将其提交到知识归整资源库内。

4 Multi-Agent系统的主要工作过程

在Multi-Agent系统中,任务共享和结果共享是最大特色。在weblight中,具体的工作过程是,获得用户提交的信息需求后,各个Agent系统会自动进行问题分解,检索Agent则同时向四个搜索引擎发出了任务请求,四个引擎共同承担任务,并先后对检索Agent的请求作出响应,不断地返回结果,并对中间结果进行集中和筛选。

5 数据挖掘Agent探析

检索Agent的查询结果是数据挖掘Agent的处理对象。其功能的实现不是单独的结果,是各个Agent共同协作的结果。具体过程是,首先,Agent需对用户需求进行分解,将其分解为各个子问题,然后,针对性地寻找出匹配的信息挖掘对象类。对信息资源进行分类,使这些信息能够和用户个性化定义对象类相匹配。最后,通过挖掘Agent所特有的特殊数据挖掘算法对找到的数据进行归集和筛选,从中寻找出真正有效的知识并提取出来,经过系统工具的评测和用户交互检验后,将最终提取到的有效知识提交到知识归整资源库里。数据挖掘Agent同时允许用户对归整出的知识库内的资源进行任意的浏览、重新组织、添加、删除、检索、下载、上传、打印等多项服务。

6 结语

Multi-Agent系统的开发成功是在系统的设计中融入社会学、经济学、生态学思想精髓的结果。基于MultiAgent系统的网络信息搜索工具“网灯”Weblight,是开发者尝试将综合智能思想运用到信息检索中的一次大胆试验,实践证明,这个尝试是极其成功的,也是人工智能研究起步阶段中跨出的最重要一步。目前看来,Weblight的用户个性化功能集成方面的自适应能力还比较薄弱,这限制了搜索功能面向科研、商家、高级信息咨询提供有效信息的能力。但是随着数据挖掘技术和综合智能Agent技术研究的进一步深化,未来的新诞生的搜索服务是用户获得更大的利益强大辅助。目前的信息高速公路给各行各业的人们带来的便利优势是大家有目共睹的,甚至给人们的生活面貌带来了革命性的改变。但是,在信息时代,如何做到更有效地利用资源是当代信息工作者面临的下一个重大课题。若能在这个问题上取得重大突破,那么计算机科学和社会科学的新革命也将随之来临。

参考文献

篇10

关键词:数据挖掘技术;Web;应用;

中图分类号:TP319文献标识码:A 文章编号:1674-098X(2015)05(a)-0000-00

所谓数据挖掘,就是在大量的、随机的、无关的、不完全的数据中找出共同点,提炼有价值的规律,从而有利于企业利用这些规律进行决策,获得超额利润。而基于Web的数据挖掘技术,是指在HTML文档中或相关的服务中借助数据挖掘技术提取对用户有价值的信息。

1 基于Web数据挖掘技术的原理和分类

1.1 基于Web数据挖掘技术的原理

基于Web数据挖掘技术主要利用统计学原理把Web页面中用户访问的信息内容和超链接结构等进行统计分类,然后总结出这些数据的规律和特征,并把这些大量的数据进行筛选和过滤,从中挖掘出这些数据的潜在联系,让企业获得用户在访问网页时深层次的规律。

1.2 基于Web数据挖掘技术的分类

基于Web数据挖掘技术按照其技术原理可以分为三类:(1)、内容挖掘。这里的“内容挖掘”是指把Web网页中数字,文字,表格,文档等显示的数据信息和其它隐示的数据信息整理并挖掘出来。(2)、使用挖掘。当用户通过浏览器访问网页内容后,该网页所在的服务器会自动把这些访问的行为记录在访问日志上,而通过分析这些访问日志就可以掌握用户在该网页中的一些需求和动向,这就是“使用挖掘”的作用。所以通过使用挖掘可以掌握用户的行为动向,有利于提高网站的收益或网站的点击率。(3)、结构挖掘。数据挖掘中的结构挖掘是指分析Web页面之间的超链接结构关系,从中找到Web页面结构的有用模式及权威网页。

2 基于Web数据挖掘技术分析

2.1 路径分析技术

网络中的信息是巨大的,因此人们不可能一下子就找到自己需要的内容,总是要从一个页面链接到另一个页面,再从这个页面链接到其它页面。人们的这种访问路径会被记录在服务器的日志文件中。路径分析技术就是分析这些存有路径信息的日志文件,分析后的结果有利于帮助网站管理员根据大多数用户的需求改善网站的结构。

2.2 分类分析技术

分类分析技术借助对示例数据的详细分析建立一个分析的模型,再使用这个模型对网上的众多数据进行分类描述。使用分类分析技术可以在网络销售中向一个用户推荐他可能喜爱的相关产品。

2.3 聚类技术

聚类技术,就是把大量的用户访问数据,如用户喜欢的商品,以及访问网页的用户本身的信息等进行分析整理,然后按照一定的规则对它们进行分类,并给出该类别的特征描述。例如在网络营销中聚类技术帮助企业把客户分成不同的群体,并给出这些群体的喜好和需求,以便企业根据这些需求调整业务内容以满足不同的客户群体。

2.4 关联规则技术

关联规则技术通过分析用户在网站上的访问记录建立关联模型,可以根据用户的习惯和喜好为用户提供方便快捷的访问方式,也可以为用户推荐喜爱的商品或服务。

3 基于Web数据挖掘技术的应用

3.1 在远程教育中的应用

传统的教育方式没有注重学生的个体差异性,也不可能给每一个学生制定一套教学方案。但是在应用了数据挖掘技术的远程教育方式中,利用学生在网站的学习情况,通过数据挖掘技术可以为学生推荐适合他的教学方案,真正做到了“因材施教”,“以学生为中心”。而且利用分类分析数据挖掘技术、聚类数据挖掘技术和关联规则数据挖掘技术还可以对学生和教师进行分类和关联,这样可以为学生推荐适合他,同时也是学生喜欢的教师。数据挖掘技术在学生的学习过程中有利于学生快速的检索需要的课件资源和学习内容。

3.2 在电子商务中的应用

随着网络技术的迅速发展,电子商务已经与人们的生活密不可分。将基于Web数据挖掘技术应用在电子商务中,可以帮助企业获得及时、准确的商业信息和客户信息,帮助企业制定正确的商业发展目标,从而获得丰富的利润。

(1)、为企业定制正确的商业发展目标。在企业制定自己的商业发展目标之前需要先考察市场,掌握商品的市场动向,了解企业自身在同行业中的市场地位。采用基于Web数据挖掘技术帮助企业快速、准确地完成了上述工作,有利于企业定制商业发展目标。

(2)、提高了客户的满意度。基于Web的数据挖掘技术可以帮助企业分析客户信息和客户行为,掌握客户喜爱的商品类别,挖掘客户潜在的消费意向,为客户提供满意的服务。

(3)、提高了企业的资金使用效率。基于Web数据挖掘技术可以对企业的库存,商品交易情况,财务报表等信息进行分析后,为企业提供一份资金分配策划单,从而保证企业购买的都是畅销商品不会造成大量的库存,提高了企业的资金使用效率。

(4)、延长用户访问网页的时间。人们在网上购物时会感觉所有的商品都是一样的,没有区别,因为它们都是以网页的形式存在的。所以如果企业希望有良好的销售业绩,就需要用户在企业的网页上停留更多的时间,因为用户停留的时间越长,越有可能购买商品。企业可以利用数据挖掘技术掌握用户的习惯和喜好,为用户提供方便快捷的访问方式,这些快捷方式都是根据用户的喜好推荐的商品,因此用户愿意花费更多的时间在这个Web页面里。

(5)、挖掘潜在的商机。企业利用基于Web数据挖掘技术对服务器的日志文件进行分析和处理,可以将用户分类,并给出相应的描述。如果一个新的用户来到企业的网站时,可以利用前面的分类结果对这个新用户提供个性化的服务,投其所好,挖掘潜在的商机。

除此之外,基于Web数据挖掘技术在医疗、金融、通讯等领域也得到了比较广泛的应用,而且比较成熟,但是在电子商务领域中Web数据挖掘技术还处于起步阶段,有很多问题需要人们进一步去探索,相信随着网络技术的迅速发展,基于Web数据挖掘技术在电子商务领域中会有更大的发展空间。

参考文献