数据挖掘预处理技术研究

时间:2022-05-14 10:32:10

数据挖掘预处理技术研究

摘要:21世纪以来随着互联网的迅猛发展,我们进入了一个信息大爆炸的时代。信息经过记录与存储成了海量的数据,如何在这海量的数据中有效地挖掘出有价值的知识成了数据挖掘的主要解决的问题。不同的数据预处理技术影响着数据挖掘的质量,我们将分析几种常用的数据预处理技术对于数据挖掘的影响程度。

关键词:数据预处理;数据挖掘;数据挖掘质量

数据挖掘作为近几年十分热门的学科,随着人工智能和数据库的发展而崛起的一种数据技术,普遍应用于金融、军事、农业、航空航天、科学探讨以及其他范畴。它的出现可以说让人们对于数据价值的利用率提高到了新的高度,许多未解之谜或许可以因此得以破解。常见的数据挖掘核心步骤包括数据准备阶段、数据挖掘阶段和结果分析阶段。数据准备阶段占据了大约60%的工作量,它将多种不同的数据集合到一块,消除噪声点数据、不一致数据和不清楚完整的数据,并从中提取出对我们有用的数据,并通过一定的规则变换,组成我们所需要的数据仓库。我们的研究重点就是这个数据准备阶段。

一、数据挖掘相关概念

(一)数据挖掘。数据挖掘是经过了分析大量的有关数据来揭示有意义的新的相关联系、趋向和形式的过程。它融汇了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个范畴的理论和技巧。该技术的涌现的崛起是现代信息技术发展到必然阶段的产物,它能够飞快探求数据之间的潜伏相关联系和规则。所起到作用类似于科学家们经过不断的科学分析所发现的科学规律。(二)数据预处理。数据预处理是为了处理原始数据中所存在的“脏数据”现象,是数据挖掘中重要的一环。数据预处理的效果好,则可以提高数据挖掘的效率,从而提高挖掘的质量。数据预处理是数据挖掘前的一个非常重要的数据准备工作,是知识挖掘过程的关键所在,它保证挖掘数据的正确性和有效性,通过对数据格式和实质的调整,使数据更符合挖掘的需求。为什么原始数据中会存在有“脏数据”呢?重要的原因有以下三点,一是数据采集时和数据分析时,咱们所思考的要素和成分不一致,搜集到了缺失值,即缺乏完整性;二是数据传输过程中会出现操作失误产生了某些噪声值,即缺乏准确性;三是数据在收集过程不限来源导致了不一致性的值,比如序号“1”、“2”、“3”和序号“A”、“B”、“C”其实所代表的含义是一致但表达不一致,即缺乏一致性。常见的缺失值填充算法包括EM最大期望值算法、MI算法和KNNI算法等。数据预处理技术的重点功能有数据清理、数据集成、数据变换和数据简化。而预处理方法可以大致分为,基于粗糙集(RS)理论的约简方法、基于概念层次树的数据浓缩方法思想和普化知识发现和基于统计分析的属性选择方法。本文主要测试了基于粗糙集(RS)的理论的简约方法和基于概念层次树的数据浓缩方法。

二、数据预处理实现方法

下面我们简单介绍一下,我们的数据预处理技术的几个方法。(一)基于粗糙集(RS)理论的约简方法。对于研究对于不精确、不确定性知识的十分有效的数学工具,由于它的易用性,目前是国内外研究的重点之一。基于粗糙集(RS)的理论约简方法处理过程如下:(1)大批量无顺序的数据通过泛化后,整顿成一个二维表,构成一个知识系统;(2)根据我们所要定义形成二进制可识别矩阵;(3)依据算法对矩阵进行规约化简,并得到属性的约简;(4)评判归约集,选择具备较少属性的归约集,而不改变原本的依赖关系,约简不是唯一的;(5)从约简表抽取规则。(二)基于概念层次树的数据浓缩方法。概念层次树是数据分类的方法之一,它可以将总结好的数据提升到较高的概念层,为数据挖掘的各个环节提供背景,从而提高知识的准确性和可理解性。比较适用于挖掘用户特征等场景,他的实现步骤如下:(1)定义概念层次树和相关语义表,作为概念分层的依据;(2)对数据进行概念提升;(3)进行类组计算;(4)得出规则特征。

三、结语

根据我们的测试结果可知,粗糙集(RS)理论的约简方法的正确率比概念层次树的数据浓缩方法稍高,但是一组测试数据并不容易比较出两者的区别。粗糙集(RS)理论适用于不确定的信息和不完整信息的处理,概念层次树适用于对特征值的挖掘分析。在未来一段时间里,数据挖掘技术将会是世界主流技术的研究热门之一,我相信在不远的将来数据挖掘技术将会助力人工智能技术的发展,进而推动社会的科技水平。

作者:蔡念慈 柯 敏 单位:福州外语外贸学院