机器学习在数据挖掘的应用

时间:2022-12-07 10:22:08

机器学习在数据挖掘的应用

摘要:在互联网高速发展的今天,产生的数据量也与日俱增,伴随大数据而来的是数据处理问题。数据挖掘旨在通过对数据的研究,通过一系列算法来充分挖掘隐藏信息,使数据的价值最大化。目前,数据挖掘在商业领域已经得到广泛应用。机器学习,是数据挖掘最为核心,也是应用最为广泛的数据处理方法。本文通过研究机器学习算法在数据挖掘中的应用,总结目前在数据挖掘领域较为活跃的几种机器学习算法,并对未来的发展趋势以及可能出现的问题进行了展望。

关键词:数据挖掘;机器学习;大数据

随着Web2.0时代的到来,互联网数据量激增,衍生了各种数据相关的方向,其中数据挖掘是数据处理方向的新生学科。通过对数据隐藏信息的研究,挖掘大量数据背后的潜在价值,这些已经在商业应用中占有了相当重要的位置。传统的数据挖掘中多应用统计学方法,但是在大数据量面前,单纯地使用传统统计学方法略显不足。机器学习算法是一种能够从数据中学习的算法。它产生于20世纪,那时互联网还不够发达,导致网络中产生的数据量还很有限,另一方面,硬件限制了数据的收集存储。如今,这些限制都已被大大削弱,机器学习作为一门以数据驱动的学科,成为数据挖掘中最为重要的方法。本文注重机器学习在数据挖掘中算法的应用部分,首先介绍数据挖掘的基本需求及过程,然后对常用在数据挖掘中的机器学习算法进行分类、研究、总结,最后在对比和综述的基础上,提出了未来的发展可能面临的问题以及潜在的研究方向。

1数据挖掘

数据挖掘作为一门全新的研究领域,代替了传统的数据分析,以新兴的方法和理论挖掘数据的潜在价值。数据挖掘主要是经由以下几个步骤来处理数据。(1)选取或构造数据集,为了方便后续的处理,关于数据集的格式、内容等的界定条件需要慎重选取。(2)数据预处理工作。这一步是为了统一数据集内部数据的格式和内容,具体包括数据清洗、数据集成、数据规约、数据离散化等,其中特征工程是数据处理中最为重要的部分。(3)数据建模和特征筛选阶段。综合考虑需求和模型等因素,通过模型的反馈,在调整参数的同时,对比选取相对最优特征集。这个阶段的具体任务根据选取的模型不同而形式各异。(4)形成结论。模型在实际测试数据中表现出的泛化能力,往往能定向的反馈出有价值的信息,此时需要数据工程师根据结果分析并得出结论,甚至可能会重新开始一轮挖掘过程的迭代。

2机器学习在数据挖掘中的应用

机器学习是人工智能的一个重要分支,其自动化获取的特性,帮助人们在纷繁复杂的数据中高效的提炼出潜在的价值。本文根据经典的机器学习分类,从监督学习、无监督学习两个方面,来介绍几大典型的机器学习算法。2.1监督学习监督学习是指能够对任意给定的输入,能给出相应的输出模型的统称。监督学习是极其重要的统计学习分支,也是统计学习中内容最丰富,应用最广泛的部分。(1)朴素贝叶斯分类器朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的一种分类方法。贝叶斯定理,是关于条件和边缘概率分布的转换公式。在模型中用来将先验概率计算转化为后验条件概率,也因此贝叶斯模型被称为生成模型,即模型的目的在于求得定义在输入和输出空间上的联合概率分布,进而得到极大化的后验概率。贝叶斯模型的数学表达式如下:其中P(Xi)和P(A|Xi)由先验分布直接计算得出。实际上同,P(A|Xi)中的估计参数是指数级别的,假设Xi可能取值有Si个,Y可能取值有K个,那么参数个数为。想要同时估计出如此巨量的参数,几乎是不可能的,而且很难保证参数的全局最优性甚至很难保证局部最优,如此一来,参数的估计和预期效果不成正比。朴素贝叶斯法对上述出现的问题给出了一个较强的假设:用于分类的特征在类确定的条件下都是条件独立的。这个条件独立性大大简化了参数的数量和估计的计算量,但有时会牺牲一定的分类准确率。在上述两个理论的基础上,朴素贝叶斯的算法过程如下。对于给定的训练数据集,首先基于特征条件独立假设学习输入和输出的联合概率分布,然后基于此模型对于给定的输入X,利用贝叶斯定理求出后验概率最大的输出Y。(2)决策树决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。其中,内部节点表示划分特征,叶结点表示一个类。决策树的学习过程中,最为核心的步骤是特征选择。对于给定的损失函数,在决策树的假设空间中选出一个最优化模型是个NP完全问题,所以现实中决策树学习算法通常采用启发式。即每次递归的选择一个最优属性,由此分割数据,构建子树。这里的最优属性选择就是特征选择过程,通常采用比较信息增益的策略。信息增益是指信息熵的差或信息熵之比,信息熵是从某一个特定的角度描述数据混乱程度的量。信息熵的计算公式如下:其中H(X)代表样本集合X的信息熵,Ai代表属性A中第i个取值的先验概率。由上述理论的基础,给出决策树算法的过程。针对每个样本集合,依次按每个属性取值划分集合,取使信息熵减少最多或增益比最大的属性来划分下一级叶节点。在每个集合中迭代以上步骤,直至子集合的熵为0或到达某一阈值,分类结束。决策树聚类算法尤其适合多样本情况下的离散属性值数据处理,但在属性分类较多的样本集中,需要追加剪枝的算法来优化模型。(3)提升方法提升方法基于这样一种思想:对于一个复杂任务来说,将多个专家的判断进行适当的综合所得出的判断,要比其中任何一个专家单独的判断好。这里的专家即指如上所述的决策树等弱分类器。具体来说,算法有这样两个关键的步骤。其一是样本权值调整。初始为每个样本设置相等的初值,在一次弱分类器学习之后,将分类错误的样本点权值增大。算法认为,分类错误的数据是因为样本本身并没有被分类器完全学习,所以需要增加权重来引起分类器的重视,进而向着正确的分类结果靠近。这就是样本权值调整。第二个是弱分类器权值的调整。算法整体是对多个弱分类器的加权,在每一次弱分类器执行完毕之后,算法除了调整样本权重以外,还通过交叉验证的方法对当前的弱分类器进行测试,以其损失函数和已有的弱分类器之间损失函数的大小差距来调整权值。通过上述两个关键步骤的理论介绍,给出提升方法的步骤。对于给定的数据集,确定样本权重和初始弱分类器权重,然后通过弱分类器的一次分类,调整样本权值和分类器权重,完成一次迭代。算法迭代至给定的轮次或损失函数降低至目标水平时结束。提升方法结合了传统的弱分类器,通过一系列结合方法将数据和分类器的误差降到最小。与强化思想的不同结合最大化了模型的决策能力,且都表现出了优异的性能,在各种竞赛和商业方面有着广泛的应用。2.2无监督学习。无监督学习是指算法学习的环境为缺失标签的数据集。从概率学的角度来说,数据缺乏足够的先验知识,因此难以利用标注来拟合输入和输出之间的联合概率模型。最为常用的监督学习方法为K-Means算法。这是一种利用样本点在特征空间中的距离分布进行多次迭代实现自动标注样本类别的算法。算法中涉及距离公式的使用:(公式),其中j为1时称为曼哈顿距离,j为2时称为欧几里得距离。以二维空间为例,欧式距离即两点之间的直线距离,而曼哈顿距离为两点之间在与坐标轴垂直方向上的距离之和。通常根据数据集的特点由数据工程师选择合适的计算公式,必要时j可以取3或以上的值。由上述理论基础,给出K-Means的算法计算过程。对于给定的数据集,确定距离计算公式和初值K。首先根据样本的特征空间随机给定K个初值坐标分别作为类中心点,计算样本点到每个类中心店的距离,针对每个样本点,按照其与类中心点的距离排序,将其划分至距离最近的类中心点所属类中,取每个类中所有坐标的均值作为新的类中心点坐标。至此完成一次迭代,算法重复迭代至每个类中的样本点不再发生变化时结束。在实际应用中,无监督学习从数据的某一角度试图去概括数据整体特征。所以对于单一的聚类算法来说,无论从数据的特征维度还是样本数量维度都很难直接给出定性的结论,仅为数据分析提供一定的参考意义。

本文从机器学习在数据挖掘中的算法分类、机器学习的优势分类等方面探讨了机器学习在数据挖掘中点典型应用。但是目前由于传统机器学习本身建立在模型本身的函数假设之上,效果存在瓶颈。神经网络作为机器学习算法的一种,又称为深度学习,在计算资源和数据量的支撑下,通常能比传统机器学习算法表现出更加优异的效果,目前广泛应用于自然语言数据处理和图像数据处理中。但是对电脑性能的要求和消耗更加巨大,不过相信随着芯片集成度以摩尔定律的几何速度增长的,电脑性能也会进一步提升,深度学习会打破这个限制,结合数据挖掘和各个其他方面的应用,更好的应用于实践。

参考文献

[1]张绍成,孙时光,曲洋,等.大数据环境下机器学习在数据挖掘中的应用研究[J].辽宁大学学报(自然科学版),2017,44(1):15-17.

[2]黄林军,张勇,郭冰榕.机器学习技术在数据挖掘中的商业应用[J].逻辑学研究,2005,25(6):145-148.

[3]陈小燕.机器学习算法在数据挖掘中的应用[J].现代电子技术,2015(20):11-14.

[4]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004.

[5]李航.统计学习方法[M].北京:清华大学出版社,2012.

[6]杨善林.机器学习与智能决策支持系统[M].北京:科学出版社,2004.

[7]李庆中,苑春法,黄锦辉.基于小规模标注语料的机器学习方法研究[J].计算机应用,2004,24(2):56-58.

作者:王泓正 单位:山东省济宁市任城区李营街道汇翠园B区