C4.5数据挖掘算法研究

时间:2022-08-13 03:09:23

C4.5数据挖掘算法研究

摘要:经典的C4.5算法的出现,即是对ID3算法的改进,它在ID3算法的基础上进行数据的处理分析,保留了ID3算法的大多优点,而且在预测变量的处理分析技术方面都有了很大的进步,这种算法的出现可以解决决策树数集分类问题。本文在对决策树算法进行钻研,在天气数据集上,编写代码并利用ID3算法和C4.5算法生成决策树,并对树的模型进行分析。从结果来看,采用C4.5算法构建的决策树具有较高的数据准确率,更接近实际情况。

关键词:数据挖掘;数据处理;决策树;C4.5;ID3;预测变量

近年来,我国经济飞速发展,科学技术方面也得到了巨大的进步,人们也不断在其他领域进行探索,信息技术的迅猛发展标志着信息时代已经到来,伴随而来的是数据的爆发,“大数据”被越来越多的提及。目前数据挖掘技术主要运用在对信息的提取、分类、筛选等方面,以获取有用信息,而决策树算法就是其中之一。随着大数据时代的到来,人们对于海量信息背后蕴藏的知识的渴求更加强烈,数据的处理方法势必受到关注和重视,以帮助人们找到这些海量数据背后所存在的规律和相应的关系,以根据现有规则对未来事物或发展做出预测。

1知识挖掘概念与步骤

数据挖掘是一个对数据处理分析的过程,对海量数据进行分析处理以挖掘探索有价值知识的过程,简单说来就是从大量知识中找到有价值的、自己所需要的知识。知识挖掘一般是由以下几个步骤构成:(1)数据清洗:用来清洗和剔除不相关的数据知识。(2)数据集成:将来自于不同地方的数据资源集合在一起。(3)数据转换:将集合起来的数据资源转换成易于存贮的形式,便于后续程序运用。(4)数据挖掘:主要作用是利用先进智能的方法来挖掘数据或将数据知识进行规律归纳,是整个过程中的基本步骤。(5)模式评估:此环节是根据标准评价出具有价值的数据知识。(6)知识表示:利用相关技术向用户展示所需要的数据知识。决策树算法综述:决策树中应用了熵的三种形式,分别是信息熵、条件熵和互信息。熵是一个衡量指标,衡量海量数据中信息知识的不确定性。信息知识的不确定性可以决定熵的大小,两者呈正相关联系,而数据信息的不确定性和复杂程度是由概率来决定的。若信息只有一类,则纯度最高,熵值为0;若信息有两类且数量相同,则混乱度最高,纯度最低,熵值为1。下面是一元模型中信息熵的计算公式,其中c为特征数量,p为特征在总数中的占比,T为随机变量:(1)以下是条件熵E(T,X)的计算公式,p(c)为每个特征值的占比,E(c)为特征值的信息熵。条件熵的值越低说明二元模型的不确定性越小。(2)决策树算法从本质上来讲就是对数据进行测算,再根据属性相似度进行归属分类,构造出树状图,从最上面的根节点出发,由上至下分出各个子节点,直到数据属性不能在进行分裂为止。在进行分类递归时,选择合适的特征作为节点决策树构造中最为重要的环节。

2C4.5数据挖掘设计及算法实现

2.1ID3决策树构建

构建ID3算法决策树所用到的天气数据集如表1所示。构建决策树根结点所用到的信息:分类信息熵如表2所示。构建决策树的分支点:把outlook作为根节点,它的取值分别是雨天,阴天和晴天。而阴天分支结果都为是,所以对另外两个分支使用同样的方法,计算分类熵,属性熵,成功构建决策树。构建好决策树,我们就可以利用决策树进行预测:当有新的数据添加,需要获得结果时,可根据上面的决策树进行预测,如outlook:下雨天,Temp:温和,Humidity:偏高,Wind:无,通过决策树分析可知这组数据在第二层进入sunny分支,在第三层humidity进入左边分支,playgolf:否。

2.2C4.5决策树构建

C4.5算法是机器学习算法中一种常见的分类决策树算法,它是ID3算法的一种延伸和优化。C4.5算法决策树的构建过程与ID3算法基本相同,是在ID3算法的基础上,在计算完Gain(T,X)之后计算各个属性的分裂信息SplitInfo。因此,我们可以继续以Outlook作为根节点,在决策树分支的每一个结点处都计算出分类熵,属性熵,进而求出信息增益率,以此作为选择结点的标准。

2.3实验结果分析

本文在对决策树算法进行钻研,在天气数据集上,编写代码并利用ID3算法和C4.5算法生成决策树,并对算法所产生的结果作分析。C4.5算法运行结果如图1所示。图1C4.5算法结果图从结果来看,采用C4.5算法构建的决策树具有较高的数据准确率,更接近实际情况。在算法实现过程中,充分拟合决策树以信息熵为分类标准,通过递归分层逐步降低数据的混沌程度,逐步提高数据的“纯度”。在此基础上,C4.5计算了互信息的比例,消除了ID3算法在特征包含多个特征值时分块过多对数据纯度提高的影响。此时,数据之间的不确定性逐渐减小,分类结果的决定因素也变得清晰,从而将多个数据划分为一个类别。

3总结与展望

本文主要通过对决策树算法中的ID3算法和C4.5算法的研究分析,掌握数据挖掘的基本概念,来探索决策树算法的原理。决策树算法通过构造树的模型对数据进行分类归纳,分析得到所需信息。这种算法的核心是怎样去构造小规模、高精度的树。在对决策树算法进行实际应用后,本人受益匪浅,有了数据挖掘研究思维和决策树模型概念。

作者:蒲海坤 高鑫 桑鑫 单位:西京学院 信息工程学院