数据挖掘分析及决策

时间:2022-01-30 09:24:41

数据挖掘分析及决策

1前言

百年大计,教育为本。教育是立国之本,民族兴旺的标记,教育无论在何时何地何种制度下其地位都是不可或缺的。近些年来,教育方式也在时刻更新与进步着。现如今,我国教育的主要目标之一是如何通过分析学生,教师和学校在教学实践过程中的影响因素,找出提高学生学习效率和教师教学质量的因素。近年来,我国高校入学的学生人数大幅增加。但是传统教学和管理方法未能适应高校的未来发展,因此我们需要新的管理方法和教学方法,以满足高校学生管理和教学工作带来的严峻考验。在这个阶段,我国高校教办公室的数据库中已经积累了大量的学生成绩信息,但是学生成绩数据的管理仍处于简单查询数据库中的得分数据的阶段,因此这些数据的作用没有被充分利用起来。如果能充分利用这些数据,在教学实践过程中准确分析学生,教师和学校的影响因素,找到提高学生学习效率和教师教学质量的途径,有利于提高学校教学质量。利用数据仓库和数据挖掘技术对存储在学校数据库中的学生数据进行深入分析,挖掘隐藏在这些数据背后的有用信息,发现有用的知识,指导学生的学习和教师教学,并帮助学校管理者做出决策学校未来的发展必将在提高学生学习效率,提高教学质量,提高学校管理水平方面发挥重要作用。以大学生的学习成绩信息为应用背景,将数据挖掘技术应用于学生成绩管理系统,分析学生在数据库中存储的绩效数据。学位可以帮助解决存在的问题,使学校教学管理系统充分发挥作用,进一步满足学校教学管理职能的需要,帮助有关部门制定合理的教学计划和人才培养计划,并给予学生根据自己的实际情况提供学习、研究方向以及课程各方面的帮助。在此背景下,本文旨在进一步探讨尚不清楚的教育现象和规律。本文结合著名理论马斯洛层次需求理论,该理论的基本原理是人类只有当满足了较为底层的需求时,更加高层次的需求才能够得以满足。这个需求理论应用面十分广阔,例如本文将该需求理论映射学生身上进行研究和讨论,学生的基本需求就是他的家庭,因为他的家庭伴随着他的一生,因此家庭因素对学生成绩影响很大。本文使用机器学习流行的python工具对现有的数据进行建模,旨在挖掘海量数据中有价值的信息。本文中采集到学生的葡萄牙语成绩和一些其他方面的基本数据,将学生与家庭因素有关的一些基本数据与学生学习成绩综合考虑,并且同时用多元线性回归模型、随机森林模型和支持向量机模型多方面进行测定和分析比对,构建合适的预测模型。通过大数据分析与挖掘,提出了预测学生成绩的模型,并将其应用。意义创新,其结果可供教学管理者借鉴。

2预测学生成绩

2.1数据来源与处理和模型假设。由于数据获取难度大,因此本研究选取了Kaggle网站中已有的数据,这些数据包含了葡萄牙语的各分段成绩、每条数据还包括各种家庭背景的研究对象以及性别、年龄等32个属性特征。由于历次成绩也是不可忽略的,因此我们选取了8个家庭因素,和学生的前两次考试成绩,并进行了预处理工作,如表1所示。通常,在构建模型之前,为了方便运算都需要对模型提出一些假设:(1)假设每个学生的学习水平可以在一定程度上通过历史水平反映,因为一个人的成绩平均水平应该是有联系的,像天气预报或者股市预测一样,学生历史成绩走势图可以在一定程度上预测未来的成绩。(2)假设每个学生的影响因素对他们来说是稳定的,也就是说,他们不会由于突发情况,学生的学习成绩波动很大,与历史史称不一致。这里先将这650个数据分成测试集和训练集,训练集是用来模型训练的,选择其中70%的数据来训练模型,测试集是用来判断训练好的模型对新样本的拟合情况,测试集选择30%的数据来测试模型的性能。2.2多元线性回归模型。我们首先考虑可能影响学生成绩的各种家庭因素,然后使用这些因素作为自变量来建立多元线性回归模型来预测学生的成绩。接下来建立一个多元线性回归模型,上述因素作为因变量,用实验验证上述因素是否对学生的成绩产生影响。实验结果如下所示:MSE:1.10411755616NMES:0.8491703395992.3SVMSVM是支持向量机,SVM的原理是将数据在低维空间中完成计算,然后利用核函数将输入空间映射到高维特征空间,这样做的目的是可以将原本在低维线性不可分的数据映射在高维中,这样就可以在高维特征空间中构造最优分离超平面将不可分的数据划分开来。实验结果如下所示:MSE:2.69185273348NMES:0.6322753574782.4随机森林算法。传统的分类模型虽然原理简单、容易实现,但是往往不准确,容易出现过度拟合的问题。因此可以考虑通过聚合多个模型来提高预测准确性,这种聚合各种模型的方法称之为组合或集合分类器方法。这样的方法通常是首先使用训练数据构建一组基本分类模型,然后通过对每个基本分类模型的预测值进行投票(当因变量是一个离散变量时)或取平均值(当因变量是一个连续变量时)。为了生成这些组合模型,通常需要生成随机向量来控制组合中每个模型的变化。利用已有的python库和模块,我们可以实现随机森林算法。输入数据后,本文调整了模型中决策树的最大深度,这样做的好处是可以防止过度拟合。此外还利用了袋外数据以估算OOB估计值。用于估计随机森林模型的单一决策树分类的强度以及决策树之间的相关性。在调整了决策树的最大深度并打开OOB估计之后,模型的性能得到了进一步提高。

3结论和前景

本文使用来自Kaggle网站的数据,使用来自多个家庭因素的数据来预测学生的成绩。在利用数据预测学生成绩的过程中,本文采用多元线性回归模型,支持向量机算法模型和随机森林算法这样的三种模型进行建模和分析,通过对各种模型的性能,优缺点的比较分析,选择进一步优化模型。将维度分为两个角度进行分析,这使得模型性能再次得到改善。最后,通过与其它模型之间进行对比实验分析,发现了多元线性回归在RMSE值上仍具有最佳性能,但在使用本文讨论的方法模型优化后随机森林的预测性能得到显着提高,因此说明了随机森林可用于预测,具有较强的预测性。因此,当遇到类似问题时,可以综合考虑随机森林计算模型和多元线性回归模型进行组合预测和分析,这样模型可以达到更高的预测准确率。

参考文献

[1]MichaelBowles.Python机器学习预测分析核心算法[M].人民邮电出版社,2017,1(1).

[2]董师师,黄哲学.随机森林理论浅析[J].集成技术,2013,2(01):1~7.

[3]李杰.数据挖掘技术在学生成绩分析中的应用研究[D].西安石油大学,2010.

[4]王磊.支持向量机学习算法的若干问题研究[D].电子科技大学,2007.

[5]支持向量机通俗导论(理解SVM的三层境界).

作者:王岳卿 单位:中国人民大学附属中学