教育数据挖掘和信息技术教学诊断探索

时间:2022-03-04 03:59:31

教育数据挖掘和信息技术教学诊断探索

摘要:近年来,随着信息化技术发展和信息化教学改革的深入,大量非结构化教育数据给常规教学诊断方法带来挑战。教育数据挖掘技术随着“大数据”时代的到来日益成为学者研究热点。本研究首先阐述数据挖掘应用于信息化教学的一般流程,随后从数据预处理、教育数据挖掘和模型评估三个方面展开分析,探索教育数据挖掘技术应用于信息化教学数据中,实施教学诊断的途径。研究表明,教育数据挖掘技术的引入,可以解决对于多样性数据建模分析的痛点,进而反哺信息化教学,提升教学质量。

关键词:教育数据挖掘;信息化教学;教学诊断

一、引言

“互联网+”时代的到来给传统的教育教学带来了巨大的变革,在教育创新的大背景下,教育理念、教学技术、教学方法不断发展。2018年4月,教育部出台《教育信息化2.0行动计划》,进一步明确了教育信息化在教育新时展中的重要地位。利用信息化手段开展教学改革,日益成为高校教育教学改革的研究热点。信息化教学要求教师学习研究先进教学理念,辅助以适合的信息化技术手段,结合典型的工作情境开展教学活动。其中,信息化教学的一个典型特征就是现代教育技术手段的运用。教师在课堂上需要根据教学设计的安排,合理地调用尽可能丰富的教学媒体、信息化资源,构建良好的学习环境,有时候也可以利用微弹幕、问卷星等方式进行实时互动,以达到充分调动学生的学习主动性的目的,使得学生真正成为知识信息的主动建构者,达到良好的教学效果。由于信息化技术手段的介入,教师可以在有数据相佐证的情况下,全程跟踪学生的学习情况。教师课前可以基于网络平台统计学生预习工作的完成情况,课中可以实时得到学生的问卷结果、测验数据,课后也可以及时接收学生反馈。由于传统的教学诊断方法往往只能给出教学环节中的单个节点信息,忽视了不同环节之间的相关性,教学质量分析结果的体现形式也只局限于比例分布、平均差、方差等信息。上述传统方法的特性显然不能满足信息化教学改革对于全过程、多样性教育数据的分析要求。因此,开展一种可以能够与信息化教学相匹配甚至利用教育学、计算机科学、统计学等多学科融合理论进行教学质量评估、教学方法诊断的方法研究,具有较强的实际意义和现实价值。

二、基于信息化技术数据的教育挖掘方法

教育数据挖掘包含的研究内容可大致分为预测和描述两类。其中,预测主要倾向于通过已有数据的分析,揭示其规律,预测未知的数据。而描述更强调在分析数据的过程中发现新的模式和结构。本研究关注在信息化教学中引入EDM的途径和方法。因此,从这个角度出发,将一个典型的信息化教学中EDM工作笼统分为数据预处理、数据挖掘和效果评估三个阶段。其中的信息化课堂并非特指真实的课堂教学,而是包括课前、课中和课后的开放式教学环境。它不仅是信息化数据的来源,也是EDM介入后最终需要改进的目标对象。从教育的角度来看,这是一个从教育环境(信息化课堂)产生的数据中发现知识,再利用这些知识改善教育环境的循环过程(见下图)。1.数据收集及预处理。数据是教育数据挖掘研究的基础。具体到信息化教学的数据收集,是指在开放式课堂过程中充分利用网络教学平台、信息化手段和资源库资源,收集的整个教育教学过程中静态和动态的所有数据。理论上可以在不影响教师和学生活动的情况下,连续记录整个教学活动的所有数据,如课前预习、教学资料、课堂实时互动甚至学生在每个知识点上停留的时间等。收集到数据之后,由于数据挖掘算法需要处理的数据通常是符合固定标准或者规范的数据。我们收集到原始数据包含诸如问卷调查、网络统计、平台在线测试等多个来源。其中有可能包含有噪声(如学生随意评分)、缺失(如没有学生数据)和不一致(如数据分项和总项前后矛盾)等无效数据。如果直接基于原始数据进行数据挖掘,那么最终得到的结果质量将大打折扣。此时,就需要对于原始数据进行预处理,以达到消除数据中存在的噪声,合并及归类不同数据源数据,进行数据压缩提升挖掘效率等目的。常用的数据预处理一般包括数据清理、数据集成和数据融合、数据变换和数据规约等步骤。由于新型教育数据的多样化、大量化、非结构化等特征,大大加剧了预处理的复杂度。因此,通常来说,数据收集和预处理环节往往是EDM研究中工作量最多的。2.教育数据挖掘。数据经过预处理之后,已有的结果变量和真实值将会被完全标注。下一步就需要选择合适的数据挖掘算法进行挖掘分析。信息化教学数据的教育挖掘一般用于在数据中建立预测模型。其常用的数据挖掘方法包括分类、聚类、回归、关联规则挖掘、文本挖掘、马尔可夫模型、序列模式挖掘以及推荐算法等等。在上述方法中,根据训练数据是否拥有标记信息,学习任务可大致划分为“监督学习”和无监督学习。无监督学习用于未知情况下,特定的组织或模式。监督学习是使用一个已知的结果的记录,研究该组数据的背后规律行为。其中,分类和回归是监督学习的代表,而聚类则是无监督学习的代表。数据挖掘开始,通常假设样本空间中全体样本服从一个未知的分布,所有前期获得的样本数据都是独立地从这个分布采样获得的,及“独立同分布”。一旦一个模型表现良好,分析师可以将之迁移到新的数据集上去,用于预测新的数据集会产生的结果。3.模型评估及知识生成。在预测模型训练的时候,不论是采样诸如决策树和回归树算法,还是各种关联规则、贝叶斯模型等手段。为了考量模型的正确性和泛化能力,往往需要对于模型进行评估。具体的做法是将原有的实验数据分为训练集、验证集和测试集三个部分。其中,训练集用于模型训练;验证集用于模型的优化选择;测试集则用于对于模型的实际效果进行评估。划分方法可以使用“留出法”(直接将数据集划分为两个互斥的集合)、“交叉验证法”(数据集划分为k个数据子集,子集多次交叉)、“自助法”(从原始数据集中随机不删除选取样本)等。其中,自助法在数据集较小,难以有效划分训练/测试集时很有用。在得到不同部分的数据集之后,通常采用模型的准确率、召回率、精度、FScore以及AUC等指标对于模型进行性能衡量,选取最优的模型以及模型参数作为学习到的知识,继而反馈到信息化教学过程中。4.教学诊断应用实例。在信息化教学诊断研究中,最终目的是找到影响教学效果的关键因素,并预测学习效果。以常州信息职业技术学院《虚拟仪器应用技术》课程的“机器视觉物品分类检测”项目为例,本次课的目标主要是让学生理解视觉系统的硬件选型依据,掌握基于颜色和图案纹理的视觉图像检测分类处理算法流程。教学设计环节运用课程团队提出的“三角环式课堂模型”开展教学。对应模型中的“概念探索、应用分析、展示成果”三步骤分别设计课前、课中和课后拓展任务,分层、逐级实现技能提升和岗位对接。采用的信息化手段包括课程教学平台(课程资源,课程测试),微视频(真实案例展示)、硬件仿真软件和交互式图像处理软件等。为了达到信息化教学诊断的目的,确定本次数据与处理的目标主要是清楚除噪声,统计每个学生在开放教学环境中的课前平台使用频次及时间、测试成绩以及错误部分统计,从中确定分类器的特征。分别统计得出学生网络平台使用时间、课程测试及格情况和主要错误失分点作为特征集,用于接下来的预测模型。数据挖掘阶段,我们利用SPSS统计软件工具包创建提纯现有特征和特征空间缩减。选取朴素贝叶斯分类法开展模型训练。最终的对比结果表明,该分类器在特异度指标以及敏感度指标上都好于其他常用分类器效果。因此,在得到该分类器模型时,我们将之反馈到信息化教学中用于预测某位学生课程中存在的问题以及最后不合格的可能性。如果预测的数值大于设定的警示阈值,那么教师就可以及时的为该学生提供帮助。

通过信息化教学改革尝试,学生反映这种上课方式充满新鲜感,同时试点班相较传统班的应用技术水平有了较大的提升。课程结束后,组织学生参加由美国NI公司组织的CLAD(虚拟仪器助理开发工程师)认证考试,2018年试点班学生的通过率为60%,高于NI公布的2017年全国高校的CLAD平均通过率24%。以上成果进一步证实了EDM引入信息化教学改革的有效性。

参考文献:

[1]王珠珠.教育信息化2.0:核心要义与实施建议[J].中国远程教育,2018

[2]张一春.信息化教学设计精彩纷呈[M].北京:高等教育出版社,2018

[3]GarcíaE,RomeroC,VenturaS,etal.Acollaborativeeducationalassociationruleminingtool[J].Internet&HigherEducation,2011

[4]牛杰,李晴,戴艳.以翻转课堂优化高职工科教学设计[J].职业技术教育,2015

[5]陈雯雯,夏一超.教育数据挖掘:大数据时代的教育变革[J].中国教育信息化,2017

[6]周志华.机器学习[M].北京:清华大学出版社,2016

作者:戴艳 牛杰 单位:常州信息职业技术学院电子工程学院