教育数据挖掘关键技术研究

时间:2022-07-08 11:29:40

教育数据挖掘关键技术研究

【摘要】基于教育数据挖掘关键技术应用,从试题表征、知识点标注、试题难度预测、学生认知诊断和个性化推荐5个方面的应用进行阐述,分析它们在目前使用中的关键技术、优势和不足,并对教育数据挖掘领域发展趋势进行展望。

【关键词】教育数据挖掘;知识点标注;试题难度预测;学生认知诊断;个性化推荐

随着教育信息化进程不断深入推进,人们的学习方式从线下转到线上,由此产生的教育数据量非常巨大,如何利用海量的教育数据资源,已然成为当前亟需解决的重要课题。教育数据挖掘技术应运而成,旨在有效帮助学生学习[1],然而教育数据资源具有异构性、隐含性和不可比性,导致数据挖掘非常困难,因而,对教育数据挖掘技术进行深入研究具有重要意义。现从试题表征、知识点标注、试题难度预测、学生认知诊断和个性化推荐5个方面的关键技术应用进行介绍,分析它们目前使用的关键技术、优缺点和发展趋势。

1关键技术应用

1.1试题表征相关技术。对于学习,试题永远是最常见,也是非常重要的一种表现形式,对教育数据进行挖掘的第一件事情就是需要对试题进行表征,目前试题主要由文本、图片、视频等多种异构数据形式组成,不同的数据形式,采用的表征技术也各不相同。文本资源主要采用词袋和词向量两种模型。典型模型有word2vec、ELMo和BERT等。针对知识点资源主要采用One-hot表征、知识图谱表征技术。针对图片资源主要采用基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)框架。1.2知识点标注。试题的知识点是描述试题用到的知识,知识点的标注是构建题库和个性化推荐的基础。试题知识点标注常用方法:一是人工标注,对标注人员的专业知识背景要求较高,耗时费力。二是传统机器学习方法,常用多标签分类方法,没有考虑文本的深层语义,预测效果欠佳,对标注语料少的知识点的表现不好。三是深度学习,虽然能够很好地提取文本的深层次语义特征,但没有加入先验知识,不同专业领域的知识无法融合,数据不平衡问题严重。1.3试题难度预测。试题难度的评估和预测是教育数据挖掘领域的一个重要的研究课题,其思路是让学生做题,对于某道试题来说,答错的学生越多,该试题越难。该做法需要学生事先做完试题,事后针对答题情况进行计算分析得出该试题难度。然而,有的时候需要提前对试题的难度进行评估。例如,对于标准化测试(如:高考、CET等),需要考试之前对试题进行难度的初步预测。传统的方法多数采取人工评估,该方法存在专家主观性强、费时费力的问题,没有利用试题的文本特征。基于此,黄振亚[2]等人提出基于试题文本的难度预测框架(Test-AwareAttention-BasedConvolutionalNeuralNetwork,TACNN)。1.4学生认知诊断。认知诊断模型是通过对学生作答情况,了解学生对知识水平掌握的情况,由此进行个性化学习和资源推荐。常见的认知诊断模型包括IRT(ItemResponseTheory)和DINA(deterministicinputs,noisy“and”gate)模型。传统DINA模型只适用于客观题,不能对主观题的答题情况进行分析。如果作答学生存在游戏心理,通过该模型诊断出来的学生能力就不够客观和准确。随后,Wu[3]等人在此基础上,又提出知识加猜测反应模型(KnowledgePlusGamingResponseModel,KPGRM),该模型通过基于聚合P值的方法多次对作答学生的游戏心理进行认知诊断,诊断准确性明显提高。在大数据时代,需要处理大规模数据,传统DINA模型计算效率很差。针对DINA模型计算时间过长的问题,王超[4]等人对原始DINA模型中的EM算法进行了改进,提出了基于增量DINA模型,有效提高了计算效率。1.5个性化推荐。个性化推荐是实现个性化教育的第一步,是教育数据挖掘领域非常重要的应用之一。近年来,有学者将基于协同过滤推荐技术应用到试题推荐当中,取得了一定的效果,但该方法只关注分数相近学生间的相似度和试题间的相似度,没有涉及知识点信息,由此推荐的结果解释性不强,合理性欠缺。为了解决以上问题,朱天宇[5]等人提出了一种结合概率矩阵分解(PMF)和认知诊断的个性化试题推荐方法PMF-CD,该方法通过对学生掌握的知识点与试题考察的知识点进行联合分析来进行试题推荐。

2问题与发展趋势

教育数据挖掘领域发展至今,虽然在某些领域取得了较大的进步,但是仍然有很多没有解决的问题,现就主要的问题及未来发展趋势总结如下。2.1问题。2.1.1大量未标记的资源没有被利用。近年来产生了大量的教育资源数据,然而教育资源数据的属性标注较少,大量未标记的资源没有得到充分的利用。因此,如何有效利用这些未标记的资源,是机器学习方法在教育数据挖掘中不可避免的问题。2.1.2知识点标注权重相同问题。目前知识点标注方法中,不管是人工标注,还是采取一些算法自动完成标注,都只是简单地把知识点标注出来,事实上对于一道包含多个知识点的题目而言,不同的知识点的重要程度是不一样的,如果能将此道题目与知识点结合起来,会大大提高解决问题的能力,且对试题个性化推荐系统的性能好坏起到关键性的作用,因此,如何科学地对不同的知识点标注设置合理的权重,是值得深入研究的问题。2.1.3教育资源的表征、挖掘和应用比较困难。例如表征问题:目前试题表征都是基于不同的资源类型选择不同表征技术。如:文本资源通常采用词袋和词向量技术;图片资源通常选择CNN框架等。现实大量存在一道题中同时具有多种资源类型,例如一道数学几何题,既有文字描述,又有公式和几何图形,他们之间有内在的知识点和意义上的联系。传统的表征技术很难描述这种关联关系,亟待找到一种方法能够有效解决此类问题。2.2发展趋势。2.2.1无监督表征。针对大量未标记的资源没有被利用的问题,设计有效的无监督表征框架以解决大规模教育资源数据的标注缺失问题,具有极其重要的现实意义。2.2.2教育知识图谱的结合。由于教育数据资源多源异构性,导致教育资源的表征、挖掘和应用非常困难,未来可以尝试教育知识图谱,并结合教育知识图谱对异构教育资源之间隐含逻辑关系的抽取和复杂语义结构关联的挖掘,或许能够取得显著的效果。

3结语

教育数据挖掘是将数据挖掘技术应用到教育数据领域,具有数据的异构性、关系的隐含性和异构数据之间的不可比性,造成了教育数据的表示、挖掘和应用上的困难,未来依然是一块充满挑战的研究领域,有许多问题亟需深入探索和解决。从试题表征、知识点标注、试题难度预测、学生认知诊断和个性化推荐5个方面应用的关键技术进行介绍,对比分析它们之间的优势和不足,提出目前依然面临的问题和未来发展的趋势,旨在对后期进一步深入研究起到基石的作用。

参考文献

[1]李宇帆,张会福,刘上力,等.教育数据挖掘研究进展[J].计算机工程与应用,2019,55(14):15-23.

[2]HUANGZY,LIUQ,CHENEH,etal.Ques-tionDifficultyPredictionforREADINGProblemsinStandardTests//Procofthe31stAAAIConferenceonArtificialIntelligence.PaloAlto,USA:AAAIPress,2017:1352-1359.

[3]WURZ,XUGD,CHENEH,etal.Knowl-edgeorGaming?CognitiveModellingBasedonMulti-ple-AttemptResponse//Procofthe26thInternationalWorldWideWebConference.NewYork,USA:ACM,2017:321-329.

[4]王超,刘淇,陈恩红,等.面向大规模认知诊断的DINA模型快速计算方法研究[J].电子学报,2018(5):1047-1055.

[5]朱天宇,黄振亚,陈恩红,等.基于认知诊断的个性化试题推荐方法[J].计算机学报,2017,40(1):176-191.

[6]刘淇,汪飞,王新.教育资源的深度表征与智能应用[J].人工智能,2019(3):45-54.

[7]胡国平,张丹,苏喻,等.试题知识点预测:一种教研知识强化的卷积神经网络模型[J].中文信息学报,2018,32(5):137-146.

[8]WURZ,LIUQ,LIUYP,etal.CognitiveModellingforPredictingExamineePerformance//Procofthe24thInternationalJointConferenceonArtificialIntelligence.NewYork,USA:ACM,2015:1017-1024.

作者:夏春芬 单位:湖北科技职业学院