学生管理论坛文本挖掘分析

时间:2022-07-12 11:11:37

学生管理论坛文本挖掘分析

摘要:文章针对学生管理论坛学习行为分析需求,基于自然语言处理技术,利用scrapy爬虫框架对中国继教网初中数学学生管理论坛进行文本数据挖掘,开展机器学习环境下的文本挖掘学生学习问题的深入分析。利用论坛师生学习数据信息,探讨数据挖掘在数学学习论坛中具体应用方法,着重针对文本数据建立LDA模型、聚类分析,梳理教学过程中出现的高频词,帮助教育者针对性处理教育问题。

关键词:学习论坛;NLP;文本分析

一、引言

“互联网+”、人工智能、大数据、机器学习等技术应用的快速发展,教育学者积极探索信息社会如何更好地新型互联网技术运用于教育教学,将教育带入到一个全新的智能化大数据时代。关于文本数据挖掘分析的探索,本质是自然语言处理(NaturalLanguageProcessing,NLP)过程。NLP是将无结构的自然语言转换成结构化数据自然语言,便于计算机的理解、存储和管理[1]。本文以中国继教网初中数学论坛学习文本为数据源,使用NLP中TF-IDF算法衡量出现单词的关键性并用于后续聚类分析,使用LDA抽取文档主题,使用word2vec分析词条相似度,为教学者提供教育问题内容参考,针对性解决学生主要问题。

二、理论依据

(一)TF-IDF算法。TF-IDF是一种统计方法,用以评估单词对于一个文件集或一个语料库中的其中一份文件的重要程度。如果某个单词在一篇文档中出现频率高,并且在其他文章中出现的频率低,则认为这个单词有很好的类别区分能力[2]。频词(Term-Frequency,TF),衡量一个term在一篇文档中出现的频繁次数。逆文档频率(InverseDocumentFrequency,IDF),是一个词语普遍重要性的度量。(二)Word2vec模型。Word2vec模型是由Google的TomasMikolov团队提出并实现的分布式词向量表示模型,普遍应用于自然语言处理(NLP)。该模型可以在较短的时间内,从大规模的语料库中学习到高质量、多角度表达的词向量[3]。一篇文档可以通过这种模型得到该文档中每个词的低维度(100-500)向量表达,从而可以方便的计算词与词之间的语义相似度。(三)LDA主题模型。LDA模型认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。LDA可以用来识别大规模长度文档集或语料库中潜藏的主题信息[4]。

三、基于自然语言处理技术的学生管理论坛的文本挖掘过程

(一)文本获取。本文通过Scrapy爬虫框架,从中国继教网初中数学学生管理论坛下收集文本数据,包括文章标题、文章发表时间、文章阅读量、文章全部内容。可以将中国继教网初中数学学生管理论坛从最早2014年7月到2018年10月4129篇文章扒取下来。数据保存MongoDB数据库中,最终以Excel表格导出。(二)文本预处理。常见的论坛文本预处理有去除缺失值,删除重复值,剔除异常值,中文jieba分词、去停用词处理、词频统计等数据预处理工作。其中停用词处理中,本文还添加了一些在教育教学中常出现的但是不是关键词的高频词(学生,教师,老师等),构成了自定义停用词表。经过上述预处理操作,最终得到了1400多条数据。(三)标题词云。经过预处理的数据,基本上符合机器处理的标准,但是预处理得到的数据中,依然掺杂着一些游离的、无法形成主题的数据内容。而一篇文章的标题基本都附带着一些关键词和主题词。用Python相关库进行词频统计和词云展示,初步分析所有文章谈论的主题。利用高频词查找原始Excel文档标题,利用Excel标题筛选功能,找出包含这些高频词的所有标题。从标题高频词分布中可以看出,老师们写文章的关注点主要体现在以下几个方面:1.学生培养工作原文档中检索出130条标题包含“培养”的标题,发现以下内容是培养学生的关注点。比如“怎样培养学生学习数学的兴趣?”“怎样培养得力的班干部?”从中可以得出学生培养工作可以从培养学习兴趣、培养知识能力、培养良好习惯、培养得力学生、培养自主思维以及培养自信等积极人格情感这几个方面入手。2.后进生(差生)和学困生“后进生”是对“差生”的新认知,过去由于认知错误把他们叫作差生,现在称为后进生,即“后来进步”之意[6]。学困生是那些学习成绩不理想,自律能力有限的学生。原文档中检索出173条标题包含“后进生”或“差生”的标题,比较集中的标题有“后进生转化”“转化差生的工作”。从中可以看出后进生和学困生如何转化是比较尖锐的问题。(四)基于Word2vec词向量的关联词。提取Word2vec词向量算法可以将词表示成向量,向量每一维表示某一方面特征,通过计算两个词条向量的相似度,提取出主题词的若干个关联词。运用Word2vec算法提取上述归纳出关键主题前20个关联词,进行属性相关词的拓展。在培养学生工作中,主要是教会学生自我教育,培养他们的创新能力和思维能力;培养学生数学兴趣从激发他们的求知欲,提高积极主动性,增强学习动机入手;自学能力较强的学生学习习惯也自然好,培养阅读习惯要做笔记和课前预习,做到“心到、眼到、口到”。在差生词条中,“学困生”“差生”“后进生”词条相似度很强。同时和“优生”“优等生”也紧密联系,这说明了当文章一句话里出现了“差生”这样单词时候往往伴随着这句话里面或者前后文会出现“优生”等同义词字眼。(五)LDA抽取文档主题。提取LDA模型主题数是一个超参数,本文设为10个,即认为1400多篇文章都是在10个主题。通过建立LDA模型,得到了10组主题词,为学生成长、数学能力、初中几何、班级管理、情感沟通、思维培养、课堂教学、差生转化、习惯培养、青春早恋。可以从LDA提取的最相关的前20个单词,通过词序的排列组合生成有解释性的句子再进一步深化主题词的意义。(六)KMeans文档聚类分析。经过KMeans聚类容得出每个类别具体的文章数量,但是聚成一类的类别命名需要去分析查看原始文本标题和内容。经过仔细观察统计得出了11个命名类别,频数从高到低依次是:学生发展、课堂教学、师生交往、班级管理、数学能力、后进生+学困生转化、关爱差生、学习兴趣、学生手机。可见教师的主要工作中心和反映问题集中体现在学生发展、课堂教学、师生交往等日常学校教育行为。

四、小结

本文运用自然语言处理(NLP)中常见的文本数据预处理技术及关键词频(TF-IDF)矩阵、Word2vec词条相似度,LDA主题模型和KMeans文档聚类,主要开展大数据环境下的文本主要信息挖掘和探讨。上述每一步文本分析做法得出的结果都有很好的可解释性,能够在1400多篇中等规模文章中定位到黄金主题和与之相关的延展信息,这体现了数据挖掘的意义。

作者:李光明 潘以锋 周宗萍 单位:上海师范大学教育技术学系