高等教育事业统计数据挖掘思考

时间:2022-06-13 10:10:35

高等教育事业统计数据挖掘思考

摘要:基于目前我国高等教育统计分析中存在数据更新速度缓慢、数据分析滞后、数据反馈率低等问题,运用大数据思维,将大数据思维与小数据研究相结合,重点关注数据挖掘技术在高等教育统计数据中的运用。对比国内外研究现状,提出我国高校存在对数据挖掘重视度不高、数据挖掘技术在高等教育统计数据中的运用不充分、适应于高等教育教师与学生特点的数据挖掘技术应用欠缺等问题,并提出了解决的方案。

关键词:教育统计;大数据;数据挖掘

目前,我国每年教育事业统计工作要求调查指标1.6万项,涵盖范围为全国50多万所各级各类学校和机构,数据量高达55亿条[1]。其中,高等教育统计是我国教育事业统计工作的重要组成部分之一,每年10月份开始通过单位收集、层层上报的方式汇总[2]。面对采集的海量数据,如何将其有效利用,转化为指导高校建设、高等教育管理的参考依据是亟待解决的问题。

一、我国高等教育统计数据分析现状

2015年教育部对1991年的《中国教育监测与评价统计指标体系(试行)》进行了修订和完善,修订后的指标体系分为综合教育程度、国民接受学校教育状况、学校办学条件、教育经费、科学研究等5类共102项指标,其中涉及高校的指标为54项[3]。教育主管部门和各学校力求管理好数据、分析好数据、利用好数据,覆盖采集、统计、分析、诊断、决策等全流程,以便更好地为领导决策服务、为学校发展服务。从拍脑袋决策到用数据说话,统计数据在教育管理中意义重大。但各高校在具体统计过程中,普遍存在机械上报的情况,缺乏适应性微观统计指标设计。同时,对已统计数据缺乏深入分析,大部分仅停留在简单描述和说明上,并未真正发挥统计数据的反馈作用,数据利用率较差。其主要表现在以下几个方面:一是高校的教育统计多数是被动地完成报表任务,数据统计人员多是兼职的,服务方向依然是以为上级服务为主,教育统计仍以搜集整理内部数据为主,未能主动地根据教育管理需要进行采集,把统计与学校工作相结合,把统计信息自觉地用于决策和日常工作。二是目前统计的口径较多,每年度都有高等教育事业统计、教学基本状态数据采集、固定资产投资报表等各级各类报表,上级下达的归口部门不同,时间节点的要求也不一样。这导致学校不同部门给出的数据出入很大,也有学校为了应对检查和评估,捏造数据,使得统计数据失真。三是数据统计之后基本上停留在数据阶段,分析数据、利用数据进行决策的意识和能力很弱。

二、大数据思维导入

2012年联合国的《大数据发展:机遇与挑战》中明确指出,大数据时代已经来临,大数据的出现将会对社会各个领域产生重要的影响[4]。近年来,我国高度重视大数据研究,2015年,中共十八届五中全会首次提出“实施国家大数据战略”,将大数据战略正式上升为国家战略;2016年,“十三五”规划纲要对大数据战略进行进一步细化,提出方向性目标和任务;2017年,中共报告提出要“推动互联网、大数据、人工智能和实体经济深度融合”。简单来说,大数据思维就是把一切可记录的事实都作为数据并从中寻找有价值信息的思维[5]。主要体现在以下四个方面。第一,非结构化数据也是数据。大数据的数据来源更为多样,相比传统统计学中数据通过简单测量记录的方式采集,大数据的“数据化”方式使得非结构化数据提取成为可能,为更加客观分析反馈结果提供有力支撑。第二,数据是动态变化的。不同于一次性的静态数据,大数据会因数据更新而发生动态变化。例如,我国每年的教育统计工作会得到大量的数据,但其作为一次性调查,无法实现数据的实时更新和跟踪比较,使得数据分析存在滞后性,无法精确给予政策支持和建议。第三,数据样本等于数据总体。大数据强调要分析与事物相关的所有数据[6],增大数据覆盖面,将“假设—验证”转变为“发现—总结”[7],实现数据全面汇总,不遗漏个体化特征数据。第四,数据通过挖掘才有价值。大数据的数据容量大且繁杂,并非所有数据都是有效数据、都能直观呈现出相关性。故需要根据分析目的,运用数据挖掘技术,剔除无用、虚假、错误的数据,从而获取有价值的信息。将大数据思维运用到我国高等教育统计数据分析中,可有效解决数据更新速度缓慢、数据分析滞后、数据反馈率低等问题,但并不代表大数据就完全取代小数据研究。首先,大数据体现的相互关系就是由众多小数据综合而成的;其次,加强小数据研究,能较好地筛除无效数据,从而促使大数据研究结论更为准确。因此,我们要基于大数据研究小数据,基于小数据挖掘大数据[5]。

三、我国高等教育数据挖掘现状

(一)教育数据挖掘。数据挖掘(DM)指的是从大量数据中提取出隐含的、具有潜在价值的信息与模式的过程[8][9]。数据挖掘研究主要分为基础理论研究和应用研究,基础理论研究的重点是数据挖掘的方法、功能以及系统和软件的建设等[10],而应用研究则更倾向于成果应用,教育数据挖掘(EDM)指的就是数据挖掘在教育领域的应用。利用数据挖掘技术,可以使教育领域中的大量原始数据的潜在价值得到有效开发,在理论数据和实践应用中建立紧密联系,实现透过繁杂的数据,提取价值信息,进而合理预测、有针对性地实施决策的良性循环。(二)我国高等教育数据挖掘研究方法。Romero和Ventura通过分析1995~2005年教育数据挖掘的相关研究文献,基于网络教育系统的特定方法主要包括统计和可视化、Web挖掘,其中,Web挖掘分为文本挖掘,关系规则挖掘和序列模式挖掘、聚类、分类和偏差检测三组[11]。Bak-er[12]将教育数据挖掘方法分为预测、聚类、关系挖掘、人类的判断和模式发现等5大类。对比2008~2009年国家教育数据挖掘会议文章,发现随着关系挖掘研究的减少,预测研究大幅提升,模式发现研究逐步展开[12]。孙志梅通过查阅2010~2016年教育数据挖掘相关论文信息,指出目前国内教育数据挖掘常用方法是分类、聚类、预测和关系挖掘,模型构建、可视化呈现则处于起步阶段[13]。由此可见,针对教育数据挖掘的研究,国外的研究方法以及项目反映理论的结构方程模型和贝叶斯网络等的运用,更具有前瞻性和应用价值。(三)我国高等教育数据挖掘研究应用。国外开展数据挖掘研究较早,在高等教育领域逐渐形成“渴望学习”“适应性学习”“希维塔斯学习”等成熟应用[14]。近年来,我国学者针对高等教育的各个方面正在进行数据挖掘分析的尝试。例如:周国福提出一种基于数据挖掘技术的高校学生成绩分析算法,通过收集学生课程表现数据,对学生未来成绩作出预测[15]。董潇潇等根据高校各种校园数据,构建大学生行为画像,通过聚类分析,挖掘大学生学习生活的潜在规律,为教育管理部门提供决策依据[16]。胡水星基于Moodle网络日志和微视频教学应用案例,对教育数据挖掘的具体应用进行实证分析,从而为进一步优化教学提供教育支持[17]。孙曙辉等提出了智慧课堂数据挖掘分析的四类应用模式,并结合真实数据研究学生主观行为对成绩的影响[18]。整体研究比较零散,缺乏对高校系统性的应用研究和探索,未形成在我国高等教育领域普遍认可和推广的应用模式。

四、美国教育数据统计、分析及应用理念

美国国家教育统计中心(NCES)作为国家教育数据的统计与研究机构,是美国教育部教育科学院的直属机构,其主要职能是采集、分析、评估和本国及其他国家教育统计数据。为美国各级各类教育政策制定提供丰富的数据资源和分析报告,有效地提高了美国教育的管理、协调、评价和监督能力。关于数据如何转化成信息、知识及智能,美籍华人科学家张小彦博士这样介绍:“数据是对一个物体、事件、现象的记录,原始数据只要经过去重、清洗、筛选、加工才能成为有用的数字信息,经过分析,同样的数字信息不断重复显现,事物的本质规律才能凸显,才会被揭示,这时的信息才可以成为知识。知识的重要性在于利用规律预测未来,当知识被应用于实践解决实际问题后会产生智慧:知识和经验的结晶。智能对特定事物有着直接行动的指导意义,实践性强。因此,智能首先在军事和商业上得到应用和发展。数据、信息、知识、和智能是决策过程中不同层次的理念”。在现代社会,科学是占主导地位的认知手段,而以数据为依据的智能决策发挥着越来越大的作用。美国明尼苏达大学校务研究办公室(OIR)为学校校务的规划、政策的形成以及决策的制定收集数据并进行分析。对于提供给学校决策层、政府机构和其他内外部赞助者的数据,确保其完整性。在从事尖端研究、探索新的分析方法、设计并实施调查及其他数据收集工具等方面发挥领导作用。在全国范围内与其他高等教育院校、政策与研究中心以及政府机构合作,以推广最佳做法、促进学术水平的提高。其数据来源主要有三:一是来自于学术参与,自我意识与认知,与学生、教师的互动,学术成功的障碍,校园氛围的调查报告;二是学校采集的内部数据;三是来自教育综合数据系统、交流、第三方的外部数据。建立用于衡量方案进程的基准线,通过数据分析确定可行的、有帮助的项目和政策,满足战略计划目标、责任和认证标准。

五、教育统计数据挖掘与分析方式的思考

目前,国内外部分高校对教育统计数据的挖掘与分析进行了有益的探索,为我们不断完善创新数据统计方法、来源、存储等,为数据的采集、梳理、分析系统化提供了研究基础与实践成果。接下来,高校可以在以下几个方面加强统计数据的研究与实践。一是建立教育大数据人才培养和协同创新中心,发挥好学校教育学、统计学、计算机、管理学、数学等方面的基础和优势,整合优化资源,推进学科交叉融合,加强政校、校企、校校之间的合作,联合打造协同创新平台,开展教育大数据的科学研究以及创新型人才培养。二是充分发挥好数据中心对教育事业的智库作用。借鉴和引进国内外教育大数据研究的方法、成果及经验,充分运用数据挖掘与分析技术,开展针对性强、有前瞻性的数据研究工作,为教育事业发展、学校的办学决策提供参考。三是申报建设教育数据平台,探索教育数据分析研究成果的应用机制和转化机制,围绕教育行业和教育服务周边领域,瞄准行业领域需求,充分发挥研究平台优势,将教育数据研究成果转化为生产力。

六、结语

目前国内关于教育事业统计的研究范围、方法等仍有较大提升空间。首先,目前高校已经认识到大数据对高等教育发展的重要意义,但对于具体的高等教育数据如何挖掘还未高度重视;其次,数据挖掘技术在高等教育统计数据中的运用不充分,在高等教育的诸多领域还未涉及;最后,还未形成适应于高等教育教师与学生特点的推广模式,针对性不强。在我国持续深入推进大数据战略的背景下,我国高等教育数据挖掘分析具有良好的发展前景,其不仅需要计算机科学、统计学领域的研究者精进技术算法,还需要教育学、心理学等多领域研究者通力合作。立足高校实际,完善专业人才队伍建设,搭建系统化研究平台,充分发挥一线教师、管理人员的作用,为早日形成适应于高等教育数据挖掘分析的系统技术体系奠定坚实基础。

作者:余亚辉 高 敏 夏新颜 单位:洛阳理工学院