智慧校园学生数据画像生成方式

时间:2022-08-17 08:33:22

智慧校园学生数据画像生成方式

摘要:近些年,大数据技术在我国逐步得到发展,并被社会的各个领域所应用,因此数据的价值深受关注。以海南经贸职业技术学院为例,学校在授课过程中,会生成许多有关学生的数据,因此,我们需要更多地考虑如何将这些数据升值为有利资源,为学生及学校相关部门所用。由此,本文基于Hadoop大数据平台,对学生画像存在的价值以及系统设计和研究思路进行了详细分析,希望可以为相关研究人员提供参考。

关键词:智慧校园;Hadoop;学生画像;方式研究

大数据技术具有低成本,高速度以及能够大规模利用数据价值的特点,可以有效促进社会各个领域的发展。现如今,各大学的数字化和计算机化建设基本上都已得到了完成,并且日趋智能化。随之而来的各类数据也越来越多,这也包括海南经贸职业技术学院,学生在校期间生成了大量的数据群,例如消费数据、学业成绩数据、图书查看数据等各方面的数据,从各种角度进行研究,以了解学生的行为和喜好,为学生进行画像以帮助学生全面客观地了解自己,同时也有利于学生管理部门精确管理并帮助学生提高教育水平。

1什么是Hadoop技术

在大数据时代,无论是传统的计算,还是传统的数据存储,都已经不能跟上现代化的脚步。Hadoop的逐步发展及完善,和Spark技术的问世,有效解决了大数据所面临的各种问题。Hadoop可以说是一个统一的分布式计算,专门用于处理规模较大的数据,通过自动并行处理提供的MapReduce,自然可伸缩性,简单的实现和强大的容错能力等。提供分布式并行计算。它具有数据提取,转换和加载以及离线数据处理的优势。此外,Hadoop还与Sqoop,Flum和其他工具兼容。Sqoop是一种数据迁移工具,用于在MySQL与现有关系数据库(例如Oracle,HDFS和Hbase)之间导入和导出数据。Flum提供高可用性和可靠的解决方案。它是一个用于大规模日志收集,聚合和传输的分布式系统,可以执行大规模流数据的分布式收集[1]。

2学生画像所存在的价值

1)可以使数据中存在的孤岛问题得到改善,促进信息的流通性。大数据人物画像需要从学校的多个部门检索学生数据,以保证建模的结果是准确有效的,并允许在不同部门之间可以共享数据。2)信息技术的合理应用,可以有效提升管理水平。通过充分利用学生模型,现代教育系统来进行计算机化,使教育决策更具有科学性,从而实现教育机构的高水平管理。3)探索基于学生画像的新教学模式,对现有的教育体系进行创新及优化,可以有效提升教学质量;4)通过对学生画像结果进行分析,可以捕捉学生独特的人格特质,对学生进行准确的指导和帮助,并制定精确的实施策略,已达到对学生进行科学、有效、精确的管理工作。

3学生画像的系统设计

3.1学生画像系统功能需求

可以通过网络从网页访问大数据驱动的学生画像系统。该体系划分为三个步骤:1)客户端;2)服务器;3)数据库模式。如图1行为画像构建步骤所示,学生在进入系统后,就会进行身份识别,对学生的各种数据进行总结和读取,最终对学生的日常生活、学习成绩等数据构建成不同时间段的报表,并为学生提供相应的指导和建议,就比如说,学生去图书馆借书,假如特别频繁借书就会对学生进行奖励或表扬,假如在学习或者阅览等方面特别懒惰,就会对学生进行批评或者是提供相关好的建议。并反馈给辅导员或学生个人,进行谈话戒备。通过该系统,我们希望为学生提供一个学生画像系统,该系统集成了学术统计信息、信息请求和年终摘要[2]。

3.2学生画像系统数据需求

程序数据十分重要,可以说是系统的心脏。想要对个人信息进行及时准确的处理与分析,那么系统就需要大量数据来完成和归纳个人信息,例如消费统计和分析,学校成绩等。数据分为学生的生活中的基本数据、学生在平时学习中的表现所产生的数据等。数据通常都是以Excel表或csv文件进行展现,之后纳入数据库。数据总长度需要设置为100,以避免数据库存储异常。在进行数据采集过程中,会有一些异常的数据产生,例如一些不完整或是不准确的数据,这些数据有一个统一的名称(脏数据)。对于脏数据,我们可以采取在分析数据之前先清理数据的方法。操作时,所有数据源都需要进行格式化转换。数据清理十分重要,是必不可少的环节,结果的质量与模式效果和最终结论直接相关。在实际操作中,数据清理通常占扫描过程工作量的50%到80%,因此它也是运行整个配置文件系统的关键链接,在格式设置上需要谨慎[3]。

3.3学生画像系统设计原理

1)需要遵循简单的原理在进行数据处理过程中,也需要以简单原理为基础。这样在获取有用数据时,可以有效控制数据群的大小,提升数据质量。在实际工作中,您可以选择特定的分析数据和适当的处理方法来执行简单、有效的工作。2)确保清晰明了的原理所有事物的分析,都会有其结论产生。其结论必须清晰明了。假如在结论没有明确的状况下,这时所讲的分析并不成立,也不具备任何意义,因为必须在进行分析之前需要对该结论进行寻找和验证。3)数据要具有可靠性良好的分析应基于可靠的数据源。实际上,在许多情况下,数据收集会花费更长的时间,包括计划和定义数据,调整数据报告以及允许开发人员正确提取或进行数据设置。在对良好数据进行分析只有一个目的,那就是寻求正确答案,所以所采集数据的精确性是其基础,否则的话,就会适得其反。4)报告进行图标体现应尽可能使用图表体现数据。采用图表来替换大量堆叠的数字,使用户可以更生动、直接地面对所存在的弊端或者是做出的结论。另外,图标虽然有很多好处,但是也不能过度使用。因为人在面对大量图表示容易感到困惑。5)要具有思维逻辑逻辑性在报告中是十分重要的,除了需要具有逻辑性外,还需要具备三个步骤,那就是对问题的挖掘、分析和解决。具有较强逻辑性的分析报告也是具有说服力的。分析的结论应基于严格的分析和数据推理过程。6)要具有实用性编辑数据分析报告时需要认真仔细。要保证基础数据不仅具有真实性还要具有完整性,在进行分析的过程中,一定要遵循科学、合理和完整的原则,分析结果必须可靠且包含内容要切合实际[4]。

4研究思路与方法

4.1进行数据收集

需要以学校当前的学术管理系统、教育管理体系、招生体系、注册体系等为基础,来进行学生基础数据的获取,例如学生在校期间的图书阅读数据、专业学习表现数据、上网信息等[5]。

4.2数据进行预处理

学生行为的数据,具有多元化及复杂性等问题,并不适用于对数据进行直接挖掘。为了获得纯粹,精确和完善的数据,首先需要处理数据。数据的清理主要是针对数据的完整性,统一性,合法性处理,从而获得想要的干净数据。数据合并是统一存储和合并多个数据源。数据选择涉及调整原始数据以减小数据大小。数据转换是效特征值的获取,也就是对数据进行归一化和离散化等处理[6]。

4.3构建学生画像模型

分析各种类型的学生数据,分析学生在各个角度产生数据的差别,并使用分类算法创建一个合理的标签系统来构建大数据学生画像模型。不同的标签所体现的是学生特征或者是属性,并且随时间、区域、不同类型进行转变。使用大数据算法,将学生行为管理和思想政治教育的概念和实践相结合,进行预测模型的合理设计,学生画像像系统的构建,并为学校生成学生思维动态和行为数据标签,以帮助学校对学生的思想和行为进行实时掌握和规范,从而实现对教育进行精准化管理[7]。需要就当前存在的主要问题,合理使用相关的策略,从而推动分布式数据库系统的开发进程,改善分布式数据库系统的管理水平,明确工作重点,扩大应用价值。

参考文献:

[1]王冰冰,彭海楼.Oracle分布式数据库系统及网络安全策略探究[J].数码世界,2020(4):242.

[2]肖占军,孔伟烨,艾宏岩.分布式日志结构数据库系统的主键维护方法探析[J].数字化用户,2019,25(19):84.

[3]莫新建.分布式数据库系统的查询优化技术研究[J].电脑知识与技术,2020,16(13):48-49.

作者:符龙生 单位:海南经贸职业技术学院