多层次高校试卷质量评价研究

时间:2022-06-19 03:21:57

多层次高校试卷质量评价研究

摘要:针对现有试卷质量科学性不足、分析指标不一、评价层次单一的特点,运用经典测量理论(CTT)和SPSS软件,探索多层次高校试卷质量评价体系。以某高校《心理统计学》课程为例,从宏观的学生成绩分析、整体试卷分析,到中观层面的题型、章节模块、能力要求分析,再到微观层面的试题分析,全面反映学生的成绩与试卷质量情况,并能根据分析的结果给师生的教与学提供有效的反馈,也为试题库的修改和完善提供量化的参考依据。

关键词:试卷质量分析;经典测量理论;宏观;中观;微观

对于考试的监控与评价是教学质量管理的重要一环。目前学者们重点关注基础教育阶段的教育质量监测,着力建设国家教育质量监测体系来监测学生的学业情况[1]。高等学校的校内课程考试的监控与分析是高校教育管理体制的重要组成部分,也是目前高校教学评价中心的重要工作内容,高校教育质量监测和评价体系的构建也是大势所趋[2]。但目前高校教育质量监测体系中的考试质量分析系统化研究比较匮乏,存在形式化和简单化特点。本研究拟从宏观、中观、微观三个层面,构建多层次高校试卷质量评价体系。

一、高校课程考试试卷质量评价现状

高校课程考试是以课程考试大纲规定的合格标准为参照的水平考试,某次考试后的分数不仅是评定学生学业成就的重要参照,也是评价教师教学效果和改进教学工作的主要依据。笔者对搜集到的高校目前正在使用的考试试卷分析项目进行对比和剖析,发现绝大部分高校课程考试的试卷分析的内容都是围绕以下三个方面的内容进行:一是课程教学基本情况介绍,包括课程名称、任课教师、专业班级、考核方式等;二是考试成绩总分的概况,包括总分平均数、最高分、最低分、及格率、分数段比例、直条图等;三是对试卷质量的主观分析,如整体难度、与大纲符合程度、错误知识点分析等。少数学校基于经典测量理论(CTT)对试卷质量进行了量化分析,报告了试卷的正态性、整体难度值和整体区分度等[3,4]。

二、高校课程考试试卷质量评价存在的问题

通过以上分析,目前高校考试试卷分析存在以下几方面的问题:一是试卷分析的主观化分析较多而量化信息较少;二是侧重对考试结果的分析而忽略了对试卷本身命题质量的分析;三是试卷整体情况的宏观分析居多,题型分类、知识点分类和能力分类等中观层面的分析和每一道试题的微观分析极少。基于目前研究的不足,为提升高校教师的考试评价能力和素养,本文基于CTT进行多层次高校课程考试试卷分析探索,为广大高校教师进行科学的试卷分析提供一定的参考。

三、基于CTT理论的试卷质量评价体系构建

(一)学生成绩统计分析模块和试卷整体分析模块。主要实现对成绩的各个统计值的计算,如最高分、最低分、平均分、标准差、偏度、峰度、信度和效度等指标。旨在从宏观层面了解学生分数的总体分布形态和试卷整体的科学化指标。(二)试题类型、考查内。容及能力层级分析模块主要实现从试题类型、章节内容和能力要求三个不同视角对试卷进行中观层面的分析。采用难度分析和区分度分析指标,并将定量的分析结果定性化,向教师提出合理的建议。(三)试题分析模块。主要实现从微观层面对单个试题的难度和区分度的分析。旨在通过一定的标准来判断试题质量的好坏,从而为下次组卷和试题库建设提供一定的参考。

四、《心理统计学》课程试卷分析实例

(一)宏观层面分析。宏观层面的分析,这里主要对考生考试总分的集中趋势、离散趋势、分布形态、难度、信度等进行评估。通过表1可知,本次考试整体上较为容易,分数分布呈负偏态,题目一致性程度较高。研究还发现入学前是理科的考生分数显著高于入学前是文科的考生。(二)中观层面的分析。中观层面的分析是从不同的角度对试题的属性进行归类,如按试题类型、章节内容及能力要求来揭示学生对不同属性类别题目的反应特征[5]。从表2的结果中发现,从题型的角度来分析,多选题的难度最大而简答题的难度最小,填空题和多选题的区分度大而计算题的区分度小;从内容角度来分析,“方差分析”部分的难度最大而“相关关系”和“统计图表”的难度最小,绪论部分的区分度大而卡方检验部分区分度小;从能力角度来分析,需熟悉的题目难度小而需掌握的题目难度相对较大,区分度都较高。(三)微观层面的分析。试卷的质量分析,还应包括对构成测验的各个测验题目进行质量分析。进行微观层面的分析是考生对具体测试题反应的量化特征进行分析,不仅可以了解学生对每一题的掌握情况,还能对命题的质量进行分析。如表3所示,填空题10、单选题5和6、判断题2和9等题目非常容易,填空题13和多选题9、10较难。区分度低于0.2的项目都是鉴别力低的题目,特别是单选题2、6,填空题10、判断题3等题目是消极区分,这些题目都不能很好地区分能力高和能力低的被试,需结合考点考虑是否删除。

五、结束语

从宏观层面来看,整体试卷难度值为77.40,分数分布呈负偏态,综合这两个指标可以得出学生对试卷的总体掌握程度较好,相对来说高分段的学生偏多。另外内部一致性信度较高(α=0.83),说明题目间在功能上一致性的程度较高。关于是否要报告信度及报告哪种信度可能因需而不同。有人认为高校期末考试还没有像高考等考试那样重要到计算信度的程度,但高校教师需要了解信度的知识,也需要了解内部一致性信度不代表测验的稳定性和复本一致性[6]。关于效度如何报告和报告哪种效度,本研究认为高校课程考试可将形成性评价成绩作为效标参照报告同时性效度。宏观层面的研究还发现入学前是理科的学生成绩显著优于入学前是文科的学生,提示我们在《心理统计学》授课过程中应给予文科生更多的课前和课后辅导。从中观层面的题型来看,多选题的难度最大而简答题的难度最小,填空题和多选题的区分度大而计算题的区分度小。多选题是综合能力的考察且猜测的可能性小,少答、多答、错答都不给分因此难度最大;简答题诸如“谈谈直方图和直条图的区别与联系”是课堂中只需识记的内容因此难度最小;填空题和多选题能较好的区分能力高和能力低的被试。从中观层面的内容角度来分析,“方差分析”部分的难度最大而“相关关系”和“统计图表”的难度最小,“绪论”部分的区分度大而“卡方检验”部分区分度小。“方差分析”部分的统计学原理复杂且不同的实验设计容易混淆因此难度较大,而“相关关系”和“统计图表”掌握起来相对容易,“绪论”部分和“卡方检验”部分能较好的区分能力高和能力低的被试。从中观层面的能力角度来分析,需熟悉的题目难度小而需掌握的题目难度相对较大,是因为要求掌握的知识点往往既是重点也是难点。从微观角度来分析,填空题13和多选题9、10较难。需要进一步分析是知识点难还是学生掌握得不够好,如填空题13的知识点并不难,可能是学生还未掌握标准分数与百分等级的对应关系而导致错误。区分度低甚至是消极区分的项目,不能很好的区分能力高和能力低的被试,根据美国测验专家伊贝尔的标准,需考虑修改题目或予以删除。对劣质题目的删除会优化下一次组卷的质量,对试题库的完善也起到积极作用。

总之,本研究基于CTT从学生成绩和试卷质量两个角度展开宏观、中观和微观三个层次的全方位分析,能够给教师和学生提供更多的评估信息,建立通畅的考试信息反馈机制[7]。由于CTT本身也存在着测验及项目性能指标依赖样本等缺点,项目反应理论(IRT)等新的测量理论应运而生,它能根据被试在各个项目上的实际作答反应,经数学模型的运算统一估出被试的能力水平及项目的计量学参数[8],这是高校试卷质量评价新的研究方向[9],有待我们进一步探索。

参考文献:

[1]庞仙梅.高校教育质量监测与评价体系的构建[J].中国成人教育,2018(22):54-56.

[2]王秀娜.大数据视角下的国家基础教育质量监测[J].中小学信息技术教育,2018(11):9-10.

[3]王金权,袁慧,丁书姝,等.卫生统计学试卷分析及对教学改革的启示[J].医学理论与实践,2018,31(07):1087-1088+1092.

[4]王军,程晶晶,王加华,等.《食品生物化学》期末考试试卷分析与教改建议[J].广东化工,2018,45(03):204-205.

[5]司俊峰.高校课程考试质量评价统计分析模式研究———以《心理统计学》课程考试质量评价为例[J].高师理科学刊,2007(02):113-117.

[6][美]詹姆斯•波帕姆.教师课堂教学评价指南(第五版)[M].重庆:重庆大学出版社,2015.

[7]邢维全.美国高校考试评价制度的特点及对我国的启示[J].天津电大学报,2009,13(03):49-51.

[8]罗照盛.项目反应理论[M].北京:北京师范大学出版社,2012.

[9]杨亮.基于项目反映理论的试卷质量分析[J].长春大学学报,2011,21(04):64-67.

作者:胡 霞 单位:安徽中医药大学