高校教学评价证据调查研究

时间:2022-05-17 09:27:21

高校教学评价证据调查研究

一、国外高等学校教学评价的基本做法及经验

1.学生评教的有效性和偏差

很多关于教学评价的早期研究都涉及了对学生评教有效性问题的关注。学生性格、教学条件、教师性格以及师生互动关系等都是影响学生评教结果的可能因素[3];学生成绩也是可能干扰学生评教因素中的一个;课程类型、课程负担、教师严厉程度和学生成绩等都有可能使评价结果产生偏差[4]。虽然如此,还是有很多研究者相信,精心设计的学生评教的确是教学评价的有效手段。现有研究表明,学生评教的不足之处还体现在学生没能力对有效教学的所有环节进行评价。他们可以对教师的课堂表现、组织能力、阅读材料与作业的相关性、教师教学热情、师生关系、教学内容的覆盖面、考试内容、课程难度以及课程负担等方面进行评价,但对课程内容和学生学习是否充分等就不能评判了。学生有时并不能真正意识到他在一门课程中究竟学到了多少。学生并不能判断某些课程中的教学内容是否新颖,教师的专业知识是否渊博[5]。

2.多渠道收集教学评价证据

研究者普遍认为,学生评教并不能起到对教师教学效果进行全方位评估的作用。虽然学生评教的使用非常普遍,但仍不能确保学生有能力对教学效果做出准确的判断。学生反馈对反映教学活动的某些方面是有用的,如师生关系、成绩评定、课程内容、教师的课堂呈现和组织技巧等,但教学内容、相关性和教师投入等方面却超出了他们的直接经验。专注于有限的证据来源无法捕获教学活动的诸多方面,下列因素都需要依靠其它的证据来源:教师知识、教学过程的创新性、教学内容的质量和价值、课程效果、教学内容与专业培养目标的密切性、教师贡献等。单纯利用学生评教无法评估教师的学识、课程的中远期效果,以及教学内容与学科专业目标和任务的相关度。

二、研究问题和研究方法

最近的一项研究考察了美国某大学商学院在教学评估中多大程度上使用了多渠道的证据来源。我们在中国也进行了类似的调查,利用开放式问卷了解教学评价证据的使用情况。美国、澳大利亚以及很多欧洲国家在利用多样化评估证据方面取得了有意义的经验,中国在此方面似乎经验不足。在美国大学,学生评教已有近40年的历史,中国大学使用学生评教的历史平均只有8.5年,很多被调查学校只有5年甚至更少的时间。由于逐渐意识到需要利用多源证据对教学进行评估,加之对不同评估证据的了解越来越多,我们预计,中国大学的管理者们会越来越强调使用除学生评教之外的其它评估证据。我们研究的问题是:(1)教学管理者对学生评教有效性的看法如何?(2)教学管理者利用学生评教的机率如何?(3)用以教学评估的证据类型和使用机率是否因学校类型而异?(4)用以教学评估的证据类型和使用机率是否因管理者对指标的信任度和经验而异?我们从不同高校中选取了50个院系,通过电子邮件向系主任(院长)发出了问卷调查申请。之所以选取系主任作调查对象,是因为他们对教学评估负有最直接的责任,对用于教学评估的证据来源了解得最为透彻。在邮件中我们邀请被调查者登陆提供的网址来完成问卷(见附录)。三周后,我们发出了第二次调查请求并很快收到了31位系主任的回应,其中27份答卷是可用的,回应率为54%。被调查院系的具体信息如表1所示。在27份有效答卷所涉及的学校中,有6所“211工程”院校(占22.22%),21所普通院校(占77.78);有20所院校已接受过教育部本科教学工作水平评估,其中17所成绩为优秀(占62.96%);有8个院系拥有博士学位授予权(占29.63%),15个院系有硕士学位授予权(占55.55%),16个院系授予学士学位(59.26%),9个院系为其它层次(占33.33%)。受调查者个人工作所限,被调查对象多为外语院系。但考虑到国内高校的教学评估工作多数由学校教务处统一布置,调查结果应该具有代表性。

三、调查结果及其分析

1.对学生评教有效性的看法

我们在问卷中设计了8个问题来了解被调查人对学生评教有效性的看法。使用的是五级量表,5表示非常同意,3表示不确定,1表示非常不同意。我们利用具有p值的t检验统计量来检验系主任对有效性的认识与中立回答(3.0)是否具有显著差异。统计结果表明,系主任基本上同意(3.74)学生能够回答学生评教问卷中的大部分问题,如表2所示。他们的认识显著地高于中立(p=0.0004)。这与对美国大学的调查结果类似,其平均值为4.23。显然,就调查样本而言,美国大学的系主任更倾向于对学生回答评教问卷问题的能力感到满意。这也许是源自美国大学开展学生评教历史更久的缘故,但也可能是由于中美学生评教证据中的不同细节内容所致。我们认为后者的可能性更大,因为中国的系主任在判断学生是否在超出自己经验进行评价问题上基本上保持中立(3.04),在判断评价证据是否与专业领域相关时低于中立(2.85),在判断评价证据与学校专业设置的相关性上更是低于中立(2.63,p值=0.0651)。被调查者基本上同意学生评教是一种很好的教学评估手段(3.44,p值=0.0394),但也同时承认有些细节内容可能会有负面效应(3.33,p值=0.0951)。与对美国大学的调查结果类似,在“我相信学生评教结果”问题上系主任保持中立(3.15)。有鉴于此,我们认为在对教师教学进行评估时应该利用一些其它评价证据。

2.用于教学评价的证据类型和使用频率

有27位系主任认为可以把学生评教当作是教学评估的首要工具。这种对学生评教的高依赖与国外同类研究的结果是一致的,不同的是,在国外大约有81%的院系使用除学生评教之外的其它证据来源,而我们的调查表明,在中国这样做的只有52%。在中国高校,用于教学评价的指标来源平均为2.19种,而在美国平均为4.16种。中国高校只有22.21%的系主任使用了4种或以上的评价证据,如表3所示。表4列举了27位被调查对象提供的9种评价证据,其中使用频率最高的4种依次为:学生评教(100%)、同行观察(37.04%)、非正式评论(29.63%)和教学奖励(14.81%)。同行观察可以由系主任或其它教学管理人员完成,也可以由其它教师完成。非正式评论既可以来自学生,也可以来自其他同事。在美国最常用的4种评价证据依次是:学生评教(97%)、同行观察(63.93%)、课程大纲(40.98%)和随堂测验(37.70%)。相比而言,美国高校似乎更倾向于使用那些和课堂教学关系更直接的评估手段,而中国高校虽然也使用学生评教、课堂观察这样一些直接手段,但还使用非正式评论和教学奖励这些间接方式。我们认为,来自学生或其他同行的非正式评论比较主观,也许并不能反映课堂的真实情况。教学奖励并非是对课堂的直接评价,尽管很可能参照了多方面的指标,但也只能是间接证据,获得教学奖励并不能说明该教师在课堂上讲授了哪些内容,也不清楚其组织能力如何。被调查者希望能够增加教学评估的证据类型,以便有机会对教学活动的各个侧面进行全方位的评估。

3.不同类型院校的证据使用情况

不同类型院校使用评估证据类型和频率的情况,如表5所示。具体分为教育部评估成绩不同院校、有无博士学位授予权院校、是否“211工程”院校等情况。最常使用的评估指标依次是学生评教、课堂观察、非正式评论和教学奖励。在教育部评估成绩优秀的高校中,随堂考试和教学奖励的使用频率相同。在无博士学位授权和非“211工程”院校当中,随堂考试比教学奖励的使用频率稍微高一些。总的看来,不同院校所使用的评估证据在类型方面似乎没有区别,但在使用频率上稍有不同。无教育部评估优秀成绩院校,无博士点、非“211工程”院校,似乎更倾向于使用课堂观察(50.00%:29.41%;42.11%:25.00%;38.10%:33.33%)和非正式评论(50.00%:17.65%;36.84%:12.50%;33.33%:16.67%)。无教育部评估优秀成绩院校,无博士点、非“211工程”院校分别要比对此类院校使用更多类型的评价证据(2.40:2.06;2.42:1.63;2.29:1.83)。对以上区别一种可能的解释就是,无博士点、非“211工程”院校相对于有博士点、“211工程”院校更注重教学,因而也更重视教学评估。根据被调查者信任学生评教的程度和使用年限对评价证据类型和使用频度进行分类,如表6所示。首先根据对学生评教的信任程度把被调查者分成A、B两组,A组为5分或4分(非常同意、同意),B组为1到3分(很不同意、不同意、不确定)。虽然两组使用的证据类型完全相同,但分布的频率却有变化。相信学生评教的A组对其它证据类型也都更信任:不太相信学生评教的B组平均使用1.71种评价证据,而A组平均使用2.69种证据。按常理来讲,不太相信学生评教的B组应会使用更多其它证据来与学生评教搭配和补充使用,但事实却恰恰相反。该区别还可以在使用学生评教年限不同的分组中得到体现。我们同样把被调查对象分为A、B两组,A组至少有7年的学生评教经验,B组不足7年。两组在使用不同评价证据的类型和重要性排序方面是等同的,但不同的是,A组比B组使用了更多的评价证据(2.38:2.00)。这也许是由于使用学生评教更久的A组更好地认识到了单纯依赖学生评教的不足所致。如前所言,学生可以依靠自己的直接经验来对教师的课堂呈现技巧、教学内容的选择或组织做出判断,但对于教师的学识、教学内容的新颖、教学内容与教学目标之间的关系等方面是不能判断的,这些方面的评价需要利用其他一些评价证据,如同行课堂观察、教学大纲、随堂测试、教师笔记等。前期研究表明,除学生评教外,所调查的美国大学经贸系的系主任,会经常利用同行观察、教学大纲、测试、教师课堂笔记、教学材料和课程成绩等作为常用的评估证据。

四、结论

研究发现,对教师的教学行为进行评估时,多数大学都把学生评教看作是可以信赖的证据来源。调查发现,系主任基本上认为学生可以基于经验回答问卷中的大部分问题,在判断是否有些问题超出了学生的经验范围时态度不明确。他们认为有些评价内容会产生负面效应,因而在是否完全相信学生评教结果上态度不明确。几乎一半的被调查院校在教学评估中只使用学生评教,总体平均只使用两种评价证据。显然这与教学活动多方面、全方位的评估要求相差甚远。虽然有些被调查院校还使用课堂观察、非正式评论和教学奖励等手段,但后两种手段并不直接支持教学评价。为了对有效教学的各方面进行全方位评估,我们建议除学生评教外,还要利用同行观察、课程大纲、测试和教师课程记录等其它评估手段。调查还发现,非博士学位授权院系、非“211工程”院校和没有教育部评估优秀成绩的院校更倾向于使用多种类的评估手段,而有博士学位授予权的院系使用的指标种类最少。这也许是由于后者更重视科研的缘故。我们还发现,那些更信任学生评教或使用学生评教历史更久的院系会倾向于使用更多种类的评估证据。这也许是由于他们从总体上更重视教学评估,并且同时也认识到单纯学生评教并不能对教学效果的所有方面做出评判。本研究仍有一些局限性。首先,我们的调查取样院校较少。其次,调查对象只涉及了系主任,没有普通教师。虽然调查结果显示了不同院校间的共同点和差异,但还无法了解各评价手段在实际中是如何使用的。最后,调查结果也许并不适用于样本外的院校。来自无教育部评估优秀成绩院校的回应偏少。未来研究也许可以调查教师对个别评价证据的看法,考察不同评价证据所包含的具体内容等。(本文来自于《高教发展与评估》杂志。《高教发展与评估》杂志简介详见.)

作者:王广成1BrianPatricGreen2工作单位:1.曲阜师范大学公共外语教学部2.DepartmentofAccounting