有理数测试题十篇

时间:2023-04-05 13:10:45

有理数测试题

有理数测试题篇1

【关键词】CTT;IRT;XML;考试系统

0 引言

随着Internet 技术、教育信息化的迅猛发展,许多行业部门如教育、卫生、银行等部门的考试越来越多地使用无纸化考试。无纸化考试有许多优点,它可以最大限度地减少考务工作量,增加考试的客观性和公正性[1]a。无纸化考试系统可以稍作改动,用于员工培训或学生自主练习。在学校,学生平时的课堂练习、单元测试,课程的期中及期末考试非常普遍。在我校,许多临床基础医学课程建立了网络题库,学生的期中考试、毕业考试均使用无纸化考试系统进行测试。

目前,无纸化考试应用开发技术已日趋成熟,但考试系统对试题的分析、对考生能力的评价所依据的数学模型还存在不足。多数考试系统的测验所依据的数学模型是经典测试理论(Classical Test Theory, CTT,即真分数理论)。经典测试理论相对于其他测验理论有其独特优点,其数学模型浅显易懂,易于理解,计算简便,便于实施;它是当前测量学界使用最广的测验理论,在测验实际工作中发挥着重要的指导作用[2]。应用CTT测量试题的各项指标如试题的难度、区分度、试卷的信度和效度等指标时,其指标精度可以满足实际工作的需要,且普遍适用于处理“0,1”记分和连续与等级计分的试题情形[3-4]。但CTT也存在着缺点,在实际应用中,CTT有关试卷真分数T与观测分数X存在线性关系X=T+E的假定与事实存在差异,X和T用非线性关系表达更符合实际。它对试题指标如难度、区分度、测验信度的测量严重依赖于被试样本。被试的观测分数X依赖于试题难度,测验试题难度越高,则被试观测分数越低,使得进行不同测验的被试难以比较[5-6]。研究和探讨应用新的测验理论方法测量试题项目难度、区分度,从而根据考生对试题项目的正确反应概率,形成更加科学客观且可比较的考生能力评价,对进一步提高教学水平,完善教学过程有重要的意义。

1 考试系统测试理论的数学模型

1.1 经典测试理论(CTT)数学模型

经典测验理论(Classical Test Theory,CTT)又称为真分数理论,它认为测验得分(测验观察分)是真分数和误差分数的线性组合,其数学模型X=T+E,其中X是观测分数,T是真分数,e是误差。当前,传统测验的信度、效度、试题分析的原理与方法均建立CTT数学模型之上[1]。经典测试理论CTT于20世纪初提出并发展起来,30年代得到广泛推广和应用,50年代以后逐步走向成熟。1987年,Gullikson发表了《心理测验理论》,标志着经典测验理论及应用方法已经确立并走向完善。经典测验理论(CTT)的数学模型简单,易于理解和接受,便于推广;它的理论假设较弱,对实施条件要求不严格;多数情况下CTT已足够精确,测验结果可信,所以CTT是目前各类测验所依据的最主要也是最有影响的测验理论。但经典测验理论在理论假设及实际应用方面也存在着缺陷,测验分数与试题难度及考生的能力之间存在着严重依赖关系,CTT对试题指标如难度、区分度、测验信度、效度的测量严重依赖于被试考生能力等等,采用CTT理论,以考生成绩评价考生能力有失偏颇。

1.2 项目反应理论(IRT)的数学模型

项目反应理论(IRT)是克服了经典测量理论的局限而逐渐发展起来的一种较新的现代测验理论,它主要研究应用项目特征函数(或项目特征曲线)描述被试在测验试题上的反应行为与被试能力之间的关系。目前。教育测量界以Logistic函数来表示该曲线,该曲线的形状与位置受到试题项目区分度a、难度b、猜测系数c参数的影响。被试在试题项目上的反应行为与被试的能力水平θ直接相关[7-9],项目特征函数三参数Logistic模型数学模型如公式(1)所示。其中,ai、bi、ci分别为试题i的区分度、难度和猜测参数。Pi(θ)是能力水平为θ的考生对试题i的正确反应概率。

IRT数学模型反映了考生对测验项目的正确反应概率与其潜在特质之间的关系。自50年代以来,人们研究和提出了多种IRT模型,以适用于不同情境下的被试能力的估计。50年代后期,伯恩鲍姆(Birnbaum,1957)提出了Logistic模型。Logistic曲线避免了复杂的积分运算,在估计被试能力和项目参数时更加简便。 Logistic函数数学模型成为当前IRT模型中被试能力水平及项目参数估计最主要应用的数学模型。逻辑斯蒂模型有单参数、双参数、三参数模型之分。20世纪70年代以后,人们通过编制计算机程序实现了对IRT模型的参数估计,从而解决了IRT模型计算复杂的问题,使IRT理论得到进一步应用与推广。

项目反应理论IRT与以典测试理论CTT相比,存在许多优势。IRT对项目难度的估计不受被试样本的限制,对被试能力的估计也不依赖于特定的测验题目;在被试能力估计中,IRT将被试能力和测题难度放在同一量尺上进行估计,不同的测验结果可以直接比较;测验者能够根据项目信息量的大小选择对能力估计精度最有增益的项目,使测验达到预先规定的满意的精度;IRT可以对不同能力的被试实施不同测题,既提高了测量精度又缩短了测验长度。但IRT也存在其不足,IRT单维性假定(假定对项目的正确反应概率其单一特质θ的函数)难以满足,人的心理特质是多维的;数学模型较复杂,应用与推广较困难。IRT理论对于0、1等级记分的项目分析研究与应用较为成熟,而在测验的实际应用中,多级记分的测试项目却很常见,这使其应用范围受到较大限制等。即使如此,随着计算机技术在测验领域应用的不断深入,IRT测试理论由于其独特的优越性,必将被越来越多的人们所接受,成为最有应用前途的测验理论之一。

2 试题项目参数估计与信息函数

2.1 IRT参数估计

项目反应理论数学模型的建立需要对函数模型所需参数进行准确估计,这些参数来自于对被试能力参数的估计和项目参数包括难度、区分度、猜测参数的估计。下面仅分析客观题项目的参数估计,主观题项目一般都属于多级评分项目,其参数估计比二级评分模型相对复杂[4]。

1)预估计各项目参数的初值

由于经典测验理论CTT的项目统计量和项目反应理论IRT的项目难度、区分度参数在一定条件下有近似对应关系,因而IRT通常用CTT预估计项目的难度、区分度,而项目猜测参数初值可根据猜测概率估计。

(1)项目难度b初值估计

难度指试题的难易程度,用被试在该试题上的通过率或得分率来表达。对0、1两级记分的试题,其项目难度为:b=。b为难度,R为得分的人数,N为被试人数。对于K重选择题,被试有猜题答对的可能,鉴于因猜测因素使选择题被答对的影响,K重选择题难度的计算表达式如公式(2)。

(2)项目区分度a初值估计

其中,PH、PL分别为项目在高分组和低分组被试下的通过概率。

(3)项目猜测参数c估计

对于选择题或是非题组成的测验,被试完全凭机遇答题的可能性是存在的。项目猜参数定义为被试完全凭机遇答对项目i的概率。对于K个选择项的选择题,其猜测参数计算表达式为:c=;对于是非题,其猜测参数为:c=0.5。

(4)被试能力参数θ的初值探查

被试能力参数一般通过测验后根据被试对项目的反应结果来测量被试的能力。能力参数初值的计算方法为:θ=ln,式中R为测验中得分的测试题数,L为测验中总测试题数。

2)用估计出的能力参数值作为已知量再次估计项目参数的真值。如此循环,直至能力和项目参数的估计值稳定为止。

(1)写出N个被试对n个项目反应的联合分布似然函数

在能力和项目参数未知的情况下,根据独立性假设,N个被试对测验的n个项目反应的联合分布似然函数可表示为:

(2)解方程组

由于LnL是L的严格单调递增函数,使LnL达到最大的一组参数也是使似然函数L达到最大的一组参数。要解出LnL的各个参数值,只需使LnL对能力参数和项目参数的一阶偏导为0即可。对三参数逻辑斯蒂模型可得如下方程组:

根据项目参数a、b、c、θ的初值,使用N-R迭代算法,同时解这个四方程,当两次迭代的结果没有明显差别时,所估计出来的能力和项目参数趋于稳定时,迭代过程终止,从而估计出测验项目的参数值ai、bi、ci的和能力参数θi的值。

2.2 信息函数

信息函数(Information Function)描述在某能力水平上对测验或项目测量的有效性。IRT信息函数有项目信息函数(Item Information)和测验信息函数(Test Information)两种。信息一般可定义为“不确定性的消除”。若所获数据信息量大,则表示此数据对考查对象所作的推论更可靠、估计误差更小。IRT从信息论观点出发,将信息函数与被试能力估计的标准误相联系。测验信息函数I(θ)定义为考生的能力估计值(θ)的标准误σ的平方的倒数,即I(θ)=。标准误σ越小,测验信息函数越大,考生能力估计的不确定性越小,估计结果越可靠。

2.2.1 项目信息函数

IRT数学模型的参数估计依据来自于对组成测验的各个项目的分析。若将单个项目任何能力水平的信息量记为I(θ,Ui),则三参数Logistic模型项目信息函数定义如公式3。

项目信息函数的图像是一条钟形的项目信息曲线(Item Information Curve)。它有以下特征:区分度参数越大,项目信息函数的最大值越大,项目信息曲线越高耸,项目能力分布的狭窄区域能提供的信息量就越多,而在其他区域则提供的信息量就较少,因而对能力估计的价值就越大。在其他参数不变时,难度参数不影响项目信息函数的最大值,其增大或减小只会使项目信息曲线向右或向左平移,不影响项目在能力全域的总信息量。项目猜测参数ci越大,项目信息函数就越小;猜测参数不为0时,项目信息函数取得最大值时的能力值稍大于难度参数bi,且ci越大,能力的最大值越大。

2.2.2 测验信息函数

IRT中,测验的每个项目提供的信息均对测验总信息有价值,测验信息函数是由测验的每个项目的信息函数累加所得。测验信息函数定义为:

测验信息量是项目信息量直接累加所得,测验中含有的项目越多,获取的信息量越大,测验测量被试的能力就更精确。现实中人们通常用测验总分表达测验结果,而不习惯用能力估计值表达测验结果。IRT通过使用加权的项目信息函数的累加计算使不同题型的混合可以获得最优化的测验分数。加权的测验信息函数I(θ)表达式为:

根据项目参数及最佳权重表达式,可以计算出被试的测验分数,从而做为IRT对被试的最佳能力估计值。

3 基于IRT和XML的考试系统构建

3.1 创建XML试卷文档

测验试卷中每个测试项目题干、答案内容中均可能含有图像、音视频等非结构化数据,因此试卷文件采用XML格式存储较佳。创建试卷时,系统从数据库中读取指定测试科目的试卷计划,按一定的组卷算法抽取试题,生成试卷。每一个测试科目可以根据测验的不同场次、科目、不同难度要求生成多个不同的试卷计划,为降低题库试题在考试过程中的曝光率,每一个试卷计划按考生人数生成若干套XML试卷,用于同一场次的考试。如按每8位考生一套试卷,每场30人,则生成4套XML试卷,只不过使用相同试卷考生的试题项目顺序不同。试卷的XML部分内容描述如下:

//试卷描述 … //考生姓名 .. //试卷试题数 //试卷组成(单选、判断、应用等)

..//单选题试题数

//单选试题库

单选题

obj110003000012……

//试题难度、区分度、猜测系数等

//试题中图像、视频等相关信息

01

5

obj11000300001201001.jpg …

……//判断题、应用题等描述

3.2 试题发生器显示试题

为正确显示试题项目信息,对同一试题项目、不同被试试题的答案顺序进行随机处理,设计了试题发生器自定义组件。试题发生器以试题ID为参数,读取试卷XML中相应的试题信息,用于试题项目的显示及答题。试题发生器运行效果如图1。

图1 客观题项目试题发生器运行效果图

3.3 基于IRT的测验流程

测验开始时,指定能力探查次数N及探查计数器i。系统首先打开存放试题项目的XML试卷文档,读取试题ID及试题项目信息存放在item[]数组中,计算所有测验项目的平均难度,在item数组中查找难度与项目平均难最接近的项目难度b0,从而在item数组中找到项目难度与b0一致的试题ID,以试题项目ID调用答题过程,完成被试答题,得到被试的能力θ。探查次数计数器i增1,若未超过探查次数N,则系统继续探查,重复以上过程,直到i>N,被试能力初值探查结束。

在能力初值探查结束后,系统根据测得的初步能力θ及item数组中项目难度参数测算与项目平均难度最接近的项目难度j0,即除去被试已答题目以外,能使所有剩余试题的平均难度值最接近能力值θ的试题难度j0。计算方法如下:

其中,R为试卷测验所有题目,Ri为剩余试卷试题,Rri为探查阶段所用试题。mi为被试i已作答的题目数减去探查阶段已答的N个题。得到项目难度j0后,在item中查询难度为j0的未答的试题ID,以试题项目ID调用答题过程,完成被试答题,最后累加测验信息函数值,当测验误差σ低于测验信息函数开平方的倒数时,测验终止,从而完成被试能力评估,输出能力水平θ。基于IRT测验流程如图2所示。

图2 IRT考试系统测验流程图

经过初步测试试验,基于IRT的测验系统考生平均测试试题项目数N

4 结论

目前,网络环境下的无纸化考试已成为各类考试的一个重要形式,而且技术已日趋成熟。它提高了考试的客观性和公正性,但多数无纸化考试系统的测验数学模型仍是经典测验理论(CTT)的数学模型,但CTT假定的试卷真分数T与观测分数X存在的线性关系X=T+E与实际不符,试题难度、区分度等的测量严重依赖于考生,考生的观测分数也依赖于试题难度。本文讨论了基于项目反应理论(IRT)与XML技术的无纸化考试系统,重点考查了3参数logistic模型下客观题项目参数的估计、考生能力估计、XML试卷生成、IRT考试系统测试流程。经过初步测试试验,考生平均测试试题项目数N

【参考文献】

[1]傅家骧.关于计算机无纸化考试发展中的几点思考[J].远程教育杂志,2005(6): 48-49.

[2]陈谨,何静,佟仁城,许健.英语标准化考试评价中IRT与CTT的比较研究[J].数学的实践与认识,2011,41(20):1-9.

[3]杨静.三种教育与心理测量理论的比较研究[J].中国考试,2006(06):33-35.

[4]简小珠,戴海琦.4参数GRM对猜测现象和失误现象的纠正[J].江西师范大学学报:自然科学版,2016,40(2):140-144.

[5]吴静.CTT、IRT和GT三种测验理论之比较[J].黑龙江教育学院学报,2008,27(12):77-78.

[6]王华,陈景,马翠芹.基于CTT与IRT的试卷质量评价系统设计与实现[J].计算机工程与设计,2013,34(5):1826-1830.

[7]李映红.CTT和IRT在项目编制中的参数比较[J].教育测量与评价:理论版, 2009(04):8-10.

有理数测试题篇2

关键词:软件测试;认知误区;嵌入式;单元测试流程

1 软件测试简述

软件测试是在软件投入商用前,对软件需求分析报告、设计规格说明书和编码的最终复查,是软件质量保证的关键方法,软件测试并不等于程序测试。它贯穿于软件定义和开发的整个过程,因此,软件需求分析、软件概要设计、软件详细设计和程序编码等各阶段所得到的文档,包括需求规格说明书、概要设计说明书、详细设计说明书,以及源代码都是软件测试的测试对象。随着软件规模的不断扩大,以及软件设计复杂程度不断的提高,软件开发中出现失误或缺陷的概率越来越大。随着市场对软件质量重要性的认知程序的提高,因此软件测试在软件项目实施过程中的重要性尤为突出。软件测试将会成为一个具有很大发展前景的行业,市场将需要更多具有丰富测试技术和先进管理经验的测试技术员和项目经理。

2 软件开发项目测试的误区

软件测试从1990年左右进入中国,目前国内大的测评中心、大型企业已经完全掌握了软件测试的测试策略和测试方法。小企业普遍存在测试人员不懂什么是单元测试,怎样进行单元测试,很少能看懂代码的细节。而开发人员很少能够提供完整的详细设计报告、需求报告。导致单元测试,以拼凑测试报告为目的。

认知误区一:软件测试是软件开发的最后一道步骤,工程师们一般认为,软件实际项目要经过下面六个阶段:需求分析,概要设计,详细设计,软件编码,软件测试,软件。因而,认为软件测试只是编码后的一个孤立的阶段,这就是不了解软件测试流程的认知偏差。软件测试是一个系列的活动过程,是一个开放的体系,包括软件测试需求分析,测试计划设计,测试用例设计,执行测试。从而,软件测试应当贯穿于软件项目的整个生命周期,并不是软件开发后最后一道步骤。认知误区二:软件商用后如果发现质量问题,就武断认为是软件测试人员的工作失误。这种认识很狭隘,很是打击软件测试人员的工作积极性。软件测试只能确认软件存在错误,不能保证软件没有错误。因为从根本上讲,软件测试不可能发现全部错误,软件后的错误可能来自软件项目中的各个过程。认知误区三:软件测试对测试人员技术要求不高,任何人都可以做。很多工程师认为软件测试就是安装并运行程序,按按键盘的重复性工作。随着软件测试技术的不断改进和完善,新测试方法、新流程、新工具都在不断被开发出来。这就需要软件测试工程师掌握和学习很多专业测试新理念和新技能。认知误区四:只有编写程序的高手才是软件专家,而软件测试没有前途。由于我国软件行业整体研发能力比较低,软件开发过程不规范。不少软件项目的开发都还停留在“累加堆叠“阶段。项目开发依靠个别程序员决定,他们一人负责总体设计和代码编写,给人的印象是程序员是真正的牛人,完成了所有的软件项目开发工作。但在微软等世界知名软件企业里,软件测试人员的待遇和数量与一般程序员没有多少差异,优秀测试人员的待遇甚至比普通程序员要高的多。

3 嵌入式软件单元测试流程

单元测试是指对软件中的最小可测试单元进行检查和验证。单元是规格说明书中的最小单元,包括函数、子程序、程序。单元测试关注独立的函数功能,是测试过程中最低级别的测试活动。需要开发一个或多个测试用例执行单元测试。把代码问题缩小范围在开发阶段锁定Bug是单元测试的主旨要求,以下将介绍一种容易操作的嵌入式单元测试实战流程。

第一阶段,制定测试记录表,记录测试过程,和测试情况。测试记录表包含:源文件名,子函数名,用例标号,用例名称,用例个数,用例通过个数,语句覆盖率,分支覆盖率,MC/DC覆盖率,测试结果,问题描述,测试人员,测试时间。针对第一阶段的测试结果,此时需要大家分析出问题的代码,各抒己见,总结问题,给出解决方法。

第二阶段,解决部分测试用例failed问题,找出阻止生成用例的共性。常见问题汇总:局部变量未初始化,调用函数未声明,局部变量直接赋值,结构体嵌套、结构体指针、声明问题、声明位置问题,函数指针,大循环、死循环,绝对地址,指针变量,C语言程序中带有goto语句。解决办法:局部变量声明后,需要赋初值再使用。调用函数未声明,该问题发生在隔离测试阶段,属于代码书写不规范问题。解决方法:自定义的函数都需要在头文件中做统一声明。局部变量直接赋初值:该问题发生在测试用例无法生成阶段,属于代码书写不规范问题。解决方法,结构体局部变量,指针变量需要先声明后赋初值。结构体嵌套、结构体指针、声明问题、声明位置问题:该问题也属于代码书写不规范问题。解决方法:根据MISRA代码书写规范,结构体需要放在头文件中统一声明。大循环、死循环:单元测试需要有程序结束的出口。解决方法:把大循环改为小循环,注释掉死循环(if(1)、for(; ;),while(1))。绝对地址:单元测试不连接真实的硬件设备。遇到寄存器等绝对地址时,需要对寄存器做变量处理。指针变量:需要声明一个同类的数组,然后把数组的首地址,赋给指针变量。函数指针:需要虚构一个函数实体,取函数地地址赋给函数指针,完成映射。C语言程序中带有goto语句:需要改变程序结构,增加判断语句,去除所有的goto语句,以便确保C语言程序的稳定性。

测试第三阶段:基本圈复杂度高于MISRA阀值要求的函数,先考虑把复杂函数改为几个小函数。改不了的由开发人员写声明以及具体原因,再按照路径分支来设计测试用例。汇总测试结果,提交测试问题报告单,并提交行业标准测试报告。

4 结束语

文章简述了软件测试的基本概念,澄清了软件测试工程实践中的几个误区,依据单元测试实践的具体案例,介绍了一种高效、容易操作的嵌入式单元测试的流程。

参考文献

[1]胡丹,杜新华.基于目标机的嵌入式软件单元测试[J].电子测量技术,2006(2).

[2]赵正海,王宁.跟踪雷达“指示引导”功能软件测试方法研究[J].现代电子技术,2013(36).

[3]于园园.软件测试技术与测试管理研究[J].江苏科技信息,2016(7).

[4]王琨.嵌入式计算机软件测试关键技术探讨[J].科技创新与应用,2016(7).

[5]张金环,田洪涛.浅析设备软件测试与质量保证[J].电子工业专用备,2016,45(1).

作者简介:张军(1988-),男,陕西武功人,工学硕士,助理工程师,主要研究方向:雷达信号处理算法、数字中频收发机和嵌入式软件测试。

有理数测试题篇3

误差分数(E)的和,即:X=T+E。但只要有测试就会有误差,要保证语言测试的信度,就必须采取措施

减少语言测试中的误差。要提高考试的信度,必须在试题编制、考试实施和试卷评阅这三个主要过程中

采取措施,控制与测试无关的因素,尽量减少误差造成的影响。信息技术和网络技术的不断发展为语言

测试模式的创新和发展提供了手段,也是控制语言测试误差的有效途径。

关键词:真分数理论;信度;系统误差;随机误差;计算机化测试

中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2012)03-0046-0005

经典测试理论(classical test theory)也被称作经典

真实分测量理论(classical true score measurement theo-

ry),由一系列假设构成。根据该理论,应试者所得到

的测试分数,即实得分数(observed score),由真实分数

(true score)加误差分数(error score)构成。测试的测

量标准误(standard error of measurement)是实得分受

误差分影响程度的指数标志。因为测试的目的是要获

得可靠的实得分,既最大限度地接近真实的分数,有关

测试建构的许多努力都是为了提高测试的信度(王振

亚,2008:28)。

经过几十年的发展,经典测试理论已经很成熟,在

试题的编制、测试的实施以及测试的评价等方面形成

了一套非常完整的理论体系。直至今天,这些理论仍

然被广泛地应用在语言测试的各个领域(Bachman,

1990:97,Henning,1987:146)。

1 经典测量理论的真分数模型

经过了近一个世纪的发展,经典测试理论建立了

一系列项目分析的指标,包括平均分(mean score)、区

分度(discrimination)、标准差(standard deviation)、难

度(difficulty)、信度(reliability)、效度(validity)和相关

(correlation)等(薛荣,2007)。

经典测量理论的基础是真分数理论。根据经典真

分数理论,真分数是一个反映应试者真实能力的假设

分数,即不含测量误差的分数。经典真分数理论中有

一个最基本的关系式:观察分数(x)是真分数(T)与

误差分数(E)之和,即:X=T+E(陈社育等,2001)。

例如,两名应试者在一次考试中的所得的分数均为

75%,测量标准误为3%,那么他们的分数落在72%

(减去一个测量标准误)到78%(加上一个测量标准

误)之间的概率为68%。在实得分的基础上确定他们

的真实分和能力是否相同是不可能的。

根据经典真分数模型X=T+E,真分数T是考生

的特征,误差分数E是考试的特征。在应用经典真分

数模型时,信度系数会随着样本群体的变化而变化,这

是因为真分数T的方差代表考试测量的考生的群体能

力的变化(陈社育,2001)。

2 语言测试中的误差种类及其来源

有测量,就有误差。不知道测量的误差,就无法知

道真值的范围。真值就是不存在误差时被测量的事物

属性的量值。由于误差无处不在、无时不在,真值是无

法知道的。我们只能根据测量的误差估计真值。这个通

过估计得出的真值,叫做真值的估计值。我们有时用一

个具体的数值表示真值的估计值,有时又用一个范围表

示真值的估计值,前者叫做真值的点估计值,后者叫做真

值的区间估计值。测量的目标就是对真值做出估计。

误差是测量误差的简称。它是测量结果偏离真值

大小的量度。误差的真值就是测量的观察值与真值的

差,即:误差=测量结果一真值。就像被测量的事物属

性的真值无法知道一样,误差的真值也是无法知道的,

也只能根据一定的规则来估计。我们平常所说的误

差,指的就是误差的估计值(邹申,2005:91)。

测量误差可分为系统误差、随机误差和过失误差

等。

2.1 系统误差

系统误差是由测量方法引起的、按确定规律变化

的误差。是由与测验目的无关的因子所引起的恒定

的、系统的、有规律的变化,存在于每次测量中,故又称

常定误差。它直接影响着测量的准确性,与效度有关。

系统误差决定了测量结果的准确度。它对于测量结果

的影响不可忽视,特别是对于测量结果的标准参照解

释(邹申,2005:92)。

2.2 随机误差

由很多难以辨认、难以控制的因素共同作用引起

的误差,叫作随机误差。随机误差的特点是影响因素

多且难以辨认,各因素之间的关系错综复杂,难以控

制。我们把随机误差的操作化定义和系统误差的操作

化定义相加,就得到了如下的结果:系统误差+随机误

差=测量结果一真值。随机误差符合平均数为零的正

态分布,因此,正态分布也叫做误差分布。随机误差是

测量结果精密度(precision)的量度。如果我们再进一

步把这个结果与前面误差的操作化定义比较,就得出

如下结论:误差=系统误差+随机误差。

2.3 过失误差

由于测量人员的疏忽或者过失而造成的最终测量

结果的误差,叫做过失误差。这里的测量人员是泛指所

有参与测量的人员。就语言测试而言,“测量人员”应该

包括考官、监考人员、监考管理人员、考试辅助人员、阅

卷人员、分数统计人员等。这里的过失,也是广泛意义

上的过失,包括有意过失和无意过失。尽管过失误差很

少成为主流误差理论的研究内容,但是过失误差对于测

量结果的影响却不能忽视(邹申,1998:254)。

2.4 绝对误差和相对误差

误差还有一种分类,既绝对误差和相对误差。绝

对误差指的是测量观察值对于真值的偏离,其单位和

观察值以及真值一样。绝对误差是误差值的实际大

小。相对误差指的是测量观察值对于真值的偏离占真

值的比例,通常用百分比表示。所以,相对误差是一个

没有单位的纯数字。

2.5 抽样误差

即由抽样变动而造成的误差。例如,以某高校全

体大学生为全域,各个系为样组,从每个系各抽取100

人进行一次英语测试,那么测验以后,各系的平均数不

可能相同,各系平均数与该高校总体平均数也不会相

同。这就是说,由于抽样的缘故,样组之间存在差异,

样组均数与总体均数也存在差异。所以在研究信度或

效度时,可以忽略抽样误差(金瑜,2008:140)。

2.6 测量误差

是使用测量工具进行心理测量所造成的误差。测

量误差由与测验目的无关的偶然因素引起,使得几次

测量结果不一致,而且这种不一致是无系统的、随机

的。实施测验时,若有被试猜测答案,或被试个人生

病、紧张、厌试等,或漏做题目,或测试时场外偶发噪

声,这些情况一般会引起被试的临时反应,产生测量误

差,使得几次测量结果既不准确又不一致。

3 语言测试中的误差控制

要使语言测试准确可靠,必须减小测试过程中的

误差。从理论上讲,语言测试的成绩只受语言能力的

影响。但事实上,语言测试成绩会受到语言能力之外

很多因素的影响。语言测试中的常见误差来源主要有

三方面:测验本身、施测过程、受测者。这些不同因素

与测试分数的关系如下图所示(雷新勇,2006:256)。

测验自身的误差主要来源于测验的编制过程,其

中项目取样影响最大。测验所要测量的内容是什么,

测验的项目能否代表这些内容是至关重要的。当测验

的项目较少而取样缺乏代表性时,被试的反应很难代

表其真实水平。对于有些类型的项目,例如是非题、选

择题,被试可能凭猜测作答,从而降低分数的可靠性。

此外,题目用词模棱两可,或对要求叙述不清等,也都

会带来误差。

在测验的实施过程中可能引起误差的因素很多,

如测试环境、时间、主试者、意外干扰、评分记分等。在

测量工作中,最复杂的和最难控制的是由被试本身引

起的各种误差。这些因素包括应试动机、测验焦虑、测

验经验、练习效应、反应倾向、生理变因等情况。

能带来误差的因素还有许多,实际上任何与测量

目的无关的变因都可能引起误差。测验的标准化就是

为了控制这些误差因素,使测验分数更可信、更有效。

总的说来,一套考试的信度的高低,受试题的量和质、

考试实施、评卷三方面的种种因素所牵制。也就是说,

要提高考试的信度,这三个环节都要得到保证(雷新

勇,2006:258)。

3.1 控制由于试题的编制而产生的误差

首先,试题的覆盖面要广,要有足够的题量。就成

绩测试(achievement test)而言,在编制试卷的过程中

要保证试题的效度和信度,测试的内容要在教学大纲

或教材的范围内选取,给学生教什么就考什么,但又不

能照搬课后原题,如是这样,就是在考学生的记忆能

力,而不是考学生的语言能力,这会影响测试信度。这

是就语言测试方法层面而言的。

从理论上说,抽样越大,题目数量越多,信度就越

高。足够的题量,不但是为了保证抽样足够大,保证覆

盖面比较合理,也是为了避免试题偏颇性。如果题目

数量少或取样缺乏代表性,就容易使被试的反应受机

遇影响。仅凭回答三五个简单的问题,就对应试者的

技能或知识水平下结论,显然是不客观,也是不公平的

(李筱菊,2001:34-35)。

其次,考试结果的分数要具有人分散度(person sep—

arability),即分数分布要散开。这是基于心理计量学的

一条基本假定:任何随机抽样的人群,他们能力的分布

必然呈正态分布(normal distribution)。正态分布是一个

统计学的概念,有精确的数值要求。每次考试结果的分

数分布是否正态,要凭公式验算。分数分布正态,说明

它反映了人的能力分布实况,说明考试有信度。要达到

分数有人分散度,必须做到以下几个方面:①题目的区

分度要高;②试题的难度要适中;③不要有偏颇性(bi—

as);④试题要适宜于(fit)受试群;⑤整套试题应该属

同一性质(homogeneous)(李筱菊,2001:34-35)。

多次反复性考试所用的试题,除了以上保证外,还

要求各次之间衡等(equivalent)。这又得靠一系列具

体条件来保证:试题结构稳定、题型不变,题目的内容、

范围和要求各次之间保持平衡,难易度各次尽量相等,

并且还要求采取具体等值(equating)措施。

3.2 控制语言测试实施过程中产生的误差

考试实施的各项条件,对所有受试者应当一致,如

答题的时间、听力考试的录音、听音设备、受试者是否

允许看笔记、监考和主考是否允许作解释等,都应有具

体规定以保证其一致。要保证良好的测试环境,施测

现场的温度、光线、背景声音、空间大小甚至通风等诸

多情况都会产生测量误差。

如果是口语测试,主试的年龄、性别与施测要求不

相符合,穿着不得体,施测时的言谈举止不符合施测要

求,表情夸张或过分呆板,都会不同程度地影响被试的

测试状态乃至测验分数。主试人员过多,给被试造成

压力;或者人员不足,无法控制施测。这些情况都会影

响被试的测试,产生测量误差。

在语言测试中要避免发生意外干扰。测试途中突

然停电、突发噪音、有人生病或测验设备临时出问题等

不能预见的干扰都会产生测量误差。除此之外,还有

一些产生误差的因素,虽然很难控制,但作为语言测

试,还是要考虑这些因素的。首先是应试动机的影响,

如果被试在两次测试时的动机不一样,其态度、持久

性、注意力以及反应速度发生变化,就容易引起测量误

差。另外测验的焦虑也会影响考生的成绩。测验的焦

虑与被试的能力、抱负水平以及测验经验有关。过度

的焦虑对测试有不良影响,从而产生测量误差。

多次反复性考试,考试实施的各种条件,不仅同一

次考试各个考场之间要求一致,同一项考试的各次之

间也要求一致。重复测验中如果有人首次测验后受到

特殊训练,也会造成测量误差。另外,被试对测验的程

序、内容材料的熟悉程度不同以及回答技巧的差异都

会影响测量的一致性(李筱菊,2001:36)。

3.3 减少评分过程中产生的误差

评分不客观和记分出现错误也是较常见的误差来

源。一般来说,客观题的评分较为准确客观,而主观题

的评分标准难以掌握,再加上阅卷者的风格、情绪以及

其他心理因素的干扰,都会影响分数的一致性。为了有

效地控制测验实施中的误差,主试应该严格地遵守标准

化的程序去施测和评卷记分,不得随意改动和发挥。

评分标准必须一致。要求评分员与评分员之间保

持一致(inter-rater consistency),也要求每个评分员自

身保持前后一致(intra-rater consistency)。尤其是测验

有多个评分者时,评分者偏好往往各不相同,很容易影

响分数的一致性(薛荣,2010:45)。

在语言测试中,主观性测试的评分过程是最难控

制的,评分会受到各种因素的影响。以写作测试为例,

写作分数会受到以下诸因素的影响:

在评分过程中我们要努力提高评分者信度(soorer

reliability)。由于主观性考试的评阅不可避免地受到

评阅人主观因素的影响而导致误差,因此要最大限度

地提高评分的准确性和一致性,减少人为主观因素对

分数客观性的影响。评分者信度大致可以分为评分者

之间信度(inter-scorer reliability)和评分者自身信度

(intra-seorer reliability)两种。对于大规模语言测试而

言,还会有评分点之间信度(inter-center reliability)的

问题,因为大规模测试的评分点不止一个。对于多次

反复性考试的评分,不仅要求每个评分员自身保持一

致及评分员之间保持一致,还要求各次考试评分之间

保持一致(曾用强,2007)。

4 计算机化考试是减少语言测试误差的有效

途径

从命题、施考到试卷的评阅和分数的报道等各个

环节,只要有人参与,都会有人为因素,都会产生误差。

对大规模考试而言,只有充分利用信息技术和网络计

算机考试,才能尽可能地消除人为因素,减少语言测试

的误差。随着计算机技术日新月异的进步,计算机的

功能有了跨越式的发展。在外语教学上,已远远超出

了其辅助的功能。

要提高语言测试的效度和信度,就要控制语言测

试各个阶段的误差。随着计算机技术和网络技术的不

断发展,计算机化测试(computer-based testing)必将成

为未来语言测试的主要模式,也是控制语言测试误差

的有效途径。关于计算机化语言测试对提高测试效度

的作用,金艳(2012)认为,计算机化语言测试可以提

高测试任务的真实性,减少与构念无关的因素引起的

分数差异,使测试更全面、准确。计算机化语言测试不

仅提高了测试的效率,更重要的是提高了测试的效度。

曾用强(2012)对计算机化语言测试中的误差控制和

考试设计原则做了论述。他认为,在题型设计方面,

计算机化测试可以应用创新型题型;在试题组织方面,

计算机化测试可以实现适应性测试;在能力估算方面,

计算机化测试实现了多维的能力估算;在成绩报告方

面,计算机化测试可以向考生提供及时的诊断信息。

无论是美国的TOEFL考试还是我国的大学英语

四、六级考试和英语专业四、八级考试,都在这方面做

出了有益的尝试并且取得了良好的效果。从2001年

8月开始,TOEFL在全球范围内结束纸笔测试的历史,

全部实行计算机自适应考试。2005年9月,美国教育

考试服务中心ETS在全球推出了一种全新的综合英

语测试方法,即TOEFL iBT(Internet Based Test)。

大学英语四、六级考试在考试内容和考试方式上也

进行了相应的改革。其中,考试方法改革的思路是采用

信息技术,推进计算机考试。2008年10月,全国大学英

语四、六级考试委员会分别在北京、南京、西安和哈尔滨

进行了大学英语四、六级计算机网络考试的试点。

关于大学英语四、六级考试网考的重要意义,金艳

(2009)认为:①网考提高了考试效度。②技术手段

的运用使听和说、听和写等能力的考核融为一体,从而

更有效地考核学生的英语综合应用能力。③实施网

考将改变传统的教和学模式。课堂教学不再采用以书

本为中心、以教师面授为主的教学模式。④网考可以

大大减少考试对教学的干扰,而且考试时间和次数的

灵活性也将缓解考生的压力(金艳,2009)。

英语专业四、八级考试在计算机阅卷方面也进行

了改革。自2009年5月起,TEM考试的阅卷模式由原

先的纸阅模式过渡到计算机辅助阅卷模式。计算机辅

助评卷系统是人工评阅经验与计算机技术的完美结

合,人机互补,可以在一定程度上弥补人工评阅的不

足,提高评卷质量。

5 结语

语言测试的分数不仅反映了学生的语言能力,还

反映了其他一些因素,因此我们必须合理地解释和使

用语言测试分数。在语言测试中,我们应该采取一切

尽可能的措施来减少各种因素导致的误差,保证测试

的信度。但是从理论上讲,任何考试都不可能达到百

分之百的信度,也不可能完全消除误差。信息技术的

和网络技术的不断发展,对语言测试产生了深刻的影

响,也为语言测试模式的创新和发展提供了手段。计

有理数测试题篇4

关键词:普通话测试;语音信息库;信息查询;设计与实现

0 引言

分析利用普通话测试信息,可以了解不同背景人群习说普通话的规律和特点,了解普通话各种语音单元的实际发音状况,了解普通话测试的具体实施情况。在普通话语音特征研究、普通话教学改进与完善、普通话测试方法的科学与智能化发展等方面,普通话测试信息是不可多得的资料。有效地利用普通话相关测试信息,对掌握普通话推广工作的形势,加快普通话推广进程,加强全国各地区各民族人民的交流与交往,促进和谐社会的发展都具有十分重要的意义。

一般情况,普通话测试信息被分成几种形式保存:现场录音语料为音频资料,专家评定的分数为纸质试卷,考生及管理信息则多为电子信息。其中,音频资料和试卷查阅起来比较困难,录音、分数和其他不同形式的信息之间的关联查询更为不易。此外,信息利用和隐私保护之间的矛盾也难以协调。

为了更好地利用和保护普通话测试信息,有必要建立普通话测试语音信息库。信息库应综合各类普通话测试信息,方便各种信息的关联调用,并具有信息保护与权限管理功能。

国内外学者对语音及相关信息的利用价值早有定论,开发出了各式各样的语音信息库。国内也有一些和普通话测试相关的信息处理软件,在普通话测试实践中发挥了巨大作用。这些软件的功能偏重于测试管理,在信息利用方面有待进一步完善。

本文以一个普通话测试中心为背景,建立了一个包含数字化录音语料信息、数字化试卷与分数信息、其他测试相关信息的普通话测试信息数据库,实现了录音语料、试卷分数、考生背景等信息的关联查询。数据库还附有分数录入工具和录音自动切分工具。分数录入工具可以用来录入试卷分数,测试专家也可以用它进行现场打分。录音自动切分工具可以从语流中切分出单字和单词并分别存放,以实现细化到字、词的音频语料查询。

普通话测试语音信息库存贮了录音语料音频信息、试卷分数信息、试题信息、考生信息及考试信息,具有信息录入、信息查询、数据统计、音频文件处理及权限管理功能。普通话测试语音信息库中的Windows应用程序采用Visual C++编写,由OBDC接口与Microsoft SQL Server数据库相连,实现系统软件的构建。

1 普通话测试语音信息库总体设计

1.1 用户需求分析

普通话测试语音信息库主要服务于普通话水平测试管理、普通话推广与教学研究、语音处理与语音学研究。

在普通话水平测试管理方面,需要实现测试前和测试中的报名、考试安排以及测试后信息的分类查询等功能。现有的普通话测试信息软件,多数只服务于普通话测试前和测试中的管理工作,测试后可供查询的信息种类较少。本文的普通话测试语音信息库提供了多种信息的综合查询。可查询的信息主要有:考试信息、考生信息和试题信息。考试信息用于了解各个考场的使用、评委工作量的分配情况。考生信息用于计算考生比例、了解不同语言背景下考生的分布情况,分析普通话测试的影响力。试题信息可用于查阅历次测试的试题内容。

在语音处理与语音学研究中,需要大量具有不同发音质量的语音材料,以提高语音识别的正确性和自动语音评估系统的精确度。本文的普通话测试语音信息库能处理测试录音语料,得到以单字、单词、段落形式存放的音频文件。这些音频文件同时关联和反映了发音质量的测试分数,以及发音者来自哪个方言区、从事专业、年龄等信息,可为测试录音语料的研究和利用提供方便。

在普通话推广与教学研究方面,母语、日常方言对语音、语调误读的影响较为明显,为了解不同语言背景下的发音特点,需要大量不同背景发音者的不同质量的发音语料。本文的普通话测试语音信息库实现了发音文本、发音质量和发音人背景信息的关联,为分析不同背景学生普通话说不准的原因提供了方便,有助于有的放矢地开展普通话教学。另外,本信息库可以动态地接收学生的读音,并对其发音的标准性给出即时的评价。

1.2 信息种类

为了满足普通话水平测试管理、普通话推广与教学研究、语音处理与语音学研究的需要,普通话测试语音信息库需要包含录音语料音频信息、试卷分数信息、试题信息、考生信息及考试信息。

录音语料音频信息是普通话测试现场记录的考生读音。根据普通话测试的内容,每个测试考生的录音语料音频信息分为单字(100个音节)朗读、单词(i00个音节)朗读、短文朗读和主题谈话四个部分。前两部分经过语音切分后,以独立单字、单词的形式存贮,并将路径索引到数据库中。后两部分则整体分别存贮,路径同样索引到数据库中。

试卷分数信息是普通话测试时测试专家根据测试者的读音正误给出的分数。字、词部分的分数包含了每个音节的发音分数。短文朗读和主题谈话部分的分数包含了发音的准确性、流畅性、语速控制等方面的分数。数据库存贮了上述各单项分数、总分及其相对应的测试等级。

试题信息包括题号、题目文本、以及相应的拼音等内容。

考生信息包括考生个人信息和考生语言背景信息。考生的个人信息包含考生的专业、出生年月、学历等基本信息。考生的语言信息包含考生的家庭使用语言、父母学历、母语等先天语言背景信息,还有日常用语、工作用语等后天语言背景信息。

考试信息记录了普通话测试时的时间、地点、测试专家等信息。

2 主要功能的设计与实现

普通话测试语音信息库的主要功能为:信息录入、信息查询、数据统计(第三章中进行讨论)、音频文件处理及权限管理。

2.1 信息录入

录入信息包含:录音语料音频信息、试卷分数信息、试题信息、考生信息及考试信息。

录音语料音频信息的录入采用现场录音的方法,与测试同步进行,经语音自动切分后,存放在数据库中(将在2.3节讨论)。

试卷分数信息需要人工录入。有两种录入方式:其一是在测试时,由测试专家直接在界面上打分;其二是在测试后,由数据库维护人员录入各题分数。试卷分数录入界面与纸质试卷版面严格一致。计算机统计各题得分和总分后,将分数信息输出到屏幕或存入数据库。

试题信息由工作人员录入数据库。

考生和考试信息在普通话测试报名和考试安排时获得,由考生和普通话水平测试管理人员分别在普通话测试网络管理系统上填写个人信息、考场和评委信息。这些信息直接存入数据库。

普通话测试语音信息库有较好的人机交互接口和完善的信息保护设置。

2.2 信息查询

信息录入以后,按照相应的数据模型组织到数据库中。系

统利用Microsoft SQL Server存贮人员信息,试卷分数信息、录音语料音频信息等多种数据,具有较小的冗余度,较高的数据独立性和易扩展性,并可被各种用户共享。

系统对各查询条件使用“交”的关系操作。如:关系R和关系S的交,就是同时在R和S中存在的元素的集合。

本程序采用开放数据库互联技术(Open Database Connec-tivity,ODBC)使Visual C++与Microsoft SQL Server数据库相连,通过添加相应的控件(DBGird和RemoteData)来完成查询系统的界面与数据源的绑定。

2.3 音频文件处理

测试者的录音资料经过数字化以后,需要以单字、单词、段落的形式存放。本文利用HTK工具箱(The Hidden Markov Model Toolkit――剑桥大学开发),通过普通话测试语音材料的训练,得到普通话测试语音模型。在此基础上利用HTK的自动强制对齐(Force Alignment)功能,将普通话测试录音语流中的单字、单词等语音单元与试卷中对应的文本进行时间对齐,标出每一个语音单元的边界时间。最后根据标注出的边界编写程序,实现语音单元自动切分,得到以单字、单词等形式存放的音频文件。切分后的音以“WAV”的文件格式存放在特定的文件夹中。利用查询功能用户可以快速、准确地找出各个语音的存放路径,进行语音查询。

系统调用Visual C++MCI(Media Control Interface)中自带的音频处理函数,实现后缀名为“.way”的音频文件播放。

2.4 权限管理

使用普通话测试语音信息库的人员大致划分为:系统管理人员、试卷分数录入人员、普通话测试管理与研究人员、语音研究人员。

权限管理的主要方法是:①管理人员对不同类型的用户设定不同的密码;②用不同的密码登录之后,只能进行特定的操作。

权限管理采用的技术路线是:①系统对用户输入的密码进行类型判别,激活相应的操作菜单,提供相应的操作;②只有激活的菜单才具有可操作性。例如:试卷分数录入人员输入相应的密码后,“试卷录入”的菜单被激活,点击菜单后弹出相应的对话框,即可进行试卷分数的录入。这时,信息查询的菜单处于未激活状态,即使点击信息查询菜单,也不能弹出相应的对话框,从而达到阻止下一步操作之目的。

3 数据库设计

普通话测试语音信息库需要将大量的数据存入数据库中,以方便用户查询。我们根据不同目标用户的需求,对数据库进行了概念结构、逻辑结构和物理结构的设计。

3.1 概念结构

根据数据库需求分析及系统功能需求分析,可以确定数据库的概念结构。本系统中有考生、音频、考试、试题、试卷分数5个基本实体,分别记录了考生信息、测试后的语音资料、考场与评委信息、试题和分数信息等。数据库实体(entity)一关系(relationship)的E-R图如图1所示。

3.2 逻辑结构

根据数据库的概念结构,构建了5张数据总表来存贮和反映5个基本实体。即:考生(student)、音频(speech)、考试(test)、试题(test paper)、试卷分数(test score)。每张数据总表又包含若干分表,存贮各个实体的各方面信息。例如:考生信息包括出生年月、所在单位等多种属性。5个实体之间存在相互作用的关系,故在构建数据库时将具有关系的实体项进行了级联。

3.3 物理结构

数据库的物理结构设计如图2所示。

主键是实体中惟一标识元组的属性。本系统中考生编号(student_ID)是每个实体的主键。相较考生姓名(有可能重复)等属性,考生编号更能够惟一地标识数据库中的一条记录。

外键用于实现数据库中表与表之间的关联,起到桥梁作用。考生编号(student_D)为各个表的外键。例如:查询来自不同单位的考生成绩时,“考生”和“测试成绩”这两个表就需要实现关联。为此,在考生表中找出满足查询条件的考生,即可获得相应的考生编号,再将考生编号对应到测试成绩表中,就可查询出考生的成绩。

4 应用举例

普通话测试语音信息库中的试卷分数信息、试题信息、考生信息及考试信息可统称为文字基础信息。经处理后,从文字基础信息中可得到数据统计信息。

4.1 文字基础信息

文字基础信息在普通话水平测试管理、考生成绩管理、普通话推广与教学研究、语音处理与语音学研究等方面,有较为广泛的应用(表1)。

作为实例,图3示出了考生测试成绩查询界面,表2列出了―个具体的查询结果。

4.2 数据统计信息

数据统计信息也广泛应用于普通话推广与教学研究、语音处理与语音学研究中。

数据库中的数据经过导出,可生成一份EXCEL的电子表格文件,利用EXCEL自带的图表操作功能,最后可以生成直观的统计图表,利用这些图表可以得到许多有价值的论断。

例如:图4所示为某次测试对不同方言背景的考生发“仄”音的得分分布情况的统计。由图4可以看出:使用少数民族语言和吴方言的考生发“仄”音的正确率较高,赣方言、闽方言的考生发“仄”音的正确率较低。可能的原因有:①“仄”音在少数名族语言中出现频率高,其发音标准与普通话的发音标准基本一致;②在赣方言和闽方言中,“仄”音的发音标准与普通话的发音标准有较大差异;③一些考生不认识“仄”音的部分字,不能正确地发音。

实际上,日常方言对语音、语调的影响较大。通过对不同方言背景下考生对某个字发音正误率的比较,可以得出具有该方言背景的人的发音特点。普通话测试语音信息库系统可以给出不同方言背景下的考生对某个字发音的正误率,以助于语音研究。

4.3 录音语料音频信息

通过查询界面。找到某一语言背景下某个单字的得分和存放路径,可以帮助建立该语言背景下某单字的语言模型,此模型可运用到语音识别和自动发音评估系统中。图5所示为日常用语是北方方言的考生发“拐”音的情况。

得到查找音的存放路径后,在音频播放界面点击“打开文件”按钮,弹出对话框,在对话框中填入相应的路径,就可进行音频播放。

系统没有音频播放的暂停/继续、停止等功能(图5)。语音研究者可以根据需要选择合适的播放方式。

有理数测试题篇5

关键词: 大学新生英语分级考试 Gitest III软件 项目分析

1.引言

大学新生英语分级考试是我院为临床医学专业七年制新生制定的英语技能水平测试。测试的目的是衡量学生的英语技能水平,为后续的英语分级教学提供依据。考试试卷的设计、考试的实际实施、评分标准的统一与否对于能否公正客观地反映学生的能力都有影响。因此,我抽取2009级90名临床医学专业七年制新生的试题,采用广东外语外贸大学设计开发的Gitest III软件对该份分级考试试题的100道客观选择题(其中听力15题,阅读理解20题,词汇语法题40题,完形填空题25题)进行项目分析,包括平均分、难度、区分度、信度等各项数据和效度分析等,以检测试题的设计是否合理,是否能在保证信度和效度的基础上考查学生的英语语言知识和技能并针对发现的问题提出建议,希望能对以后的分级测试命题和设计有所帮助,从而提高测试质量。

2.理论依据

2.1信度

“测试的信度,指它的结果分数对受试者的表现而言的可靠程度……具体说来,就是代表分数与试题,及试题与受试者(test population)的关系”。[1]45为了保证测试的信度,我们应该更多地关注到测试的数量与质量、测试的实施与试卷的评阅。[2]首先在数量上,语言测试应该有足够的数量来保证测试点的覆盖及测试抽样。其次在质量上,考试结果的分数分布应该是正态分布,大多数在中间水平。至于评分的信度,应该保证评分员与评分员之间保持一致,每个评分员自身也要保持前后一致。因为该份分级测试全部题目均为客观选择题,评分信度不受人为因素影响,因而可以得到保证。

2.2效度

“语言测试的效度,亦称有效性,指测试所考的,是否就是所要考的,或者说,在多大程度上,是考了目的所要考的”。[1]49效度分为内在效度、外在效度、使用效度和超考试效度。其中,内在效度是指测试本身的效度,包括内容效度和结构效度。前者是指测试是否考了考试大纲规定要考的,后者指考试的原则理论的效度。结构效度是所有的各种效度之本,决定了整个考试的性质。[1]49-56因此,本文主要分析该份分级考试试题的结构效度。

2.3项目分析

项目分析指的是应用统计学得出的结果来描述测试项目的难度和区分度。项目难度以答对题目人数的百分比表示,而项目区分度则表示被测试者具备的所要测试能力的大小。项目分析的结果用以修正一次测试,通过对不合格项目的修改或删除可以增加测试的信度和效度。我所作的项目分析是根据李莜菊定下的标准进行的,[2]125答对率(facility value,p)、难易度(the difficulty level,pd)和区分度(discrmination index,R-Bis)都有使用。答对率是显示考试的总人数中答对某题的比例。一般来讲,答对率值应该在0到1的范围之间,理想值是0.5。难易度值的范围在1到25,理想值是13。值越小,题目就越容易。如果值达到9或更低,就说明84%的受试者答对了题目。如果值达到17或更高,说明只有16%的受试者答对。区分度是这个题目区分性能的量度,即这个题目正确鉴别不同受考者在所考目标方面的能力。区分度值的范围在-1到1。一道题目的区分度值达到0.3就算符合要求,0.4是理想值。如果低于0.3,那此题目就需要修改或者舍弃不用,而且这样的题目量要控制在总题数的5%以下。

3.结果与讨论

3.1信度分析

整份试题的信度分析结果如表1所示。试题的全部100道客观选择题的平均分为67.40,有67.4%的题目做对了,说明这是一个难度中等的测试。标准偏差是7.40,而预期的标准偏差应该是14.06,说明分数比较集中,分布比较窄。分数的分布呈负偏态,偏态值为-0.54,表示得分高于规定平均分的人数超过了50%,说明试题总的难度比理想难度低。而峰值为1.65,表示峰比理想的峰高尖,说明分数过分集中在中段。一般说,一个考试偏态值和峰值能控制在-1到1之内,便算其分数基本符合正态分布。[2]124因此该试题的分数没有符合正态分布。信度指标R11值为0.74,aValue值为0.56,未达到李筱菊要求的理想值0.9和0.8,[2]128说明整份试题的信度不高。

语言测试的结构效度可以用相关分析及因素分析来验证。根据李筱菊所定的标准,如果相关系数达到0.4,那这两个部分就是相关的;如果相关系数能达到0.5或者以上,那就说明显著相关。[2]129从各大题的相关分析得到试题的四个部分听力、阅读理解、词汇语法和完形填空与总分的相关系数分别是0.52、0.54、0.76和0.77,显示这四部分与总分高度相关,表明考生对大部分试题的作答影响着最后总分的高低。但是,各大题之间都没有显著相关,相关系数在0.15到0.28之间。试卷中两部分之间的低相关常常被片面地认为是因为这两部分检测了考生不同的能力技巧,实际上两部分之间的低相关可以是由很多因素造成的,Oller(1979)指出,试卷两部分的低相关可以从以下几个方面来探讨其原因:1)对于考生来说,其中一部分试题太容易了或者太难了,因而导致这一部分试题的结果不可信;2)两部分试题的信度值都不高;3)其中一部分或者两部分试题都没有检测应该被检测的能力技巧,即测试结果无效;4)试题的效度值不高。[3]56

从表3可以看出,听力理解部分的信度值较低,只有0.33,这可能是该部分与其他大题低相关的原因。阅读理解部分的信度值也不高,只有0.41,而且答对率为0.73,可见阅读题过于简单而且信度不高,因而解释了该部分与其他大题之间的低相关。词汇语法部分需要修改的题目多达19道,占了需修改题目总数的70%,造成这部分区分率较低,只有0.34,这或许解释了该部分与其他大题之间的低相关。

综上所述,各大题之间的低相关可能是由于有些部分的信度值很低,也有可能是有些部分的难度低,我们需要作深一步的研究,探讨考生试题的解答过程,[4],[5],[6]以得出更加可靠的结论。

另外,因素分析也验证了该份试题的结构效度,结果如表4。通过对试题潜在因素分析与主成分分析,可以看到试题因素1的总负荷量是26.72%,另两个因素负荷量分别为3.68%与1.98%,低于10%,因此这两个因素可视作为无意义。[1]130完形填空部分在第一个因素中的负荷最大(0.604),其次是词汇语法(0.560)。由于这两部分侧重于测试考生的词汇和语法基础知识的运用及句子层面的理解能力,因此因素1是词汇和语法基础知识,以及句子层面的理解。考虑到该试题只有一个有效因素,那么这份试题在测试词汇和语法这方面的语言知识与句子理解的语言技能方面有较高的效度,但现代语言测试理论认为单是语言知识并不足以让人们使用语言,此试题忽略了其他语言技能,因而可以说其效度是较低的。

根据项目分析得到试题难度和区分度来看(见表5),这份试题中等难度、容易、非常容易的题目数量达85道,占题目总数的85%,超过了标准分布率80%,特别是容易的题目多达45题,占题目总数的45%,远超过了标准分布率15%,说明这份试题倾向于容易。此外,符合要求(区分度≥0.3)的题目仅为73道,不合格题目有27道,占题目总数的27%,远超过了5%的标准。在27道不合格题目中,听力题有3道,阅读题有3道,词汇语法题有19道,完形填空题有2道(见表3),这些题目需要修改或者直接淘汰。

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

经过分析总结出需要修改的题目存在的问题,具体如下:第一,有些题目难度不够,区分度低,无法有效反映学生掌握的语言知识和技能的程度,从而无法区分不同语言水平的学生。题46“46.We went to the airport to ?摇?摇?摇?摇 a friend who was leaving for New York.A) see off C) come across B) take over D) look up”就存在这样的问题。第二,问题出在答案项上。有的题目出现两个选项是正确答案,而有的题目却没有一个选项是正确答案。这类题如题49,56,68等。“49.The school team has won five ?摇?摇?摇?摇 games.A) running C) successive B) continuous D) uninterrupted”“68.Few came to the classroom than I ?摇?摇?摇?摇.A) expect C) have expected B) was expecting D) expected”。第三,问题出在干扰项上。有些题目的干扰项干扰作用太强,以致太多考生选错。题14,51,60,63存在这样的问题。

4.结语

通过对试题进行分析可以得出以下结论:1)从测试分数上看,分数没有呈正态分布,信度指标值没有达到理想值,因此试题的信度不高。2)试题没能测试学生多方面的语言能力,考察面较窄,因此效度不高。3)试题难、中、易题目搭配不合理,容易题目偏多,需要修改和淘汰的题目过多,以致试题区分度不高。

本文只是对试卷进行了统计性的分析,因而有一定的局限性,仍然需要从其他方面对试卷进行全面分析来论证上述结论,但是,从本次分析所反映出来的问题是值得试题命题者思考的。客观选择题考卷的设计者,在完成试卷的设计后应进行试测,试测完后进行题目分析,然后审改,审改之后再用于正式考试。同时,应从每道题的三个质量指标:答对率、难易度和区分度,以及每道题目的每个选择项的三个质量指标:人数、平均分、区分度来判断每道题的总质量指标,[2]220从而满足信度和效度的基本要求,这样才能有效、可信地评价学生的语言能力。

参考文献:

[1]李莜菊.语言测试科学与艺术[M].长沙:湖南教育出版社,2001.

[2]李筱菊.语言测试科学与艺术[M].长沙:湖南教育出版社,1997.

[3]Oller,J.Language Tests at School:A Pragmatic Approach[M].London:Longman Ltd.,1979.

[4]葛福东.语言测试的信度、效度与题型关系的研究[J].内蒙古农业大学学报(社会科学版),2006,(4).

[5]黄沐云.影响非英语专业学生阅读效率的因素和对策[J].内蒙古农业大学学报(社会科学版),2007,(5).

有理数测试题篇6

【关键词】 数字影像;数字影像技术;自我测试

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009―8097(2011)05―0121―05

引言

数字影像测试平台与陈琳教授编著的国家十一五规划教材《数字影像技术》配套开发,是教材配套光盘的重要组成部分,让学生用于自我检测知识与能力的掌握和提高情况[1]。数字影像技术是测试的核心内容。摄影是一门技术与艺术综合,理论与实践交织的学科,面对庞杂的学习内容,如何通过测试使学习者快速抓住重点难点,提高摄影能力成为众多摄影教师的共同心声。然而,目前成熟的测试系统较少,而且多倾向于能力考核,如全国计算机等级考试机试系统、驾照考试系统等。另外,现有测试系统存在考试程序固定,考试活动单一,缺乏重用性与个性化;分布式异构资源存取困难;系统服务响应迟缓等缺陷[2]。为数字摄影课程量身打造的自测系统尚未问世。为此,陈琳教授组织徐州师范大学2009级教育技术学硕士研究生设计开发了数字影像测试平台,以填补数字化摄影考核系统的空白。测试系统作为一种教学资源,其设计与开发是一个学习、探索、创造的过程,对于其他学习资源的开发同样具有启发和借鉴意义。

一 设计理念

1 考试职能:考试是手段,促进学习是目的

考试不仅是一种教育活动,也是一种社会活动,其履行教育职能的同时也在履行社会职能。不同的社会、政治、经济、文化、教育条件下,考试扮演着不同的职能角色,而且不仅不同的考试与选拔人才制度具有不同的职能,就是具有相同特性的考试,在不同的社会、政治、经济、教育、文化背景下,往往也显示出不同的职能内涵[3]。在教育中,考试最主要的职能为甄别评价、检验教学效果。前者是教师对学生学习状况的检验,后者是学校对教师教学效果的考察。然而作为教育主体的学生却被忽略了,他们始终处于“被考试”的境地,特别是盛行于当前的知识本位意识,又将考试夸大到不合理的地步,导致考试职能的极端化。其实,考试在具有淘汰性和竞争性的同时,更应该具有服务性。作为教学活动的一部分,考试在考前可以督促学生学习,考中检验学生的学习效果与心理素质,考试结果可以为学生调整学习方向提供依据。因此,测试平台作为摄影教材的配套测试系统,将以学生的需求为主要价值取向,以促进学生的进一步学习为基本职能。

2 考试内容:知识与能力并重,紧密联系社会实际

知识是人类长期以来在改造世界实践中认识和经验的结晶,分为陈述性知识和程序性知识两类。能力则是掌握和运用知识、技能,使学习与工作能顺利进行的个性心理特征[4]。知识和能力二者相辅相成、不可分割。一方面,知识是能力的基础和物质前提,知识掌握越多,能力发展就会越好。另一方面,能力通常又是影响掌握知识的多少、快慢、深浅、难易和巩固程度的重要因素之一。关于知识的内容,世界著名的教育学家杜威主张“教育即生活”,他认为,“学校必须重视现在的生活――即对于儿童来说是真实而生气勃勃的生活”,像他在家庭里,在邻里间,在运动场上所经历的生活那样[5]。知识是主体与客体相互作用的过程,是主体对客观世界的自主建构。知识的形成来源于学生与生活世界的互动。考试作为教育活动的一个重要环节和有机组成部分,考试内容将直接影响学生学什么,怎么学,学习兴趣与态度和知识体系结构。为此,考试内容应该紧密联系社会实际和学生生活,知识与能力并重,重视分析问题和解决问题的能力,从而增强学生的学习兴趣。

3 考试形式:统一性与自测性兼具,封闭性与开放性并存

计算机测试作为考试形式的一种,应该统一性与自测性兼具,封闭性与开放性并存。前者体现于考试组织形式,后者体现于考试过程。所谓统一性与自测性是指,测试平台应该支持集体测试与自我测试两种形式。集体测试即传统的集体考试,统一时间,统一地点,统一内容,统一评分,教师监督与管理。自我测试即学生个人安排的测试,时间、地点、内容自选,自我监督,自我管理。集体测试效率高、过程规范,适于教师对教学情况的总体把握。自我测试机动、灵活,利于学生自学意识与自学能力的培养。所谓封闭性是指试卷要严格保密,防止泄题漏题;考试过程中要严格控制用户登录与退出;考试期间禁止用户交流,传递信息;试卷未完成禁止交卷;考试结束立即收卷,维护考试的公平、公正和严肃性。所谓开放性是指试卷通过网络提交;试题库能够随时更新,维持试题资源生态循环;用户可查询个人成绩,并提供改错和交流的平台;平台本身具有良好的封装性和可扩展性,能够随时添加新组件,支持新题型。

二 数据结构设计

不同课程虽然其试卷考查内容、使用对象不同,但都有试卷总分、考查章节、题型构成、试卷难度、区分度、考试时间等指标要求,并且试卷中的每道试题均具有知识点、认知分类、难度、题型、题分、试题内容、答案等属性。与此同时,不同试题其内容和答案的构成元素差别也很大,简单的只有文本,复杂的除文本之外,还包含图像、公式等。

因此,为满足不同课程试卷及其组卷算法的需要,我们设计了如下表结构:

(1)题型表tb_itemType:保存题型信息,由题型代码(主键,1个字符,取值a~z)、题型名称(30个字符)和题型说明(200个字符)组成。

(2)难度级别表tb_difficulty:保存题库的试题难度信息,由难度级别(主键,最低难度级别为1,随着难度的增加,难度级别依次加1)、难度级别名称(10个字符)。

(3)章节表tb_chapter:保存课程的章节信息,由章节代码(主键)和章节名称(30个字符)组成。

(4)知识点表tb_knowledge:保存各章知识点信息,由知识点代码(1个字符,取值a~z,多于26个知识点用希腊字母表示)、章节代码和知识点名称(30个字符)组成。知识点代码和章节代码联合作主键,章节代码参照章节表中的章节代码。

三 体系结构与功能模块

1 体系结构

根据平台的设计理念,结合数字摄影测试的需要,测试平台在“弱化分数促进学习”、“弱化数量关注质量”、“形式与内容并重”、“知识与能力并重”的原则下进行设计开发。系统从逻辑上分为三层:视图层、功能模块层、数据层,如图1所示。

(1)视图层

视图层是安装于客户端的应用程序界面,是用户与系统交互的窗口。一方面,将用户信息、选择的试卷、用户答案等数据提交给服务器。另一方面,将服务器端用户验证、试卷提取、评分等操作结果呈现给用户。可以说,视图层是测试平台的眼睛与嘴巴。

(2)功能模块层

功能模块层是测试平台的逻辑处理中心,也是视图层与数据层的链接纽带,位于服务器端。测试平台支持集体测试与个人自测两种测试方式,主要由用户管理模块、试卷管理模块、测试中心模块、成绩管理模块、摄影作品展示台、电子笔记本六大模块组成,各模块具体功能下文详述。

(3)数据层

数据层位于服务器端,主要用来存储用户信息、试卷、成绩等数据。它是测试平台最为可靠的数据管家。

2 功能模块

测试平台不仅是一个考核系统,更应该是一个促进学生学习与交流的平台。首先,作为一个考核系统,它将涉及用户管理、试题管理、测试管理、评分等内容,以此来维护考试的严肃性、规范性与有效性,保证考试的顺利进行。其次,为达到促进学生学习的价值诉求,测试平台将测试系统予以扩展,增设改错与成绩分析功能,切实体现考试的服务职能。鉴于数字影像技术课程的特殊性,测试平台创建摄影作品展示空间。一方面,可以实现考核内容知识与能力并重的理念。另一方面,可以促进同学间,师生间的交流,激发学生的学习兴趣。基于以上考虑,测试平台设置六大功能模块。

(1)用户管理模块

实现用户管理相关功能,如用户注册、信息修改、删除、查询、权限设置等。在用户登录时,对用户信息(账户、密码)进行审核,非注册用户禁止进入。一方面便于平台用户管理,另一方面保证测试的顺利进行。新用户注册需要经过管理员(一般为教师)许可方可注册成功。注册用户可随时登录平台,查询成绩,修改个人信息。不同的用户具有不同的权利,管理员可通过权限设置划分小组、分配管理权利以及实施奖励与惩罚。系统定期对用户信息进行审核,对于长期未使用账户,经管理员允许,予以清除,减少数据冗余。

(2)试卷管理模块

实现试题库的管理,如试卷的添加、编辑、搜索、删除等功能。试卷是整个测试平台的核心,失去试卷的测试平台将毫无价值可言。试卷管理权由管理员所有。教师可以根据管理员的试卷格式编制试卷,经授权导入/导出试卷,为试题库注入新鲜血液。

(3)测试中心

测试平台的考场,负责实现试题抽取、展示、计时、收卷、评分等功能,扮演着监考与后勤的角色。首先,根据教师(集体测试)或学习者(自测)的选择从题库中抽取试卷。然后,将试卷发送并呈现于指定用户。若出现试卷发送失败、呈现不清晰等问题立即反馈给教师端予以处理。考试开始,计时不可暂停,试卷未完成前,不可交卷。考试时间由试卷数据中提取,在集体测试中教师也可对考试时间自行设定。考试结束,系统自动收回所有试卷,而后自动评分,将成绩单发送到教师端。

(4)摄影作品展示台

既可以是作品展览区,也可以成为测试中心的第二考场。学生可以将个人作品上传,所有用户均可查看与评价。启动测试模式,学生根据试卷中给出的主题,将自己拍摄的作品上传,教师组织学生共同评价或亲自评价,评价可以是分数形式的量化评价,也可以是评语式的质的评价。对于优秀作品可打包保存或导出,普通作品将定期清除以节省存储空间。

(5)成绩管理模块

统计、修改、查询、分析个人或班级的成绩。以柱状图形式显示个人成绩升降,以饼状图或波形图显示班级成绩分布,帮助个人与教师分析测试结果,为下一步教学调整提供依据。

(6)电子笔记本

用来保存错误题目与知识点。每次考试结束,系统评分后将各用户做错题目发送至他们的电子笔记本中。在笔记本中,学生不仅可以对错题进行修改、批注以及添加新的知识点,而且可以进行知识管理:搜索、编辑、共享知识,为学生复习与交流提供便利。

四 试卷编制

1 测试内容

测试内容以教材《数字摄影技术》为主,其中包括陈述性知识:数码相机的组成等;程序性知识:光圈、快门的调节等;创意:相片的处理等,内容非常庞杂。因此,试卷以内容全面、重点突出、难度适宜为原则,分为单章试卷与综合试卷两种类型,章节测试根据难度系数编制多段试卷,供不同水平学习者使用。前者用于章节重点、难点的考查,后者用来检验综合知识的运用,形成性评价与综合性评价并举。

2 试题类型的选择

题型主要由考核内容与考核方式两个因素决定。如上所述,测试平台内容庞杂,既需要考核基础知识,也需要考核能力。同时,考试方式为计算机测试,要满足试卷存取快捷、显示清晰、自动评分、操作简便的要求。基于此,试卷采用单选题、多选题、匹配题、排序题与写作题五种题型。前四种题型在试卷中显示与完成,写作题在试卷中显示创作主题,考生将拍摄作品上传至摄影作品展示台,供师生鉴赏评分,分数可计入总成绩,也可单独处理。题干表述要简洁明了,避免产生歧义,选项要具有代表性,独立性。试题由易到难排列。

3 题量与测试时间

单章试卷根据教材中知识点多少而定,一般25题左右,测试时间为40分钟。综合试卷以单选20题,多选10题,匹配题或排序题1-2题,写作1题为标准,测试时间60分钟。教师和学习者也可以根据题量与难易程度而自行设定测试时间。

4 计分

所有试卷统一采用百分制,其中单选40%,多选30%,排序或匹配题10%,写作20%。根据测试内容需要,各题型分值可适当调整。多选题全部选对得分,多选或少选均不得分。前三种题型由系统自动评分,写作题由教师组织评分,人机结合确保测试的信度与效度。

5 试卷的元数据

试卷编制完成后需要转化成一定数据格式,便于系统的调用。测试平台采用可扩展标记语言(XML)格式数据。XML是Internet环境中跨平台的,依赖于内容的技术,具有使用简单、可扩展性强、多种语言环境共享的特点,试卷的元数据如下所示:

五 开发技术

本测试平台运用的技术有RIA、Flex、Java、SQL2000、LCDS(LiveCycle Data Service)和Tomcat,其中RIA与Flex技术用于平台界面开发,Java负责服务器端逻辑功能模块的实现,SQL2000为数据存储与管理,LCDS和Tomcat为服务器。Java、SQL、Tomcat是传统技术,在此不再赘述,以下我们对RIA、Flex、LCDS技术进行详细阐述。

1 RIA和Flex技术

RIA又称丰富互联网应用,是应时代需求出现的下一代网络应用。与目前的WWW相比,RIA具有如下特点[6]:

(1)异步数据通讯

采用异步数据通讯模式,用户不会再面对空白甚至停滞的缓冲页面。在发送“请求”之后,用户仍能够继续操作,甚至不会觉察到调用了远程服务。用户体验更加平滑,同时降低了服务器和网络带宽的负载。

(2)胖客户端

基于www 的B/S模式,RIA增强了客户端对信息的处理能力,使其担负起了快速响应客户端操作、页面生成渲染和客户数据分析处理等工作。客户端界面更加丰富,支持拖拽、页面滚动、通过滑动条来调节数据等操作。执行实时的数据处理,加快了页面的响应速度。

(3)丰富的数据展示和操作

互联网应用的核心是数据,RIA技术为大量数据的展示提供了更丰富的方式:丰富多彩的图表、功能强大的表格,以及图标和表格的灵活交互能力,可以及时地响应数据的钻取、排序、过滤等操作,使图标和数据具有了生命力。

(4)基于Web的协作

RIA为互联网应用提供了全新的用户操作模式,通过与服务器端技术的配合,能够帮助用户实现基于Web的协作,使用户能够更加容易地实现共享数据和在线协作。

Flex是Adobe的开源RIA开发框架。其开发语言为ActionScript3.0和MXML语言,开发环境为Flex Builder 3.0,其中提供了大量的可视化组件(容器和控件)、管理器、数据服务类等,即托即用,大大提高开发效率。Flex RIA产品最终可以以网页和.air软件两种形式导出,客户端只需安装Flash Player即可运行。

2 LiveCycle Data Service

LiveCycle Data Service 是在使用Flex构建数据密集型RIA应用时,为满足集成后端系统和数据需要而提供的专业数据服务软件,其配置在企业应用的服务器上。LCDS提供了一组帮助开发者实现在客户端和服务器端交互数据的服务。测试平台中,LCDS内置于Tomcat服务器中,完成数据的交互管理。

六 系统运行

测试平台最终生成网络版和单机版两个版本。网络版是基于B/S模式的网页测试系统,用户在浏览器中即可完成登录与测试。服务器端需要安装配置Tomcat服务器,其运行环境可为公网,也可为局域网。此版本功能完善,使用便捷,能够动态更新试题,适合集体测试。单机版是后缀名为.air的软件,可在任何实现AIR环境的系统中运行。单机版中,试题内置于程序内无需使用服务器,即装即用,无需身份验证,适合个人自测。再次运行安装软件,即可完成卸载。本测试平台在2009级教育技术学研究生《数字影像技术》课程中试用,师生对该系统评价为“好用、易用、实用”。目前,该软件已随《数字影像技术》教材交付高等教育出版社,即将出版。

七 结束语

基于Flex技术的数字影像技术测试平台历时半年完成。在开发过程中涉及开发团队管理、教学软件开发模式、功能设计与技术实现等问题,在教学软件的设计与开发方面积累了宝贵的经验,对于改善教育技术专业课程教学内容、教学方法,提高学生动手能力以及培养团队合作精神具有实际的借鉴与指导意义。另外,随着试题库的不断完善,功能的不断升级,基于Flex技术的测试平台,将充分体现RIA技术的优势,具有更加广阔的应用空间。

参考文献

[1] 陈琳.教育技术学本科专业人才培养模式创新研究[J].中国电化教育,2010,(10):21-27.

[2] 杨建卫,任晓莉,刘亚军.基于移动Agent的计算机机试考试系统研究[J].宝鸡文理学院学报,2008,28(3):237-239.

[3] 余扬.论考试职能的完善[J].中国考试,2006,(4):7-10.

[4] 张慧.改革考试内容,注重能力培养[J].石河子大学学报(哲学社会科学版),2010,(23):35-36.

[5] 约翰•杜威[美],赵祥麟等译.学校与教育•明日之学校[M].北京:人民教育出版社,1996:6.

[6] 董龙飞,肖娜著.Adobe Flex 大师之路[M].北京:电子工业出版社,2009,(5):7-9.

The Innovative Design and Development of Course Learning Self Test Platform

――Take the Design of Digital Imaging Technology Test Platform for Example

WANG Bin CHEN Lin ZHOU Shou-Ye

(School of information and communication Xuzhou Normal University, Xuzhou, Jiangsu 221009, China)

Abstract: Digital imaging technology test platform is a measurement system dedicated to the digital image technology course.The system structure, function modules,papers are designed with the design concept of student-orientation,developed with the rich internet applications technology, aim to facilitate to improve the student's self-study consciousness and self-study ability,increase the knowledge and ability of digital photography.

有理数测试题篇7

关键词:诊断性测试 中职数学 应用

中图分类号:G718 文献标识码:C DOI:10.3969/j.issn.1672-8181.2014.18.069

1 前言

所谓的诊断性测试主要就是指教师利用多种测试的方法,了解学生的学习水平,进而采取针对性的措施,提高学生的学习效果,提高学生的学习成绩。下面针对于诊断性测试在中职数学教学中的应用进行具体的分析。

2 诊断性测试在中职数学教学中应用的意义

在中职数学教学中,教师需要了解学生的学习情况,以及自身的教学对学生的影响等,再根据测试结果对自身教学方式不足的地方进行改善,对学生学习存在误区的地方进行纠正,对中职数学教学中师生共同进步有重要的意义。中职数学教师通过教学材料的输入,然后再通过输出结果也就是学生的学习情况进行分析和评价,对学习水平有所提高的学生给予肯定,给学生学习数学的自信心,对学习水平较低的学生要给予正确的指导,以此来促进学生对知识的掌握,提高学生学习的动力,而且,在整个过程中,教师可以通过学生反馈的信息对自身教学方式进行评价,可以有效的分析出自身的不足,以便及时的改正和学习。从某种意义上讲,诊断性测试是提高学生学习效果的有效方式,通过这种方式来促进师生之间共同学习、共同进步,是“教”与“学”充分发挥出来的重要手段,而且通过诊断性测试对中职数学教学的积极干预,可以让学生更容易找到学习中职数学的规律,对提高中职数学教学效率有着重大的意义。

3 诊断性测试在中职数学教学中的应用

诊断性测试的方式应用到中职数学教学中有着显著的效果,在应用的过程中尽量避免总用考试的形式来调查学生的学习情况,应用诊断性测试的方式调查学生的学习情况主要分为以下几个环节。

3.1 教学过程的分析

在这个应用过程中主要对教师的教学方法和学生的学习策略两方面进行分析。教师的教学方法分析,主要是对教学步骤、教学环节、教学手段、新旧教材的学习以及教学内容布置等方式进行分析;学生的学习策略分析,主要是对学生学习数学的方式、定理公式理解的方式、自我学习管理的方式等进行分析。通过对教师自身和学生的学习多个角度的分析,可以让“教”与“学”开展的更加充分,通过诊断性测试能有效的诊断学生学习中存在的问题,并且通过当时与历史的两个角度对学生展开宏观和微观的处理。

3.2 测试模式的建立

诊断性测试模式的建立,是需要依照中职数学教学的具体知识架构、学生的理解能力等综合因素,建立一个合理有效的测试模式。首先,教师应选择正确的测量手段,以此来编辑试题,并对学生知识掌握情况进行诊断。数学源于生活,又出自生活,因此,教师在建立测试模式时应本着与生活实践联系到一起,一方面可以让学生了解数学的应用途径,另一方面可以加强学生对中职数学的理解。

3.3 测试试题的编制

试题编制的环节是对教师教学水平重点考验的过程,同时还综合了教师的综合素质因素。因为在编制试题时教师不仅要熟练掌握教材,同时还要具有较多的生活体验,再结合学生的个人学习情况等,将多方面因素融合到一起编制合理有效的测试试题。测试试题编制的好与坏,能直接体现出对学生测试的有效性,因此,在编制测试试题的环节,教师应慎重考虑,严格对待这一教学环节。

3.4 测试的实施

在编制完有效的测试试题后,要对学生进行实施过程,而在这个过程中容易受到一些干扰因素对测试过程乃至测试结果造成一定的影响。测试过程也经常因为受到干扰因素的影响而产生测试内部、测试过程、受测试者等方面的误差,因此,教师在对学生进行测试的过程中,应创造一个适用被测试和主测试的良好测试环境,以此来避免在测试中因干扰因素造成的测试结果误差的现象。

3.5 对测试结果的分析

对中职数学教学中的学生进行诊断性测试,诊断过程是重点,而结果也同样重要,教师不应只重视过程的测试来对学生进行引导,还应该注重测试结果的分析,过程只能反映出当时的现状,而通过测试结果的反馈信息却能抓住学生整体学习的缺陷,这个过程对教师的分析能力有着一定的要求,分析能力较好的教师不仅能发现一些自身和学生的表面问题,同时还能发掘潜在的问题,分析问题的全面性对教师以及学生的进步都有着重大的作用,相反,如果分析能力较差的教师,可能只会发现一些表面问题,而内在的问题被落下,这是教师不可忽略的问题,因此,教师要将诊断性测试发挥好,必须提高自身的综合素质,尤其是分析能力和判断能力。

3.6 提出总结

作为诊断性测试的最后一个环节,也是最重要的一个环节,能否正确纠正自身的问题和学生的学习问题,关键就在最后的总结。通过上述多个环节对中职数学教学的分析,能准确的诊断出学生在学习中遇到的问题,以及教师在教学中的缺陷,然后进行总结,并提出相应的见解,可以有效的提高学生的学习效率,对中职数学教学效率的提高有着重大的作用。

4 结束语

本文主要针对于诊断性测试在中职数学教学中的应用进行了具体的分析,通过本文的探讨,我们了解到,在中职数学教学中,教师利用诊断性测试的方法,有助于及时了解学生的学习情况,进而采取针对性的教学对策,促进学生的长远发展。

参考文献:

[1]陈小梅.诊断性测试在数学教学中的运用[J].内蒙古教育,2010,(20).

[2]杜琳.诊断性测试对数学教学的后效作用[J].济南职业学院学报,2008,(2).

有理数测试题篇8

中师教育要实现标准化、现代化,教育、教学管理就要科学化、规范化。为此,建立一套完善的评估制度和各学科教学质量评估标准,建设中师各学科题库,充分利用计算机这一现代化工具优化教学质量管理,势在必行。本文试图就中师数学题库建设中的若干问题作些探讨。

一、建设题库有利于中师教学质量评估科学化、规范化

中师教育是定向的职业教育,因此,中师考试(包括全省毕业会考、校际统考和校内的各种考试)不像高中考试那样在很大程度上受全国性“高考”的影响和制约,然而,它的基本功能同样是科学、客观、准确地检测学生的学习效果,有效、可靠地评价教学质量。对中师考试命题同样有高标准的质量要求,即要求这具有科学性、可靠性和有效性。这里的科学性是指符合教育测量原理,采用适当的测量手段和合理的评判标准;这里的可靠性又称作信度,是指考试分数的稳定性和一致性;这里的有效性又称作效度,是指一次考试对所要测量的指标实施测量后所得结果的准确程度。

近年来,各地中师的管理干部和教师在改革考试方法、提高考试命题质量方面作了许多探索。例如不少学校都采用了“教考分离”的方法,在期中和期末考试前,或者组织校内交叉命题,或者聘请外校优秀教师命题。有些省组织全省统一命题。有些地区的若干所中师联合起来协作命题,请协作单位内各学科第一流的教师分工负责命题,编制供各校选用的参考试卷。例如1994年底苏州、无锡、常州、泰兴等地的8所中师联合组织了涉及8个主要学科的期末考试协作命题。应当说,采取这些措施对于提高考试命题的客观性和权威性,对于增强命题教师的责任感、提高考试命题的质量等,都有一定的成效。但是,实践表明这些改革举措在提高考试命题的质量和效率方面并没有取得突破性的进展,没有产生“质”的飞跃。其根本原因在于命题教师目前只具备沿用传统方式,即经验型的、手工作坊式的命题方式进行命题的条件,不具备运用现代化命题手段的条件。目前供命题教师选择试题的“资料库”是一些参考书和习题集(其中供中师专用的很少),试题的取舍完全取决于少数命题者对教学内容、教学目标的理解,对试题难度的把握多半取决于他们对学生学习水平的估计,命题的整个操作过程以少数命题者的教学经验为参照系,因此主观认识上的局限性、随意性难以避免,命题质量往往低于人们的期望值。常见的命题失误有以下几种:

1、试题内容的知识覆盖面过窄。各部分考核内容在试题数量、权重分配方面比例失调,某些章节的试题过多(或过少),权重过大(或过小)。或者考核内容与考核目标的分层要求之间出现明显的不协调,例如某一考核内容的试题其最低层次(识记)和最高层次(创见)的比重过大,中间层次(理解和运用)的比重过小。

2、同一份试卷中试题的难度高低起伏太大,有些题特别难,有些题特别容易,因为导致部分试题的区分度接近于0。或者,试卷中全部是中等难度的题,难度差异过小。这样,使整套试题的信度、效度都不高。

3、试题的总量偏多(或偏少),试卷的总体要求偏高(或偏低),使考生的考试用时偏紧(或偏松),平均考分过低(或过高)。

4、试题的内容和表达形式比较陈旧,试卷中流传已久的“保留题”、“成题”过多,经加工、创新的题目少,反映新教材编写新意的题目少。

采用经验型的、手工作坊式的命题方式,有时免不了要作低水平的重复劳动,不仅使考试命题的质量难以提高,而且使命题工作乃至学校对考试的组织管理工作的效率都难以提高。因此,教师常有“出试卷难,出高质量试卷更难”的感叹。

题库应用技术是提高教育测量效果与效率的一种新技术。建立题库,在现代教育理论指导下在命题技术方面来一场革命,这是提高中师考试命题质量,使教学质量评估科学化、规范化的重要途径。题库应用技术推广以后,教师将告别手工命题的传统方式,只要通过键盘操作就能让计算机自动产生高质量的试卷。这对于提高教学质量管理水平,对于逐步实现教师办公自动化等都有重要意义。这是因为:

1、题库是大批优良试题的储存库,凡是入库的试题都是经过严格筛选,并按合理的原则组织起来的,其技术参数、质量指标(如难度、区分度等)是经过测定的。题库犹如“零件库”,题目数量多,品种齐全,规格型号标注清楚,检索方使,可为组装各类优质“产品”提供足够多的“标准件”。而且库内的优良试题不会只用一次就丢弃,可以不断积累、充实。

2、题库内的全部试题都具有标准统一的技术参数,便于人们按照一定的科学程序,按试题已有的技术参数挑选试题,优化组合成内容、性质、难度等各不相同的试卷,使试卷符合预定的各项质量指标,保证考试的信度和效度,从而使整个测量系统具有较好的稳定性、一致性和通用性。

3、由计算机管理题库,自动化程度高,可大大提高命题工作的效率,减轻命题教师负担。计算机题库系统具有自动寻找的功能,便于教师通过手指击键、自行选题编卷。利用这种管理系统还能让计算机根据命题要求自动自成试卷,自动完成试卷及考分的等值处理,必要时还能生成互相等值的平行试卷,能客观地比较历次考试的不同水平,从而为教学质量的优化管理提供科学依据。

4、利用题库系统自动生成试卷,要求命题者事先制订好详细的命题计划,并按规定输入有关信息,这有助于克服命题的盲目性和随意性,使命题过程规范化。

二、建设中师数学题库的指导思想与原则

学科题库与习题集、题典的实质性区别在于它是一个运用教育测量学、教育统计学的原理和方法,借助于先进的计算机软件技术而建立起来的教学测量系统。构建题库是一项复杂的系统工程。在建立一个规模较大、功能齐全、水平较高的题库前,首先必须明确建库的工作目标、指导思想与原则。

构建中师数学题库的工作目标是要形成一个适应目前和未来中师数学教学需要,能服务于各地中师日常教学和各类学习水平测试需要的通用测试系统。这个系统的核心部分由一个具有分层结构的题库群组成。这个题库群中有一个是总库,还有若干个相互独立又有密切联系的一级分库(例如代数分库、立体几何分库、解析几何分库、小学数学基础理论分库、小学数学教材教法分库等),每个一级分库下可再设二级分库(例如代数分库下面再设集合分库、函数分库、不等式分库、数列分库、排列组合分库、复数分库等等)。总库与各级分库之间的关系呈树形结构。总库和各级分库都配备有相应的试卷生成系统等处理系统。这样安排,既有利于分阶段、分工完成建库工作,又有利于灵活使用各级题库。

构建中师数学题库的指导思想应是:以国家教委的中师数学教学大纲和全国通用中师数学教材为依据,以教育学、心理学原理为指导,以科学的教育测量技术和计算机应用技术为基础,以各地优秀的中师数学教师先进的教学实践经验为参照。不仅要使题库质量充分体现本学科最优秀的专家、教师的水平,同时还要融合心理与教育测理人员、计算机专业人员,同时还要融合心理与教育测理人员、计算机专业人员和中师教育行政管理人员的集体智慧。

就建库实践而言,应贯彻以下几项原则:

1、在建库的初级阶段,应以经典测量理论为指导理论。这样有利于题库的协作共建和迅速推广应用。目前最有代表性的教育测量理论有两种:经典测量理论(简称CTT)和题目反应理论(简称IRT)。它们在本质上是一致的,都是通过考试分数来推测学生的能力水平,主要区别在于对试题的技术参数的分析及演绎的功能方面。

CTT是传统教育测量理论的代表。它对试题的难度、区分度等参数采用直接测算的办法。例如,用一组被试解答某个试题的实际得分相对于满分值的比率来确定该试题的难度参数。这比较符合人们的思维习惯和一般教师的操作习惯。CTT的主要缺点是它对试题技术参数的测定结果受样本的影响较大,这对组拼试卷会有不利影响(这种影响经多次实测、对试题参数不断修正后可望减小)。

IRT是现代教育测量理论的代表。从理论的严密性、深刻性来说它比CTT更优越。IRT通过把学生的能力水平与答对题目的概率挂钩来决定试题的技术参数(如难度、区分度等),借助题目特征曲线来表征这种关系,与样本不直接相关。在这方面较CTT更合理。但是,由于IRT的技术复杂,参数测试的工作量大,不如CTT直观、简明,因此目前难以大面积推广。

2、中师数学题库应具有鲜明的中师特色,体现中师数学教学大纲的各项要求,适应中师生的学习水平,应与经国家教委审定的“中师数学学科教学质量评估标准”配套。对于“高中数学题库”、“中专数学题库”中的优秀试题,只要内容相符,可以移值或借鉴,但不可原封不动照搬,对其技术参数等应作相应处理。

3、题题中试题的储存量要足够大。中师数学教学大纲中的每一部分内容,都应有从不同角度考查的题,都应有不同难度的题。试题总量就充分满足中师各年级“节”的形成性测验、“章”的单元测验以及学期考试、学年考试、结业考试等命题的需要。

4、题库中试题的分类要清楚,组织要严密。可先按考试类别分类,再按教学内容分类,同一教学内容的试题,根据教学目标的层次高低、试题的难度高低按顺序排列。

5、入库的每道试题的题意要清楚,题文用语要准确、精炼,题图要规范,并附标准答案(或答案要点)、满分值、评分规定、难度参数、区分度参数、答题时间等信息。

6、题库应是一个动态系统,能供用户随时增删题目,更换题中数据。

7、题库作为一个数学测量系统,应随时保持其整体性和可靠性。

8、建设中师数学题库应有一个高起点,应充分吸收和利用国内外题库建设的先进经验。

三、中师数学题库管理系统的组成与主要功能

中师数学题库的计算机管理系统应有五个方面的功能:建库和维护,查询检索,生成试卷,编辑输出,测试分析。为了实现这些功能,要建立以下六个子系统:

1、建库和维护子系统。其一能用于建库,将每道入选试题的题文、题图、答文、答图、技术指标等有关信息分别存在题文库、题图库、答文库、答图库、指标库等子库内。各子库内属于同一道试题的信息通过统一的题号联系起来,以便于作同步处理。其二能用于题库的维护,如增、删、修改、替换试题,调整试题。

2、查询和检索子系统。其功能是查询库中试题的分布情况,可根据用户要求,检索任一试题的题文、题图等有关信息。

3、交互式组卷子系统。其功能是供用户通过与机器“对话”的方式,提出命题要求和选择项目,自行选题编卷。

4、自动组卷子系统。其功能是根据用户所输入的命题要求,如考试类别、试题所属章节、试题类型与个数、考试用时、试题难度、区分度等指标,自动生成符合要求的试卷。

5、编辑输出子系统。其功能是对所生成的试卷自动排版、编辑,并打印输出(包括打印试卷、答案、评分规定及有关指标等)。

6、测试分析子系统。其功能是对所输入的考试结果进行统计分析,然后输出试卷和各试题的实测指标,为个性库中试题的有关指标提供依据。

以上六个子系统在主控模块的控制下互相联系,协同配合,组成一个多功能的管理系统。

四、建设中师数学题库的实施步骤

建设中师数学题库是一项计划性强、工作量大、化费时间长的复杂工作。其主要工作的流程可这样安排:

建立课题组确定命题计划编题与征题试测与题目分析等值化处理编辑和组织试题计算机软件设计输入程序和数据检验和试用软件。

关于上述各个工作环节的实施要点,本文不一一详述。这里只对其中几个主要环节提一些看法和建议。

1、建立课题组。最适当的主持单位可以是国家教委考试管理中心,也可以是“全国高师数学教育研究会中师工作委员会”。这个课题组的主要成员,似应包括编订中师数学教学大纲的专家、编写中师数学教材的行家、在教学第一线任教的优秀数学教师、从事考试研究的专业人员和高水平的计算机软件工作者。由于工作量巨大,可考虑成立若干个以省、市为单位的协作组。可先在少数省市搞试点。

2、确定命题计划。主要任务是编制出一套详细的“双向细目表”,反映各部分教学内容与教学目标分层要求之间的量化关系,这样的“双向细目表”应逐章逐节编,为整个题库建设工作提出一个具体的蓝图。其中教学目标的分层要求可设“识记”、“理解”、“简单应用”、“综合应用”、“创见”等五项。此项工作最好由各册全国通用教材的编者先完成初稿,然后组织严格的鉴定。

有理数测试题篇9

关键词: 试卷质量 数理统计法 分析

考试是教学工作中的一个重要环节,通过考试教师既能了解学生的学习效果与教学效果,又能为教学管理提供信息和依据。在考试结束以后,教师对试卷进行分析,不但可以对试卷和考试作出适当的评价,为试卷的编制积累经验,提高编制试卷水平,为修改试题和给题库遴选试题提供依据,而且有助于充分地获得考试提供的教学反馈信息,为改进教学提供依据,为考试讲评准备材料。因此,对试卷质量的检测与分析,是教学管理不可忽视的课题。本文根据教育测量学的有关理论,运用数理统计法对试卷质量进行了分析。

1.项目分析

项目分析就是根据试测结果对组成测验的各个题目(项目)进行分析,从而评价题目质量,对题目进行筛选。

项目分析的目的是对考试结果进行统计分析,估计试题的难度、区分度。

1.1试题的难度分析

试题的难度是表示试题难易程度的指标。在能力测验中,需要一个能够反映难度水平的指标,通常用P来表示,其计算方法是以学生答对某题的比率来进行的。一般试题可分为两种情况:像选择题、填空题这样只有答对和答错两种情况的,我们不妨称其为二值题;还有像计算题及证明题这类需要分步得分的试题,我们可以称其为多值题。这两种试题的难度计算方法如下表:

值得注意的是,这样算出的难度是得分率难度,越容易的题“难度”越大。对难度的评价可见下表:

一般来说,试题的P值应以0.2―0.8为宜。由于P值无等距性,因此无法对试题的难度差异作精确比较,也不能用于计算平均难度,为了对各试题作比较,通常要把P值转换成标准难度Z,使之等距化。设U为与答错率Q(Q=1-P)相对应的标准分数,标准难度的计算公式是:Z=4U+13。具体做法如下:

1)求出试题的答错率Q。

2)由Q值对照“正态分布函数表”,查出Q对应的标准分数U。

3)将查到的数据带入Z公式计算。

当P>0.5,Q<0.5,U<0,则Z<13;当P=0.5,Q=0.5,U=0,则Z=13;当P<0.5,Q>0.5,U>0,则Z>13。当Z=13时,试题的难度属于中等水平。

1.2试题的区分度分析

试题的区分度也是评估试题质量的重要指标,通常用D来表示。考试的目的是为了将不同知识和能力水平的考生加以区分,每一试题都对考生有所区分,试题的区分度正反映了这种区分能力的大小。区分度高的试题能将不同水平的考生区分开来,也就是说,试题的区分度高,水平较高(总分较高)的考生该题的得分也较高;反之,区分度低的试题不能对考生进行很好的鉴别,使得水平高和水平低的考生得分差不多。因此,区分度的高低意味着试题对于学生能力的强弱是否能很好地鉴别。在实际教学中,两端分组法是一种简单普遍的求区分度法,它把总人数分出高分组和低分组(比例各占25%―33%),其计算方法见下表:

除了两端分组法之外,通常还可以采用弗拉南根查表法:根据占总人数27%的高分组的答对率P和占总人数27%的底分组的答对率P,从专门的表中查得题目的区分度。

例如对某一题,高分组的答对率为94%,低分组的答对率为70%,那么,由弗拉南根查表可查得,其区分度为0.4。

对区分度的评价见下表:

一般来说,当D<0.20时,试题的区分度太低,必须淘汰或加以修改;当D≥0.40时,试题的区分度就非常好;通常试题的区分度在0.2―0.4之间。影响区分度的因素较多,其中最主要的是难度。难度太大或者太小,都可能使区分度变小;只有难度适中时,才可能有较高的区分度。

2.总体分析

试卷的质量不仅与试题的质量有关,而且与试题的选取、编制等因素有关。通常可用信度、考生成绩的统计分布状态来反映试卷的总体质量。

2.1试卷的信度分析

测验和考试是测量受试者知识、能力、技能等方面的重要手段。凡测量必有一定的误差,而误差的大小,决定了测量结果的可信程度。如果误差超出了规定的范围,测量的结果就不可信了。试卷的信度就是衡量试卷可信程度的指标。如果用同一试卷测验同一组学生,几次测试的分数相差悬殊,那么这份试卷的信度就低;相反,如果几次测量的分数相差甚微,那么,这份试卷的信度就高。试卷的信度有再测信度、等值复本信度和分半信度,下面我们逐一来看。

2.1.1再测信度

用同一份试卷相隔若干天后对同一组学生重测,计算两次测试分数之间的相关系数,即得再测信度。再测信度能够提供关于试卷的测量结果是否随时间变化的信息。两次测验分数的差异主要来自测验条件与受测者身心状况的变化。再测信度高,说明试卷受学生状况和测验环境变化的影响小,可以认为该试卷是稳定的。但再测信度容易受到记忆的影响,所以,前后两次施测的时间要适当。间隔时间太短,学生对第一次测验记忆犹新;间隔时间太长,则学生的身心发展与教学效果等足以改变测验分数的意义,所以,前后两次施测的时间要适当。

2.1.2等值复本信度

用两份等值平行的试卷测量同一组学生,再求得两次测验的相关系数,就得到等值复本信度。当两次测验同时连续施测时(为了抵消施测顺序的影响,可以使半数学生先做A卷后做B卷,使另一半学生先做B卷后做A卷),两份试卷分数的差异主要来自于两份试卷在取样上的差别,即两份试卷的等值程度。如果两份试卷在不同的时间施测,则分数的差异与两份试卷的稳定性和等值性都有关系,这时所得的信度称为再测等值复本信度。等值复本信度的局限在于,由于复本之间的相似性,记忆的影响仍然不能完全消除,而且编制两份完全等值的试卷也比较困难。

2.1.3分半信度

在测验没有复本且只能实施一次的情况下,可将一张试卷分成难度、题型、分值完全对等的两部分,两部分得分的相关系数即为分半信度。计算分半信度先要对试卷分半,不同的分半法可能会得到不同的信度值,为了使两半基本等值,可将试题按由易到难的顺序编号,然后按奇数和偶数序号将试题分半。由于分半信度实际上是半张试卷的信度,试卷越长,试题越多,两半分数的相关系数就越高,所以要用斯皮尔曼―布朗(Spearman-Brown)公式对信度值进行校正:试中r1为两半分数的相关系数,r为校正后的分半信度。

现将信度估计的几种方法在下表小结:

影响信度的因素有很多,比如测验长度(测验越长,题量越大,信度越高)、试题难度(难度为中等,有利于提高试卷信度)、样本大小(样本越大,分数分布越广,信度越高)、试卷内容的复杂性(试卷内容同质性高,信度也高;试卷内容越庞杂,信度就越低)等。还有,学生参加测验时的情绪状态也会对测验结果产生不同影响,所以试卷的信度不会达到1,但是,高质量的试卷可以最大限度地减少误差,从而提高信度。

2.2试卷成绩的频数分布分析

频数分布分析主要通过频数分布曲线以及集中量数和差异量数来描述数据的分布特征。下面介绍它们的意义和优缺点,以利于试卷质量分析的普及和推广。

2.2.1分数的频数分布曲线

根据统计学的中心分布定理,只要考生足够多,他们的水平一般应接近正态分布。判断考试成绩是否近似正态分布,最直观和最有效的方法是作出考试成绩的频数分布曲线,看其是否接近正态。具体做法如下:

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

A.将成绩按百分制划分为十个分数段(一般将5分作为一个分数段)。

B.在全部分数中确定各分数段人数。

C.分数为横坐标,各个分数段的实际人数为纵坐标,建立坐标系。

D.描点、作图。(如果90―100有6人,则可在坐标系中作出点(95,6))

E.将诸点连成光滑曲线即得成绩分布曲线。

F.观察分布曲线是否为正态。

依上法作出的曲线若为正态分布曲线,则成绩统计分布较为正常。但如需深入了解和准确描述分数分布的特征,则必须进一步整理出原始分数并计算出描述分数分布特征的各种统计量数。

2.2.2集中量数

集中量数是描述一批分数的集中趋势的量数。集中量数可用于参加同一考试的不同班级之间的比较。集中量数包括有平均数、中数和众数。

平均数就是平均分,即原始数据的算术平均数。均数具有严密、可靠、容易计算的特点,其缺点是易受极端数据的影响,从而所损害其代表性。

中数,是指把所有考生从高到底排序时,处于之间位置上的那个分数(如果考生人数为偶数,那么中数取处于中间两个数的平均值)。中数具有意义明确,不受极端数据影响的优点。当均数由于极端数据的存在而失去代表性时,中数可以作为这批数据的代表数值。中数的缺点是缺乏灵敏性,不如均数可靠,不能用代数方法计算。

众数是原始分数中出现次数最多的分数。它只有在考生人数较多,且有明显集中趋势时才有意义。在考生人数较少的情况下,可能会没有众数,也可能会出现两个或两个以上的众数。然而,这些情况出现的几率会随着考生人数的增加而减少。众数的特点是用频数的多少来反映集中趋势,不受极端数据的影响,其频数在总体中所占地比重越大,其代表性也就越强;其缺点是在反映集中趋势上不如均数可靠,而且不能用代数方法准确计算。

2.2.3差异量数

差异量数是描述一批分数的差异程度或离散趋势的统计量数。集中量数是一个点,表示各分数围绕该点而分布;差异量数则是一段距离,表示各分数与某一量数或与中心点间相差的统计距离。只有知道了差异量数,才能了解集中量数的代表性。差异量数越小,集中量数的代表性就越大,反之亦然。差异量数包括有极差和标准差。

极差是包含全部分数在内的最小区间长度,即一批分数中最高分数与最低分数之差。极差在一定程度上反映了这批学生在学业上的最大差异。因此,如果最高分等于满分,或者最低分为零分,又或者两者同时成立,则表明这份试卷无法测出考生水平的最大差距。要适当调整部分试题的难度,才能测出考生真正的极差。极差具有计算简单,意义明确的优点,其缺点是完全取决于最高和最低这两个极端分数,而没有反映出处于两者之间的各分数的差异情况,因此,用它来描述离散趋势的代表性是不合适的。

标准差也被称为方差,是最为常用的、非常优良的差异量数。它是一批分数中每个分数与均数之差的平方和。如果极差和标准差都很小,有两种情况:第一,它表明考生水平接近既没有拔尖的,也没有太差的;第二,表明这份试卷未能测量出学生在该学科水平上的实际差距。一般对于有数十或更多人参加的考试,第一种情况是十分罕见的。因此,若发现差异量数过小,首先应从试卷上找原因,调整试卷的难度。如果极差和标准差都很大,就表明学生的发展不平衡,水平较高和水平较低的考生为数不少,相对而言,处于均数(平均分)附近的考生较少,这时要注重对落后学生的培养。

通过对试卷的分析,从而发现教师、学生与命题等方面的成功与不足之处,并针对存在问题提出改进意见,提高教学效率,这也是本文的目的。

参考文献:

[1]魏宗舒.概率论与数理统计教程.北京:高等教育出版社,1983年10月第一版.

[2]沈永欢,梁在中,许履瑚.实用数学手册.北京:科学出版社,1992年8月第一版.

[3]刘锦萼,杨喜寿,俞纯权,房俊岭.概率论与数理统计.北京:科学出版社,2001年8月第一版.

[4][美]M.R.斯皮格尔,J.希勒,R.J.斯里尼瓦桑著.孙山译.概率与统计.北京:科学出版社,2002年第一版.

[5]潘承毅,何迎晖.数理统计的原理与方法.上海:同济大学出版社,1993年10月第一版.

[6]王孝玲.教育统计学.上海:华东师范大学出版社,1986年.

有理数测试题篇10

关键词:公路工程;试验检测模块;质量控制模式;工程造价

1公路工程试验检测问题

在实际公路工程模块中试验检测程序是公路管理体系及养护体系的关键要素,为了提升我国基础经济的整体效益,必须将质量理念及安全理念,贯穿于整体公路工程施工环节,进行公路工程建设质量的分析工作,做好竣(交)工验收评定的相关工作。随着经济建设的不断进步,我国公路工程体系日益健全,在这个过程中,也出现了不少的发展问题,比如路面破损问题、桥头跳车问题、工程缺陷问题等,这些问题的出现导致一系列交通安全事故的出现。管理因素是导致上述结果的重要因素,为了降低我国交通公路工程的事故率,必须建立健全工程试验检测体系。

2公路工程试验检测管理

2.1检测规范的管理

在试验检测过程中,通过对检测规范的工作落实,有利于为工程试验检测模块提供良好的应用环节。在原材料进场之前,需要做好原材料的检测工作,在材料质量检测结果出来之前,相关的检测人员需要做好原材料的检验标识工作。验证完毕后,如果原材料合格,就说明这批原材料合格,再做好合格区的存放工作。在检测报告完毕后,如果出现不合格的状况,相关检测人员需要督促管理者做好不合格材料的标识及隔离工作。在这个过程中,专业检测人员要督促监管人员及时做好合格及不合格材料的标识工作,满足公路工程材料应用的要求。

2.2检测数据管理

为了实现工程质量的有效性控制及评定,进行检测数据试验管理模块的加强是必要的,从而确保数据检测及试验过程的科学性、客观性、精确性。通过对试验检测数据模块的优化,可以有效增强试验检测的整体效益,为做好各个公路施工的指导工作,确保科学数据的获取。在试验检测结果的获取过程中,需要遵循相关的数字误差理论及修越理论,做好公路工程数据的深入分析工作,保证试验检测数据的整体可靠性,从而实现公路工程施工质量的有效性评定,为了增强试验检测数据的整体管理效益,需要进行不同试验项目材料档案体系的应用,确保试验材料的完整性、清晰性。

2.3检测项目工作模块

公路工程原材料和实体检测、质量评定试验检测、安全监控试验检测、公路养护等模式是公路试验检测项目体系的重要组成部分,目前来说,上述局部检测项目的技术应用体系尚不健全,依旧存在很多技术及标准、规范的空缺,如果不能实现对试验检测模块的充分性掌握,就会导致工程质量管理过程中的问题。为了解决实际问题,必须进行典型性检测项目的应用,切实增强公路工程的试验检测质量,实现公路工程质量的良好控制。在公路质量检测模块,需要遵循检测项目的确定性原则,标准化试验检测阶段的参数,实现公路工程整体建设效益的提升,为工程设计提供良好的技术参数标准,这也需要进行检验理论计算模块的开展,进行施工质量及工程安全的实时性监理,实现公路工程各个建设模块的协调,在试验检测项目技术标准的确定过程中,需要遵循全面性、规范性、简单性等的原则。在公路工程的各个建设及运营阶段,需要进行不同试验检测项目及参数的确定,满足公路工程不同阶段试验检测工作的要求,实现公路工程施工量测模块、试验检测模块、工程养护模块等的协调,做好试验检测项目的细分,落实好施工过程的监控量测、质量控制、安全状况监测等工作。

2.4公路工程现场试验检测模块

通过对公路工程现场试验检测监督模块的优化,有利于提升该环节的检测质量,为了达到这些工作目标,需要做好现场试验检测的管理工作,进行试验检测组织体系的健全,实现其内部各个模块的协调,进行人员结构的合理性配置。通过对工作人员工作能力的增强,可以有效提升现场试验检测的结果,满足现阶段公路工程试验检测工作的要求。这需要采取相关的措施进行人员工作积极性的增强,实现其综合工作能力的提升,需要做好人员工作素质的考核及检验工作,确保检测人员严格按照工作规范做好标准、规范检测工作,进行各项工作数值的认真记录,确保检测记录的精确性、科学性、完整性,落实好相关人员的工作责任制度。在工程实践中,需要进行试验检测项目仪器配置模块的优化,提升检测设备的整体应用性能,这需要按照我国公路工程的相关试验标准,做好仪器、设备等的定期检测工作,如果出现设备工作过程中的问题,需要及时展开处理,使试验仪器处于良好的工作状态,做好检测设备、仪器等的定期保养、校准等工作。在设备应用模块,需要进行专门性设备养护档案的建立,进行一系列操作规范及流程的制定,定期展开对试验仪器的检查及记录工作,一旦出现设备问题,需要立即展开维修,从而满足检测工作的要求。为了达到上述工作目标,必须要进行试验检测环境的优化,为工作检测仪器及工作人员的正常运作奠定良好的环境基础。在该模块中,工作环境、工作人员、试验检测设备等是试验检测环境体系的重要组成部分,在工程现场试验检测模块,需要进行环境与试验结果准确性的分析,根据不同阶段的建设项目要求,进行相关试验检测质量保证体系的健全,进行一系列的规章制度的建立,落实好内部质量的管理工作,确保试验检测结构技术规范、操作流程、技术文件等的完整性,严格按照我国的试验检测标准进行工作,解决实际工作要求。

3结语

为了增强公路工程的整体应用效益,需要进行试验检测工作体系的健全,实现抽样管理制度、文件管理制度、岗位责任制度等的协调,做好试验检测的质量工作,实现质量监督环节及质量管理环节的协调,进行岗位责任制度的健全,落实好公路工程的相关试验检测工作。

参考文献:

[1]影响公路工程试验检测结果的相关因素[J].翟鹏飞.建设科技.2016(18).

[2]公路试验检测质量控制[J].刘世兰.黑龙江交通科技.2016(08).