一、试卷的评阅
命题与阅卷是学习评价的两项主要工作。客观型的试题评阅较为简单;主观型试题的评阅,则必须遵循一定的原则,以使人为误差减至最低。评阅主观型试题应注意的原则如下:
1.明确该题期望答案的项目以及答对每一项目的给分,然后逐项给分。
2.应用适当的给分系统。常用的给分系统有计点法和分级法两种。
3.事先决定如何处理与期望答案无关的答案,给多少分、不给分或者扣分。
4.一次评阅一题,等所有试卷的该题都阅毕后,再评阅下一题。
5.阅卷时,不要看学生姓名,以免给分受印象影响。
6.若有两位以上的评阅者,应分题评阅,不可分卷评阅,所有试卷的某一题,以由同一人评阅为原则。
7.可能的话,每一份试卷均能由两个人重复评阅,并计算两人所给分数之间的相关,以求得给分的信度。
8.大规模的正式考试,要随机抽样适当的答卷进行预评,考察可能出现的各种答案,并制定相应的给分办法。
二、试题分析
试题分析是对试卷中单个试题的测试结果进行分析,从而确定试题的品质。试题分析的主要内容包括:①难度分析;②区分度分析;③针对选择题的诱答力分析等。
(一)试题分析的步骤
试题分析可以通过相应的教育统计软件来完成。在没有统计软件帮助的情况下,通常实施试题分析的步骤如下:
l.将试卷按得分的高低排列。
2.由最高分向下取全部试卷数的27%或1/3,称为高分组。
3.再由最低分向上取与高分组相同份数的试卷,作为低分组。
4.分别计算高、低分组,选答各试题每一选项的人数,记录在试题卡上,如表9—3。
5.计算各试题的难度(P),以百分比表示,其计算方法如下:
难度(P)=(RU+RL)/2N
RU:高分组答对该题人数;RL:低分组答对该题人数;N:高分组或低分组人数。
6. 计算各试题的区分度(D),其计算方式如下:
区分度(D)=(RU-RL)/N
7.评价每一试题的选项的有效性或诱答力。有效性或诱答力没有具体的计算公式,但作为择题中一个有效的选项,应该做到:①至少有一位低分组学生选择该不正确选项。②选择该不正确选顶的低分组学生人数应该比高分组学生人数要多。否则,该选项的存在是没有价值的。另外我们通过分析高分组学生的答题情况,可以了解题目或者教学是否存在问题,比如:在高分组中,某一错误选项的选择人数多于正确答案的人数,说明教学中可能有错误的教学,或题目本身有错;如果各选项的选择人数差不多,说明答题时猜测成分较大;如果某个错误选项和正确选项的人数相当,说明教学中可能存在概念不清,或题目中叙述不清的问题。
8.将所有试题依其难度与区分度制作综合分析表;综合分析表请参考本节表9-5。
(二)如何评价和改进试题
阅卷之后,最好能够将试题分析结果与试题一起记录下来,逐题加以评价。其P、D值都适合者,搜集起来,供自己将来命题参考;而P、D值不太适合的试题,则必须加以修改,以改进其P、D值,无法改进或修订者,则予以废除。为了使试题的评价不梢耗太多时间,又能明确评价并掌握每一试题的优缺点,下面介绍两种疗法。
1. 制作试题卡
将试题连同试题分析结果抄录成卡称为试题卡。试题卡可以因各人的喜好与使用的方便,改变其格式,下面的格式只是其中的一种,读者可以变通。试题卡至少应包含三个部分(表9-3)。
(1)知识内容、目标水平和编号。
(2)题目(试韪和选项)。
(3)试题分析结果。
第一部分,内容指学科知识内容,而目标水平则指回答该试题所需的思维过程,是属于教学目标的认知、情感态度和技能之中的哪一领域和认知水平。第二部分则包括试题与参考答案,参考答案通常在选项前以*号表示。第三部分是试题分析的资料和结果,这个部分以另行印制为宜,因为,试题每使用一次,便有一次分析,同一试题的试题分析结果,可以浮贴在以起,供评价试题时参考。
类似这种试题卡,可以依编号、科别或内容来分类处理,以建立自己的小型题库,供将来命题之用。假如能更进一步以图书编目的方式来处理,或将这些资料存储在计算机的某一资源管理平台上,则在参考和应用时,将更为便捷。不过在使用时,必须特别注意的是,在每次测验后,均应将试题全部收回,否则学生反复演练,再好的试题,也会失去其难度和区分度,而使评价的信度降低。
表9—3 试题卡的格式之一
编号:B-G3006
科别:高中生物学
内容:第三章:水分代谢
目标水平:认知(综合)
题目:深秋,落叶树的叶片大部分落下后,土壤中的水和矿物质向树干上部运输逐渐减少,其主要原因是:
A.根的呼吸作用减弱 *B. 蒸腾作用减弱
C. 植物细胞渗透压降低 D. 大部分导管阻塞
| 试题分析记录 | |||||
| 可能答案 | A | B | C | D | 空白 |
| 高分组(16人) | 0 | 16 | 0 | 0 | 0 |
| 低分组(16人) | 3 | 6 | 2 | 4 | 1 |
| 难度(P) | 69% | ||||
| 区分度(D) | 0.63 | ||||
| 备注: | |||||
2. 评价试题的简单方式
如果觉得制作试题卡耗时太多。或者试题还在修饰阶段,在试题卡上修改不太方便时,可以先以一种简单方式评价试题(表9—4)。方法如下:
表9—4 评价试题的简单方式
| 12.下列人体细胞中,含染色体数目最少的是: | ||
| P=43%
D=0.2 | (A)白细胞 | (6—7) |
| (B)神经细胞 | (4—9) | |
| *(C)精子细胞 | (16—10) | |
| (D)上皮细胞 | (3—2) | |
| (空白) | (1—2) | |
(1)将空白试题剪下浮贴于硬纸货卡片上,或者直接就拿一份空白试卷来处理。
(2)分别将高、低分组选答每一选项的人数填在每一选项之前或后,例如:表9—4所示
。第一和第二数字分别代表高、低分组的人数。
(3)再分别计算该试题之P、D值,将结果记录在试题编号前面。除难度和区分度之外,选择题中的选项的诱答力也是我们评价和改进的试题的指标之一。假如有一选项,选择的人为零,则表示所有学生,不论是否具备该试题拟评测的知识或技能,都能看出该选项是不合理或荒谬的;对于这种情况,必须另行设计一个选项来取代这个不合理选项,否则原设计为四选一的选择题,由于有一选项没有人选,实际上对学生来说,就成为三选一的选择题。许多难度与区分度均不太理想的试题,都是由于某1—2个选项不十分有效所致。如果能够将无效的选项另行设计取代,该试题的品质便可大幅度改进。
三、 试卷分析
试卷分析是对整个测验品质作出的分析。通过试卷分析确定本测验是否达到测验目的,是否真实、有效和可信。试卷品质的分析包括试卷的综合分析、基本的描述性统计分析以及信度和效度分析。
(一)试卷的综合分析
计算出测验试卷的每个试题的难度(P值)和区分度(D值),然后分别以试题的P值和D值两个维度作坐标,根据各试题的P、D值,将题号填入坐标内的空格,形成一个综合分析表,如表9—5.通过这种综合分析表可以简单明了地了解在某一次测验评价中,有多少试题和哪些试题的P、D值达到理想,哪些试题的P值或D值或两者都没有达到理想而需要改进。
表9—5 试题的难度和区分度综合分析表
| P值 D值 | 0以下 | 0~0.19 | 02~0.29 | 03~0.39 | 04~0.59 | 0.6以上 |
| 80~100 | 31 | 12,21 | ||||
| 60~79 | 50 | 18 | 37.79 | 1,14,25,29 | 27,35,44 | 3,7,16 |
| 40~59 | 8,40 | 22,43,47,48 | 6,9,20,24, 46 | 13,15,19, 28,36,45 | 10,23 | |
| 20~39 | 32 | 2,26 | 11,33,42 | 4,5,38 | 17,30 | 34 |
| 0~19 | 49 | 41 |
*P值平均=52%;D值平均=0.37。
1. 难度(P)分析
一般而言,常模参照评价中,希望将受试者的得分尽量分散开来,以便比较学习成就的优劣。据研究,试题的难度P值愈集中于中等部分,则受试得分愈分散。因此,难度以在50%左右为最好,也就是我们希望高分组的同学都答对,而低分组的学生都答错,只有在这种情形下,试题的区分度D值才能趋于完美(即D=1)。但实际上,任何一个试题,均有被学生盲目猜对的机会,其猜对的几率为1/n (n为选项数)例如:四选一的选择题,猜对的机会约为1/4,因此,理想P值便会低些。在实施学习成就评价时,我们通常都希望学生的平均得分,落在满分(国内常为100分为满分)与机遇得分(就四选一的选择题来说即为100/4=25分)的中间,若试卷的试题全部为四选一的选择题,则理想的平均分即为25+(100-25)1/2=62.5分。因此,有人认为,理想的P值,就以“期望平均得分”为准,就上例来说,就是62.5% 。
2. 区分度(D)分析
理想的试题应该是所有高分组的学生都答对,而低分组的学生都答错,此时,D值为1;假如相反,高分组的学生都答错,而低分组的学生都答对,则D值为—1,因此,D值是介于—1与+1之间。就常模参照评价而言,D值愈大,学生得分便愈分散,相应地,试卷标准差(SD)也比较大,试题品质较高,信度也较大。那么到底D值要多大才算好呢?完美的D值(D=1)通常不容易得到,因此,在学习成就评价上,我们通常以表9—6的标准来评价。
表9—6 试题区分度(D)的评价标准
| D值 | 评价 |
| 0.4以上 | 极佳的试题 |
| 0.30~0.39 | 尚可的试题,可能需要稍加改进 |
| 0.20~0.29 | 不佳的试题,必须加以改进或废弃 |
| 0.19以下 | 极差的试题,应废弃 |
(二)试卷的基本描述统计分析
基本描述统计资料是分析和描述测验结果的重要指标,掌握这些统计指标的含义可以帮助我们解释和理解评价结果。现将一些基本的统计指标分述如下。
1. 平均数
平均数或平均分的大小可以代表试题的难度程度,理想的平均数约在满分与机遇得分之间。平均分(M)的计算公式如下:
M=∑X/N
∑X:每一试卷分数的总和,即参试且交卷的学生得分总和。
N:试卷数,即参试且交卷的学生人数。
假如实际值比理想值低,表示试题太难,反之亦然。
2.标准差
标准差代表评价结果的分散度和变异度,通常以SD或ó表示,实际上,它是方差的平方根。标准差愈大表示分数的变异度愈大,当其他条件相同时,标准差愈大,试卷的信度也愈大。理想的标准差大约为满分与机遇得分之差的1/6,评价结果的标准差,以约与理想值相似为宜。标准差的求法如下:
SD=√∑d2/N
d:各分数与平均数之差;N:试卷总数。
3.相关性分析
阅卷后,将得分登记在成绩记录表上,然后计算与类似性质的评价结果的相关性,也是分析评价结果的方式之一。相关的大小通常以相关系数correlation即r表示,r值介于-1和+1之间,当r值为正数且达显著水准时,称为正相关,为负数时,则称为负相关,r值未达显著水准时,则表示零相关,亦即没有任何相关存在,r值愈大,表示两组相关愈密切。例如:同一组被试者先后接受了两次测验,若两次测验的分数的r值达0.8,表示两者的每一分数间,均有密切关系存在,亦即第一次测验得分高者,第二次测验得分也高,第一次得分低者,第二次得分也低,说明这两次测验具有同质性。因此,相关系数(r)的大小,也可以用来代表测验试卷的信度。
(三)试卷的信度分析
1.影响信度的因素
所谓信度是指评价的结果(分数)与其拟评测的学习成就的一致性。下列因素均会影响评价结果的信度。
(1)试题的数量。通常题数愈多,信度也愈高,因为,题数增加时,可以将学生以机遇方式猜题,而侥幸答对的影响降低。
(2)分数的分散度。分数愈分散,信度愈高,因为,分数分散时,表示每一得分的差异较大,于是,测验误差对学生名次(或得分)的影响便较小。
(3)试题的难度。就常模参照评价来说,试题太难或太容易均将导致信度降低。
(4)试题的区分度。试题区分度愈理想,信度愈大。
(5)评价工具的客观性。当其他条件都相同时,通常客观性评价工具所测得的结果,要比主观性评价工具所测得的结果信度高。但是要注意的是,这个说法并不意味着主观性评价工具不好,应尽量少用。因为主观型试题和客观型试题各有其长处和短处,假如为了明确达到我们的评价目标,有时牺牲一点信度是值得的。
2.信度系数的估算方法
估算信度系数的方法很多,下列为几种常用的方法。
(1)重测法。以同一份试卷测一群(班)学生两次,两次评测相隔一段时间,于是每位学生各有两个分数,然后求出两组分数之间的相关系数,即为信度。因为这种方法所求出的信度实际上是在测定分数的稳定性,因此,又称为稳定信度,也叫重测信度。
(2)对等法。又称平行法,即根据相同的命题双向细目表,制作两份在内容、难度和题型上尽可能类似的试卷,然后分别用这两份试卷来测验同一群学生(可连续或相隔一段时间实施),每位学生各得两个分数,再求出两组分数之间的相关系数,即为信度系数。这种信度旨在测定分数的对等性,这两份试卷互称为复本,得出的信度也叫复本信度。
(3)分半法。在实施测验之后,将每一份试卷的奇数和偶数题分别计分,于是每一份试卷便可得到两个分数。然后求出所有学生的奇数题分与偶数题分两者之间的相关系数,以Rhh 表示,再依照斯皮尔曼-布朗校对公式(Spearman- Brown Formula)计算分半信度系数Rxx。其计算公式为:Rxx=2Rhh/(l+Rhh)。
(4)库李法(Kuder-Richardson method)库-李二氏于1937年提出一些评估信度的公式,其中比较常用的有两个公式,称为KR20和KR21 。其计算公式如下:
KR20=K/﹛K-1[1-∑pq/σ2]﹜
KR21=K/﹛K-1[1-M(K-M)/Kσ2]﹜
K :试题数
P:答对某一试题的学生所占的比例
q:答错某一试题的学生所占的比例(q=1-p)
σ:分数之标准差
M :分数之平均数
当评价工具的难度大体上均在50%左右时,用KR21 来计算信度比较简便,不过当试题之难度不一,且变化很大时,使用KR21 往往会低估信度。库李法与等分法就内容上来说,都在估算评价工具的内部一致性。由于库李法基本上假设所有试题都是均质的,因此,不适合用来求取快速测验的信度,因为在快速测验中,有些学生无法做完所有题目,将导致KR20 或KR21信度系数的混乱。
以上所述四种计算信度的方法之中,由于分半法与库李法均只需进行一次测验,实施起来比较容易,因此,一般教师在进行学习成就评价时,常用这两种方法评估信度。
(四)试卷的效度分析
效度是指测验分数的正确性。换言之,就是指一个测验能够测量到它所想要测量的特质的程度。就学习成就评价的范围来说,所谓效度是指评价工具是否精确地测出了该工具期望评测的成就,如果同一测验使用的目的不同,则关注的效度类型也不相同,效度估计的方法也就不同。所以,通常效度是很难以具体的数值来定量的,也没有一套计算效度的公式可直接运用。但就评价和改进一个测验的直接效度而言,我们在实际工作中需要注意下列事项:
1. 答题说明应明确详尽,使学生不至于有任何混淆或误会。
2.编题所用的词汇和句子不可艰涩深奥,以致学生因无法看懂而无从下笔答题。
3.语意要清楚明确,不可稍有模糊。
4.试题数量不可太少。
5.编题时不可有意无意地在题目中提供任何与答题有关的线索,导致学生猜题。
6.试题难度应适当。
7.试题应尽可能评侧重要的概念、思考过程,以及知识的理解、分析和综合,而不宜故意设置陷阶,评测一些琐碎、零星的记忆性知识。
8.试题的排列次序应先易后难,以免学生花大多时间在较难的题目上,以致时间不足而放弃了一些容易的试题。
9.信度是效度的必需条件,因此,效度高的评价,首先信度要够。
10.同一试卷重复使用多次,效度会逐渐降低。

