课程门户-章节详情

安洪涛

1 课程概述
- 1.1 说课程
2 第一章教育科学研究方法概述
- 2.1 第一节教育研究的历史演变
- 2.2 第二节教育研究的意义与任务
- 2.3 第三节教育研究的特点、方法和过程
3 第二章教育研究设计
- 3.1 第一节选择研究课题
- 3.2 第二节提出研究假设
- 3.3 第三节决定研究变量
- 3.4 第四节下操作定义
- 3.5 第五节选择研究对象——抽样
4 第三章文献检索
- 4.1 第一节文献检索的意义和作用
- 4.2 第二节文献检索的过程和途径
- 4.3 第三节文献内容的加工处理
- 4.4 第四节文献检索工具
- 4.5 第五节教育文献参考工具书
5 第四章观察研究
- 5.1 第一节观察法
- 5.2 第二节临床法
- 5.3 第三节行为矫正法
6 第五章调查研究
- 6.1 第一节调查研究概述
- 6.2 第二节调查研究的具体方法
7 第六章实验研究
- 7.1 第一节实验法概述
- 7.2 第二节实验变量与实验效度
- 7.3 第三节实验配组和实验设计类型
8 第七章历史研究
- 8.1 第一节历史法
- 8.2 第二节文献法
- 8.3 第三节内容分析法
- 8.4 第四节比较法
9 第八章测量研究
- 9.1 第一节测量法
- 9.2 第二节常用的智力测验介绍
- 9.3 第三节社会测量法
10 第九章质的研究方法
- 10.1 第一节质的研究
- 10.2 第二节个案研究
- 10.3 第三节行动研究
- 10.4 第四节人种志研究
- 10.5 第五节叙事研究
11 第十章研究资料的整理与分析
- 11.1 第一节统计分析方法概述
- 11.2 第二节统计表与统计图
- 11.3 第三节描述统计
- 11.4 第四节推断统计
12 第十一章教育科研成果的表达
- 12.1 第一节研究论文的分类和撰写步骤
- 12.2 第二节研究论文的基本结构
- 12.3 第三节研究成果的评价

第一节测量法

第八章 测量研究

测量包括物理测量、教育测量、心理测量和社会测量。教育测量是对教育领域内的事物或现象作数量化的描述过程。在教育研究中，测量已成为不可缺少的一种研究方法。任何事物都存在于一定的数和量之中，因而都可以被测量，如儿童的各科成绩，智商、创造力、语言、动机、注意力、态度、兴趣、动作技能、熟练程度、反应速度等等，都可以在某种程度上进行测量。测量对于教育研究具有重要意义。有了测量，对事物的描述更精确，分析更细致、结论更准确。本章主要阐述测量的原理和基本概念，并描述测量法和社会测量法的具体运用，以及介绍几种常用的幼儿智力测验。

第一节 测量法

教育研究中，尤其是实证性研究，往往要对研究对象进行测量，如进行一项教学方法改革的实验就必须对教学方法的效果(通常是成绩或态度)进行测量，测量的成绩或态度就是实验的因变量。测量法一般用测量工具进行，测量工具通常指标准化测验，如智力测验、能力测验、人格测验、成就测验等。有些研究项目可以直接利用现成的测量工具，另外一些研究项目可能要花大量的精力去开发编制新的测量工具。无论哪种情况，测量的直接目的是用测量工具准确、客观地测出研究中的变最、概念或现象，从操作意义上提供研究所需的数据。

一、测量的基本概念

1.测量

克林格(Kerlinger)为测量作了一个被普遍接受的定义：按规则给对象或事件赋值。通俗地说，就是根据一定的规则，给事物分派数字。1、2、3、4、5之类的数字本身是没有数量或质量意义的，只是个符号。当我们规定1代表男性、2代表女性，或者l表示奖励的最高等级，2次之，5为奖励的最低等级，或者5表示成绩的最高等第，4次之，1为成绩的最低等第，这时1、2、3、4、5才具有实际意义，数字按规则被赋予了意义。

根据克林格的定义，我们可以给测量法下个定义：测量法是用一组标准化测验，按照规定的程序，通过对研究对象的实际测定来收集数据资料的研究方法。测量是评价过程中搜集资料的一种方式。在教育教学过程中，教育者对幼儿不断地施加各种教育影响，幼儿的身心发展状况也在不断地发生变化，这就需要对教育教学的结果作出评价，即对幼儿身心发展状况及变化的特征、趋势通过测量来获得事实根据，作出评价。

测量与测验是容易混淆的概念，在现实生活中，人们常常混用。实际上，它们既有联系又有区别。测量是对事物作定量化测定的一门学科或方法，是通过采用量表或具体测验实现的。测验则是测量的工具。测量比测验的含义更广泛。

据美国《心理测量年鉴》称：在美国有关教育心理的标准化测验就有1100多个，分为15个种类，它们是：成套成就测验、英语测验、艺术测验、外语测验、智力测验、数学测验、学科综合测验、拼读测验、阅读测验、自然科学测验、社会科学测验、感觉运动测验、职业测验、多项能力倾向测验、人格测验。

测量要具备以下几个基本要素：

①测量客体。即测量的对象。测量的客体可以是人，也可以是教育研究中的事物或现象。

②测量内容。指测量客体的属性和特征。测量内容有些是外显的，如幼儿的性别、身高、体重、行为等；有些则是内隐的，如兴趣、动机、知识等。

③测量规则。指测量的准则或方法。任何测量必须按一定的规则对测量内容进行规范的、标准化的操作。

④测量工具。指测量的指标体系。在教育研究中通常要借助于标准化测验或量表这类工具对测量客体的属性和特征进行测定。没有工具，测量难以进行。

2．测量的四种水平

测量某一事物，需要有测量的工具，这个工具应具有单位和参照点，并有表示量数的方法，我们把这种工具称之为量表。如，尺是度量长度的量表，血压计是测量血压高低的量表。

在教育研究中，测验量表多以文字试题的形式出现，由于数字化程度不同，数值所包含的信息量不同，因此测量的程度水平也不同。通常可把量表分为四种不同水平的类型。

①名称量表

亦称类别量表，只是用名称或数字来代表事物或对个体和事物进行简单归类，既没有数量关系，也没有单位和零点，如运动员的号码、学生的学号等。又如，用数字1表示男生，用数字0表示女性，这些数字本身并无数量意义，只是为了给对象分类才用数字来代表。

称名量表的数字不能作大小比较或进行加减乘除运算，仅具有符号的区分性，在数据处理上仅适宜作计数资料的统计，如百分比，检验等。

②顺序量表

亦称等级量表，只有等级顺序而无等值的单位和绝对零点，它是按照类别的大小或某种属性的重要性把—些项目排出等第次序。如，根据学生的测验成绩排出名次，成绩最好的为1，成绩次之为2，再次之为3，以此类推。顺序量表的数值具有等级性和序列性的特点，能够进行大小比较，但不能作加减乘除运算，在数据处理上能用中位数、百分比、等级相关系数等。

③等距量表

也称间距量表，具有相等的单位，但没有绝对零点的量表。等距量表除了具有称名量表和顺序量表的数量性质外，它的数量单位之间的差异是等距的。如，温度30^oC一32^oC与18^oC一20^oC的温差是2^oC，是相等的。又如，三个儿童在智商测验中分别得分105、110、115，前二者5分的差距与后二者5分的差距是相等的。测验所得原始分数转换成的标准分数就是一种等距量表。

由于等距量表有相等的单位，故可以进行加减运算，但不能作乘除运算。等距量表可以广泛运用统计方法。如平均数、标准差、相关及各种检验。

④比率量表

有相等的单位和绝对零点的量表是比率量表，也称等比量表。比率量表除了具有称名、顺序、等距量表的特征外，还有一个具有实际意义的绝对零点。零点是指测量的起点或参照点。有些零点是人定的，称相对零点。如摄氏零度，这里零度并不意味着没有一点温度，而是以人定的冰点为参照标准。像学生的考试成绩、智商的0分都是相对零点。有些零点具有实际意义，称绝对零点。如年龄、身高、经费开支等都有绝对零点，0岁、0米、0元中的“零”都表示真实的“无”，表示一点都没有。比率量表具有绝对零点，可作加减乘除运算，故可表示倍数关系。如身高1.8米是1.2米的1.5倍；经费开支120元是150元的80％等。

二、测验的基本类型

测验是测量的工具。在教育研究中，测验的种类很多，按照不同的分类标准可以得出不同的测验类型。

1.按行为目标和测验内容可分为：

①智力测验。测被试的智力高低，其结果常以智商(IQ)来表示，此类测验很多，其中较著名的有斯坦福——比纳测验、韦克斯勒智力测验等。

②能力倾向测验。测被试潜在的某种能力，以了解其发展的可能性，如音乐、美术、体育、创造力、想象力、记忆力等方面的特殊才能的测验。

③成就测验。测被试经某种形式的学习后对知识、技能的掌握程度或熟练水平。如识字量、阅读、算术测验等。

④个性人格测验。测被试的需要、动机、兴趣、态度、气质、性格、人际关系等人格特征，较为著名的有明尼苏达多相个性测验(MMPl)、罗夏墨迹测验、卡特尔16项人格因素量表(16PF)等。

2.按测验方式可分为：

①个别测验。指主试与被试一对一进行的测验。个别测验的可靠性较高，主试能有效地观察控制被试的行为反应，尤其是对尚无书面文字表达能力的幼儿，通常采用个别测验，但个别测验费时费力，短时间内难以获得大量的资料，并且对主试的要求较高。

②团体测验。指一个主试能同时对许多被试进行的测验。团体测验节省人力与时间，在短时间内能收集到大量的资料，效率较高，但被试的反应不容易控制，并且测验效果不及个别测验可靠。

3.按测验材料可分为：

①语言、文字测验。指测验内容是以语言、文字形式构成，被试要用语言、文字作答。语言、文字测验实施比较容易，适宜于进行团体测验，但它易受被试的教育程度和不同文化背景的影响。

②非语言、文字测验。又称操作测验，它是以图形、模型、实物、工具等作为测试材料，被试需动手操作才能完成的测验。由于被试不需要用文字作答，因而特别适合于幼儿或文字表达有困难的被试，适合于不同文化背景的比较研究。较著名的测验有：瑞文标准推理能力测验，画人测验等。

4.按测验的参照系可分为：

①常模参照测验。常模指有一定代表性，并且数量足够大的样本在某项测验上的平均成绩。常模是评价被试测验成绩的相对标准。常模参照测验是一种衡量被试相对水平的测验，是将被试的测验成绩与同类被试在同一测验上的平均分即常模相比较，从而确定被试在总体中的相对位置。常模参照测验要有常模对照表，一般包括分数分布量表、年级量表、年龄量表、标准分数、百分等级量表等。常模有地区性常模和全国性常模，地区性常模只适用于特定的区域，如在城市获得的常模就不一定适用于农村或边远地区，而全国性常模适用于全国所有的同类个体。我国学前儿童的常模参照测验工具主要集中在智力测验和儿童身体发育测试方面，如：中国儿童发展量表(3—6岁)、中国比纳测验(2－18岁)、韦克斯勒学龄前儿童智力量表(WPPSI)。

②目标参照测验。又称标准参照测验，是衡量被试实际水平的测验。将被试在测验上的分数与事先制定好的某种标准进行比较，看被试是否达到了目标规定的要求。目标参照测验的特点是依据标准，判断被试的达标程度，而不是将被试的成绩与其他人作比较。如：毕业考试、英语水平测试、钢琴考级、律师、经济师的资格考试等均是目标参照测验。

5.按测验的标准化程度可分为：

①标准化测验。由专家学者或专门机构采用系统的科学程序编制的、在测验施测过程、评分手续和分数的解释上具有统一标准的，并对测验误差做了严格控制的测验。标准化测验编制和施测有—套标准程序。测验编制包括确定测验目的、科学命题、选取有代表性的样本进行试测；根据数量化指标筛选测验题目；鉴定整个测验的信度和效度；建立常模、确定指导语、时限和施测条件；规定评分标准、分数转换和解释方法等。标准化测验所获得的测量结果比较客观、可靠，应用范围较广，通常测量法所用的测验工具均为标准化测验。

②非标准化测验。指测验的编制和施测不按标准程序进行的测验，通常由教师或研究人员自编的、为临时测验所用的简单测验。如课堂测验，期中、期末的测验，等级评定量表等。这些测验是教师根据教学目标和自己的教学经验编制而成，它通常与日常教学工作紧密联系；测验内容与教材内容、教学进度一致；难易程度由教师把握；针对性较强。非标准化测验的编制省时、省力、灵活、方便。不足之处在于测验的客观性和标准化程度不如标准化测验，测验的实施和记分也不甚严格。

三、测验的性质和条件

教育研究中的测量通常是凭借教育测验得以实现。测验是对行为样本进行客观的和标准化的测量。测验中的客观性指要用数量化的指标筛选测验题目，并对整个测验进行信度和效度的鉴定。测验中的标准化指测验的编制、实施、记分、分数的解释等都要按照统一的标准和严格的规定进行。换句话说，标准化就是使所有被试的测验条件一致。教育测验必须考虑以下一些基本特性。

1.信度

信度指测验结果的可靠性和稳定性，即同一个测验对同一组被试先后实施二次，所得测量的一致性程度。例如，用一杆秤来称—样物品，第一次称出的重量与第二次称出的重量不一样，那么我们说这杆秤不可靠，称出的结果不可信。这样的测量工具是不可靠的工具。又如，某幼儿经过几次智力测验，其智商均在120左右，结果基本保持一致，那么这个测量工具(智力测验)是可靠的、可信的。估计测验信度主要用测验结果的相关程度表示。

①再测法

用同一种测验对同一组被试实施两次或更多次的测验，前后两次或多次测验分数间的相关系数即为再测信度。如果相关系数为高度的正相关，则表示该测验信度高，反之则信度低。

再测法只要用一种测验形式，即可获得有关测试结果是否随时间而变异的资料。但，前次测验会影响后次测验的成绩。

②复本法

用两个或更多的等值测验复本，对一组被试先后进行两次或更多次的测验，前后两次测验分数的相关系数即为复本信度。如果相关系数为高度的正相关，则表示该测验信度高，反之则信度低。

复本法避免了一套测验可能引起的练习效应和记忆效应。但要编制多个完全等值的复本难度很大。

③分半法

在测验没有复本，并且只能施测一次的情况下，可将测验题目分成对等的两半，它们的内容和难度相当，然后根据各人在这两半测验上的分数，计算其相关系数，即为分半信度。如果两半为高度的正相关，则表示该测验信度高，反之则信度低。

为使分半后的两组等值，一般采取先将题目按难易顺序排列，然后按奇数或偶数平分为两半，也有将题目拦腰分为上下两半，求其信度系数。分半法常用于估计测验内部的一致性以及测验成绩的稳定性，问题是我们往往很难将题目分成平均数、标准差基本相等的等值的两半。

④评判员法

一些主观性测验题目(如作文、口试、唱歌、图画等)需要评判员来评分或打等级，评分常会出现误差。如：一个评判员对许多份测验试卷中的同一题目所作的先后评阅可能会因前后次序效应而不一致。另外，不同的评判员对同一题目也可能会有不同的评判。通常有两种求评判员信度的方法，一是随机地抽取一些测验卷进行重新评阅，然后计算二次评分的相关系数，以了解一个评判员先后评分的信度。二是让两个或两个以上的评判员分别评阅同一批测验卷，然后计算其相关系数，以了解不同评判员之间的信度。

影响测验信度的因素很多，从测验本身来看主要有：

①测验的长度。测验项目多，信度就会提高。

②测验的时间。增加测验时间，保证被试能做完所有题目，可提高信度。

③测验的同质性。如果测验项目涉及同一能力倾向，信度也会提高。

④测验的区分度。区分能力强的题目越多，信度也会提高。

⑤测验变量的性质。学术和技能领域的测验要比兴趣和态度领域的测验信度要高o

⑥测验的形式。如多项选择题等客观性试题要比论述题等主观性试题信度更高。

⑦被试的差异性。被试能力差异越大，信度也越高。

从被试的角度来看，影响信度的因素主要有：

①身体健康状况。

②情绪紧张，疲劳。

③人的记忆波动。

④对测验形式的了解。

⑤施测的环境条件。

⑥具备其他有关知识。

⑦对测定内容的熟悉情况。

以上罗列的种种因素，或多或少会对测验信度造成影响，并且其中有些因素是难以预测和控制的，但一个可靠的测验必须对这些影响因素进行考虑，尽可能提高测验信度。一般来说，在运用测验工具前必须了解该测验的可靠性，当自行编制测验工具时必须测定它的信度。

2.效度

效度指测验的有效性和准确性，即一种测验在多大程度上达到了测量目标。例如：数学能力倾向测验，测验的结果必须反映一个学生数学能力的真实程度，那这种测验是有较高效度的。如果测验结果只是反映学生的语言理解能力，那这种测验效度就很差。换句话说，效度所要鉴定的是一个测量工具用来测量某种属性是否有效。对某个目标有效的测验，对其他目标就不一定准确有效。一个秤米的工具用来秤米可以是有效的，但用它来秤金子就不一定有效。又如：智力测验，测验项目尽是知识性的题目，这对被试的智力来说会失去效度，因为测验目的是要测量被试的智力，但实际测得的都是被试原有的知识，这就大大降低了想要测量的智力的效度。

效度常用相关系数来表示，称效度系数。由于测量的目的不同，效度就有不同的类型，常用的类型有：

①内容效度

指测验题目对所要测的内容的覆盖程度，即测验题目对有关内容或行为范围取样的适当性和代表性。内容效度主要用于成就测验，通过对内容的逻辑分析，从而确定它们的代表程度。内容效度的值常由该领域的专家判定。例如：教师要了解学生对某门课的掌握程度，他可以对这门课的所有内容进行测验，但由于内容很多，不可能面面俱到都测，因此只能选择部分内容或题目进行测验，然后用测验结果推论学生是否掌握了这门课的内容，很显然，测验所选内容的代表性如何，会直接影响对总体情况进行推论的准确性。

②效标效度

又称效标关联效度。效标效度是通过将测验与某种外在标准作比较来确定的。效标效度是由两个量数之间的相关关系决定的，一种是测量到的量数，另一种是作为参照标准用的量数，后一种量数就称为效标(效度标准)，两个量数的效度系数(相关系数)越大，则测验的效度越高。反之，效度则低。例如：用《中国儿童发展量表(CDCC)》的测验分数与效标《韦氏儿童智力量表(WISC—CR)》的测验分数进行相关比较。

效标效度又可分为两种类型，一是共时效度，即测验分数是否测出了目前实际存在的情况，具体做法是在收集测验分数的同时，收集效标资料，然后计算两组数据的相关系数，决定测验分数是否可取代效标分数。二是预测效度，即测验分数是否预测到了将来发生的特定情况，具体做法是先收集测验分数，经过一段时间(如半年或一年)之后再收集效标资料，然后计算两组相关系数，目的是决定测验分数是否具有预测性。例如：对5岁幼儿在绘人智能测验中获得的分数与半年后在《中国比纳测验》测得的智商进行相关系数比较。

③结构效度

结构效度指一个测验在多大程度上测量了所要测的理论构想。它验证的是所提出的理论假说是否有效的问题。结构效度包括内容效度和预测效度，当理论构想涉及测验内容时，便是内容效度，如果涉及外部标准，则为预测效度。当要求回答这样的问题：这个测验究竟测量了什么?实际上就是在考虑这个测验的结构效度，例如：智力测验的结构效度是指被试解答的问题足以智力来加以解释，而不是以学习成绩或知识多少来加以解释。智力测验的结构效度越高，它所测量的智力因素也越高。又如：关于智力测验有许多理论假说，如测验分数在16岁以前随年龄的增长而增加；一种智力测验的分数与其他智力测验的分数呈正相关；测验分数能区别智力水平；测验分数受教学的直接影响不大；智商具有相对的稳定性等，然后通过智力测验的具体项目来验证这些理论假设。如果假设得到材料的支持，则认为这个智力测验的结果与智力的理论结构相符合，即有结构效度。

由于结构指的是理论结构，而不是测验项目的外在技术结构，还由于结构是抽象的，而不是实在的事物，因此确定结构效度比较复杂。既要从实际中收集各方面的资料，又要从理论上对构想进行分析。如，分析测验过程与测验题目之间的关系；比较两组被试在同一测验中的结果；比较前测与后测的变化；求出一种测验与其他测验的相关等。

影响测验效度的因素很多，主要有以下几个方面：

①测验的组成

测验的选材与构思、测验的长度、项目的难度、区分度以及测验的编排方式等。

②测验的程序

其中主要包括测验程序设计、测验手册的配备、实验程序的标准化、指导语、环境条件、时限等。

③效标的特征

选择适当的效标，是测验效度的前提条件，效标的信度、效标与测量效标之间的相关程度会影响测验效度。

④样本与被试的特点

样本的代表性会影响效度，样本的异质性会提高效度系数，被试的兴趣、动机、情绪和态度对效度影响很大。

在对效度进行评定时，应注意以上影响因素，努力设法排除或控制可能造成误差的原因，同时，在测验的设计和实施过程中，从以上方面改进措施，能显著地提高测验效度。

教育测量除必须具备适当的量表作为测量工具外，还必须以一定的信度和效度作为测量的必要条件，信度往往以两种尽可能相似的方法去测量同一倾向的一致性，而效度则往往以两种尽可能不同的方法去测量同一倾向的一致性。信度和效度既有区别又有联系，是互为补充的，信度是效度的必要条件，但并不是充分的条件。也就是说一个测验可能信度高，但效度低。然而一个测验要有效度，首先必须有信度，如果一个测验测出的结果不一致，它就不可能有较高的效度。

3.难度

难度指题目的难易程度，是衡量测验题目质量的一个重要指标。

① 以通过率计算难度

即求正确解答题目的人数与总人数之比，多用于选择题。

难度也可用百分比表示，如33％。

②以平均数计算难度

即求全部被试所得分数的平均数与该题满分之比，多用于问答题。

4.区分度

鉴别一个测验好坏的标准是测验的信度和效度。信度和效度的分析往往是从个别题目开始的，对测验具体题目的分析称之为项目分析，项目分析主要涉及题目的区分度、难度等。

区分度指测验题目对所测量特性的区分程度或鉴别能力，是衡量测验题目质量的一个重要指标。有较高区分度的测验题目，对被试的特性、能力、学业水平等有较高的鉴别力，能将儿童的差异区分开来，好生得高分，差生得低分。而区分度低的测验题目，好生差生得分无规律或分辨不出差异。

区分度的计算常以某题的得分与该题总分之间的相关来表示，也可以测验中高分组与低分组在某一题目上得分的平均数的差异来表示。其计算公式为：

D＝P_H—P_L

式中，D为区分度符号，P_H为高分组通过该题的人数比例，P_L为低分组通过该题的人数比例。

区分度数值在土1.0之间，如果某题目在高分组全部通过，低分组全部没通过，则D＝1.0；若题目的通过率与上述结果完全相反，则D＝-1.0；若高分组和低分组通过率相等，则D＝0。区分度越高，说明该题目在测验中的效用越大，一般要求题目的区分度在0.30以上。

区分度与难度的关系，当题目难度指标在0.50左右为最佳，因为这时题目的区分度接近最大值，区分度的数值越大，题目的鉴别能力就越高。二者之间的关系见表8一1。

表8一1 难度与区分度关系表

难度(P)

区分度(D)

1.00

0.90

0.70

0.50

0.30

0.10

0.00

0.20

0.60

1.00

0.60

0.20

0.00

在测验的编制中，题目的难度应为区分度服务，难度的选择应以提高区分度为出发点，难度过大或过小都会降低区分度。那些被试都能通过或都不能通过的题目要剔除，对于区分度在0.20以下的题目要么修改，要么淘汰。

四、标准化测验的编制与实施

标准化测验的编制与实施均要按统一的标准程序进行。为使测量准确可靠，测验的每个环节都要标准化，包括测试题的标准化，施测过程的标准化，评分计分的标准化，结果解释的标准化等。具体涉及确定测验目的；选取有代表性的样本进行预测；对题目作信度、效度分析；根据难度、区分度筛选题目并编成测验卷；确定统一的指导语；规定施测规则；规定评分计分标准以及分数转换和分数解释的方法。

1.标准化测验的编制

标准化测验的编制是一个复杂的系统工程。编制过程会因测验的内容、性质的不同而有所不同，但由于测验原理大体相同，因而测验的编制大致可分为以下几个基本步骤：

①确定测验目的(测谁、测什么等)；

②拟定编题计划(怎么测、内容比重等)；

③编制测验题目(题目数量、形式、时间安排、分数分配、复本等)；

④试测和项目分析(样本、题目的难度、区分度等)；

⑤修订、筛选测验题目(指导语、时限、记分标准等)；

⑥组成正式测验(建立常模、测验手册)；

⑦检验测验的可靠性、有效性(测验的信度、效度)。

以北京师范大学张厚粲主持编制的《中国儿童发展量表》(3—6岁)为例，该量表编制大致经历了四个阶段：

第一阶段为确定量表的内容阶段(1985—1986.7)

在大量参考国内外儿童测验的同时，参考了我国有关幼儿发展方面的研究成果，编制出16个项目，152个小题的测验初稿。

第二阶段为预测阶段(1988—1989)

在北京、济南、大连、武汉等六个地区，对500名3—6岁幼儿进行预测。经对预测结果的信度、效度检验和项目分析，初步确定该量表是可用的。最后筛选出语言、认知、社会性和动作四个方面，16个项目，111个小题为量表的内容。对项目的排列顺序、指导语、记分标准重新予以确定，并编制出抽样施测指导手册。

第三阶段为建立全国常模进行抽样(1990.4—1990.10)

组织全国协作，举办量表常模抽样主试培训班，对来自全国21个地区的主试进行培训，然后在全国六大行政区18个城市(包括四个近郊县)进行常模抽样试测工作。

第四阶段为编制测验指导手册，并在较大范围进行试用(1990.10——1992.2)

对全国18个城市2368名3—6岁幼儿测验结果进行技术分析，确定了量表的信度、效度水平，量表的分数解释，并编制出测验指导手册。经一年多的试用，根据各地反映的意见，对个别项目、小题的排列顺序及施测方法作了一些变动。1992年10月通过专家鉴定。

标准化测验的编制专业化要求很高，需要投入大量的人力、物力、财力，通常由专门机构或专家学者编制。标准化测验应具备以下三个基本特点：一是测验的效度要高，即测验的准确性要高，测验本身确实能测出所拟定的目标程度；二是测验的信度要高，即测验的可靠性要高，测验结果能真实反映被试的实际水平；三是测验应有常模比较，即测验能解释实际测得的分数，能评价被试的水平。

2.标准化测验的实施

测验的编制有标准化的程序，测验的实施也有标准化的要求。下面从测验施测人员的角度，对实施标准化测验步骤作大致框定。

①选择合适的测验工具

教育测验种类很多，功能特点各不相同。因此要正确施测的第一步就是应根据研究目的，选择合适的测验工具。要选择测验工具，必须有大量供选择的测，验，这要求研究人员持之以恒地收集各种测验，包括标准化测验或各种评定量表。如果研究人员手头有各种有关幼儿教育的测验量表，那么要进行研究会方便得多，选择余地也大得多。教育研究中，研究人员常常是苦于找不到测验量表，而不得不放弃很多研究。因此，收集测验量表是研究的一项基础工程。

②按标准化测验的要求施测

有了合适的测验工具，还必须按测验的规定来施测。施测前，主试要仔细阅读测验手册，熟悉测验手册中的内容要求，准备好测验所需的材料，熟练掌握测验的操作程序，选择适宜的测验环境，避免各种偶然因素可能带来的误差，与被试建立良好的信任关系，解除被试的过度紧张和不适感等。

对幼儿进行测验通常采用个别测验。施测过程更应该注意标准化，主试应向每一个被试尽力提供相同的测试条件。否则，测验结果就不具可比性。如，主试对测验指导语的解说要统一，不应以测验手册以外的词句去解释被试的疑问，测验时间的限制不能随意变动，避免给被试任何暗示。

③客观、准确地记录被试的反应

这要求主试公平地对待每个被试，主试的评分要标准统一，要客观准确，要前后一致。通常标准化测验都有标准答案或评分标准供测试人员对照使用。测试人员应熟记于心，严格执行。有些标准化测验还需对评分人员进行必要的培训，以统一评分标准。

④合理解释测验结果

标准化测验是一项严肃的、学术性很强的工作，尤其是对测验结果的解释，通常要求经过培训的专业人员主持。在解释测验结果时，要做到有依据、有分寸，不武断地作绝对性的结论，也不作无限度的推论。

五、测量法的优缺点

测量法在实际运用中有两种基本形式，一是直接选取某个测验作为收集资料的工具，测量的结果就是研究的成果，如测定智商、诊断学业情况、升级考证等；二是与其他研究方法结合使用，作为研究组合中的一部分，如实验法中对因变量的测量等。

测量法在实际应用中，既客观、又经济，随着国外测验不断的引进、修订，以及我国有关测验的大量编制，测量法越来越多地得到运用，测量法的优点主要有：

①科学性较强，测验量表的编制过程客观、严谨，效果准确可靠。

②标准化程度较高，施测、计分、评价等均有统—标准，容易控制，便于操作。

③定量化水平很高，测量所获得的均为客观的数据资料，可用计算机进行结果处理。

④能直接进行对比研究，标准化测验一般都有常模，只需将所测得的数据资料直接与常模比较，便可知差异。

⑤经济实用，省时省力，研究者只需根据研究需要直接选择合适的测验量表施测即可。

当然，测量法并非十全十美，它也有其自身难以克服的缺点和不足，主要有：

①编制测验难度很大，费时费力，尤其是标准化测验的编制专业化程度很高，非专门机构、专业人员不能胜任。

②教育测验通常是间接测量，测量涉及的心理、智力、能力、知识、技能、兴趣、性格等因素难以直接观测，只能依据被试的行为、活动、或自评等来推测其水平，因此测量的结果往往是相对的。

③难以进行整体的分析，定量分析多停留在零碎的表面水平的描述和解释上，灵活性较差，难以揭示变量之间的因果关系。

教育测量要测定的往往是人的各种心理特征，被试是活生生的人，是有思想、有情感的人，其心理特征随主观意志、外界刺激的变化而在不断地发生变化。因此，教育测量与物理测量相比要复杂得多和困难得多，要想对被试的个性、兴趣、智力、能力等心理素质进行非常精细的测量也难以做到。另外，有时测量的结果以及被试的心理素质也很难完全用数量形式来表示。

在运用测量法时应注意以下几点：

1.遵守测验的职业道德，对涉及个人隐私的问题要为被试严守秘密；不要给测验分数低的被试贴标签，说他们低能，没有培养前途；不要伤害被试的自尊心。

2.做好测验试题的保密工作，教育测验量表不像物理测量的工具(如尺、秤等)，可在被试身上反复运用。教育心理测验内容一旦泄露，测验就失去了价值。因此，测验量表不宜在杂志、书籍中刊登、披露。

3.测验主试应具备必要的专业知识，教育测验专业化程度很高，要保证测验操作的规范、结果解释的准确，从事测验的人员必须具备一定的专业基础知识，或经过专门的培训。

4.确保测验过程的标准化。测验的实施要求尽力做到标准化，为每个被试提供尽可能相同的测验条件。应严格按照测验手册中规定的要求和步骤实施操作，不能随意变动。否则，可能会影响测验的结果。

图片预览