第二节 实验变量与实验效度
一、实验设计
广义的实验设计指进行一项实验研究的整体设计,即在确定课题的基础上提出假设,识别变量,选择样本,确定实验的组织形式和具体方法以及整个研究的进程和策略。狭义的实验设计指实验过程中的组织形式、被试分配形式和实验变量介入或控制的形式。实验设计正如建筑师在得知建房的基本要求后,根据可能的条件而制定的建筑蓝图一样,是为实施而预先拟定的计划。
实验设计是关系到实验是否有效的关键因素,实验的成功与否,很大程度上取决于实验设计的好坏。实验设计要遵循以下三条基本原则:
①随机化原则 随机化是实验设计中控制无关变量的最重要的方法,也是最有效的方法。随机化通常包括两个方面,一是被试应从总体中随机选择;二是被试的配组(分到实验组或对照组)应随机分配。
②可控制原则 控制是实验的基本特征,没有控制就没有实验。一个实验能否有效地得出因果关系的结论,最重要的是看实验设计能否有效地控制无关变量。
③可重复原则 可重复是对实验的精确性和可靠性的要求,也是检验实验结果有效性的标准。
实验设计通常要综合考虑以下内容:研究假设,实验变量(包括自变量的呈现方式,因变量的测定指标及方法,无关变量的控制措施等),被试的选择和分配,实验采用的组织模式,统计处理方法,具体实施步骤等。
实验设计的基本思想有二:一是使自变量对因变量的作用最大化,让自变量和因变量的关系凸现;二是使无关变量对因变量的影响最小化,不让无关变量对因变量产生干扰作用或使这种干扰作用控制在最小范围内。
二、实验变量的选择与控制
在实验过程中,变量的选择与控制对实验的成功与否具有重要意义,它包括三方面的内容:
1.自变量的操纵
自变量是变化的措施和条件,又称实验处理。它是研究者创设和操纵的情境或刺激物,用它能促使被试产生反应和变化。实验目的是看自变量的介入会引起被试什么反应和变化。例如,要提高大班儿童学业成绩,就要主动采取措施,或使用新的教学方法,或改变学习的环境,或重新选择学习材料,或变换教学的组织形式等,这些都可作为研究者操纵的自变量,研究者通过操纵某个自变量看它是否会提高儿童的学业成绩。
一个自变量的实验称单因素实验,两个以上自变量的实验称多因素实验。自变量的变化等级称为水平。如,课外作业时间与学习成绩的实验研究,课外作业时间是一个自变量,研究中可将作业时间划分为四个等级,0.5小时、1小时、1.5小时、2小时,那么这个实验是一个自变量,四种水平(或四种实验处理)的实验研究。一般来说,一个自变量至少有两种水平,出现或不出现。儿童的年级可有三种水平:大班、中班、小班。儿童的家庭背景可分为两种水平:城市的、农村的等。
自变量的操纵往往涉及实验处理的次数、强度、方式、程序、介入时间、延续时间等问题,研究者应根据研究假设、实验设计的要求和实际情况进行考虑。
2.因变量的测定
因变量是研究者要观测的变量,是由自变量引起的在被试身上产生的反应变化,因变量的变化依赖于自变量的变化,实验目的就是要通过因变量的测定来研究自变量与因变量之间是否存在因果关系。因变量的一个重要特征是它可以通过直接或间接的方式被观察,被测量,并且可以转化为数据形式。例如,测验分数,考试成绩、评定等级、反应时间、答题的正误百分数等。
因变量的测定关键是要有测量的指标,测量指标涉及测量方法、工具、材料、次数、时间、插入点的安排等。当然有现成的测验量表、客观性试题最好。一般选择测量指标应根据研究假设、实验设计的特点,现有的测量工具、手段等作具体分析,可考虑以下几方面:
①敏感性 所选指标对自变量的变化有较高的分辨能力。如五分制评分与百分制评分,百分制敏感性较高。
②客观性 所选指标具有可靠性和准确性,指标的解释不以研究者或被试的主观意志为转移。
③稳定性 所选指标在重复测验中数值接近,能获得稳定一致的结果。
④经济性 所选指标应观测方便,数据转换容易,能节省时间和精力。
总之,因变量的测定同因变量本身的复杂程度有关,同实验要求达到的精确程度有关,同现有的测量工具、测量手段有关,同研究的定性定量水平有关。
3.无关变量的控制 无关变量是研究中除了自变量和因变量之外的一切变量,是与实验目的无关的变量。由于无关变量会影响因变量的测定,会对判断自变量和因变量的因果关系造成干扰,因此在实验设计时需要对其进行控制。控制无关变量是实验研究的一个关键问题。
为了使自变量和因变量的对应关系显现出来,必须“净化”实验过程中的变量,也就是说要把无关因素人为地控制起来,以免实验过程中变量相互混淆,无法判断因果关系。一般来说对无关变量控制的程度越高,实验的可信度也越高。当然要完全彻底控制无关变量是办不到的,因为在教育实验中无关因素非常之多,研究者难以一一加以控制,通常讲的控制是指尽可能地将其中最明显的无关变量、对实验效果起重大影响的无关变量挑选出来,加以控制,不对无关变量进行控制,实验结果便无法解释,会导致实验的失败。控制无关变量的方法有:
①随机化
随机化是控制无关变量影响的最简单、最有效的方法。通常指从总体中随机选择被试;被试随机分配到实验组和控制组;随机指派实验处理等。例如,用简单随机抽样从总体中抽取被试100人,然后将这100个被试用抽签的方式随机分配到实验组和控制组,每组50人,由同一教师采用两种不同的教学方法(自变量)进行教学实验,至于哪个组为实验组,哪个组为控制组,可通过投掷分币随机确定。随机化确保了研究对象的选择具有同等的机遇性,实验组与控制组具有同质性,这样可以控制来自很多方面的无关变量。
②消除
消除指设法将无关变量排除在实验之外,不让它参与到实验过程中来。如,性别可能会影响因变量的测定,那么被试的选择可都选男性或都选女性。又如,在暗室、隔音室内进行视听感觉的实验,这样可消除外界光线、噪声对视听感觉的干扰。消除是控制程度很高的控制方法,但在教育实验中应用有限,因为采用消除往往会使实验情境与实际情境差距太大,降低实验的生态效应。
③平衡
平衡指设实验组和控制组,将无关变量的影响平均分配到实验组和控制组中去,使各组之间的差异尽可能相等。实验组是指接受实验处理的被试组;控制组又称对照组,指除了没有接受实验处理外,其他条件与实验组相似的被试组。实验组和控制组的唯一区别就是实验组接受实验处理,控制组没有。如,等组实验就是按平衡原理设计的,两个组除实验处理不同外,其余条件均相等,做到两组基本同质,这样有些无关变量在实验一开始便得到控制。 平衡在教育实验中被广泛地采用,因为其组织形式简单,因果关系明了,易为他人理解和接受。但实验组和控制组往往只是某些方面达到一定程度的平衡,难以在各个方面均达到完全平衡。
④恒定
恒定指使某些因素在实验中保持恒常不变,把有些变量变为常量加以控制,使无关变量的影响在实验过程中保持不变。如,要对某种教学方法的效果进行比较研究,为了防止教师水平不同而给教学效果造成影响,可由同一位教师担任实验班和对照班的教学,使教师这一因素恒定不变,使教师水平这一变量变为常量。另外所用教学时间也可使其恒常不变,即实验班和对照班均采用相等的时间进行教学,布置相同的作业练习等。
在教育实验中除教学环境等因素可在短时间内有限地恒定外,对其他无关变量的恒定很难,因为教育实验往往周期较长,学生的知识水平、能力不断增长,教师的工作态度、教学能力也在改变,对于这些因素是无法使其恒定不变的。
⑤盲法
盲法是指在实验中,被试或主试不知道谁接受了实验处理,谁没有接受实验处理,甚至不知道实验设计者真实意图的一种排除来自被试或主试主观态度影响的控制方法。盲法有单盲和双盲之分,单盲法指被试不知道自己在参与实验或正在接受某种实验处理,双盲法指主试和被试均不知道自己在参与实验或不知道谁接受实验处理。
采用盲法控制的目的是为了避免由于被试知道自己参与实验或了解实验真实意图而可能作出的反常行为,如表现出情绪高涨、加倍努力,或设法迎合研究者的口味行事,从而影响实验结果的可靠性。同样,当主试知道哪些被试在实验组,哪些被试在控制组,哪些被试接受实验处理,哪些被试未接受实验处理,常会有意无意地给予某些暗示,赋予某种期望,从而影响实验结果的客观性。
盲法控制的作用是使实验组和控制组的实验情境同—化,避免被试可能产生的霍桑效应和主试可能产生的罗森塔尔效应(教师期望效应),以便准确地研究实验处理的真实效应。
例如,多动症儿童药物疗效的实验研究,在一个班40个儿童中一半服药,为了避免被试和主试了解实验意图可能产生的主观偏差,让一半儿童服治疗多动症的药片,另一半儿童服安慰剂(维生素类药片),以控制实验情况。如果主试知道谁服了药谁服了安慰剂,这是单盲。为了避免主试知道哪些儿童服药而产生的期望效应,研究者将每次服用的药片、安慰剂包在药袋里,药袋上只写被试的姓名,由主试去分发,主试也不知谁服用什么药,这就是双盲。
⑥统计处理
统计处理指用统计方法对实验数据作一些处理,以排除或削弱无关变量的影响。如测验后去掉最高分或最低分,或以统计方法将实验组和控制组的数据平均化等。
以上控制方法在实际运用中都会有一定的限制,研究者应根据具体情况有选择地采用,扬长避短,相互配合,达到控制无关变量,使其影响作用最小化的目的。
三、实验效度
实验效度指实验的有效性和真实程度。实验设计质量的优劣通常用实验效度来衡量。实验效度包括两方面的内容:内在效度和外在效度。
1.内在效度
内在效度又称内部效度,指实验结果的解释能力和可靠性。即实验结果是否完全归因于自变量的操纵,是否真实地反映了自变量和因变量的关系。
内在效度与无关变量的控制有关。一个实验能有效地控制实验条件,能清楚地解释实验结果,能合理地推论因果关系,其内在效度就高;反之,一个实验不能有效地控制实验条件,不能清楚地解释实验结果,不能合理地推论因果关系,那么这个实验的内在效度就低。
影响实验内在效度的因素很多,概括起来大致有以下八种:
①实验过程中发生的偶然事件;
②被试身心的成熟程度;
③前测效应;
④测量手段、工具缺乏一致性;
⑤统计回归效应;
⑥被试选择的偏差;
⑦被试的流失;
⑧多种研究因素和条件的交互作用。
内在效度的获得取决于正确地选择实验变量,合理的实验设计,认识到影响内在效度的各种因素,有效地控制无关变量等。
2.外在效度
外在效度又称外部效度,指实验结果的推广能力和代表性。即实验结果能否运用于更大范围,能否推广到同类事物和现象上去的程度。如果一个实验仅适用于实验实施的自身范围,不能推广到总体范围中去,则表明其外在效度低;反之,当一个实验不仅适用于实验实施的自身范围,还能推广到总体范围中去,那么这个实验的外在效度就高。
影响实验外在效度的因素概括起来大致有以下几种:
①测验的敏感性作用;
②被试取样不具代表性;
③实验安排的副效应;
④多重实验处理的干扰。
外在效度的获得取决于被试取样的代表性,实验情境的现场化、生态化,以及对各种实验效应的控制等。
威尔斯曼(W. Wiersma)在《教育研究方法导论》一书中将影响实验内在效度和外在效度的12种因素配上例子加以说明,见表6—1。
表6一l 影响实验内在效度和外在效度的例子
干 扰 因 素 | 举 例 |
内在效度 1.偶然事件——在实验进展过程中没有预料到的影响因变量的事件的发生。 2.成熟程度——时间在被试身上起的作用。
3.测验——注意一次测验对随后另一次测验的影响。 4.测量手段—一—测量手段不统一会产生错误的结果。 5.统计回归——挑选被试的误差,比如用极端分数进行回归,将对今后的测验产生不利影响。 6.被试的选择差异——被试未能随机分配或挑选,而其中一个因素起了作用从而产生了组的不对等性。 7.实验的偶然减员——非随机挑选的被试脱离实验,会产生不良影响。 8.取样一一成熟程度交互作用——由于取样不一带来的成熟程度的不一致。
外在效应 1.测验的交互作用——前测与实验处理发生作用,并导致结果不能推广到未经过前测的群体中。 2.抽样偏差和实验处理的交互作用——根据实验处理的需要而挑选现成班级进行实验,其结果不能推广。 3.实验安排的副效应——被试知道他们要参加实验并对其具有新鲜感,也称为霍桑效应。
4.多重处理干扰——一个被试受两项或两项以上的处理,(就像在重复测量中设计的那样)会产生—种后遗效应,导致不能推广到单独处理中。 |
1.在相对较短的教学实验中,一组被试因学校停电而不能对其进行教学。 2.在学习实验中,被试者在50分钟后因疲劳而成绩下降。 3.在一次以逻辑推理能力为因变量的实验中前测给被试者提供了有关后测的线索。 4.两个主考人对同一项教学实验进行后测所用的程序和方法不同。 5.在一项阅读教学的实验中,前测中阅读成绩差组成的组,较之于成绩一般、好的组进步大得多。 6.一个教学实验的实验组本来就是一个高材生班,而控制组则本来是一个普通水平班。 7.在一项判断种类运动效果的健康实验中部分被试发现此项运动很难而退出。 8.在一项问题的实验中,选取初、高中教学班为被试,初中生比高中生更早地感到疲劳。
1.在一项体育表演实验中,前测为被试对实验处理提供了以某种方式作出反应的暗示,如果没有前测,则不会。 2.进行对教学方法作实验处理的用——根据实验处理的需要而挑选现成班级进行实验,其结果不能推广。 3.一项实习性的阅读教学实验产生的效果不会在再以同样内容同样方式的正常补习阅读教学中产生。 4.在一药物实验中,对同一动物依次给予4种不同的药物处理。从第2次到第4次服药的效果都摆脱不了第一次服药可能有的长效影响。 |
3.内在效度和外在效度的关系
实验效度是每一个实验必须考虑的问题,实验效度只是程度的问题,效度不会全有或全无。一般来说,内在效度越充分,结果推广度越大,研究越有价值。内在效度是实验质量的根本保证,是外在效度的先决条件,没有内在效度便无所谓外在效度。但内在效度高的实验并不一定具有较高的外在效度,二者往往难以都得到完全满足。有时确保了一种效度,就会削弱另一种效度。
例如,为了控制性别差异可能对实验结果的影响,只选取男孩或女孩作为被试,这时实验的内在效度提高了,但实验的外在效度受到损失,即实验结果难以推广到不问性别的群体中去,结论的普遍适用性降低了。又如,在现场自然情境中进行一项实验,虽然能较好地适用现实情境(具有较好的外在效度),但受实验条件限制,无法象实验室实验那样充分地控制无关变量,实验的内在效度降低了。
为此,在实验设计中要综合考虑内在效度和外在效度的平衡,在保证实验结果可靠性的基础上,尽可能使研究获得更大的推广能力。
要提高实验效度,关键问题是要对影响效度的各种因素进行控制,通常普遍被运用的措施有:设对照组控制、随机化控制、实验设计控制、统计处理控制等。