第三节 描述统计
在教育研究过程中,在收集了大量的观测数据后,首先应对数据的特征进行描述。描述数据,常用的统计量有平均数、标准差、标准分数、相关系数等。
一、平均数
平均数是用来描述数据分布集中趋势的一个统计量,,它是一组观测值的总和除以该数目所得的商来计算。
二、方差和标准差
方差和标准差描述一组数据的差异情况和离散程度的统计量。方差或标准差越小,表明数据的离散程度越小,数据分布越集中整齐;反之,方差或标准差越大,表明数据离散程度越大,数据分布越参差不齐。
三、标准分数
我们知道,对单组数据的大小进行比较,可直接比较观察值(原始分数)的大小;然而,要比较两组(或多组)数据的大小,由于各自的平均数和标准差有所不同,仅从原始分数中我们很难得出科学结论。如,已知某次期末考试全班数学和物理的平均分分别为65和80,标准差分别为5和10,某生数学得了70分,物理得了75分,问这两个分数孰高孰低?从原始分数角度看,数学70比物理75低,然而,由于两科考试的内容及难度不一,各自的平均分及标准差有所不同,同一分数在不同的科目中所具有的价值及表示的意义也就不一样,数学70在班级中属较高水平,而物理75在班级中的水平为中下,这说明该生数学成绩比物理成绩要好。为解决不同数组的比较问题,我们引入另一分数——标准分数。
标准分数又称Z分数,是以标准差为单位来表示原始分在一组数据中所处相对位置的统计量。
例如:甲乙两幼儿在语言、常识、计算测试中的成绩见下表,试分析谁的总成绩较好。
表10—3 甲乙两幼儿语言、常识、计算测试成绩比较表
科目 | 原始分X | 平均分
| 标准差
| 标准分 | ||
甲 | 乙 | 甲 | 乙 | |||
语言 常识 计算 | 59 75 63 | 51 79 71 | 50 74 67 | 4 10 8 | 2.25 0.10 -0.50 | 0.25 0.50 0.50 |
总计 | 193 | 201 | 1.85 | 1.25 | ||
平均分 | 64.33 | 67.00 | 0.6167 | 0.4167 |
从上表可看出:虽然幼儿乙的原始分数高于幼儿甲,但是通过和样本比较,将不可比的原始分数转换成标准分数,幼儿甲平均标准分是0.6167,幼儿乙平均标准分是0.4167,幼儿甲三科成绩标准分之和比幼儿乙高,说明幼儿甲的总成绩比幼儿乙好。
四、相关系数
相关指变量之间的相互关系和联系程度,其大小常用相关系数来表示。相关系数取值介于-1.00~1.00之间,其值的正负及大小反映了变量之间变化的方向和关系的紧密程度。
按相关系数的正负符号来分,相关分为正相关、负相关和零相关。
正相关表示一变量发生变化时,另一变量也发生同方向的变化。如身高与体重的关系是正相关,对幼儿来说,身高增加,体重也随之增加;又如练习量与效果的关系也是正相关,幼儿跳绳、拍球的练习量增加了,在跳绳、拍球活动中的得分随之提高。
负相关表示—个变量发生变化时,另一变量发生反方向的变化。如幼儿身体健康水平与缺勤率的关系是负相关,身体越健康,缺勤率越低,反之,身体状况越差,缺勤率也就越高;又如练习量与错误率的关系也是负相关,幼儿练习量越多,其错误率也就越低。
零相关表示变量之间线性关系上相互独立,彼此没有关系,一变量变化并不一定引起另一变量的相应变化。如身高与学业成绩的关系是零相关,幼儿身体越高,其学业成绩未必就越好或越差;又如幼儿的性格与其胖瘦的关系也属零相关。外向的幼儿,可能较胖,也可能较瘦,内向的幼儿,也可能胖,也可能瘦。
相关系数绝对值的大小表示变量关系的密切程度,绝对值越接近l,表示两变量的关系越密切;绝对值越接近于0,表示两变量的关系越疏远。按绝对值的大小,相关可分为高度相关、中度相关和低度相关。绝对值在0.7及以上的,称为高度相关;在0.3~0.7之间的,称为中度相关;0.3以下的,称为低度相关。
计算相关系数的方法很多,对于不同的数据类型,应采用不同的相关计算方法。在教育研究中,最常用的相关是积差相关。
当两个变量是连续的、成对的且变量的总体接近正态分布时,变量的关系常用积差相关来表示,其符号为r
例如,10名5岁幼儿在语言x和常识y上的得分如下表第2、3列所示,求两者的相关程度。
表10—4 10名5岁幼儿语言与常识的成绩表
序号 (1) | 语言 X (2) | 常识 Y (3) |
(4) |
(5) | 语言常识(xy)(6) |
1 2 3 4 5 6 7 8 9 10 | 85 80 84 86 78 75 83 90 89 88 | 88 87 85 84 81 76 85 94 92 92 | 7225 6400 7056 7396 6084 5625 6889 8100 7921 7744 | 7744 7569 7225 7056 6561 5776 7225 8836 8464 8464 | 7480 6960 7140 7224 6318 5700 7055 8460 8188 8096 |
总计 |
|
|
|
|
|
从上表可求出,语言与常识的积差相关系数r,两者存在高相关。
在使用相关过程中,研究者需要明确如下三点:
①相关系数表示两个变量之间的关系程度,当两变量相关时,只表明二者之间存在某种联系,但并不说明二者之间必然存在因果关系。例如儿童的语言与计算有相关,这不能说明语言的好坏是导致计算好坏的原因,或计算的好坏是导致语言好坏的原因,二者相关完全有可能是第三因素影响所致,如可能是儿童智力水平的影响。
②相关系数是用来衡量变量之间相关程度大小的统计量,它不代表一变量对另一变量直接作用的比例。如要用相关系数来解释一变量对另一变量影响的百分比,需要用决定系数(决定系数等于相关系数的平方)这一指标。如,知道幼儿语言与常识的相关系数为0.80,不能认为常识的差异有80%是由语言的差异引起,而只能说:常识的差异有64%(=0.802)可由语言的差异来解释。
③运用公式计算得到的积差相关系数是样本相关系数,至于总体相关系数是否相关,显著性如何,必须经过统计假设检验才能正式确定。