2.1 复习笔记

一组变量的次数分布,一般至少有以下两个方面的基本特征:

中心位置:用以度量一组数据的集中趋势,描述它们的中心位于何处,故对其数量化描述称为位置度量数或集中量数。

离散性:反映一组数据的分散程度,即次数分布的离散程度。对其数量化描述称为次数分布变异特性的度量或差异量数。中心位置相同的次数分布,其离散程度不一定相同。

对任何一个已知的次数分布,均可以计算出反映上述统计特征的量数。在教育与心理统计中,总体统计特征的量数称为参数,用希腊字母表示,如μ,σ2,ρ等;样本统计特征的量数称为统计量,用英文字母表示,如——总体算术平均数;N——总体容量;——第i次观测值。

(2)样本平均数

当无法对总体进行全面观测时,对于样本X,其算术平均数被定义为:

式中:——总平均数(或加权平均数);

——各组人数;

——各组平均数;

——总人数。

3.算术平均数的性质

(1)每一个观测值都加上一个相同常数c后,计算得到的平均数等于原平均数加上这个常数c。

(2)每一个观测值都乘以一个相同常数c后,计算得到的平均数等于原平均数乘以这个常数c。

(3)每个观测值都乘以一个相同常数c,再加上一个常数d后,计算得到的平均数等于原平均数乘以该常数c再加上常数d。

(4)观测值与平均数离差的总和为零。

(5)观测值与任意常数c的离差平方和,不小于观测值与平均数的离差平方和。

4.算术平均数的优缺点

(1)优点

反应灵敏;

确定严密;

简明易解;

计算简便;

有利于进一步的代数运算。

在统计实践中,如果一组数据比较准确可靠,且又同质,需要每一个数据都加入计算,同时还要作进一步的代数运算时,一般都使用算术平均数表示集中趋势。

(2)缺点

易受极端数据影响;

出现模糊数据时无法计算;

存在不等质数据时无法计算。

(二)几何平均数

1.适用条件

(1)一组数据中任何两个相邻数据之比接近于常数,即数据按一定的比例关系变化。

(2)当一组数据中存在极端数据,分布呈偏态时,算术平均数不能很好地反映数据的典型情况,此时应使用几何平均数或其他集中量数。

2.基本公式

  

式中:g

式中:——

式中:M0——众数;Mdn——中数;——平均数。

3.适用条件

(1)需要快速而粗略地寻求一组数据的代表值;

(2)一组数据中出现不同质的数据;

(3)次数分布中存在极端数值;

(4)利用平均数与众数之差表示次数分布是否偏态;

(5)粗略估计数据次数分布的形态。

4.优缺点

(1)优点

容易通过观察图表获得众数;

对于分类变量,众数是描述平均值的一个最好办法。

(2)缺点

不能充分利用数据提供的信息;

众数不稳定,受分组和抽样变动的影响;

不利于进一步的代数运算。

二、差异量数

描述离中趋势的统计量称为差异量数,差异量数包括平均差、方差与标准差等,可以用于度量次数分布的离中趋势。  

(一)平均差

1.含义

平均差是次数分布中所有原始数据与平均数距离的绝对值的平均,一般用符号AD表示。

2.计算公式:

——样本平均数;N——总体容量;n——样本容量;——离均差。

3.平均差的优缺点

优点

a.从平均的角度反映了各个数据偏离中心位置的整体差异程度,比较直观,容易理解;

b.以全体观测数据作为计算的依据,充分利用了数据提供的信息,能够反映全部观测数据变动情况和离散程度。

缺点

计算公式中带有绝对值符号,不便于进一步的统计分析。

(二)方差与标准差

方差与标准差是最经常用于描述次数分布离散程度的差异量数。

1.总体方差与总体标准差 

如果xi是就一个容量为N的总体的第i次测定,得到的观测是x1,x2,x3,…xN,那么,

σ2与σ是以总体作为研究对象,通过对被研究总体所含的N个元素进行全面观测而计算得到的。

2.样本方差与样本标准差

(1)计算公式

如果从被研究总体中抽取一个容量为n的样本,xi是这一样本的第i次测定,得到的观测是x1,x2,…xn,。,那么:

 

3.标准差的合成

方差具有可加性,在已知几个组方差或标准差的情况下,可以计算它们的总方差或总标准差。合成标准差时,只有在应用同一种观测手段,对不同样本的同一特质测量时才能应用。

合成公式:

 

式中:——样本平均数。

三、地位量数

地位量数是指原始变量在其所处分布中地位的量数,因为它相对于次数分布,故又称为相对地位量数,包括百分位分数、百分等级分数、标准分数和T分数等。

(一)百分位分数

1.含义

百分位分数是一种相对地位量数,它是次数分布中的一个点。把一个次数分布排序之后,分为100个单位,百分位分数就是次数分布中相对于某个特定百分点的原始分数,它表明在次数分布中特定个案百分比低于该分数。百分位数分数用表示。样本间相关程度的统计特征值用r表示。

(2)解释

相关系数的取值范围介于-l.O0至+1.O0之间,常用小数形式表示。

相关系数的正负号表示相关方向,正值表示正相关,负值表示负相关。

相关系数的绝对值大小表示相关的程度,其取值不同,表示相关程度不同。

a.相关系数为零时,称零相关,表示两列变量之间不具有线性相关;

b.相关系数为+1.O0时,表示两列变量之间完全正相关;

c.相关系数为-1.O0时,表示两列变量之间完全负相关。

完全正相关和完全负相关都称为完全相关,说明完全相关的两列变量之间实际上存在着一一对应的函数关系。

(3)注意

两个存在相关关系的事物,不一定存在因果关系。对存在相关关系的事物,可能的解释至少有以下两种:X是Y的因或果,X与Y均为第三个变量Z的因或果。

对存在相关关系的事物要进一步作出因果关系的解释,则必须进行相应的控制自变量—因变量实验。

相关研究提供了一种当人们难以对特定变量进行人为控制时,而对彼此间存在联系的事物进行经济的、广泛的研究的方法。

(二)常用相关分析方法及其计算

1.积差相关系数

(1)含义

积差相关系数又称积矩相关系数,由英国统计学家皮尔逊提出,也称皮尔逊相关,这是一种求直线相关的基本方法。

(2)适用条件

两列变量都是等距的或等比的测量数据。

两列变量所来自的总体必须是正态的或近似正态的对称单峰分布。

两列变量必须具备一一对应的关系。

(3)计算公式

2.等级相关

当测量得到的数据是具有等级顺序的测量数据;或者当得到的数据是等距或等比的测量数据,但其所来自的总体分布不是正态的。此时求两列变量或多列变量的相关,要用等级相关方法。

(1)斯皮尔曼等级相关

适用条件

a.适用于两列具有等级顺序的测量数据。

b.总体为非正态的等距、等比数据。

计算公式

a.利用对偶等级之差计算相关

式中:D=RX-RY——对偶等级之差;n——对偶数据个数。

b.利用原始等级序数计算相关

  

式中:Rx——X变量的等级;RY——Y变量的等级;n——对偶数据个数。

n——对偶数据个数;t——各列变量相同等级数;D——对偶等级差数。

(2)肯德尔W系数(肯德尔和谐系数)

肯德尔W系数又称肯德尔和谐系数,是表示多列等级变量相关程度的一种方法。

适用条件:

适用于两列以上等级变量。

计算公式:

    

式中:SSRi——Ri的离差平方和,

K——等级变量的列数或评价者数目;n——被评价对象数目。

当出现相同等级时,肯德尔W系数需要校正:

式中:

取值范围

当K个评价者对几件事物进行等级评定,

a.如果K个评价者的意见完全一致,此时的W=1;

b.若K个评价者的意见完全不一致,则SSRi=0,此时的W=0;

c.如果K个评价者的意见存在一定的关系,但又不是完全一致,则SSRi≠0。

因此,肯德尔W系数的变化范围为0≤W≤1。

3.质量相关

将一列变量按事物的某一属性划分种类,而另一列变量则为等比或等距的测量数据,这种情况下求得的相关,称为质量相关。

(1)点双列相关

适用条件

点双列相关适用于双列变量中一列为来自正态总体的等距或等比的测量数据,另一列变量为二分称名变量,即按事物的某一性质只能分为二类相互独立的变量。

计算公式

 

式中:

p——二分称名变量中取某一值的变量比例;

q——二分称名变量中取另一值的变量比例;

——等距(比)变量中与P对应的那部分数据的平均值;

——等距(比)变量中与q对应的那部分数据的平均值;

——全部等距(比)变量的标准差。

应用

点双列相关在教育与心理测量研究中常作为选择题的区分度指标。

(2)双列相关

适用条件

双列相关系数适用于两列变量均为来自正态总体的等距(比)变量,而其中一列被人为地划分为两个类别的数据。

计算公式

 

式中:

——等距(比)变量中与q相对应的那部分数据的平均值;

——全部等距(比)变量的标准差;

p——二分变量中取某一值的变量比例;

q——二分变量中取另一值的变量比例;

Y——标准正态曲线下p与q交界点的y轴高度(可查正态分布表得出)。

应用

双列相关在教育与心理测量研究中常作为问答题的区分度指标。