3.4.1 列联表分析简介

列联表是将观测数据按不同属性进行分类时列出的频数表。列联表分析常用于分析离散变量的名义变量和有序变量是否相关,在市场调查和分析中具有广泛的应用。

SPSS的交叉表分析过程可以对计数资料和某些等级资料进行列联表分析,并对二维和多维列联表资料进行统计描述和卡方检验,并计算相应的百分数指标。此外,SPSS的交叉表分析过程还可以进行费希尔精确检验、对数似然比检验等统计检验并输出相关的统计量。下面是在列联表分析中用到的一些统计量。

(1)总体分布检验时的卡方检验统计量。计算公式如(3-11)所示:

式中k为子集个数,fi为落入第i个子集的实际观测值频数,Ei是落入第i个子集的理论频数,它等于变量值落入第i个子集的频率pi(按照假设的总体分布计算)与观测值个数n的乘积Ei=npi,如果分布的假设为真,则统计量χ2服从自由度为k-1的卡方分布。注意:一般要求Ei大于5,如果不满足要求,可以与相邻子集合并。

(2)列联分析中的卡方检验统计量。计算公式如(3-12)所示:

式中k为列联表行数,为列联表列数,Fij为观测频数,Eij为期望频数。如果行列间的变量是相互独立的,则统计量χ2服从自由度为(k-1)(r-1)的卡方分布。

(3)似然比统计量。似然比卡方统计量适用于名义尺度的变量,其统计量公式为(3-13):

式中的字母含义同卡方统计量。当样本很大时,与卡方统计量接近,检验结论与卡方检验是一致的。

(4)列联系数。列联系数适用于名义尺度的变量,其统计量公式为(3-14):

χ2含义见卡方检验统计量,n为样本容量。列联系数趋于1时,两类变量相关程度越好。

(5)phi系数。phi系数适用于名义尺度的变量,其统计量公式为(3-15):

phi系数是对χ2统计量的修正。