第三节 两组发病率的比较

在肿瘤预防工作中,常设立干预组和对照组,收集两组在观察期内的相关病例,计算两组的人年发病率,并进行统计学检验,以便对干预效果做出评价。下面介绍两组发病率比较的统计学假设检验方法。

1.正态近似法检验

设两组人群的粗发病率分别为 q 1q 2

式中 D iW iq i(i = 1,2)分别为两组的实际发病人数、观察人年数和人年发病率。在假定独立服从Poisson分布条件下,两个率之差的方差为各自方差之和,即

其中λ是两个总体的公共率,在零假设条件下的λ的估计值q'的计算公式为:

得到两个率之差的方差估计值的计算公式为:

用正态近似法得到假设检验的公式为:

统计量Z渐近服从标准正态分布。如果Z>1.96,则以Ⅰ类错误α≤0.05概率拒绝 H 0E(q 1)= E(q 2),接受备择假设: H aE(q 1)≠ E(q 2)。
当对比的是两个标准化率时,需要考虑标准人口结构 S x。这时式(11-29)的方差计算公式改写为:

式中的下标x表示年龄组,S x是标准人口构成比例,用小数表示,有 。可进一步考虑每一年龄组的两个率之差的方差,将(11-31)式应用于每一年龄组,并考虑标准人口结构 S x,得到两个标准化率之差的精确方差的计算公式为:

例11-6表11-10为Zaragona和Geneva两地区5年观察的胃癌病例数和观察人年数。用当时推荐的世界人口结构经直接标准化的标准化发病率Zaragona为 q1 = 56.82/105,Geneva为q 1=43.52/105。
用公式(11-29)计算的方差为:

两个率之差的检验统计量Z为:

本例的统计量 Z = 2.89,大于标准正态分布的临界值 Z 0.05/2= 1.96,拒绝无效假设,故可认为两地的胃癌发病率的差别具有统计学意义。
表11-10 西班牙Zaragona和瑞士Geneva两地区5年观察的胃癌病例数和观察人年数以及当时推荐的世界人口结构
资料引自 Statistical methods in Cancer Research Volume IVDescriptive Epidemiology by J. EsteveE BenhamouandL. Raymond. *年世界人口结构中的截断部分,并作归一化处理(即其和为1.0)

2. Mantel-Haenszel检验法

常常两条分年龄组的发病率曲线相互分离,即一个人群的各年龄组发病率在另一个人群的各年龄组发病率的上面或下面,很少交叉。图11-4的左图是两个地区的人年发病率曲线,可见随年龄增加其差距有逐渐扩大之势。如果绘成对数曲线,除低年龄组外,两条曲线比较平行(图11-4的右图)。
图11-4 两条分年龄组的发病率曲线比较
Mantel-Hannszel检验的基本思想是在两个人群的各年龄组发病率之间成比例的条件下,检验两组发病率是否相等。无效假设为两组发病率相等,备择假设为两组发病率不相等。检验公式为:

式中 D i为用于对比的两个人群之一的实际发病总数, E i为其期望发病总数。 VarD i- E i)为差值的方差。
设两人群x年龄组的合计观察人年数 W x= W 1x+ W 2x,合计的发病人数 D x= D 1x+ D 2x。在发病率相等的假设条件下,某一人群中x年龄组的期望发病人数按其观察人年数的比例分配。在此假定条件下,第i(i =1,2)人群中x岁年龄组的期望发病人数的计算为:

该人群的期望发病总人数为:

D i- E i)的方差Var( D i- E i)为:

例11-7 用Mantel-Haenszel检验法对表11-10 Zaragona和Geneva两地区5年观察的胃癌发病率比较的假设检验步骤列于表11-11中。表中最后一列列出了Zaragona地区的胃癌发病人数。
表11-11 Zaragona和Geneva两地区5年观察的胃癌病例数和观察人年数以及当时推荐的世界人口结构
将表11-11底部合计行中的相应值代入式(11-33)中得到统计量 Z

由于Z =2.90>Z 0.05/2=1.96,差别有统计学意义,故认为两个地区的胃癌发病率水平不一致,Zaragona地区高于Geneva地区。
从以上检验过程看出,当年龄组观察值与期望值之差的符号不一致时,合计的差值减小,使得检验效能偏低。如果一个人群的发病率在年轻阶段时偏低、而在老年阶段时偏高,即存在交叉现象时,这一检验方法可能检验不出具有统计学意义的差异。

3.相对危险度比较 1)按年龄段的相对危险度比较:

为了评价两个地区的发病水平的高低,可以按年龄段计算相对危险度:

式中的x表示x年龄段。分年龄段的 RR x排除了年龄的干扰,可以准确反映在同一年龄段内的两组人群发病率的对比情况。分年龄段的 RR x的假设检验用卡方检验法.考虑到分年龄段的期望发病数可能较少,可采用Yates卡方检验的校正公式为:

该卡方统计量近似服从自由度为1的卡方分布。
例11-7资料,计算结果列于表11-12最后一列。从校正卡方值分析,只有第8组(70~年龄组)的差别具有统计学意义。但总的趋势是Zaragona地区的发病率高于Geneva地区。
也可以在假定服从正态分布条件下,用Z检验,其检验公式为:

表11-12 Zaragona和Geneva两地区5年观察的胃癌发病率比较的校正卡方值计算结果

2)两个人群的总体相对危险度比较:

当需要对两个人群的总体发病率作比较时,需要计算综合的相对危险度。为了排除年龄的干扰,Mantel和Haenszel提出了一种年龄加权的综合相对危险度计算方法,其公式为:

例11-7 资料,计算Mantel和Haenszel年龄加权综合相对危险度的过程列于表11-13。
表11-13 Zaragona和Geneva两地区5年观察的胃癌发病率比较的Mantel和Haenszel相对危险度计算结果
按式(11-40)得到综合的相对危险度估计值为:

相对危险度的对数值log( RR)的近似方差计算公式为:

式中的分子中的元素 VarD 1x)的计算为

计算过程列于表11-14中。
表11-14 Zaragona和Geneva两地区5年观察的胃癌发病率比较的Mantel和Haenszel相对危险度的方差计算
续表
从表11-14得到相对危险度的对数值log( RR)的近似方差估计值为:

相应标准误为:

相对危险度的95%置信区间的估计为:

本例的相对危险度的95%置信区间的估计为:

(1.3047exp(-1.96×0.0832),1.3047exp(1.96×. 0832))

即(1.1083,1.5359)

4.两类人群发病率的比例性检验

当两类人群的各年龄组的发病率成比例时,其相对危险度为常数。用年龄组发病率的对数绘制的图形可见两条曲线表现出等差关系。这里介绍两种卡方检验法,从概率角度判断这两类人群各年龄组的发病率是否成比例。

(1)普通卡方检验法:

在各年龄组相对危险度为常数的假定下,第二个人群中x年龄组的期望发病数为λ 2x W 2x和第一个人群中x年龄组的期望发病数为ρλ 2x W 1x。这里λ 2x为x年龄组的第二组人群的理论发病率,ρ为两类人群发病率比例常数,即相对危险度。可以把x年龄组的发病总人数D x在第一个人群中的分配看成一个二项分布随机变量,表示为:

D1x~B(Dx,π1x

式中:

因此,在比例假设条件下,第一组人群的x年龄组的期望发病数和方差分别为:

如果常数相对危险度的假设不成立,则可以观察到某些年龄组的观察值与期望值之差较大,可用卡方检验法对这种差值加以检验。检验公式为:

卡方值 服从自由度ν= g -1的卡方分布。
例11-8对例11-3:西班牙Zaragaza(Z区)和瑞士Geneva(G区)两地的男性胃癌1973 -1977年间的年龄组发病率所作的比例性假设检验结果列于表11-15中。
总体相对危险度的估计值  RR(ρ )=1 . 3047
表11-15 Zaragona和Geneva两地区5年的年龄组胃癌发病率比例性假设检验的计算
差值之和应为0,这里的合计数为-0.1074,系舍入误差。
从表11-15的最右一列得到卡方值为:

X2=(4.9621 +2.0817 +…+0.4285)=9.8960

本例8个卡方分量之和为9.8960,自由度为8 -1 =7,小于临界值 ,故不能拒绝两类人群发病率的比例性假定。

(2)趋势卡方检验法(trend test):

当两个人群各年龄组间的发病率轻度偏离于比例性时,上述具有(g - 1)自由度的普通卡方检验公式(11-46)不很敏感。这时可采用Armitage单自由度趋势卡方检验。它是观察值与期望值之差的加权卡方统计量。设 T为年龄组差值的加权和:

式中c为年龄组权重赋值,在假定两条曲线之差为线性条件下,c即为年龄组序号。 T的方差为:

式中 VarD 1x;π 1x)为第一组人群第x年龄组的实际值与期望值之差的方差(见(11-45)式:
卡方检验公式为:

该卡方值X 2服从自由度ν=1的卡方分布。
例11-9 对例11-3 Zaragona和Geneva两地区5年观察的胃癌发病率作趋势检验的过程列于表11-16中。
表11-16 Zaragona和Geneva两地区5年观察的胃癌发病率发病率Armitage趋势检验的计算
对本例资料,从表11-16中得到

由于卡方值小于自由度为1及 的卡方值3.84,不拒绝两组发病率之差成比例的无效假设。