第一节 发病水平的测定

肿瘤预防的基础工程就是要了解肿瘤的发病或死亡水平,这就需要有测定肿瘤发病或死亡水平的方法。因为只有准确可靠的测定方法才能准确识别促进或抑制肿瘤发生的因素。从统计学角度考虑,需要有一个测定指标能作为一个个体发生肿瘤概率的无偏估计值。目前很多地方都建立了肿瘤发病或死亡报告制度,医院诊疗登记制度和病历,以及各种专项调查研究资料,为对肿瘤发病检测和评价提供了的非常宝贵的资料来源。但由于资料的来源不同,所计算出的有关反映肿瘤发病水平指标的概率意义也不相同。我们将介绍在肿瘤防治工作中常用的一些指标的计算方法以及它们的概率意义。以肿瘤发病为例,根据资料来源和分析目的要求,介绍有关发病水平指标的计算方法以及它们的概率意义。

1.发病频率

设有一个固定的队列研究人群,在研究期内保持人数不变。用N表示期初进入队列的观察总人数,经过若干年( T年)的观察期,在观察期内共发生肿瘤新病例 D例。可以计算肿瘤在该人群中在 T年内的总发病频率为:

由于肿瘤的发病水平较低,为了阅读方便,可以将总发病频率用千分为分母(‰,10 -3)或用10万为分母(10 -5)表示。
总发病频率是一个个体在期间 T年内发生肿瘤的概率的无偏估计值。总发病频率的统计学英文名称为frequency或relative frequency,医学术语为incidence。
总发病频率是一个粗估计值,或称总发病水平,描述这一固定队列人群在整个观察期内的发病水平,或估计该队列人群中每个个体在观察期内的肿瘤发生危险度。
由于肿瘤发病与年龄的关系很大。为了反映不同年龄组的发病水平,可以将队列人群和发病人群按年龄段分为多个年龄组,计算不同年龄组的发病水平或年龄组发病频率。相对于总发病水平来说,年龄组发病水平是一种条件发病水平,因为它是特指某一年龄组的发病水平。

为了反映不同时间段内的发病水平,可以将总观察期T分为若干个小区间,例如分为年,计算每年的发病水平。计算公式为:

也可以按其他人口学特征或职业等指标计算分组的发病频率。

2.发病率

由于很难将该队列人群在整个观察期内保持稳定,不易计算年发病频率。在实际工作中,常将年发病频率计算指标中的期初进入队列的观察总人数N改为每年年中(或年平均)观察人数 n来计算发病率,得到年发病率的计算公式为:

由于年发病率包含了时间因素,从概率角度分析,这种年发病率属于速率型或密度型的指标,在概率论中的英文表达为density,英文的医学术语为rate。我们在各种年报上见到的年发病率就是以年平均人口数计算的,属于速率型指标。
如果时间t为一连续函数,用一个数学函数f(t)代表年发病率,用 FT)表示发病概率,可将两者的关系用积分式表达为:

式中 F(0<t≤ T)= FT)。
在实际工作中都是将连续时间t切割为若干个时间段(例如 K个时间段)后再计算每一段内的发病率的。如年发病率就是如此。这时不能用上面的积分公式将这种区间概率转换为发病频率,要用概率乘法原理来计算发病频率。
设在第 t个年份时间段的年发病率记为 p t,则其年不发病率为1 - p t。一个个体经历从区间t =1直到区间 K都不发病的概率S K用下式计算为

反过来说,一个个体经历区间从 t =1直到 K为止的发病概率的计算公式为:

式中的t表示时间区间号,它是一个离散值。 P KFT)的估计值。

3.人年发病率

在肿瘤预防试验的队列研究中,通常观察的时间较长,往往持续数年、十数年、甚至数十年。在这个期间内由于观察对象的流动(加入或退出),各人所受的观察时间长短不一,不便计算以人数为分母的年发病率。这时采用暴露人年为分母,用发病人数为分子计算人年发病率。每人暴露1年就是1人年。1人暴露10年或10人每人暴露1年都计算为10人年。人年发病率的计算公式为:

式中m为人年发病率, D为观察期内的新发病人数, W为观察总人年数。这是一个平均指标。也可以和年发病率一样,将观察年份分为不同的时间段,计算每一段内的人年发病率。例如分为 K段,在第t段内的新病例数为 D t,观察总人年数为 W t,则第t年的人年发病率计算为

人年发病率m t的概率含义是表示瞬时密度(instantaneous density)或瞬时速率,在假定服从指数分布条件下,它与年发病率p t的关系可表示为:

pt=1 - exp(- mt×Δ(t))

(11-8)

式中Δ(t)表示在第t个区间的时间跨度,通常定为Δ(t)=1。再用式(11-5)计算累计发病概率P K
例11-1假设有一个临床疗效观察的队列研究资料,观察终点为复发。用图(图11-1)表示整个队列病例的进出情况如下:
在1985年初有3名病人进入观察,第1例观察两年半后疾病复发,他贡献的人年数为2.5人年和一个复发事件,第2例贡献的人年数为3.5人年和1个复发事件,第3例贡献1.5人年和1个失访事件。第4例和第5例都于1986年初加入队列,分别贡献1.5人年和4.0人年和2个失访事件。将12例观察对象按观察起点重新排列的结果列于图11-2中。
将区间跨度定为1年、即Δ(t)=1,对例11-1资料计算的每个区间的人年数、各区间人年发病率、区间(年)发病率、以及累积发病概率的计算结果列于表11-1中。
表11-1中第(6)列中的各区间人年发病率的计算如:

m1=1/11.0 =0.091,m2=1/8.5 =0.118

区间(年)发病率的计算如:

p1=1 - exp(- m1)=1 - exp(-0.091)=0.087

p2=1 - exp(- m2)=1 - exp(-0.118)=0.111

用公式(11-5)将区间(年)发病率转换成从观察起点开始直至区间t截止时的累积发病概率 P K的计算结果列于该表的第(7)列中。
例如:

图11-1 日历年
图11-2 追踪年数
表11-1 例11-1资料计算人年发病率
注:表中第(8)列的累积发病概率 P K中的下标 K为累计区间。如 K =2表示区间 t =1及区间 t =2的长度之和。
从这个随访资料得到一个病人从随访开始到满4年的复发概率估计值为0.675。即在此随访期内复发的可能性为67.5%。

4.年龄组人年发病率(age-specific person time rate)

在实际工作中,许多疾病的发病率与年龄关系密切。在一个持续较长时间的追踪研究中,观察对象的年龄随观察时间的延续而增大。如图11-3所示。
图11-3 观察对象的年龄随观察时间延续而增长的情形(+:发病)
从图11-3看出,观察对象1在1980年初进入观察,当时是30岁,追踪至1988年中,38.5岁发病。他对30~34岁年龄组及35~39岁年龄组分别贡献5人年及3.5人年,并在后一个年龄组贡献一个病例。观察对象2在1983年初30岁时进入观察,到1989年底观察结束时为37岁,对30~34岁及35~39岁两年龄组各贡献5及2人年。观察对象3在1980年初34岁进入观察,至44岁时观察结束,对30~34、35~39及40~44岁3个年龄组各贡献1、5及4人年。观察对象4在1980年初38岁进入观察,1986年44岁时发病,对34~39岁及40~44岁两个年龄组分别贡献2及4.5人年,并在后一个年龄组贡献一个病例。根据图11-3中4名观察对象的资料整理的分年龄组的人年数及计算的人年发病率列于表11-2中。
表11-2 按年龄组人年发病率

5.年龄组-年代人年发病率

当观察例数较多时,还可以按年龄-年代二维分组计算人年数及人年发病率。例如,图11-3的资料按年龄-年代二维方式分组后计算的人年数可由表11-3表示。不难看出,每一横行之和便是单纯按年龄组计算的人年数,即表11-2中的第2列。用同样的方法计算出二维表每一格子中的发病人数后就可计算每一格子的人年发病率。如在职业病研究中由于不同年代的作业环境不同,暴露强度不同,发病率也不同,这时需用二维表分析方法才能更清晰地揭示出不同年代的发病率变化情况。
表11-3 按年龄-年代计算人年数与发病人数

6.人年发病率估计值的置信区间估计 (1)人年发病率估计值的方差:

通过随机样本计算的人年发病率m是期望人年发病率λ的估计值。m的计算式中分母为观察人年数 W,可视为一个非随机变量;分子为新发病人数 D是一个随机变量。因此,人年发病率估计值的精确性只取决于新发病人数 D。假定 D服从理论发病率为λ的Poisson分布,则新发病人数的期望值 ED)为:

E(D)=μ=λW

根据Poisson分布的性质,新发病人数 D的方差为

Var(D)=λW

(11-9)

从而得到人年发病率估计值m = D/ W的方差为

用λ的估计值 m = D/W代入上式,得到人年发病率估计值 m的方差估计值 varm)为

从而可以构造出人年发病率m及发病人数 D的1 -α水平的置信区间。

(2)发病人数D的1 -α水平的置信区间估计:

设置发病人数 D的1 -α水平的置信区间的下限为μ L、上限为μ U,在已知 D的分布条件下,可用下面的理论公式来估计发病人数 D的1 -α水平的置信区间:

P(X≤D|μU)=α/2;P(X≥D| μL)=1 -α/2

式中α为Ⅰ类错误的概率。
按Poisson分布,在期望发病人数为μ条件下计算不同发病人数出现概率的计算公式为:

D较大(例如大于50)时,可假定m渐近服从均值为λ、方差为 的正态分布,故有

由此得到人年发病率λ的100(1 -α)%置信区间为:

通常取α=0.05,双侧标准正态分布的界值 Z 0.05/2=1.96。
例如,对100 000人口追踪3年,共发生60例癌症新发病例。则该人群的癌症人年发病率为:

q =60/(100 000×3)=20.0/100 000

即每100 000观察人年发生20例新病例。m的估计方差

由此得到人年发病率m的100(1 -0.05)%置信区间为:

其95%置信区间在(14.94/100 000,25.06/100 000)之间。相当于新发病人数在44.82~75.18之间。用Poisson分布计算出新发病人数的精确95%置信区间在45.78~77.23之间(表11-4)。两种估计方法的差距很小。但当观察病例数较少时,两者间的差距较大。故当观察病例数小于50时,建议用Poisson分布精确95%置信区间。
表11-4 观察病人数的Poisson分布精确95%置信区间
续表