第四节 时间趋势模型

上面介绍的单因素分析方法适用于简单设计的资料分析。但由于肿瘤发病的潜伏期很长,无论是致癌因素的作用亦或干预措施的作用都需经历一段较长时间才能显示其后果。因此,在肿瘤防治效果的评价中,往往需要分析发病率的时间效应。这种时间效应包括年龄效应、观察时间效应和出生年份(队列)。

1.时间趋势模型(models of time trend)

N(t 0)和 N(t 1)表示在时间t 0年和t 1= t 0+ n年的发病人数,在n年中总增长(或下降)率为

用r表示年增长(或下降)率,则有:

N(t1)= N(t0)(1 + r)n

(11-51)

或表示为:

用对数表示为:

对等式两边取反对数得到:

式中的 为斜率。
当r较小时,由于Log(1 + r)≈r,可以把(11-54)式近似地写为:

即把连结两个时点发病数的对数的直线的斜率近似地看为平均年增长率。以上用发病数计算的结果也可以用于其他发病率或死亡率指标。
当在干预年份内的发病例数为已知,并且这两个时点的发病率的对数为线性关系时,发病率的增量可以用直线的斜率来估计。
例11-10 表11-17列出了美国六个年份区间的男性肺癌死亡率资料,用log(rate)绘制的线图见图11-5。
表11-17 美国六个年份区间的男性肺癌死亡率资料
资料引自Estève J,Benhamou E,Raymond L. Statistical methods in Cancer Research VolumeⅣ:Descriptive Epidemiology. International Agency for Research on Cancer Lyon,1994
图11-5 美国六个年份区间的男性肺癌对数死亡率曲线
从图11-5可见,发病率对应于时间呈曲线关系,用Poisson回归模型配合发病数与时间序号的二次型回归,模型结构为:

式中μ为期望值。用Poisson回归模型配合的结果列于表11-18中。
表11-18 参数的最大似然估计结果
观察死亡数( D)与期望死亡数(μ)列于表11-19中。
表11-19 观察死亡数与期望死亡数比较
用观察死亡数与期望死亡数所绘图形列于图11-6中。

2.年龄-期间模型(age-period models)

模型(11-57)是一个时间趋势模型,描述在不同时间区间的发病情况。当资料允许时,可进一步对年龄进行分组,用发病率对数(log( P)与年龄组(age)和观察年度(year)建立线性关系。年龄-期间模型的结构为:
图11-6 观察死亡数与期望死亡数(Poisson回归)所绘图形比较

式中a agex为x年龄组的参数,β yeary为观察年份为y的参数。age x和year y的赋值规则为:当年龄组为x时,age x=1,否则age x=0;当观察年份为y时,year y=1,否则year y= 0。下面举例说明年龄-期间模型的分析过程。
例11-11 表11-20中的《观察资料》部分列出了英国伯明翰地区膀胱癌的每100 000人年发病率。资料共分为4个观察期:1960—1962年、1963—1966年、1968—1972年和1973—1976年。每个观察期内有11个年龄组的发病率。
表11-20 英国伯明翰地区膀胱癌每100 000人年发病率及模型配合结果
资料引自 Statistical methods in Cancer Research Volume IVDescriptive Epidemiology by J. EsteveE BenhamouandL. Raymond.
用每个观察期的11个年龄组的发病率所绘制的图形见图11-7,从图中可见,从观察期分析,1968—1972年及1973—1976年的分年龄组人年发病率高于1960—1962年及1963—1966年的分年龄组人年发病率。从年龄组分析,发病率都有随年龄增大而上升的趋势,而且在40岁以后其上升的速度加快。
图11-7 英国伯明翰四个年份区间的膀胱癌年龄组发病率比较
用Poisson分布广义线形模型配合的结果列于表11-20的右侧两列中和底部两行中。由于给定1960年为参照组,故其他各年份的参数估计值的指数即exp(β year)为与基准观察年份相比较的相对危险度。例如,1963—1966年的发病率水平与1960—1962年的发病率水平比较的相对危险度为1.06(倍)或106.0%,即1963—1966年的发病率水平比1960—1962年的发病率水平高出6.0%。
用参数估计值可计算出不同年份中各年龄组的期望发病率。如1968—1972年50~岁组的期望发病率用上面公式计算为:

(15.56/100000人年)×1.53 =23.81/10万人年

3.年龄-队列模型(age-cohort models)

上面第2节中的年龄期间模型是把在不同期间的人群作为独立群体看待的。实际上队列人群是在时间上延续的。在早期观察的较年轻的人群,在后期观察时就成为较年长的人群。例如在1950年为30岁的人群,到1980年就为60岁。这个人群所接触的致癌环境是1950—1980年。另一个人群1970年为30岁,到2000年为60岁,这个人群所接触的致癌环境是1970—2000年时代。同为60岁的两个人群的发病率的比较,反映出不同年代的致癌环境的差别。表11-21列出了某地恶性黑色素瘤五个时期的年龄组发病率(/10万人年)。从该表可见,不同时期的同一年龄组人群恶性黑色素瘤发病率是不相同的。例如,观察期在1960—1964的30岁~年龄组为3.1/10万人年,而观察期在1980—1984的30岁~年龄组为11.71/10万人年。其他年龄组的发病率也显示出类似特点。反映出致癌物质在不同时期的强度变化。
当把该队列研究资料按平均出生日期和观察期年龄分类时,就构成出生日期与队列年龄表列于表11-22中。
表11-21 某地不同观察时期恶性黑色素瘤发病率(每10万人年)
资料引自 Statistical methods in Cancer Research VolumeⅣ: Descriptive Epidemiology by J. EsteveE BenhamouandL. Raymond.
表11-22 表11-21 资料按出生日期和观察期年代计算的年龄与发病率(1/10万人年)
用表11-22的资料按观察年份的各年龄组发病率所绘图形列于图11-8中。可见同一年龄组比较,愈趋近代,其发病率愈高。
图11-8 不同观察年份的各年龄组发病率曲线
当按出生年代与年龄组分类绘制的图形见图11-9。
图11-9 按出生日期和观察期年龄分组的人年发病率曲线
从图11-9中可见,同为50~59岁年龄组的发病率,1905—1909年出生者为最低(4.36/10万人年),1925—1929年出生者为最高(22.30/10万人年),反映出20年间致癌物作用强度的增加。
用年龄与出生队列配合回归模型

式中a agex为x年龄组的参数,β brth_yrz为出生年份为z的参数,都是(0,1)分类变量。Age x的赋值规则与(11-57)式相同,brth_yr z的赋值规则为:当出生年份为z时,brth_ yr z=1,否则brth_yr z=0,用年龄为25~29岁(age25)和出生年份为1885年(Byr1885)为参照组。
用Poisson分布广义线形模型配合的结果列于表11-23中。
模型(11.58)中的参数估计值的指数即exp(β yearx)即为出生年份year x与参照组相比较的相对危险度。
表11-23 用表11-22 资料配合公式(11-58)的计算结果
从表11-23倒数第2列的假设检验结果分析,年龄组25~44岁之间的差别无统计学意义,自45岁以后各组的发病率与25~29岁组的差别均有统计学意义。从出生年份看,与1885年水平比较,1900年以前的几个组之间无统计学意义,1905—1935年之间的差别有显著统计学意义,1940—1950年的3个组无统计学意义。从该表最后一列的相对危险度可见:40岁以后相对危险度开始上升,55岁以后则以曲线形式上升;从出生年份看,1885—1930年间呈上升趋势,而在以后则逐步下降。

4.年龄-期间-队列模型(age-period-cohort model,APC模型)

年龄-期间-队列模型,亦称为APC模型,是一种特别的统计分析技术,适用于分析同时按照年份和年龄统计的数据。作为一种高级统计学分析方法,APC模型常常用来分析肿瘤发病或死亡的时间趋势。年龄别肿瘤的发病率或死亡率一般按每5岁一个年龄组统计。如果有多年的统计数据,而且也是每隔5年有一次统计,这种统计资料适合运用下列年龄-期间-队列模型进行分析:

log(λxtc)=αxtc

(11-59)

式中λ xtc为出生于c年,年龄为x,在年份t时的肿瘤发生或死亡率;模型参数α x、β t 和γ c分别代表年龄、期间和出生队列对肿瘤发生或死亡率的影响。APC模型就是要通过观察的数据,来估价这些模型参数。
APC模型的长处在于把一组观察到的年龄别肿瘤发生或死亡的时间趋势同时分解成三个有明确流行病学意义的成分:年龄效应α x,期间效应β t,和出生队列效应γ c。年龄效应α x反映个人随年龄增长,包括因累积暴露和人体生物学改变所致的肿瘤发病或死亡的风险变化;期间效应β t反映在某一时点(如核泄漏)或期间(如开展某种有效的肿瘤预防活动,如戒烟运动、大范围使用电冰箱、或工业化导致的污染等)的重大影响因素,能够改变所有不同年龄段人群的肿瘤发病或死亡的风险;由于期间效应的原因,不同年份出生的人暴露于肿瘤发病或死亡的风险的年龄和暴露的程度也就不同,这就是所谓的出生队列效应γ c
举例说明,自20世纪50年代起,在美国大量使用冰箱。人口的肿瘤的发病和死亡随之开始逐步下降(保护作用)。这种保护作用其中就包括有出生队列效应的成分。显然,从流行病学的角度来看,50年代之前出生的人,出生年份越早,开始得到冰箱保护的年龄也就越晚,受益于冰箱保护的期间就越短。与一个在年轻时就得到保护的人比较,这种保护效应对年龄很大的人来说,将是十分有限的。因为多年的暴露,年龄较大的人或许已经是肿瘤的中晚期了,因而也就无所谓保护了。反之,50年代之后出生的人,一出生就可能得到使用冰箱的益处。再如,中国开始于80年代工业化,80年代后出生的人一出世就暴露于工业污染,而80年代以前出生的,只在80年代起,开始暴露于同样的工业污染。
APC模型虽然从理论上十分诱人,而且在流行病学方面应用也很广泛,包括对肿瘤的流行病学分析。然而,该模型有一个至今还没有完全解决的问题:多重共线性。在三个自变量,年龄(x)、期间(t)、和出生队列(c)中,知道两个,第三个就确定了:x = t - c。因此,上述标准的APC模型没有确定解。不少学者花费很多精力,设法从数学和统计学的角度来破解这一“难题”,虽然颇有进展,但都不尽如人意。要么算法太繁杂,使用不便;要么对原模型扩展后再解,结果失去了原模型的简要,而且结果的解释也差强人意。随着对年龄、期间以及出生队列效应的流行病学意义的认识的加深,APC模型的解也有了些新进展。
首先,从前面的讨论不难看出,年龄效应和期间效应是相对独立的。什么时期发生什么对肿瘤有重大影响的事件(如核泄漏、工业革命导致大范围污染、大规模使用电冰箱)不会与我们的年龄增长有什么特别的关系。而出生队列效应,如果存在的话,从流行病学的角度可以看作是年龄效应与期间效应相互作用的结果。出生年份不同,对于某一时点或期间的风险暴露的年龄(时机)和累积暴露的长短(程度)也就不同。这一流行病学理解,给我们提供了解APC模型的理论基础。如果假设年龄效应和期间效应是独立的,我们可以先将观察到的肿瘤发病或死亡的数据配合一个年龄-期间(AP)模型(见4.2节)。

log(λxt)=αxt

由于我们假设年龄与期间是相互独立的,因此上述AP模型不存在共线性问题,因而有确定的解,这就给分析队列效应创造了条件。
如果将观察的肿瘤发病或死亡的数据配合一个年龄-期间模型,然后用模型估计的率和实际观察的率来计算二者的差,即残差u xt或写为u c,表示为:

式中λ xt为观察发病率, 为估计发病率,u c为残差。如果有队列效应存在的话,它必然包含在残差里(注意,这里残差 u c的下标由 xt变成了 c,表示对把由年龄-期间模型得到的残差按照出生队列进行重新编排)。这样一来,问题就简化为如何检出隐含在u c里的队列效应了。事实上,有很多方法可以帮助利用残差来判断是否存在出生队列效应。最直观的方法就是把计算出的残差对应出生年份作散点图。如果残差随出生年份变化之间没有什么明显趋势,则表示缺乏出生队列效应;反之,则预示出生队列效应的存在。因此,分析出生队列的影响就简化成为通过适当的统计模型,来建立年龄-期间模型残差与出生年份之间的关系,从而得到出生队列效应的解:

ucc+ ec

(11-61)

式中, e c为误差项,γ c代表出生队列效应。
例11-12 年龄-期间-出生队列分析实例(一)
以表11-21某地不同观察时期恶性黑色素瘤发病率数据为例进行APC模型分析。
第一步,数据准备:将9个年龄组(30~34到70~74)和5个年代期间(1960—1964年到1980—1984年)每一个都分别定义成(0,1)变量。利用所定义的变量和相应的发病率作为数据由程序读入。
第二步,由于肿瘤发病率很低,运用Poisson回归广义线形模型配合AP模型。在模型中,把第一个年龄组(30~34岁)和第一个年代(1960—1964年)设为参照点。恶性黑色素瘤的发病率为1/10万人年。表11-24列出了配合AP模型的参数估计值及其假设检验结果, RR为相对危险度的估计值,是参数估计值的指数变换值。
从表的上半部的年龄组参数估计结果可以看出,恶性黑色素瘤的发病风险有一定的年龄趋势。以30~岁为参照,50岁以前随着年龄的增长,黑色素瘤发病的风险逐步增加,45~岁组的发病风险达峰( OR = 1.82);50岁以后,发病的年龄风险下降,RR维持在1.47~1.58水平;到了70~74岁组,发病的风险又上去了( RR =1.81)。
从表的下半部期间估计值可以看出,恶性黑色素瘤发病风险从1960—1964年到1980—1984年的20年间呈现逐年递增趋势。以1960—1964年为参照,到1980—1984年,恶性黑色素瘤发病率的相对危险度为 RR =4.05,即危险度增加了3倍多(4.05 -1 =3.05)。
表11-24 用AP模型分析恶性黑色素瘤发病风险的年龄(30~34岁组为参照点)和期间效应(1960—1964年为参照点)
注明:α x:年龄效应;β t:期间效应; SE:标准误; RR:相对危险度, RR = exp(α x)或 RR = exp(β t)。
第三步,出生队列效应的散点图分析:完成了AP模型分析,就为出生队列分析创造了条件。运用第二步的年龄期间模型分析,得到AP模型估计的恶性黑色素瘤发病率与观察值之差,即残差。然后,将残差与出生年份作散点图(图11-10)。
图11-10 用AP模型分析恶性黑色素瘤发病率的残差图
从图11-10中可以看出,虽然在不考虑出生队列的情况下,残差是以零为中心近似正态分布;但是对于不同年代出生的人,残差的分布却表现出一定的趋势,意味着似乎有出生队列效应的存在。恶性黑色素瘤发病的风险对第一个出生队列(1885—1994年间出生)很高,然后有一个下降趋势,接着又缓慢上升,最后又慢慢逐步下降。
第四步,出生队列效应的统计学分析。选择第六个出生队列(1910—1919年间出生的人)为参照,因为该队列的残差接近于以零为中心分布。表11-25列出了用Poisson回归广义线形模型分析发病率残差与出生队列效应的参数估计结果。尽管估计的效应(包括回归系数γ c和相应的 RR值)能够反映出生队列与恶性黑色素瘤发病风险的关系,但是Wald卡方检验所有的系数都不显著,说明恶性黑色素瘤发病率的出生队列效应不具有统计学意义。
表11-25 恶性黑色素瘤发病风险的出生队列效应的参数估计结果
注明:γ c:出生队列效应; SE:标准误; OR:比数比, OR = exp(γ c)。
例11-13 年龄-期间-出生队列分析实例(二)
数据来源,法国男性肺癌死亡资料(表11-26)。从1978—1982到2003—2007共6个观察期间(第六个期间的数据是根据前面观察到的数据估计的)。这6个期间分别以1980年、1985年、1990年、1995年、2000年和2005年为中心。死亡率(1/10万人年)按照每5岁一个年龄组统计,我们运用了从20~岁组到90~94岁组共15个年龄组的数据。
表11-26 法国1978—2007年男性肺癌每10万人口年龄别死亡率
(2003—2007年数据为模型预测值)
资料来源:Eilstein D,Uhry Z,Lim TA,et al. Lung cancer mortality in France Trend analysis and projection between 1975 and 2012,using a Bayesian age-period-cohort model. Lung Cancer,2008,59:282-290
按照前面例11-12年龄-期间-出生队列分析实例(一)介绍的步骤和分析方法,
第一步:将数据编码;
第二步:用Poisson回归广义线形模型配合年龄-期间AP模型,提取死亡率残差;
第三步:用死亡率残差与出生队列作散点图分析;图11-11是第三步分析的结果。
图11-11 法国男性肺癌死亡率配合AP模型的残差岁出生对列分布的散点图
从图11-11中的散点分布显示,从1880—1910年之间,随着出生年份男性肺癌的死亡风险逐年增加;从1910年开始,出生队列效应表现为逐步下降的趋势;直至1940年后,出生队列效应逐步消失。故法国男性肺癌死亡率有明显的出生队列效应。
第四步:出生队列效应的统计学分析,即把由AP模型分析输出的残差与出生年代进行统计学分析。
在分析年龄-期间效应时,第五个年龄组和第一个期间选为了参照组;在分析出生队列效应时,第十六个出生队列选为参照组(该点的数据多,且围绕零分布)。将估计的年龄、年代和出生队列效应(模型的系数α x、β t和γ c)绘制在一起,得到图11-12。
图11-12 估计的年龄、年代和出生队列效应(模型的系数αx、βt和γc)
从图中可见,肺癌的死亡率在60岁以前随年龄迅速增加。60岁之后开始减速,80岁后呈现下降趋势。相对年龄和出生队列,年代或期间效应总体不是很大,表现为先增后降。出生队列效应非常明显。从1901年出生的人开始,该年以及随后出生的人,肺癌死亡的风险随着出生年份迅速增加。这一出生队列风险维持了近15年,然后逐年下降,并伴有起伏。直到最后25年间,即从1961年以后出生的人中,这种队列效应才基本消失。
年龄-期间-出生队列分析说明:从前面的两个实例的分析,我们自然会想到,既然可以先做年龄-期间分析,然后再做出生队列分析,难道不可以先做年龄-出生队列分析,然后再做期间分析;或者先做期间-出生队列分析,再做年龄效应分析?从一般的逻辑推理和单纯数学公式的角度看,未尝不可。但是我们这里必须强调的是,作为对年龄-期间-出生队列模型的一种解法,先做年龄-期间分析,再做出生队列,不是一种任意的或主观的或数学的选择。而是基于疾病流行病学的假设—出生队列效应是年龄与期间交互作用的结果,而年龄和期间的效应是相对独立的。无论你是哪一年出生,随年龄增长而导致疾病的发病和死亡主要与生物学年龄有关,而这正是年龄效应的定义。同理,APC模型期间效应的影响因素是不分年龄的,无论你多大,它对你产生影响,这正是期间效应的定义。