第二节 识别统计学交互作用的方法
一、交互作用的统计学模型
从模型的角度来看,统计学中的交互作用,是指广义线性模型(generalized linear models,GLM)中的两个因素所对应之变量在所选择的尺度上不满足相加效应的关系。广义线性模型的一般形式为
模型中,g(.)为连接函数(link function),可以给予不同的设置,从而对应于不同的模型,如若指定g(.)为恒等连接,则该模型对应于一般线性回归模型,若指定为logit连接,则对应于logistic回归模型,等等。详见有关统计学专著。
令变量 XA、 XB分别代表因素 A和 B,可以是二分类、多分类、等级或数值的, XAB表示 A和 B的交互作用,若
g(μ)=β0+βAXA+βBXB
成立,则可认为在当前的模型下, A和 B这两个因素只有主效应,而没有交互作用。若模型为
g(μ)=β0+βAXA+βBXB+βABXAB
且回归系数β AB是有统计学意义的,则可认为 A和 B两个因素间存在交互作用。
这里,需要对交互作用分析中的三个常用术语进行区别。以两因素的情形为例,主效应(main effect)是指某个因素单独作用时所体现的效应;边际效应(marginal effect),是指某一个因素不同水平下结局变量平均水平的差异;联合效应(joint effect)是指两因素共同作用时体现的总效应,既包括了主效应,也包括了交互作用。
有时候,在同时研究三个或三个以上因素的作用时,可能会讨论到多个因素间的交互作用。我们把两个因素的交互作用称为一阶交互作用,三个因素的称为二阶交互作用,以此类推。但二阶以上的交互作用解释较为困难,故在本节中不进行讨论。
合理使用正确的统计学方法,找出各种交互作用存在的线索,这对疾病机制的探讨、因果关联的建立很有意义。但由于诸多统计学方法在检测交互作用方面的效率不高,交互作用能正确识别与否,相当程度上依赖于样本含量、模型选择的合理性及效应尺度的选择。
二、交互作用的定量描述
交互作用的定量分析是指用指标定量测量暴露因素间的交互作用。由于相乘效应模型可以看作对数尺度下的相加效应模型,故这里仅介绍Rothman提出的三种基于相加模型的交互作用指标。
假设同前,令 R 11、 R 10、 R 01、 R 00分别表示 A=1和 B=1、 A=1和 B=0、 A=0和 B=1及 A=0 和 B=0四种组合下的风险。根据交互作用相加模型,可以得到如下指标:
1.交互作用相对超额危险度(relative excess risk of interaction,RERI)
当RERI=0时,意味着没有相加效应的交互作用。
2.交互作用归因比(attributable proportions of interaction,API)
交互作用归因比API可以评价两因素同时存在时,其危险度中可归因于交互作用的比例,故公共卫生学意义较大。当API=0时,意味着没有相加效应的交互作用。
3.交互作用指数(the synergy index,S)
当交互作用指数为1时,两因素间没有相加效应的交互作用。而当两因素效应方向相同时,其偏离1越远,往往意味着交互作用越强。
需注意上述各指标只是点估计,存在着抽样误差,若需判断交互作用是否存在,则须通过可信区间或假设检验来实现,但计算相对较烦琐。也可以借助于Boostrap法或者Permutation检验来实现区间估计或者假设检验的过程。这里不再进行介绍。
三、交互作用的分层分析
分层分析既可以用来识别和控制混杂因素,又能用来检测是否存在交互作用。把构成交互作用的两个因素中的一个作为分层变量(如 A因素),将整个资料分成 k层。那么交互作用将表现为在 A因素决定的各层中, B因素的效应存在着异质性(heterogeneity)。故可采用分层分析,比较各层间的效应指标,如相对危险度( RR)、比数比( OR)或率差( RD)等等。如果各层之间的效应指标存在着统计学差异,则可能存在交互作用。以下将逐一介绍层间异质性的统计分析方法。
1.对于病例对照研究,第 i层的资料可以记为表5-4。
表5-4 病例对照研究资料,以因素A分层后第i层的情况
若以 OR为效应指标,则各层 OR的一致性检验可以利用式(4)进行。
式中, wi为第 i层的权重,按式(5)计算; ORi为第 i层的 OR,按式(6)计算。
当按式(4)计算出χ 2后,查自由度为 k-1的χ 2界值表,若χ 2≥χ2 0. 05, k -1,则可认为 A和 B间存在交互作用。
2.对于队列研究,若为累积发病(死亡)率资料,第 i层的资料则可以记为表5-5。
表5-5 队列研究累积发病(死亡)率资料,以因素A分层后第i层的情况
各层 RR的一致性检验可以利用式(7)进行
式中, wi为第 i层的权重,按式(8)计算; RRi为第 i层的 RR,按式(9)计算。
若为人时资料,第 i层的资料可以记为表5-6。
各层 RR的一致性检验也可以利用式(7)进行,但权重须按式(10)计算; RRi按式(11)计算。
同样,当按式(7)计算出χ 2后,查自由度为 k-1的χ 2界值表,若 ,则可认为A和B间存在交互作用。
表5-6 队列研究人时资料,以因素A分层后第i层的情况
3.对于队列研究,各层 RD的一致性检验可以利用式(12)进行
式中, wi为第 i层的权重,若为累积发病率资料,按式(13)计算,若为人时资料,按式(14)计算; RDi为第 i层的 RD,若为累积发病率资料,按式(15)计算,若为人时资料,按式(16)计算。
当按式(12)计算出χ 2后,同样查自由度为 k-1的χ 2界值表,以判断A和B间是否存在交互作用。
需要指出的是,分层分析往往难以分析多个因素间的交互作用,且无法调整和控制研究中的其他因素,故在应用中受到一定的限制。此外,异质性检验只是检验效应值在各层间是否存在差异,忽略了层次本身可能带有的次序信息,造成检验效能的下降。
例3 对例1资料重新整理,以基因型作为分层因素,见表5-7。
根据等式(5),计算得三个基因型所对应的分层之权重分别为
w1=584. 40 w2=500. 29 w3=124. 80
再根据等式(4),
自由度为2时 =5. 99,因而 P<0. 05,可以认为吸烟的作用在不同基因型之间存在异质性。
表5-7 肺癌的遗传易感性与rs2895680及吸烟的关联性
四、相乘交互作用的回归分析
由于回归模型能在控制了其他因素之后评价研究因素的效应,且诸多传统分析方法,亦能在回归分析中找到相应的解决措施,故在危险度评价中得到日益广泛的应用。流行病学中常用的回归方法包括一般线性模型(general linear model)、logistic回归模型、Poisson回归模型等,以下以广泛使用的logistic回归模型为例,探讨相乘交互作用的识别。
logistic回归模型是一种常见的识别相乘效应的交互作用的方法,可用于横断面调查、病例对照研究和队列研究资料的分析。一个带有交互作用的两因素logistic回归模型为
其中 XA、 XB分别为代表因素 A和 B的变量,可以是二分类、多分类、等级或数值变量, XAB表示 A和 B的交互作用。若 XA、 XB均为二分类变量,取值为0表示该因素不存在,取值为1表示相应因素存在,且 XAB= XAXB,则根据Logistic回归的原理,
ORA=1,B=1/A=0,B=0=exp(βA+βB+βAB)
而当交互作用不存在,即β AB=0时,
ORA=1,B=1/A=0,B=0=exp(βA+βB)= ORA=1,B=0/A=0,B=0•ORA=0,B=1/A=0,B=0
即不存在相乘效应的交互作用。故检验β AB是否为0便可判断相乘效应的交互作用是否存在。
估计logistic回归模型的参数,需采用极大似然估计(maximum likelihood estimation,MLE)。对回归系数的检验,常用的方法有WALD法和似然比检验(likelihood ratio test,LRT)法。建模时需注意,如果交互作用项有统计学意义,即使构成交互作用的某因素本身没有统计学意义,那么在最后的模型中也应当包括该因素。如模型中包含 XAB,则模型中必须也包含 XA和 XB。
由于常用统计软件,例如SAS、SPSS和R,均能给出logistic回归的参数估计和假设检验的结果,这里对具体的参数估计和假设检验过程不再赘述,详见有关专著。
例4 对例1资料拟合logistic回归模型。欲建立的logistic回归模型为
log itP=a+b1•gene+b2•smoke+b3•smoke•gene
考虑到遗传模型(inheritance model)对分析结果可能存在一定的影响,这里分别假设遗传模型为可加(additive)、显性(dominant)、隐性(regressive),利用极大似然法,估计出的结果见表5-8,注意这里我们未对多重比较进行校正。
表5-8 logistic回归模型之估计结果
由分析结果可见,当采用可加模型和隐性模型时,交互作用均被检出。而显性模型下未检出有统计学意义的交互作用。利用模型的估计结果,可以得到不同变量组合下的 OR。例如,基于可加模型,对于不吸烟者,每增加一个致病等位基因,患病的可能性为原来的1. 28倍;而对于吸烟者,每增加一个致病等位基因,患病的可能性仅为原来的1. 06倍。又如,当基因型为TT时,吸烟者发生肺癌的可能性是不吸烟者的2. 42倍;当基因型为TC时,吸烟者发生肺癌的可能性是不吸烟者的2. 01倍;而当基因型为CC时,吸烟者发生肺癌的可能性只有不吸烟者的1. 67倍。可见,基因改变了吸烟的效应。注意此时由于交互作用项有统计学意义,一般不单独对某一因素的作用进行解释。
OR TC,不吸烟/TT,不吸烟=exp( b 1)= 1. 28
OR CC,不吸烟/TT,不吸烟=exp(2 b 1)= 1. 64
OR TC,吸烟/TT,吸烟=exp( b 1+ b 3)= 1. 06
OR CC,吸烟/TT,吸烟=exp(2 b 1+2 b 3)= 1. 13
OR TT,吸烟/TT,不吸烟=exp( b 2)= 2. 42
OR TC,吸烟/TC,不吸烟=exp( b 2+ b 3)= 2. 01
OR CC,吸烟/CC,不吸烟=exp( b 2+2 b 3)= 1. 67
OR TC,吸烟/TT,不吸烟=exp( b 1+ b 2+ b 3)= 1. 74
OR CC,吸烟/TT,不吸烟=exp(2 b 1+ b 2+2 b 3)= 1. 85
五、相加效应交互作用的回归分析
对于相加效应的交互作用,可以采用相加效应模型分析。
一般线性模型是一种最简单的衡量相加效应的模型。用 A和 B两个变量分别代表两个研究因素,令μ 11、μ 10、μ 01、μ 00分别表示( A=1, B=1)、( A=1, B=0)、( A=0, B=1)及( A=0, B=0)四种组合下的观察值的平均水平,见表5-9。
表5-9 两个二分类因素各组合下的均数
则一个带有交互作用的线性回归模型为
该模型实际上是一个方差分析模型。当模型中交互作用项的回归系数无统计学意义时,即β AB=0时,效应间是可加的。
μ11-μ00=μ10-μ00+μ01-μ00
若
μ11-μ00>μ10-μ00+μ01-μ00
表现为协同作用,反之为拮抗作用。
如果观察指标并非正态分布,如某事发生率,则相加效应的交互作用表现为
此时的效应指标可以是归因危险度( AR)或率差( RD)。但建模时由于应变量为概率 P,故不可取值为负或大于1,否则没有实际意义。在某些以OR作为效应尺度的病例-对照设计中,可采用Permutation法对相加交互作用进行检验,或利用Bootstrap法计算交互作用的95%可信区间。
例5在例1中,假定遗传模式是隐性遗传,即基因型为TC和TT者风险相同,数据整理见表5-10。
表5-10 肺癌的遗传易感性与rs2895680(G)及吸烟(E)的关联性(隐性遗传模型)
这里采用相加交互作用模型,首先根据表5-10的结果,估计得相加交互作用项的估计值为
ORG=1,E=1-ORG=1,E=0-ORG=0,E=1+1=1. 94-1. 58-2. 28+1=-0. 92
再利用Permutation检验的思想,得到Permutation P值。其步骤为
1.随机打乱了因变量与基因与环境的组合,按照上式计算此时交互作用项的估计值;
2.重复10 000次后,得到交互作用项估计值的零分布;
3. Permutation检验中 P值定义为所有Permutation样本中相加交互作用的 OR之绝对值大于或等于实际 OR绝对值的比例,即
不难利用SAS或R编程得到上述的Permutation P值。如图5-1中给出了10 000个Permutation样本计算所得的相加交互作用项,图中的垂直线代表了当前样本估计值-0. 92。可见Permutation样本中几乎没有样本相加交互作用之 >0. 92,即 P<0. 001。
图5-1 10 000个Permutation样本对应的相加交互作用之OR的分布
六、广义相对危险度模型
如前所述,交互作用的存在与否与选择的模型密切相关,但是如何了解所研究资料的作用形式到底是相加还是相乘的呢?Breslow和Storer(1985)提出一个模型,即用广义相对危险度模型(general relative risk model)加以拟合,然后采用与研究资料最接近的模型来确定交互作用 [1]。
令ψ表示相对危险度,β表示回归系数,λ表示尺度参数,那么可以建立模型:
该模型中,λ的不同取值便对应了不同的交互作用。
若λ=0,那么
ψ=1+βAXA+βBXB+βABXAB
对应于相加效应的交互作用。
而若λ=1,
ln(ψ)=βAXA+βBXB+βABXAB
对应于相乘效应的交互作用。在λ的不同设定下,构建一系列模型。利用偏差统计量(deviance)来衡量模型拟合效果,并利用Pearsonχ 2值进行拟合度检验,从而选择最佳模型,以明确资料应采用的交互作用模型。偏差统计量越小,拟合的效果越佳。
为了保证上式中对数符号内的符号永远为正,在对变量进行编码时要注意,尽量将对应最小风险的自变量取值定义为基线,并相应定义自变量。