第4章 假设检验

4.1 假设检验的基本原理

4.1.1 假设检验概述

估计是利用统计样本来估计总体参数的数值,并根据事先给定的置信水平,确定所估计的总体参数所在的区间。

假设检验不是针对总体参数,而是在一定条件下,对一个统计论断做出“接受”或“拒绝”的判断。所谓统计论断,通常是统计量的一个表达式,如“均值=50”、“女性人数比例≤男性人数比例”、“做广告以后的销售额>做广告以前的销售额”等。

假设检验就是运用相关的统计数据,在事先给定的显著性水平上,力图拒绝某一个统计论断。如果成功地拒绝了这个统计论断,也就证明了与这个论断对立的论断是正确的。如果不能拒绝这个论断,也就不能证明与之对立的论断是否正确。

例如,统计论断A认为,“做广告以后,商品的销售额大于做广告以前的销售额”。如果销售量统计数据拒绝了论断A,就证明了与论断A对立的论断B,即“做广告以后,商品的销售额小于或等于做广告以前的销售额”是正确的,称为“接受论断B”。换句话说,广告对产品没有促销作用。

为什么一定要通过拒绝论断A来接受论断B的正确性呢?难道不能直接用统计数据来证实并接受论断B吗?我们必须了解,用数据证实一个事实远比用数据否定一个事实困难。这是因为任何数据都只是一个特例。如果用数据证实一个事实,我们必须列举所有可能的特例,说明所有可能的数据都支持这个事实。而用数据否定一个事实,只需要一个特例就够了。

为了更好地理解以上的陈述,我们举医学和法律两个例子。

严格来讲,在医学上要证明一个人“是健康的”是很困难的,需要进行验血、B超、X光透视、心电图等各种医学检查。即使这些检查结果都是好的,也不能完全断定这个人是健康的。因为有些疾病目前技术上还没有有效的检查手段。即使技术上可行,实际上任何一个人也不可能穷尽所有的医学检查。而要诊断一个人“不是健康的”即“有病的”,只要有一项检验指标不合格就足够了。

同样,在法律上,被告的辩护律师要证明被告人是无罪的,必须列举此人无作案动机、无作案时间、无作案条件、无犯罪前科等。这样的穷举式证明也是很困难的,往往无法罗列穷尽。反之,原告要证明被告人是有罪的就比较容易,只要有一项犯罪事实成立就足够了。

统计推断和法律推断的逻辑具有某种相似性。在法律上,被广泛接受的原则是无罪推定,除非有证据证明一个人有罪,否则,就认定这个人是无罪的。原告的目的,就是千方百计找到被告有罪的证据。在假设检验中也是一样,假设检验中一个统计论断(“健康”或“无罪”)总是先被假定为正确的,而假设检验的目的是力图利用统计数据证明这个统计论断不正确,拒绝这个统计论断,从而证明与这个统计论断对立的论断(“有病”或“有罪”)是正确的。

由于假设检验中的数据都是抽样统计数据,这些数据具有不确定性或随机性,根据这些数据做出的任何判断都具有得出错误结论的风险,正像医院里患者会被误诊、法庭上诉讼当事人会被误判一样。因此,在假设检验中,我们必须事先设定发生这种风险的水平,称为假设检验的显著性水平。

根据以上逻辑,统计学家设计了以下的假设检验过程:

(1)确定显著性水平。

(2)构建需要检验的假设。

(3)根据假设,构造相应的统计量,并确定统计量服从什么分布。

(4)确定决策准则,即统计量在什么范围内拒绝或接受假设。

(5)收集数据并计算统计量的值。根据决策准则检验统计量,得出是拒绝还是不能拒绝假设的结论。

4.1.2 原假设和备选假设

假设检验需要构建两个互相对立的假设,第一个假设称为原假设(null hypothesis),用H0表示;第二个假设称为备选假设(alternative hypothesis),用H1表示。所谓两个假设是对立的,就是两个假设中必定有一个,而且只能有一个是正确的,不可能同时成立,也不可能同时不成立。如前所述,如果假设检验判定原假设是错误的,则称为拒绝原假设,那么,备选假设就是正确的,称为接受备选假设。例如:

原假设H0:做广告后的销售额≥做广告前的销售额

备选假设H1:做广告后的销售额<做广告前的销售额

又如:

原假设H0: 18—24岁人群每周平均上网时间=10小时

备选假设H1:18—24岁人群每周平均上网时间≠10小时

在构建原假设和备选假设时,总是把我们主张的假设作为备选假设,而把与备选假设对立的假设作为原假设。假设检验的目标总是力图利用统计数据来拒绝原假设,如果拒绝原假设成功,就证实了备选假设是正确的,即接受备选假设,我们主张的假设得到了证实。

当然,经常出现统计数据无法拒绝原假设的情况。如果出现这样的情况,严格来讲,我们既不能接受原假设,也不能拒绝原假设(这一点和法律的“无罪推定”有所不同)。因此,也就既不能拒绝备选假设,也不能接受备选假设。此时,假设检验无法得出任何明确的结论。

构建假设是假设检验的第一步,也是最重要的一步。在构建假设之前,通过对统计数据的观察,必须先有一个主张或猜测,看哪一个统计论断是正确的。然后把我们主张的或者猜测为正确的论断作为备选假设,而把与它对立的论断作为原假设。在假设检验中,原假设是要力图加以拒绝的假设,而备选假设是我们主张的或希望接受的假设,这就是假设检验的基本逻辑。我们要通过学习和练习,正确理解这个逻辑,并能够根据实际问题,正确熟练地构建假设。

4.1.3 假设检验的类型和假设的构建

假设检验分为单样本假设检验和两样本假设检验。

单样本假设检验是对来自一个总体的样本所进行的假设检验。单样本假设检验通常假设某个统计量和某一个常数存在大小关系。在单样本假设检验中,原假设和备选假设有表4.1所示的几种类型。

表4.1 单样本假设检验的类型

注意在表4.1中,原假设中检验统计量所在的区域一定是闭区域,也就是说,包括区域的端点。而备选假设统计量所在的区域一定是开区域,也就是说,不包括区域的端点。

例4.1 每周平均上网时间的假设构建。

五个不同年龄组每周平均上网时间的统计数据如图4.1所示。通过观察发现,18岁以下组每周平均上网时间的均值为6.588小时,为各组最低。但是,6.588小时只是“18岁以下年龄组每周平均上网时间”这个随机变量取值的一个特例,如果再一次抽样,同一年龄组的上网时间不一定会出现这个数字。因此,检验“18岁以下组每周平均上网时间的均值为6.588小时”这个统计论断是没有意义的。如果希望通过假设检验,确认“18岁以下人群每周平均上网时间为7小时以下”这个论断的统计正确性,应如何构建原假设和备选假设呢?

图4.1 不同年龄段每周平均上网时间统计数据(局部)

根据上述假设检验的原理和步骤,把“18岁以下人群每周平均上网时间<7小时”作为备选假设,而把“18岁以下人群每周平均上网时间≥7小时”作为原假设。即:

H0:18岁以下人群每周平均上网时间≥7小时

H1:18岁以下人群每周平均上网时间<7小时

以上的假设构建是正确的,而以下的假设构建是不正确的:

H0:18岁以下人群每周平均上网时间≠6.5小时

H1:18岁以下人群每周平均上网时间=6.5小时

尽管备选假设“18岁以下人群每周平均上网时间=6.5小时”是我们主张或认为是正确的假设,但是原假设“18岁以下人群每周平均上网时间≠6.5小时”是一个不等式表达式,与表4.1介绍的三种原假设类型不符合。

这个问题的以下假设构建也是不正确的:

H0:18岁以下人群每周平均上网时间<7小时

H1:18岁以下人群每周平均上网时间≥7小时

原因在于,原假设“18岁以下人群每周平均上网时间<7小时”是我们主张的或者希望接受的,这样的假设应该作为备选假设而不是原假设。

两样本假设检验是对来自两个不同总体的样本所进行的假设检验。对于两样本假设检验,样本1和样本2的相应统计量之间存在大小关系。在两样本假设检验中,原假设和备选假设存在如表4.2所示的几种类型。

表4.2 两样本假设检验的类型

同样,在两样本假设检验中,原假设中统计量所在的区域一定是闭区域,而备选假设统计量所在的区域一定是开区域。

例4.2 根据表3.3,某种产品做广告以前的24个月的销售额和做广告后的12个月的销售额的统计数据如图4.2所示。

图4.2 做广告前后的商品销售额及统计数据(局部)

从图4.2可以看出,做广告后的12个月商品销售额的均值大于做广告前的24个月商品销售额的均值。如果我们希望通过假设检验接受这一论断,相应的原假设和备选假设应该是:

H0:做广告后的销售额≤做广告前的销售额

H1:做广告后的销售额>做广告前的销售额

该形式符合表4.2中的第二种类型。如果原假设被拒绝,备选假设就可以接受。

例4.3 在例3.11中,抽样总人数为115人。其中,女性和男性患某种疾病人数的有关数据如表4.3所示。

表4.3 男性和女性患某种疾病人数统计数据

从表4.3可以看出,男性和女性患病人数占各自性别人数的比例很接近。如果我们希望通过假设检验接受的论断是“男性患病的比例=女性患病的比例”,这个假设应该作为备选假设,原假设应该是“男性患病人数的比例≠女性患病人数的比例”。可是,这样的假设构建不符合表4.2中两样本假设检验类型中的任何一种类型。这个问题有两个正确的假设,第一个假设是:

H0:男性患病人数比例≤女性患病人数比例

H1:男性患病人数比例>女性患病人数比例

第二个假设是:

H0:男性患病人数比例≥女性患病人数比例

H1:男性患病人数比例<女性患病人数比例

在以上两个原假设中,最多只有一个被拒绝,因此,两个备选假设最多只能有一个被接受。以上两个假设都不能拒绝或接受我们的猜想“男性患病的比例=女性患病的比例”。希望用假设检验来拒绝或接受统计量落在一个闭区域内或一个点上的结论是不成立的。

从这个例子可以看出,假设检验的结论只能是统计量是否落在某个区域内而不能是统计量是否落在某个点上。这与我们的经验和直觉是相符的,根据一次样本的信息来判断统计量是否落在一定的范围内,这是有可能做到的;而根据一次样本的信息,要得出统计量是否在某个点上的结论,似乎不合情理。这就是原假设中统计量所在的区域一定是闭区域,而备选假设中统计量所在的区域一定是开区域的原因。

4.1.4 假设检验的显著性水平

由于假设检验面对的都是随机问题,因此接受或拒绝任何假设都面临一定风险。假设检验的显著性水平就是度量这些风险的一个标准。

我们对假设检验的结果所包含的风险进行仔细的分析。

如前所述,假设检验是针对原假设进行的。假设检验不能证明原假设,只能根据检验数据决定拒绝或不能拒绝原假设。如果拒绝原假设,就意味着接受备选假设;如果不能拒绝原假设,那么,既不拒绝也不接受备选假设。

假设检验的结果有以下几种可能:

(1)原假设事实上是正确的,假设检验没有拒绝原假设——没有犯错误。

(2)原假设事实上是错误的,假设检验拒绝了原假设——没有犯错误。

(3)原假设事实上是正确的,假设检验拒绝了原假设——犯了错误,称为第一类错误。

(4)原假设事实上是错误的,假设检验没有拒绝原假设——犯了错误,称为第二类错误。

发生第一类错误的概率用α表示,α是得出第一类错误结论的风险,即出现“原假设事实上是正确的,但假设检验(错误地)拒绝了原假设,备选假设事实上是错误的,但被假设检验(错误地)接受了”这一结果的风险。α称为假设检验的显著性水平。

医学上,发生第一类错误的概率,就是事实上健康的人被错误地诊断为有病的概率,称为误诊率。α=0.05表示每100个前来就诊但事实上没有病的人中,有5个被误诊为有病。

法律上,发生第一类错误的概率,就是事实上无罪的人被错误地判决为有罪的概率,称为误判率。α=0.05表示100个法庭判决但事实上无罪的人中,有5个被误判为有罪。

1-α称为置信系数,表示“原假设事实上是正确的,假设检验没有拒绝原假设”的概率。医学上,1-α=0.95表示100个前来就诊但事实上没有病的人中,95个被正确地判断为正常的。法律上,1-α=0.95表示100个法庭判决但事实上无罪的人中,95个被正确地判为无罪。

发生第二类错误的概率用β表示,是得出第二类错误结论的风险,即出现“原假设事实上是错误的,假设检验没有拒绝原假设”这一结果的风险。

在医学上,发生第二类错误的概率,就是前来就诊且事实上有病的人没有被诊断出来的概率,称为漏诊率。β=0.05表示前来就诊且事实上有病的100位患者中,有5位被错误地诊断为没有病。

在法律上,发生第二类错误的概率,就是法庭判决且事实上有罪的人被判为无罪的概率,称为漏判率。β=0.05表示法庭判决且事实上有罪的100个人中,有5个被错误地判为无罪。

1-β称为假设检验的势,表示原假设事实上是错误的且被正确拒绝的概率。医学上,1-β=0.95表示前来就诊且事实上有病的100个患者中,有95个被正确地诊断为有病。法律上,1-β=0.95表示法庭判决且事实上有罪的100个人中,有95个被正确地判为有罪。

对于同一个假设检验,发生第一类错误的概率α和发生第二类错误的概率β是有联系的。α和β的变化方向往往是相反的,即α减少,β会增加。

在医学诊断中,检验指标的临界值(判定“正常”和“异常”的界限)会直接影响误诊率α和漏诊率β。

例如,检验指标的临界值为50,小于50为指标正常(指标阴性),大于50为指标异常(指标阳性)。这个临界值并不是绝对的,在实践中,往往会出现虽然指标大于50,为阳性,但实际上是无病的人,这样的现象称为误诊。同时,也会出现指标小于50,为阴性,但实际上是有疾病的人,称为漏诊。如图4.3所示,误诊和漏诊各为2人,误诊率 α=2/8 =0.25,漏诊率 β=2/7=0.286。

如果将检验指标的临界值由50向“异常”端移动,变成60,误诊人数将会减少,变为1人。误诊率α(事实上正常,被诊断为有病的比率)变成α=1/8 =0.125。同时,漏诊人数将会增加,变为3人。漏诊率β(事实上有病,被诊断为正常的比率)变成β=3/7=0.429。

图4.3 误诊率α和漏诊率β关系示意图

在法律上,法官为了减少误判率α(无罪被判为有罪的比率),往往会对证据要求更加严格。这样做的结果,虽然可以减少误判的可能性,但另一方面,有更多实际上有罪的人会被法官认为证据不足而定为无罪,即漏判率β往往会随之增加。

在同一项假设检验中,如果样本数确定,就不可能同时减少第一类错误和第二类错误发生的概率。能否根据实际情况,适当权衡发生第一类错误的概率α和第二类错误的概率β的大小,是假设检验设计者总体控制能力的体现。

当然,如果增加样本数,增加统计的信息量,可以同时有效地减少α和β。增加信息量是需要付出代价的,增加样本势必会增加假设检验的成本。

4.1.5 检验统计量和决策准则

假设检验统计量有很多,本书讨论其中最常用的三个检验统计量,即均值、比例和方差。我们在第3章已经看到,根据总体属性的不同假设,这三个统计量的分布是不同的,分布可以是正态分布、t分布和χ2分布等。

样本计算的统计量落在什么范围内,假设被拒绝,落在什么范围内,假设不能被拒绝。这些准则称为假设检验的决策准则。决策准则和假设类型有关。设假设检验的显著性水平为α,根据不同的假设检验类型,决策准则分为左尾检验准则、右尾检验准则和双尾检验准则。

图4.4 左尾检验

图4.5 右尾检验

1.左尾检验准则,拒绝域在左侧

H0:检验统计量≥常数

H1:检验统计量<常数

简称左尾检验,如图4.4所示。

如果统计量落入左侧的拒绝域(概率为α),则拒绝原假设,接受备选假设。否则,不能拒绝原假设。

2.右尾检验准则,拒绝域在右侧

H0:检验统计量≤常数

H1:检验统计量>常数

简称右尾检验,如图4.5所示。

如果统计量落入右侧的拒绝域(概率为α),则拒绝原假设,接受备选假设。否则,不能拒绝原假设。

3.双尾检验准则,拒绝域在两侧

H0:检验统计量=常数

H1:检验统计量≠常数

简称双尾检验,如图4.6所示。

图4.6 双尾检验

如果统计量落入两侧拒绝域中的任何一个(概率为α/2),则拒绝原假设,接受备选假设。否则,不能拒绝原假设。

假设检验分为单样本和两样本两种情况。

表4.4和表4.5总结了假设检验的类型、统计量及分布、自由度和决策准则。

表4.4 单样本假设检验一览表

表4.5 两样本假设检验一览表

在表4.4和表4.5中,zα表示右尾面积为α的标准正态分布随机变量的值,-zα表示左尾面积为α的标准正态分布随机变量的值。例如,当 α=0.05时,zα=z0.05=NORMSINV(1-0.05)=NORMSINV(0.95)=1.6449, -zα=-z0.05=NORMSINV(0.05)=-1.6449。

tα, df表示右尾面积为α、自由度为df的t分布随机变量的值,-tα, df表示左尾面积为α、自由度为df的t分布随机变量的值。例如,当α=0.05, df=30时,tα, df=t0.05,30=TINV(2 ×0.05, 30)=1.6973, -tα, df=-t0.05,30=-TINV(2 ×0.05,30)=-1.6973。

Fα/2, df1, df2表示右尾面积为α/2、自由度为df1和df2F分布随机变量的值;{L-End} 表示左尾面积为α/2、自由度为df1和df2F分布随机变量的值。例如,当α=0.05, df1=15, df2=15时,Fα/2, df1, df2=F0.025,15,15=FINV(0.025,15,15)=2.8621,{L-End} =F0.975,15,15=FINV(0.975,15,15)=0.3494。