2.8 协方差和相关性

有时变量之间可能相互关联,例如,一个变量告知我们室外温度,另一个变量告知我们是否会下雪。如果温度很高,就不会下雪,所以通过对其中一个变量的了解可以知道另一个变量的一些信息。在这种情况下,这种关系是负相关的:随着温度的升高,下雪的可能性降低;反之,下雪的可能性升高。

而另一个变量也可能是在告诉我们在当地河里游泳的人的人数,温度和游泳人数之间的联系就是正相关的,因为在温暖的日子里我们会看到更多人游泳,反之,则没有那么多人游泳。

能够找到这些关系并确定两个变量之间的联系的紧密程度是很有用的。

2.8.1 协方差

假设有两个变量,我们注意到它们之间有一个特定的模式:当其中任意一个变量的值增加时,另一个变量的值就会以这个增加数量的固定倍数增加;而当任意一个变量减小时,同样的事情也会发生。例如,假设变量A增加3,变量B就增加6;之后,B增加4,A会增加2;然后A减小4,B会减小8。在每一个例子中,B增加或减小的量都是A增加或减小的量的2倍,所以固定倍数是2。

如果我们在两个变量之间发现了这样的一种关系(任何倍数都可以,而不仅是2),就称这两个变量是共变的,我们用协方差(covariance)来衡量两个变量之间的这种联系的强度。

如果我们发现一个值增加而另一个值也增加,那么协方差就是一个正数。这两个变量的步调越一致,协方差就越大。

讨论协方差的经典方法是绘制一个图,并在这个二维图形上绘制一些点,如图2.22所示。这种图称为散点图。坐标轴被标记为xy,用于替代我们感兴趣的两个变量。

(a)                       (b)

图2.22 对协方差的阐述。(a)沿x轴从左到右的每一对点在y轴方向上的变化量大致相同,这是正的协方差;(b)x轴方向的值有一点多变,说明正协方差较弱

假设x是第一个值,y是第二个值。如果x增加时(在图2.22中是指点向右移动)y也增加(在图2.22中是指点向上移动),就说这两个变量有着正协方差(positive covariance)。y的变化与x的变化越一致,协方差就越大。

一个非常大的正协方差表明这两个变量是一起变化的,所以每当它们中的一个改变了一个给定的量,那么另一个也会改变一个不完全相同但是又趋于一致的量。

此外,如果一个值随着另一个值的增加而减小,就说变量有负协方差(negative covariance),如图2.23所示。

(a)                       (b)

图2.23 x轴方向上相邻两点在y轴方向上的变化总是大致相同的,但是当x变大时,y就会变小,这种形式的关联就称为负协方差

如果两个变量之间完全没有一致的、能够相互匹配的变化,就说它们之间的协方差为0,如图2.24所示。

(a)                       (b)

图2.24 这两组数据点的协方差都为0。如果我们沿着x轴从一点移动到另一点,y值在大小和方向上的变化都没有一个统一的规律

我们所说的协方差思想只在变量之间的变化是彼此的倍数时才有效。如图2.24b所示,数据之间可能存在一个清晰的关系(这里的点构成了一个圆的一部分),但是协方差仍然为0,因为它们之间的变化是不一致的。

2.8.2 相关性

协方差是一个有用的概念,但存在一个问题:由于它的定义方式,它没有考虑过两个变量的单位,这使得我们很难确定数据之间的相关性的强弱。

例如,假设我们需要测量一把吉他上的12个变量:木头的厚度、琴颈的长度、音符共鸣的时间、琴弦的张力等。我们有可能找到这些测量值两两之间的协方差,但无法通过比较它们来确定哪一对数据的关系最强(或是哪一对最弱),因为它们的单位不同——木材的厚度可能以毫米为单位,琴弦共振的时间可能以秒为单位,等等。我们会得到每对测量值的协方差,但是无法比较它们。

我们实际能够了解到的只有协方差的符号:正值表示正相关,负值表示负相关,0 表示不相关。

只有符号能为我们提供价值是有问题的,因为我们想要比较不同的变量集。那样我们才能从中找到有用的信息,如哪些变量之间有着最强的正相关和负相关,而哪些变量之间有着最弱的正相关和负相关。

为了得到一个可以进行上述比较的度量值,我们可以通过计算得到一个与之前稍稍不同的数字,称为相关系数(correlation coefficient),或者称相关性(correlation)。这个值只要在计算协方差时增加一个步骤就能得到。通过这步计算,我们会得到一个不依赖于变量单位的数字。我们可以把相关系数看作缩小版的协方差,其值在−1~1。

由于相关系数很好地避免了单位的问题,因此要比较不同变量集合的关系的强度时,相关系数就是一个很好的工具。

因为相关系数永远不能超出−1~1这个范围,所以我们只需要关心1、−1和它们之间的值。“1”说明数据完全正相关(perfect positive correlation),而“−1”说明数据完全负相关(perfect negative correlation)。

完全正相关的数据很容易看出来:所有点都沿着一条直线下降,从东北角到西南角,如图2.25所示。

(a)                      (b)

图2.25 两相邻点之间向右移动和向上移动的量是一样的,这两个图都展现了完全正相关关系(或者说相关系数为1)

那么,点与点之间什么样的关系会得到正相关关系,即相关系数在0和1之间呢?这种情况是:y值会随着x的增加而增加,但是增加的比例不会是常数,我们甚至无法预测这个增加比例会发生多大的变化,但是知道x的增加会导致y的增加,而x的减小也会导致y的减小。图2.26为一些相关系数在0~1的正相关的点的点图,这些点越接近直线,那么它们的相关系数就越接近1。如果这个值接近于0,相关性就很弱(或者说是很低);如果它在0.5附近,相关性就是中等的;如果它在1附近,相关性就很强(或者说是很高)。

(a)                     (b)                     (c)                       (d)

图2.26 正相关性逐渐降低的示例。从(a)中接近1的值开始,(b)、(c)、(d)中的相关性相继变低。一般来说,点离直线越近,相关性越高

现在我们看看相关系数为0时的情况。不相关意味着一个变量的变化与另一个变量的变化没有关系,我们无法预测接下来会发生什么(或者说下一个点的位置)。回顾一下就会发现,相关性只是协方差的缩小版,当协方差为0时,相关性也为0。图2.27展示了一些相关性为0的点。

(a)                           (b)

图2.27 这些点的相关性为0。这些点向右移动时,垂直方向上并没有出现一致的运动

负相关和正相关一样,只是变量是反向变化的:当x增加时,y减小。一些负相关的例子如图2.28所示。

(a)                (b)                (c)               (d)

图2.28 (a)为相关系数接近-1的情况。从(b)到(d),负相关系数逐渐向0靠近

与正相关类似,如果相关系数接近于0,相关性就很弱(或者说是很低);如果它在−0.5附近,相关性就是中等的;如果它在−1附近,相关性就很强(或者说是很高)。

最后,图2.29展示了数据集完全负相关的(或者说相关系数为-1)的情况。

(a)                       (b)

图2.29 这些图均为完全负相关(或者说相关系数为-1)。每向右移动到下一个点,下降的量均相同

还有几个术语值得一提,因为它们会不时地出现在文档和文献中。如前所述,对于两个变量的讨论通常称为单相关(simple correlation)。我们也可以找到更多变量之间的关系,这称为多重相关(multiple correlation)。如果我们有一堆变量,但是只研究其中两个变量是如何相互影响的,就称为偏相关

如果两个变量呈现完全正相关或是完全负相关关系(即相关系数的值为+1和−1),就称这两个变量是线性相关(linear correlation)的,因为(正如我们所看到的那样)所有点位于一条线上。其他任何相关系数描述的变量则称为非线性相关(non-linear correlation)的。

图2.30总结了线性相关中不同值的含义。

(a)                (b)                (c)                (d)              (e)

图2.30 线性相关中不同值的含义