§3 矩、协方差和相关系数

一、矩

矩是随机变量重要的数字特征之一,前面讨论的数学期望和方差都是矩的特例。在数理统计中,将会看到矩的应用。

定义3.1 设X为一随机变量,若EXk)(k=1,2,…)存在,称它为Xk阶原点矩,记为αk(简称k阶矩),即αk=EXk)(k=1,2,…)。

显然,X的数学期望就是X的一阶原点矩。

定义3.2 设X为一随机变量,若

μk=EX-EX)]k (k=1,2,…)

存在,则称μkXk阶中心矩。

显然,X的方差就是X的二阶中心矩。

定义3.3 设X为一随机变量,若μkk=1,2,3,4)存在,

称为随机变量X的偏度系数(skewness),记为γX),即

称为随机变量X的峰度系数(kurtosis),记为κX),即

γX)与κX)均为无量纲的量。偏度系数γX)度量了随机变量X的分布关于其均值EX)的不对称程度;峰度系数κX)度量了随机变量X的分布与正态分布相比较的平坦程度。不难求得,对于正态随机变量X,有γX)=0,κX)=0。

二、协方差与相关系数

对于二维随机变量(XY),除了讨论XY的数学期望和方差外,还需要讨论描述XY之间相互关系的数字特征。

在证明方差性质(3)中,如果两个随机变量XY相互独立时,则有

E{[X-EX)][Y-EY)]}=0

反之,若E{[X-EX)][Y-EY)]}≠0,则XY不相互独立,这意味着XY之间存在着一定的关系。

定义3.4 设(XY)为二维随机变量,若E{[X-EX)][Y-EY)]}存在,则称它为XY协方差,记为Cov(XY),即

Cov(XY)=E{[X-EX)][Y-EY)]}

而   

称为随机变量XY相关系数

ρXY是一个无量纲的量,通常简记为ρ

对协方差我们有下列两个常用公式

var(X+Y)=var(X)+var(Y)+2Cov(XY)  (3.1)

Cov(XY)=EXY)-EXEY)  (3.2)

协方差具有下列性质:

(1)Cov(XY)=Cov(YX);

(2)Cov(aXbY)=abCov(XY) (ab为常数);

(3)Cov(X1+X2Y)=Cov(X1Y)+Cov(X2Y)。

下面推导ρXY的两条重要性质,并说明ρXY的意义。

(1)|ρXY|≤1;

(2)若XY相互独立,则ρXY=0;

(3)|ρXY|=1的充分必要条件是XY依概率1线性相关,即存在两个常数ab,且b≠0,使P{Y=bX+a}=1。

 (1)

即得-1≤ρXY)≤1,所以|ρXY)|≤1。

(2)当XY相互独立时,Cov(XY)=0,则ρXY=0。

(3)如证(3)先分析均方误差

e=EY-(bX+a)]2=EY2)+b2EX2)+a2-2bEXY)+2abEX)-2aEY)  (3.3)

若|ρXY|=1,欲证存在ab使成立P{Y=aX+b}=1,先选择ab使e取到最小。由

解得驻点   

a0b0代入式(3.3)得

由假设ρXY=1知

E{[Y-(a0+b0X)]2}=0

由方差的计算公式(2.4),得

因此有  var[Y-(a0+b0X)]=0

EY-(a0+b0X)]=0

由方差的性质(4)可知:P{Y-(a0+b0X)=0}=1,即

P{Y=a0+b0X}=1

反之,若存在a*和b*使

P{Y=a*+b*X}=1

也即  P{Y-(a*+b*X)=0}=1

那么  P{[Y-(a*+b*X)]2=0}=1

由方差性质(4)可知(其中C=0)

E{[Y-(a*+b*X)]2}=0

于是

则得  |ρXY|=1

从以上的讨论中可以看出,当|ρXY|较大时e较小,表明XY线性关系较密切,特别当|ρXY|=1时,XY之间以概率1存在着线性关系。于是ρXY是一个可以用来描述XY之间线性关系密切程度的量。换而言之,当|ρXY|较大时,通常说XY线性相关的程度较好;当|ρXY|较小时,反映XY线性相关的程度较差。特别当ρXY=0时,称XY不相关

应当指出,在ρXY存在的条件下,若XY相互独立,则XY必不相关,因为此时Cov(XY)=0,ρXY=0;但是XY不相关,XY却不一定相互独立,这是因为随机变量XY不存在线性关系,并不说明XY不存在其他关系。

【例1】 设二维随机变量(XY)的概率密度为

试验证XY不相关,但XY不是相互独立的。

 由图3-3知除在闭单位圆上,其他处fxy)≡0,那么

图3-3

同理   

同理  EY)=0

另外  

所以  Cov(XY)=EXY)-EXEY)=0

即  ρXY=0

这说明随机变量XY不相关,显然fxy)≠fXxfYy),这说明XY不相互独立。

但是当(XY)服从二维正态分布时,XY相互独立与XY互不相关是等价的。

【例2】 设(XY)服从二维正态分布,它的分布密度为

ρXY)。

 由第二章§3例6知(XY)的边缘概率密度为

故得EX)=μ1EY)=μ2。另外

,则有

则   

这个事实说明,若XY相互独立,XY必不相关;反之亦然,即若XY不相关时,那么ρ=ρXY=0,此时成立算式fxy)=fXxfYy),故知对于二维正态随机变量(XY)来说,XY不相关与XY相互独立是等价的。

【例3】 设(XY)具有概率密度,求Cov(XY)。

 由于Cov(XY)=EXY)-EXEY

   又   

   而       (见图3-4)

图3-4

所以  

所以

则  Cov(XY)=0

【例4】 已知三个随机变量XYZ中,EX)=EY)=1,EZ)=-1,var(X)=var(Y)=var(Z)=1,ρXY=0,,求EX+Y+Z),var(X+Y+Z)。

 EX+Y+Z)=EX)+EY)+EZ)=1+1-1=1

又   

则  var(X+Y+Z)=3