2.2 线性鉴别分析
线性鉴别分析的基本思想是由费希尔[3]最早提出的,其目的是选择使得费希尔准则函数达到极值的向量作为最佳投影方向,从而使得样本在该方向上投影后,达到最大的类间离散度和最小的类内离散度。在费希尔思想的基础上,Wilks[4]和Duda[5]分别提出了鉴别向量集的概念,即寻找一组鉴别向量构成子空间,以原始样本在该子空间内的投影向量作为鉴别特征用于识别,该方法被称为经典的费希尔线性鉴别分析方法。同时,该方法一直受到研究人员的普遍关注[6,7],广泛应用于人脸识别等领域。除经典的费希尔线性鉴别分析方法外,在1975年,Foley和Sammon[8]提出了另一种基于费希尔准则的线性鉴别法。该方法旨在找到一组满足正交条件的最佳鉴别向量用于特征抽取,并被推广到多类情形[9]。
在1999年,金忠和杨静宇等从统计不相关的角度,提出了具有统计不相关性的最优鉴别向量集的概念[10-12]。与Foley和Sammon的鉴别向量集不同的是,具有统计不相关性的最优鉴别向量集是满足共轭正交条件的。但金忠和杨静宇等在参考文献[10,11]中给出的求解最佳鉴别向量集的算法较为复杂,而在参考文献[12]中仅就一种特殊情况,即费希尔准则函数所对应的广义特征方程的特征值互不相等的条件下,给出了一种简捷算法,并指出在该条件下不相关的线性鉴别分析与经典的费希尔鉴别法[4]是等价的。
在本节中,我们进一步完善了具有统计不相关性的线性鉴别分析的理论构架,给出了求解不相关的最优鉴别向量集的一个非常简单而有效的算法,并指出统计不相关的线性鉴别分析的理论是经典的费希尔线性鉴别法的进一步发展。
2.2.1 基本概念
设ω1,ω2,…,ωc为c个模式类,X为一个N维随机向量,其类间散布矩阵Sb和类内散布矩阵Sw分别定义为
式中,P(ωi)为第i类模式的先验概率,mi=E{X/ωi}为第i类模式的均值,m0=为X的均值。设X共有M个训练样本,其中第i类模式有Mi个训练样本,不妨设Xij表示第i类模式的第j个样本(j=1,…,Mi,i=1,…,c)。则,类内散布矩阵Sw的估计如下:
由式(2-12)和式(2-13)的定义知,Sw、Sb均为非负定矩阵。易证明St=Sb+Sw。当Sw可逆时,Sw与St均为正定矩阵。
费希尔准则函数定义为
式中,ϕ为任意一个N维非零列向量。
费希尔准则函数非常巧妙地将样本在投影向量上的类间离散度和类内离散度结合在一起,为确定最优投影方向提供了一个非常完美的准则。选取使得目标函数Jf(ϕ)达到最大值的向量ϕ作为投影方向,其物理意义是投影后的样本具有最大的类间离散度和最小的类内离散度。
不难证明,当Sw可逆时,费希尔准则与以下准则等价[13]:
本节我们只讨论类内散布矩阵Sw非奇异的情形。
2.2.2 经典的费希尔线性鉴别与Foley-Sammon线性鉴别方法
经典的费希尔线性鉴别分析[4,5]旨在通过最优化准则函数式(2-17)或式(2-18)找到一个最优的投影矩阵Wopt。
事实上,经典的费希尔线性鉴别分析的最优投影轴,即Wopt的列向量u1,u2,…,ud一般取为广义特征方程Sbϕ=λSwϕ的d个最大的特征值所对应的特征向量[4,5]。也就是说,u1,u2,…,ud满足以下条件:
Sb uj =λjSwuj,j=1,…,d,λ1≥…≥λd
由于Sbϕ=λSwϕ至多存在c-1个非零特征向量,故最优投影轴的个数d≤c-1。
Foley-Sammon线性鉴别分析[7]旨在寻找一组最优鉴别向量集ϕ1,…,ϕd,它们在最大化费希尔准则函数的同时满足以下正交条件
事实上,Foley-Sammon最佳鉴别向量集的第一个向量取为费希尔最佳鉴别方向,即广义特征方程Sbϕ=λSwϕ的最大特征值所对应的单位特征向量ϕ1。在Foley-Sammon最佳鉴别向量集的前i个鉴别向量ϕ1,…,ϕi求出之后,第i+1个鉴别向量ϕi+1可以由求解下列优化问题得到:
式中,RN是指欧几里得空间。
参考文献[9,10]分别给出了多类情况下ϕi+1的计算公式,其中参考文献[10]的方法更为简明,即引理2-1。
引理2-1 ϕi+1为广义特征方程式(2-21)的最大特征值λmax所对应的特征向量,且Jf(ϕi+1)=λmax。
式中,,Di=(ϕ1,ϕ2,…,ϕi)T。
由最优鉴别向量集构成的Foley-Sammon变换是特征抽取(特征向量维数压缩)的经典方法之一,在图像识别等领域得到广泛应用。
2.2.3 具有统计不相关性的线性鉴别分析
本节从最优化的角度,利用费希尔准则即为广义瑞利商(Generalized Rayleigh Quotient)这一特点,分析了广义瑞利商的极值性质,利用广义瑞利商所对应的广义特征方程存在共轭正交的特征向量这一结论,解决该共轭正交条件下最优鉴别向量集的求解问题。
在此,为方便起见,我们采用费希尔准则的等价准则式(2-16)进行讨论。
式(2-16)的准则函数即为矩阵Sb相对于St的广义瑞利商。Foley和Sammon的目标是在欧几里得空间RN中找到标准正交的最优鉴别矢量集ϕ1,ϕ2,…,ϕd,其实质是在超单位球面ϕTϕ=1上寻找满足正交条件且使得目标J(ϕ)最大的ϕ1,ϕ2,…,ϕd。
由广义瑞利商式(2-16)的性质[14]:J(μϕ)=J(ϕ),∀μ∈R。故要找到一组使得目标函数J(ϕ)达到极值的投影向量,我们在超椭球面ϕTStϕ=1上讨论更为方便。其实,在St正定的情况下,我们在线性空间RN内重新定义内积:
式中,α,β∈RN。
我们将定义了以上内积的线性空间RN记作RN(St)。那么,向量α与β在内积空间RN(St)中正交,即αTStβ=0,也就是所谓的α与β关于矩阵St共轭正交。
我们知道,内积空间RN(St)和欧几里得空间RN是同构的。因此,在空间RN(St)中考虑问题并没有丧失任何信息。这样,广义瑞利商式(2-16)的极值问题就转化为在内积空间RN(St)中的超单位球面上讨论了。现在,我们的问题是,如何找到满足上述条件的广义瑞利商式(2-16)的极值点,即如何在空间RN(St)中找到一组标准正交的且使得目标J(ϕ)达到极值的最优鉴别向量ϕ1,ϕ2,…,ϕd。
换而言之,该问题就是在欧几里得空间RN中寻找满足St共轭正交条件式(2-23)且使得目标函数J(ϕ)达到极值的最优鉴别向量ϕ1,ϕ2,…,ϕd。
具体来讲,第一个鉴别向量仍取为费希尔最佳鉴别方向,即特征方程Sbϕ=λStϕ的最大特征值所对应的特征向量ϕ1;前i个鉴别向量ϕ1,…,ϕi求出之后,第i+1个鉴别向量ϕi+1可以由求解下列优化问题得到。
为了求解该最优化问题,我们引入以下理论。
定理2-2[14] 当St可逆时,在超椭球面ϕTStϕ=1上,ϕ为目标函数J(ϕ)极值点的充分必要条件是,ϕ为广义特征方程Sbϕ=λStϕ的属于特征值λ的特征向量,且满足J(ϕ)=λ。
以下我们讨论特征方程Sbϕ=λStϕ的特征值和特征向量的性质。
定理2-3 当St非奇异时,广义特征方程Sbϕ=λStϕ的特征值均为非负实数,有且仅有q个非零特征值,其中,q=rank(Sb)。
证明:广义特征方程Sbϕ=λStϕ的两边左乘ϕT得ϕTSbϕ=λϕTStϕ。
又因St正定的,Sb非负定的,则有ϕTSbϕ≥0,ϕTStϕ>0,故λ≥0。
当St非奇异时,设q=rank(Sb),则,故广义特征方程Sbϕ=λStϕ有且仅有q个非零特征值。
定理2-4 广义特征方程Sbϕ=λStϕ存在N个特征向量ϕ1,ϕ2,…,ϕN满足以下条件:
式中,λi(i=1,…,N)为Sbϕ=λStϕ的特征向量ϕi所对应的特征值。
证明:由于St为正定矩阵,则必存在正交矩阵U=(u1,…,uN),使得UTStU=Λ=diag(a1,…,aN)。其中,u1,…,uN为St的标准正交的特征向量,a1,…,aN为所对应的特征值,且满足aj>0,j=1,…,N。
令,则WTStW=I,那么St=(W-1)TW-1,代入Sbϕ=λStϕ得
令φ=W-1ϕ,则ϕ=Wφ,于是式(2-27)等价于SbWφ=λ(W-1)Tφ,即
式(2-28)中,令,易证明为非负定矩阵,故其存在N个标准正交的φ1,…,φN,即
使得,其中,λj为对应的特征向量,且λj≥0,j=1,…,N。
令ϕj=Wφj,j=1,…,N,则
由式(2-29)和式(2-30)得
由以上推导过程可见,ϕj即为Sbϕ=λStϕ的对应于λj的特征向量,即
由式(2-31)和式(2-32)得
定理2-4说明广义特征方程Sbϕ=λStϕ存在N个关于矩阵St共轭正交的特征向量。
推论2-2 广义特征方程Sbϕ=λStϕ的关于St共轭正交的特征向量ϕ1,…,ϕN线性无关,且RN=span{ϕ1,…,ϕN}。
为了讨论的方便,不妨设Sbϕ=λStϕ的特征值是从大到小顺序排列的,即满足λ1≥…≥λN。
定理2-5 模型2-2的最优解为ϕi+1。
证明:若前i个最优鉴别向量为ϕ1,…,ϕi,由推论2-2和模型2-2中的共轭正交条件可知,ϕ只可能从RN的子空间span{ϕi+1,…,ϕN}中选取,故ϕ可以表示为ϕ=ci+1ϕi+1+…+cNϕN。再由定理2-2、定理2-3可得
显然,J(ϕi+1)=λi+1,因此,ϕ可取为ϕi+1。
定理2-6 在费希尔准则函数下,满足St共轭正交条件的有效最优鉴别向量的个数最多为q个,其中,q=rank(Sb)≤c-1,c为样本类别数;且所取的d个(d≤q)最优鉴别向量可由特征方程Sbϕ=λStϕ的前d个最大的特征值所对应的关于St共轭正交的特征向量构成。
证明:由定理2-3可知,λj>0,j=1,…,q;λq+1=…=λN=0。
由定理2-2可知,J(ϕj)=λj,j=1,…,N。
故J(ϕj)=0,j=d+1,…,N。根据费希尔准则的物理意义,向量ϕq+1,…,ϕN不提供任何投影鉴别信息,即有效的最优鉴别向量个数最多为q(q≤c-1)个。再由定理2-5可知,d个(d≤q)最优鉴别向量可取为λ1,λ2,…,λd所对应的关于St共轭正交的特征向量ϕ1,ϕ2,…,ϕd。
定理2-4的证明过程给出了求解最优鉴别向量ϕ1,ϕ2,…,ϕd的具体算法。
最优鉴别向量ϕ1,ϕ2,…,ϕd可构成以下线性变换:
Y作为X的费希尔鉴别特征表示,可用于后续的分类。
2.2.4 相关性分析
设线性鉴别变换Y=ΦTX,其中,Φ=(ϕ1,ϕ2,…,ϕd),ϕ1,ϕ2,…,ϕd为最优鉴别向量。原始特征向量X变换为Y=(y1,…,yd)T,其第i个分量为,i=1,…,d。则yi与yj之间的协方差为
故yi与yj的统计相关系数可表达为
定理2-7 设ϕ1,…,ϕd为统计不相关的最优鉴别向量集,且(i=1,…,d),则ρ(yi,yj)=0,i≠j。
该定理说明,统计不相关的线性鉴别变换能够彻底消除模式样本特征之间的统计相关性。
相比较而言,经典的费希尔线性鉴别法是,直接取广义特征方程Sbϕ=λStϕ或Sbϕ=λSwϕ的c-1个最大的特征值对应的特征向量作为投影向量,而这些特征向量之间不一定在任何时候都满足St共轭正交条件。接下来,我们具体分析经典的费希尔线性鉴别法的一些性质。
设ξi和ξj为Sbϕ=λStϕ的两个线性无关的特征向量,λi和λj分别为对应的特征值,以下结论成立。
性质2-1 若λi≠λj,则ξi和ξj关于St共轭正交,即。
证明:既然Sbξi=λiStξi,Sbξj=λjStξj,则
故=0
由于λi≠λj,必然有=0。
然而,当λi=λj,则相对应的线性无关的特征向量ξi和ξj不一定关于St共轭正交,这一点类似于实对称矩阵的特征向量的性质。
总之,经典的费希尔线性鉴别法无法从理论上保证其鉴别向量之间的共轭正交性,故无法保证变换后的样本特征之间是统计不相关的。而具有统计不相关性的鉴别分析在理论上确保了这一点,故我们认为具有统计不相关性的鉴别分析的理论,是经典的费希尔线性鉴别法理论[4,5]的完善与发展。
性质2-1说明,在广义特征方程Sbϕ=λStϕ或Sbϕ=λSwϕ的特征值互不相等的条件下,其特征向量关于St共轭正交。此时,具有统计不相关性的鉴别分析法与经典的费希尔线性鉴别分析方法等价,这正是金忠和杨静宇等在参考文献[12]中得出的结论。
另外,由于Foley-Sammon鉴别分析方法中的鉴别向量之间是正交的,一般不满足共轭正交条件,故Foley-Sammon变换通常无法消除模式样本特征之间的相关性,甚至变换后的特征分量之间是强相关的。本章后面的实验将验证这一点。
2.2.5 等价的最优鉴别向量集
由本书2.2.4节的讨论可知,不相关的最优鉴别向量集可取为,广义特征方程Sbϕ=λStϕ的前d个最大的特征值所对应的关于St共轭正交的特征向量。其实,该最优鉴别向量集也可取为,广义特征方程Sbϕ=λSwϕ的前d个最大的特征值所对应的关于St共轭正交的特征向量。下面,我们将证明这一结论。
引理2-2 当Sw非奇异时,Sbϕ=λStϕ的任意特征值满足0≤λj<1,j=1,…,N。
证明:由定理2-2和定理2-4可知,Sbϕ=λStϕ的特征值满足:λj=J(ϕj),j=1,…,N。
当Sw非奇异时,Sw为正定矩阵,故,j=1,…,N。
因此,,j=1,…,N。
从而有λj=J(ϕj)<1,j=1,…,N。
再由Sb的非负定性知,λj≥0,j=1,…,N。
引理2-3 当Sw非奇异时,ξ是广义特征方程Sbϕ=λStϕ的属于特征值λ的特征向量,当且仅当ξ是广义特征方程Sbϕ=λSwϕ的属于特征值的特征向量。
证明:若ξ是广义特征方程Sbϕ=λStϕ的属于特征值λ的特征向量,则有Sbξ=λStξ。
由于St=Sb+Sw,从而有(1-λ)Sbξ=λSwξ,由引理2-2可知,1-λ>0,上式可变化为。
故ξ是广义特征方程Sbϕ=λStϕ的属于特征值λ的特征向量,当且仅当ξ是广义特征方程Sbϕ=λSwϕ的属于特征值的特征向量。
设广义特征方程Sbϕ=λStϕ中的正特征值为λ1,…,λr,其中,r=rank(Sb)。设λ1,…,λr对应的特征向量分别为ϕ1,…,ϕr,由引理2-3可知,ϕ1,…,ϕr分别对应于广义特征方程Sbϕ=λSwϕ中的正特征值。易证明,它们满足以下关系,即引理2-4。
引理2-4λ1≥…≥λr当且仅当。
由定理2-4,引理2-2~引理2-4可知,广义特征方程Sbϕ=λStϕ或Sbϕ=λSwϕ均存在一组关于St共轭正交的特征向量,而且前d个(d≤r)最大的特征值所对应的特征向量是完全相同的。因此,我们可得到一个统一的结论,即定理2-8。
定理2-8 具有统计不相关性的最优鉴别向量集ϕ1,…,ϕd(d≤r)可取为广义特征方程Sbϕ=λStϕ或Sbϕ=λSwϕ的前d个最大的特征值所对应的关于St共轭正交的特征向量。
2.2.6 几种等价的费希尔准则
现在,我们来分析一下几种常用的费希尔准则。费希尔准则分为两类:一类是基于单个投影向量定义的,另一类是基于投影向量集的整体来定义的。式(2-15)和式(2-16)属于前一类,而式(2-17)和式(2-18)属于后一类。关于整体定义的费希尔准则,除了以上提到的两个,还有一个Guo[15]等提出的广义费希尔准则:
式中,Sb和Sw分别表示类间散布矩阵和类内散布矩阵;Φ=(ϕ1,…,ϕd),表示特征抽取算子,其列向量ϕ1,…,ϕd为投影向量集。
严格地讲,不管采用哪种费希尔准则,在最优化该准则时,都要考虑鉴别向量之间的关系,而以往的很多讨论都忽略了这一点。
不难证明,在共轭正交条件下,以上准则都是等价的。但需要指出的是,在正交条件下,这些准则彼此之间常常是不等价的。