1.2 模式表示学习
人脑在每天感知外界事物的过程中,首先面临着一个模式表示的问题,即利用大约3万个听觉神经纤维和100万个视觉神经纤维等,从高维的感官输入信息(如视频图像、音频信号等)中抽取便于管理的很小数量的感知关联特征来完成对事物的认识。模式表示问题可以定义为:在高维的观察样本空间中寻找其隐藏的有意义的低维数据结构,并借此分析和探索事物的内在规律。因此,模式表示的过程本质上可以看成在一定准则下的优化问题,不仅从原始模式信息中得出了最有利于模式分类的特征,而且这些特征与原始样本信息相比,极大地降低了模式样本的维数。近年来,大规模的高维数据在科学、工程和社会生活中激增,这必然为众多学科领域(如图像视频和多媒体数据的处理、网络数据分析和搜索、生物信息学和测量学、智能机器人等)的发展带来机遇和挑战。在这些领域里,数据的维数成千上万甚至高达数亿,样本的个数也达到了几乎同样的数量级,一方面含有丰富的信息可供挖掘利用,另一方面增加了挖掘这些数据的困难与成本,模式表示问题尤为重要,亟待解决。
模式表示包含了模式特征抽取与特征选择。假设在模式观测样本空间中有一个样本数据集,其中的每一个样本数据都是一个高维向量。因为这些高维向量的各维度之间可能存在一些信息冗余,所以模式可能分布在一些低维子空间上。为了挖掘模式分布,需要寻找比较好的模式表示空间,即需要寻找从高维观测空间到低维表示空间的一个映射,在实现降维的同时,使新的模式表示具有一定的最优性与可解释性。
最简单的映射是线性映射、投影映射。按向子空间投影的模式表示映射是否线性的准则,可以把最优模式表示方法简单分成线性子空间方法、非线性子空间方法。在样本集中,可能对于每个样本数据,都没有类别标记信息;也可能对于每个样本数据,都有类别标记信息;或者,对于部分样本数据有类别标记信息,但对于其他样本数据却没有类别标记信息。因此,按样本集中类别标记信息的多少,可以把最优模式表示方法分成非监督方法、监督方法、半监督方法。
1.2.1 线性子空间分析
主成分分析(Principal Component Analysis,PCA)是一种广泛应用的非监督子空间学习方法[1],旨在寻找具有最大方差的模式表示投影方向,即在投影后所得到的新特征的方差最大。方差大小刻画了数据的散布情况,即描述了数据偏离均值的散布程度。如果方差小,就说明样本在该维度上偏离均值的变化小,将不利于描述数据在该维度上的可区分性。在求出方差最大的第一个投影方向后,按正交条件可以定义方差最大的第二个投影方向。以此类推,可以定义方差最大的一组投影方向,其中后续的投影方向与已有的投影方向正交,并且方差最大。这组方差最大的投影方向集称为主成分向量集。容易证明,它是样本数据的协方差矩阵对应于较大特征值的特征向量集,并且也可以看成在正交约束下的一个最小重构误差问题的解集。
线性鉴别分析(Linear Discriminant Analysis,LDA)是经典的监督子空间学习方法[2-4],旨在寻找具有最大鉴别力的模式表示投影方向。线性鉴别分析的基本思想最早是由费希尔提出的[2],其目的是选择使得费希尔(Fisher)准则函数达到极值的向量作为最佳投影方向,从而使得样本在该方向上投影后,达到最大的类间离散度和最小的类内离散度,即得到最大的鉴别力。在求出鉴别力最大的第一个投影方向后,按共轭正交条件可以定义鉴别力最大的第二个投影方向[5]。以此类推,可以定义鉴别力最大的一组投影方向,其中后续的投影方向与已有的投影方向共轭正交,并且鉴别力最大。这组鉴别力最大的投影方向集称为具有统计不相关性的最佳鉴别向量集。容易证明,它就是样本数据的类内协方差矩阵的逆矩阵与类间协方差矩阵的乘积矩阵对应于较大特征值的特征向量集;即这与威尔克斯(Wilks)[3]和杜达(Duda)[4]在费希尔思想的基础上,分别提出的使得类间散布矩阵行列式与类内散布矩阵行列式之比最大的线性鉴别向量集是等价的。在模式表示理论中,要求表示之间尽可能是不相关的,其出发点就是有利于最大限度地消除维度之间的相关性。如果参考主成分分析的做法,在要求后续的投影方向与已有的投影方向正交的条件下,求解鉴别力最大的投影方向所得到的最优鉴别向量集,在性能上逊色于经典的线性鉴别分析最优鉴别向量集。
费希尔线性鉴别分析有很多拓展[6]。在模式空间维数高而训练样本数少的情况下,很难精确地估计协方差矩阵,类内协方差矩阵的逆矩阵还可能不存在,子空间分析方法遇到了困难,因此小样本子空间分析方法研究引起了人们的高度关注[7]。由于常规的子空间学习技术都是针对向量数据而言的,对于计算机视觉中的图像数据矩阵,简单的处理方法是将图像的各个像素数据叠加形成一个向量数据,其维数相当高,小样本问题普遍出现。另外,将图像矩阵转化为向量,只能部分保持图像像素的邻近关系,难以保持图像的结构信息。因此,催生了面向图像数据的子空间学习技术研究,直接利用图像矩阵数据构造图像协方差矩阵,不但保持了图像的结构信息,还提高了算法的效率,其代表性工作包括二维主成分分析[8]、二维线性鉴别分析等。
1.2.2 基于流形、稀疏与低秩假设的模式表示
在数据表示建模时,必须诉诸数据固有的结构。认知科学的研究提供了假设与启迪,引领着模式表示理论与方法的发展。有三种假设占主导地位:
(1)流形假设,即数据存在于内嵌的低维流形上,该假设导致了流形学习理论的产生和蓬勃发展;
(2)稀疏假设,即数据在超完备基底上的表示是稀疏的,该假设带来了稀疏学习、稀疏表示和压缩感知理论的兴起;
(3)低秩假设,即数据矩阵在代数空间本质上具有比较低的秩,在国际著名学者斯坦福大学Candes教授推动下,一种崭新的理论,即低秩矩阵恢复理论,应运而生并势如破竹地发展。
理论与实验证明,复杂模式的特征之间往往存在着高阶的相关性,因此数据集呈现明显的非线性,并且往往是由一组维度远低于样本维度的隐含变量决定的。在数学上,具有上述性质的模型是流形。以流形为模型,利用流形的基本假设和性质来研究高维空间中的数据分布,达到简约数据,降低维度,探寻复杂模式的内部规律的学习方法称为流形学习[9,10]。2000年,Seung提出感知以流形方式存在[9],并通过实验证明了人脑中的确存在着稳态的流形。这为统计模式识别与人类感知架起了一座桥梁,使得流形学习具有了更加坚实的理论基础。流形学习的核心,是如何合理有效地对数据进行流形建模,即如何找到一个好的流形模型,能够较好地逼近数据,使得数据的内在结构性质能够在流形上较好地保持下来,以便研究者通过对流形模型的研究,获得对数据集内在结构的深刻认识。
科学工作者揭示了在低层和中层的人类视觉系统中,视觉通道中的许多神经元对大量的具体的刺激,比如目标的颜色、纹理、朝向和尺度等,具有选择性[11,12]。若将这些神经元视为视觉阶段的超完备集中的信号基元,神经元对于输入图像的激活机制具有高度的稀疏性。图像模式的稀疏性不仅体现在模式内部,也体现在模式之间。模式内部的稀疏性刻画为特征抽取提供了依据,模式之间的稀疏性则为分类器的设计提供了可能。
矩阵低秩性刻画了数据的内在低维结构,揭示了真实数据的变化往往由少数的重要因子线性决定。低秩假设源远流长,从最早的主成分分析到线性鉴别分析,几乎每一种子空间分析方法都在它的辐射下诞生。传统的子空间方法对含有小高斯噪声的数据比较有效,但对于含野点、含大的稀疏噪声的数据比较敏感。对于大规模的高维数据,数据矩阵中常常含有野点、孤立点,有部分元素受噪声污染甚至缺失,低秩矩阵恢复理论与方法成为有效的数据处理手段[13,14]。主成分分析、矩阵补全和稳健主成分分析[14]可分别看作稠密小噪声、缺失数据和稀疏大噪声假设下的低秩矩阵学习模型。针对日益涌现的多模态数据,作为低秩矩阵学习模型的多线性拓展,低秩张量学习模型、低秩张量关联主成分分析、张量恢复的快速求解,以及面向轻量级神经网络设计的张量分解方法等研究正在蓬勃发展。