第2章 特征降维方法研究

特征降维是数据挖掘领域对高维数据分析的重要预处理步骤之一。在信息时代的科学研究中,不可避免地会遇到大量的高维数据,如人脸检测与识别、文本分类和微阵列数据基因选择等。在实际应用中,为了避免所谓的“维数灾难”问题,根据某些性质,将高维数据表示的观测点模拟成低维空间中的数据点,这一过程就是降维。总的来说,降维的目的是在保留数据的大部分内在信息的同时,将高维空间的数据样本嵌入一个相对低维的空间。经过适当的降维后,诸如可视化、分类等工作可以在低维空间中方便地进行。

目前,降维方法得到了业界的广泛关注并取得了众多卓有成效的研究成果。其中,线性判别分析(LDA)和保局投影算法(LPP)分别是线性降维和非线性降维的典型方法,它们在实际应用中均取得了较好的效果,但仍面临一些挑战。LDA面临两大问题:小样本问题和秩限制问题。LPP在特征降维时仅关注数据的局部特征,往往忽略全局特征,因而降维效率有限。鉴于此,本章针对上述降维方法的不足展开研究,研究内容包括两部分:①LDA优化方法研究;②融合全局特征和局部特征的降维方法研究。

本章2.1节介绍背景知识;2.2节~2.4节分别利用多阶矩阵组合[86]、标量化方法[87]及矩阵指数[88]等数学知识对线性判别分析的优化方法展开研究;2.5节提出基于图的数据降维方法[89];2.6节对融合全局和局部特征的特征提取方法进行研究[90];2.7节提出基于Fisher准则的半监督数据降维方法[91];2.8节从Parzen窗估计角度对特征提取方法进行重新解读[92]