1.1 模式的基本概念

人们在日常生活中不时地对环境中的事物进行识别。比如,辨认出房子、道路、树木,辨识出汽车、电动车、自行车,认出熟人的面孔,听出电话中的熟人的声音,区分出发动机声、喇叭声,闻出泄漏的煤气味、变质食品的异味等。以汽车的辨识为例,人们通过反复观察各种形状与用途的汽车,包括轿车、客车、货车、救护车、消防车、警车、越野车、跑车、房车等,可以学习到汽车的性质和特点,具备准确辨识汽车的能力。

一般地,把自然界或社会生活中的相同或相似的事物称为模式。在对个别的具体事物实例进行观察的基础上,人可以获得对此类事物整体性质和特点的认识,从而具备正确辨认此类事物的能力,即具备模式识别能力。人类的模式识别能力在视觉、听觉、嗅觉等感知能力的基础上,使得人类能够看似比较轻松地完成各种感知和认知任务。

本书讨论的模式识别就是用计算机实现类似人脑的模式识别能力,也称计算机模式识别或机器识别。目前,我们对人脑的模式识别过程尚不完全清楚,让计算机做人类较容易做到的模式识别还是非常困难的,计算机模式识别能力在多个方面还远不如人类。人脑的模式识别过程研究将有利于计算机模式识别模型与算法的研究,反之亦然。

在模式识别学科中,“模式”可以理解为一种相同或相似的事物,即模式类;也可以理解为对具体的个别事物进行观测所得到的观测数据,即样本。本质上,模式是指对一种相同或相似事物进行大量观测而得到的数据所具有的性质和特点,即模式分布。以手写体数字图像识别问题为例,10个数字对应着10种模式类,图1-1显示了手写体数字0的200种图像样本。从图1-1可以看到,图像样本的变化非常复杂,模式分布研究也非常具有挑战性。

图1-1 手写体数字图像样本示例

一个统计模式识别系统可以分成两个部分:一是训练部分,输入的样本包含了样本数据及其相应的类别真实标签,从样本数据中深入挖掘模式分布,通过最小化训练样本的标签预测与真实标签的预测误差,学习得到在某种意义下最优的模式表示与模式分类器,比如在图1-2中的实线部分与虚线部分;二是识别部分,输入的待识别样本只包含了样本数据,按训练阶段所学习得到的最优模式表示与模式分类器对样本做标签预测,即将其归入一个模式类,比如图1-2中的实线部分。

图1-2 一个统计模式识别系统的示意图

在图1-2中,输入的样本数据是指通过传感器对模式所获取的观测空间中的数据点,并进行预处理;模式表示是指从观测空间到表示空间的一个映射;模式分类是指从表示空间到标签预测空间的一个映射。模式识别基础研究主要集中在对于训练阶段的研究,可以看成需要求解最优模式表示与最优模式分类的联合优化问题。BP神经网络是该联合优化问题的一个经典示例,常见的模式识别研究工作包括最优模式表示研究与最优模式分类研究。