2.5.3 一种多分类器融合模型

模式识别和分类是决策层融合最重要的应用领域之一。多分类器系统通常是解决困难模式识别任务的实用且有效的解决方案,可以称为分类器融合、决策组合、专家混合、分类器集合、共识集合、动态分类器选择、混合方法等。

分类数据融合是一个涉及多个领域的多学科领域,难以建立清晰严密的分类。所采用的方法和技术可以根据以下标准划分[27]:①关注由Durrant-Whyte提出的输入数据源之间的关系,这些关系可以定义为互补、冗余或合作数据;②根据Dasarathy提出的输入/输出数据类型及其性质;③所采用数据的抽象级别原始测量、信号和特征或决策;④根据JDL定义的不同数据融合等级。

将分类器合并到冗余集合中的主要目的是提高其泛化能力。集合内部的固有冗余也可以防止单个分类器的失败。可能期望分类器在某些输入上失败的原因是基于它们只在有限的数据集上进行了训练,根据训练数据估计目标函数,除非函数是简单的,或者训练集是数据的完美代表,数据规律可以实现完美的泛化,否则估计和期望目标会不同。

在集合中组合分类器的方法一旦创建了一组分类器,就必须找到一个合并输出的有效方法。当前已经提出了多种方案来组合多个分类器。大多数票是迄今为止最流行的方法,其他投票计划包括最小值、最大值、中值、平均值和产品方案。加权平均法试图评估所使用的各种分类器的最佳权重。行为知识空间(Behaviour Knowledge Space,BKS)在输入空间的某个区域选择最好的分类器,并根据其输出决策。其他与分类相结合的方法包括基于等级的方法,例如博尔达计数、贝叶斯方法、D-S证据理论、模糊理论、概率方案,并结合神经网络。可以将组合器视为一种方案来为分类器分配有价值的权重。

图2.27给出了一种实现基于马尔可夫预测模型、朴素贝叶斯训练模型和神经网络预测模型的多分类器融合预测模型。贝叶斯分类模型的关键就是求出每个故障类概率以及该故障类下各特征属性的条件概率,分类训练问题就转化为统计样本中各故障类的计数及该类下各故障特征属性的计数。朴素贝叶斯训练模型基于弹性分布式数据集编程模型的朴素贝叶斯(Resilient Distributed Datasets based Naive Bayes Model,RDD-NB)算法实现,神经网络预测模型通过反向传播神经网络(Resilient Distributed Datasets based Back Propagation Neural Network,RDD-BPNN)算法实现。

图2.27 基于马尔可夫预测模型、朴素贝叶斯训练模型和神经网络预测模型的多分类器融合预测模型

贝叶斯定理是一条关于随机事件AB条件概率的定理(假设事件A和事件B不相关),它的表达形式为:

式中,PA)为事件A的先验概率;PB)为事件B的先验概率;PA/B)为当事件B发生后事件A再发生的条件概率;PB/A)为当事件A发生后,事件B再发生的条件概率。知道了贝叶斯定理,采用朴素贝叶斯对设备故障数据进行分类。

x={a1a2,…,an}是一条待诊断的故障记录,ai是一个故障特征属性。已知故障类别集合C={c1c2,…,cn},ci是一个故障类。x属于各故障类的概率分别为Pc1|x),Pc2|x),…,Pcm|x),取其中最大值为x所属故障类,则:

x的故障类别是ck。如果特征属性是条件独立的,那么根据贝叶斯定理可知:

对于某个xPx)是固定的,Px|ckPck)是最大的那个k即为x所属的故障类别。因此有:

BP神经网络是目前研究和应用最广泛和最成熟的神经网络,项目通过设计三层神经网络模型,实现BP神经网络算法的并行化设计。定义误差Ep=0.5∑(T pi-Y pi2,其中Y pi为输出节点的计算输出,T pi为对应的真实输出,激活函数为Sigmoid函数,权值修正为:

式中,h为学习因子;φi为输出节点i的计算误差;Yj为输出节点j的计算输出;α为动量因子。设置时间窗口为3,下一时刻的故障特征值作为输出属性。

算法的并行化学习步骤概括如下。

①随机生成各个节点间的连接初始权值与隐含层和输出层节点的阈值,根据多次实验本书设置在(-2,2)之间。设定训练次数和误差阈值。

②重复下面两个过程直至收敛或者到了最大训练次数。

a.正向学习过程:针对每个样例从输入层开始正向学习,计算隐含层的输入和输出,求得输出层的实际输出。通过与期望输出比较计算出误差和总误差,若总误差满足要求,则跳出循环,否则进行下一步。

b.反向传播误差过程:根据上一步得到的误差来计算并调整权值和偏置矩阵的值。