1.1 粗糙集国内外研究进展

1.1.1 粗糙集研究概述

粗糙集理论是20世纪80年代初Z.Pawlak[1]针对边界域思想提出的,粗糙集理论建立在分类机制的基础上,利用已知的知识库,基于给定训练数据内部的等价类,用上、下近似集合来逼近数据库中的不精确概念,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。

1991年,Z.Pawlak[2]出版专著系统全面地阐述了粗糙集理论,奠定了严密的数学基础,促进了粗糙集在各个领域中的应用。粗糙集理论的提出引起了许多数学家、逻辑学家和计算机研究人员的兴趣和国际学术界的广泛重视。

目前,粗糙集已成为信息领域、人工智能等方面的一个学术热点[3-5],同时,粗糙集还在医学[6-8]、化学[9][10]、管理科学[11]和金融[12]等其他学科得到了成功的应用。截至2012年9月19日,在数据库Web of science中以“主题=‘rough set'、入库时间=‘所有年份’、数据库=‘SCI-EXPANDED, SSCI, CPCI-S, CCR-EXPANDED. IC.'”进行检索,查得的文章数量为6692篇。在上述检索条件下年份与发表文章数目的描述如图1-1所示。

图1-1 近20年粗糙集的研究状况

由图1-1可知,近20年来每年发表的文章数量是逐年递增的(由于2010年和2011年的文章还没有全部检索,数量较2009年少)。

在上述检索条件下各个年限引文中以“Rough set”为主题的文章数量描述如图1-2所示。

图1-2 近20年粗糙集引文状况

由图1-2可知,近20年来与粗糙集有关的引用论文数量也是逐年递增的(由于2011年的文章还没有全部检索,数量较2010年少)。

由图1-1和图1-2可知,自粗糙集理论提出来后,以粗糙集为主题的论文的数量逐年递增,近年来对粗糙集的研究逐渐趋热[13]

粗糙集理论作为一种处理模糊和不精确性知识的新型数学工具,以其独特的优势赢得了越来越多的研究者的关注,并在各个领域中获得了广泛的应用。对粗糙集理论的研究主要有两种方法:构造性方法与公理化方法[14]

1.构造性方法

构造性方法是以论域上的二元关系或布尔子代数作为基本要素导出粗糙集代数系统(2U, ~, ∪, ∩,,),这种方法是对原始Pawlak粗糙集模型的推广,其主要思路是从给定的近似空间出发去研究粗糙集。它所研究的问题往往来源于实际,所建立的模型有很强的应用价值,其主要缺点是近似算子的代数结构不易被深刻了解。在Pawlak粗糙集模型中有3个最基本的要素:一个是论域U;一个是U上的二元等价关系R(或划分);另一个是UR构成的近似空间。因此,粗糙集的扩展主要有3个方向,即论域方向、关系方向和近似空间方向。

(1)论域扩展:目前论域扩展粗糙集大都基于相容关系,将单个论域扩展为两个不同的论域。目前,关于粗糙集的论域扩展理论和应用研究较少。

(2)关系扩展:将论域上的二元等价关系扩展成为相似关系、相容关系、优势关系(支配关系)甚至任意的二元关系等,然后得到粗糙集的关系扩展模型。

(3)近似空间扩展:粗糙集的近似空间扩展主要指经典集合向模糊集合的推广研究、一般是近似空间向模糊近似空间和概率近似空间的扩展研究。粗糙集的近似空间扩展侧重开展与其他处理不确定性的理论、方法,如概率论、模糊数学、证据理论等的结合研究。因此粗糙集的近似空间扩展研究主要集中在粗糙集与模糊集、概率论、证据理论的结合研究。

2.公理化方法

公理化方法也称为代数方法,有时也称为算子方法。它的基本要素是一对满足某些公理的一元集合近似算子L, H:2U→2U。公理化方法的明显优点是能够深刻地了解近似算子的代数结构,其缺点是应用性不够强。公理化方法中近似算子的某些公理能保证有一些特殊类型的二元关系的存在,使这些二元关系能够通过构造性方法产生给定的近似算子;反过来,由二元关系通过构造性方法导出的近似算子一定满足某些公理,使这些公理能通过代数方法产生给定的二元关系。公理化方法的研究一开始只局限于Pawlak粗糙代数系统,即公理与二元等价关系相对应的情形,后来逐渐发展为一般关系下的粗糙集系统。

下面将以构造性方法为主线,分析粗糙集的研究历史和现状。如不特别标明,下面未加限制的粗糙集均指原始的Pawlak粗糙集模型。

1.1.2 粗糙集的关系扩展

粗糙集理论通过不可区分关系为不完全和不充分信息的处理提供了一套系统的方法。自从Pawlak粗糙集在数据挖掘中得到广泛应用以来,学者们根据解决问题的需要对Pawlak粗糙集的等价关系进行了推广:将等价关系放宽为相容关系、相似关系、优势关系和一般二元关系等。另外,从等价关系等同于划分这个角度出发,将Pawlak粗糙集推广到覆盖粗糙集等。关于粗糙集的关系扩展研究主要表现如下。

1.基于优势关系的粗糙集

经典的粗糙集理论不能够发现偏好多属性决策表中与指定的偏好属性相关的不相容性,如在经济及金融问题中常遇到的属性:投资回报率、利润率、市场占有率及负债率等[15-17],这些属性包含偏好信息。为了处理偏好属性,Greco等学者[18]用优势关系代替不可分辨关系,提出了优势粗糙集理论,该理论能够处理多标准决策分析中典型事例决策的不一致性[19]。之后Greco等对优势粗糙集做了一系列的扩展研究[20][21]。优势粗糙集及其扩展研究(模糊优势粗糙集[22-26]、变精度优势粗糙集[27]、不完备信息系统下的优势粗糙集[28][29]、区间值优势粗糙集$$[29])取得了很好的结果,优势粗糙集理论研究已经比较成熟。优势粗糙集广泛应用于风险预测[30]、项目评估[31]等方面。

2.基于相似关系的粗糙集

由于实际决策过程中的复杂性和不确定信息的多样性,人们在决策分析中面对的数据经常是不精确的,或者即使是精确的,但在特定的研究背景下,微小的差异是没有意义的。为了扩展粗糙集处理数据的能力,一些学者提出用相似关系来代替不可分辨关系作为粗糙集的基础。1995年,Slowinski和Vanderpooten[32]最先提出了满足自反性和对称性的相似关系取代等价关系来构造粗糙集模型,随后Slowinski和Vanderpooten[33]接着研究了基于相似关系的粗糙集的性质及应用,指出基于相似关系的粗糙集可以用于忽略属性值的微小差异。鉴于相似关系的普遍性,很多学者研究了基于相似关系的粗糙集的理论及应用[34-37]。另外,学者们研究了基于相似关系的模糊粗糙集和变精度粗糙集的理论及应用,并取得了很好的结果[35][38]

3.基于相容关系的粗糙集

在现实世界中,由于数据测量的误差、对数据的理解或获取的限制等众多原因,所面临信息系统往往是不完备的。因此,如何使用粗糙集理论从不完备信息系统中挖掘知识对于粗糙集的发展具有举足轻重的作用。当不完备信息系统中的所有未知属性值都被认为是遗漏型时,Grzymala-Bysse在《实例学习中属性的不确定》[39]一文中做了详细的阐述,在该文的基础上,M.Krysikiewicz构建了满足自反性和对称性的容差关系[40],并研究了不完备信息系统中规则挖掘的方法[41][42]。由于不完备信息系统的存在性,很多学者研究了基于相容关系的粗糙集的理论及应用[43-45]。另外,学者们研究了基于相容关系的覆盖粗糙集[46],模糊粗糙集[47]和变精度粗糙集[48][49]的理论及应用,均取得了很好的结果。

4.覆盖粗糙集

从等价关系等同于划分这个角度出发,Zakowski把划分放宽为覆盖,将Paw-lak粗糙集理论推广到覆盖广义粗糙集理论。对于覆盖粗糙集,目前主要有5种定义,其区别在于覆盖上近似运算法则的不同[50][51]。覆盖粗糙集的属性约简已成为一个热点问题[52],另外,比较有意义的研究课题是将覆盖广义粗糙集与其他相关学科结合起来,以找到新的突破点和应用[53]

1.1.3 粗糙集的近似空间扩展

针对现实世界中遇到的对象很多是模糊的、不精确定义的类型,以及现实生活中获取的信息通常是含有噪声的,粗糙集的近似空间扩展主要是指经典集合向模糊集合的推广研究、一般近似空间向模糊近似空间和概率近似空间的扩展研究。下面介绍粗糙集的近似空间扩展相关研究。

1.粗糙集与模糊集的结合

Pawlak粗糙集模型中所涉及的概念都是清晰的,即所有集合都是经典集合。然而,在实际生活中,涉及更多的是模糊概念和模糊知识。模糊概念和模糊知识反映在粗糙集模型中有两类[54],一类是知识库中知识是清晰的,而被近似的概念是模糊的;另一类是知识库中的知识和被近似的概念都是模糊的。粗糙集理论和模糊集理论是由经典集合论推广的两种不同的互补理论,由于它们描述了不确定性的不同方面,因而被应用于不同的领域。

粗糙集与模糊集关系的研究[55-58]除了模糊粗糙集和粗糙模糊集之外还包括粗糙集与Vague集(模糊集的扩展)关系的研究。从研究的结果可得,粗糙集,模糊集,Vague集理论有相通之处,它们是从不同角度、用不同方法、描述内容不尽相同的不确定性问题,因此不可能出现相互取代的情况;粗糙集、模糊集、Vague集的相互补充、相互渗透会更有利于解决问题。模糊集和粗糙集都具有很强的应用性,两者的结合可显示出更强的功能。目前模糊集和粗糙集的结合已经应用到社会生活的各个领域[59-62]

综合已有文献可知,从模糊粗糙集理论的提出到后来的各种广义粗糙集理论、公理化的研究,可以说在一个完备的论域框架下,已经使模糊粗糙集理论的发展达到一个相对完善的状态。在不完备或不相容空间研究模糊集与粗糙集的结合模型以及在集值信息系统中研究模糊集与粗糙集的结合模型仍是一个研究热点。

2.粗糙集与概率理论的结合

粗糙集的定义没有充分利用边界区域中的统计信息,为了研究这个问题,1993年Ziarko[63]通过引入一个β近似空间来反映这种限制,提出了变精度粗糙集模型。变精度粗糙集模型是对粗糙集理论的一种扩展,它放松了粗糙集理论对近似边界的严格定义。当对象按变精度粗糙集分类时,需定义一个正确分类的阈值β。Ziarko称β为分类误差,定义区域为0≤β<0.5。

自Ziarko提出变精度粗糙集模型以来,许多学者对该模型进行了研究,主要集中在基于变精度粗糙集模型的知识约简理论与方法、模型推广以及模型的应用。An等[64]学者将β定义为正确分类的比例,在这种情况下近似范围为0.5<β≤1,并将此技术称为强化粗糙集,本质上它与Ziarko提出的变精度粗糙集是一致的。变精度粗糙集相对于传统粗糙集扩大了正域的范围,减小了边界域的范围。应用变精度粗糙集可以最大限度地获取边界信息,同时应用β上近似的过滤还可减少一定的噪声干扰。然而,参数β使得变精度模型比传统的模型更灵活的同时,也产生了一定的限制:一旦参数β确定,上下近似同时受到一个参数的制约。Katzberg和Ziarko[65]进一步提出了不对称边界的变精度粗糙集模型,即在上、下近似的定义中的β可以是不相同的,从而使此模型更加一般化。虽然Katzberg和Ziarko提出的不对称边界的变精度粗糙集模型具有很大程度的灵活性,但其中的参数是人为的,为了克服这一缺陷,Slezk和Ziarko提出了Bayesian粗糙集模型[66]。Bayes-ian粗糙集模型进一步增强了变精度粗糙集的应用灵活性。变精度粗糙集及其进一步的完善研究,使粗糙集理论能更合理地处理处于边界区域的知识,在社会生活中有着广泛的应用[67-70]

3.粗糙集与证据理论的结合

作为概率论的推广,Dempster-Shafer证据理论是处理不确定性信息的又一个方法,这个理论最初是由Dempster[71]提出的,Shafer[72]进一步将该理论系统化成专著,该理论的基本信息粒度是信任结构,由信任结构可以导出一对对偶的信任函数和似然函数,这是证据理论中最重要的一对数值型测度。如果将粗糙集理论中集合的下近似与上近似看成对此集合所表示的概念在近似空间中的定性描述,而将证据理论中集合的信任度与似然度看成对集合所表示的概念在信任结构中的定量描述,那么这两个理论有某些必然的联系。最初研究此问题的是Pawlak[73][74],随后,很多研究人员继续深入地对此问题进行了研究。然而,大部分的研究都把注意力集中在Pawlak粗糙集模型上,并且这些研究得到的主要结论是从一个Paw-lak粗糙集可以导出信任函数,信任函数被看做概率测度从可测集到不可测集上的延伸,或者说信任函数是内概率测度。从现有成果看,粗糙集理论和证据理论的关系能够帮助加深对各自理论的进一步理解,由于从粗糙集理论的近似空间可以导出信任函数和似然函数,这为粗糙集理论在智能信息系统不确定性问题的分析找到了更为广泛的应用前景。由于在证据理论中的mass函数通常是由领域专家给出的,所以有很大的主观性,而粗糙集理论中导出的信任结构的mass函数是直接从所给定的数据库中得到的,因此是比较客观的。另外已有文献研究的都是完备系统,由于不完备系统要比完备系统复杂得多,因此针对不完备信息系统中各种不同要求及知识约简问题是值得进一步研究的问题。

1.1.4 粗糙集的论域扩展

Pawlak粗糙集模型是建立在同一个论域的等价关系的基础上,然而现实生活中的问题是复杂的,所研究的对象可能出于不同的专家领域,因此学者开始了将一个论域推广到两个不同论域的研究。

1998年,姚一豫[75]指出“标准粗糙集的扩展有两个方向:利用非等价关系获得广义粗糙集和利用两个论域之间的关系获得区间值代数”,正式提出了在两个论域上研究粗糙集是粗糙集的一种扩展模式。但是论文《粗糙集理论中关于信任函数的解释》[75]的主要目的是构建统一的不确定性信息处理框架,仅涉及用区间结构刻画两个论域上的粗糙集代数,没有研究两个论域上的粗糙集下近似、上近似算子及它们的性质。姚一豫将论域推广后的粗糙集称为广义粗糙集(Generalized Rough Set)。从文献上看,广义粗糙集有两种理解方式:

(1)将Pawlak粗糙集的基础等价关系扩展为一般的二元关系[76-78]

(2)将论域扩展为两个不同的论域[79-89]

为了避免概念的混淆,本书用论域扩展粗糙集来指代姚一豫提出的由单个论域扩展到两个论域而得到的广义粗糙集;广义粗糙集仍指关系扩展的粗糙集。

粗糙集理论中下近似和上近似算子是构成粗糙集模型的基础,论域扩展粗糙集模型的主要工作也集中于两个论域的下近似和上近似算子的构造上。文献《不确定模型的区间理论》[74]和《粗糙集理论中关于信任函数的解释》[75]中构建了基于相容关系的论域扩展粗糙集近似算子,之后众多学者在文献[74,75]的基础上进一步研究了论域扩展粗糙集。

鉴于现实世界中存在着大量的模糊现象,很多学者同时研究了两个论域上的粗糙集和模糊粗糙集。2003年,吴伟志等[79]基于集值函数构造了基于一般关系的两个论域上的粗糙集近似算子,但是文章《一般模糊粗糙集》[79]没有考虑所研究集合为空集的情况。

同时,在文章《一般模糊粗糙集》[79]中吴伟志等利用模糊关系和阈值构造了两个论域上的模糊粗糙集,实质上他是利用截集将模糊关系转化为一般关系,将两个论域上的模糊粗糙集转化为两个论域上的粗糙集进行研究。

2004年,吴伟志等[80]重新构造了基于一般模糊关系的两个论域上的模糊粗糙集模型,并利用模糊集合的取大和取小算子构造了两个论域上的模糊粗糙集下近似和上近似算子,从此,两个论域上的模糊粗糙集的研究突破了两个论域上的粗糙集的研究思路。

2005年,吴伟志和张文修[81]首次将模糊蕴含算子和三角模算子引入两个论域上的模糊粗糙集近似算子的构造中来,构造了新的两个论域上的模糊粗糙集模型,研究了模糊关系和模糊粗糙集近似算子之间的关系,以及两个论域上的模糊粗糙集近似算子的存在性。

2008年,李同军[82][83]在文章[81]基础上研究了基于模糊蕴含算子和三角模算子的两个论域上的模糊粗糙集,他主要研究两个论域上的模糊粗糙集与覆盖模糊粗糙集、优势模糊粗糙集和相似模糊粗糙集之间的关系,对研究两个论域上的粗糙集、两个论域上的模糊粗糙集与已有的粗糙集模型之间的关系提供了很好的思路。

2009年,张红英[84]在两个论域上研究了基于区间值蕴含算子和三角模算子的区间值模糊粗糙集,研究了区间值模糊逻辑算子的基本性质,首次引入了区间值模糊相似关系的构造性方法,对两个论域上的模糊粗糙集的扩展有很大的促进作用。

2010年,刘贵龙[85]采用了构造性方法,引入孤独集构造了两个论域上的粗糙集下近似和上近似算子,但是文中对两个论域上的粗糙集的性质的证明不够严谨,随后Yang[86]给出了严格的证明。

2010年,孙秉珍[87]进一步推广了文章[80]的两个论域上的模糊粗糙集,给出了两个论域上的变精度模糊粗糙集模型,并通过例子说明了模型的实用性,不过文章[87]中的模糊关系为模糊相容关系,限制了模糊双论域粗糙集的应用。

2010年,阎瑞霞等[88][89]通过文献分析指出:很多学者提出的两个论域上的粗糙集近似算子的构造是建立在两个论域的相容关系的基础上,在一定程度上限制了论域扩展粗糙集的应用,阎瑞霞等将相容关系扩展为一般关系,构造了两个论域上的粗糙集。阎瑞霞构造的基于一般关系的两个论域上的粗糙集称为双论域粗糙集,双论域粗糙集扩大了两个论域上的粗糙集的应用范围。其中,文章[88]系统研究了基于一般关系的双论域粗糙集的性质,给出了双论域粗糙集下近似和上近似的求解算法,并将双论域粗糙集应用于专家系统的推理机设计中;文章[89]进一步完善了基于一般关系的双论域粗糙集的定义和性质,并将其应用于医疗诊断专家系统中。文章[88,89]从单个论域的关系出发,诱导出两个论域之间的关系,然后基于诱导得到的两个论域间的关系构造两个论域上的粗糙集近似算子。

通过分析论域扩展粗糙集的研究,可以看出论域扩展粗糙集发挥了粗糙集本质的特点——分类的确定程度,即利用下近似和上近似的概念刻画正域、边界域和负域,论域扩展粗糙集能广泛应用于不确定性样本分类和多属性决策问题。

1.1.5 粗糙集在专家系统中的应用研究

专家系统是一个智能的基于知识推理的系统,是集领域知识、人工智能和技术于一体的智能推理系统,它能够在特定的领域内模仿人类专家思维来求解复杂问题。目前,专家系统已经成功地应用于个人理财、贷款损失评估等很多领域中。

从专家系统的作用和实现过程来看,专家系统主要包括知识获取、知识库管理和规则提取。可以利用粗糙集进行知识约简,降低计算复杂度和计算时间;在知识约简的基础上进一步导出问题的决策或分类规则,为我们做决策提供帮助。基于粗糙集的专家系统是基于等价类或知识在给定的信息系统中,利用上、下近似集合来逼近数据库中的不精确概念。基于粗糙集的专家系统是在属性约简和规则获取的基础上,利用知识库中的规则进行不确定性推理,为我们提供科学的决策。因此,粗糙集在专家系统中的应用研究主要集中于知识约简和规则提取两个方面。

1.基于粗糙集的知识约简

随着社会的发展,现实生活中的数据库变得越来越大,其维度(属性的个数)也变得越来越大,数以十计、百计,甚至千计的属性存储于现实世界的数据库中[90-92]。与决策无关的属性,在很大程度上会增加计算复杂度[93],即存储和处理所有的无关属性的计算是非常昂贵和不切实际的。为了解决这个问题,胡清华[94]指出可以约简掉一些不(严重)影响分类的属性,约简掉一些属性不仅不会影响实际问题的解决,还会降低实际问题的计算复杂度[95]

属性约简又称特征选择,已经广泛地被应用于模式识别、数据挖掘和机器学习领域。粗糙集的属性约简提供了一个基于一致性的特征选择理论框架,其思想是在保持对论域的分类能力不变的前提下尽可能地减少属性[96]。属性约简的方法主要有两种:一是采用学习算法来评估所选择的属性子集[97];二是根据属性重要度或者信息增益等选择属性[90][98][99]

为了处理定量和定性属性,Pedrycz和Vukovich将属性称为粒度[92],研究了粗糙集的属性约简。沈强和Jenshen将经典粗糙集中的依赖函数推广到模糊近似空间,并且提出了模糊粗糙集的快速约简算法[100]。Bhatt和Gopal在模糊粗糙集中提出了紧凑的计算域来提高计算效率[101][102]。胡清华等人在模糊集中提出一种新的熵来度量信息数量[103],并应用该方法约简混合数据[104]。由于粗糙集智能处理离散数据,因此,学者们将数据离散成多个间隔的数值,将定量数据离散化[105][106]。Ziarko提出β-约简概念,提供了一套减少可变精度粗糙集模型的方法[107]。吴伟志在文献[108]中,提出了减少随机信息系统的属性约简方法。Kryszkiewicz[109]和Leung[110]在不完备信息系统中提出了5种属性约简方法,并研究了它们之间的关系。为了获得一个给定的数据集属性约简,Skowron[111]提出了差别矩阵的方法,在任何两个对象之间确定一个能区分它们的功能子集。邵明文等[112]从差别矩阵的角度在区间值信息系统,集值有序的信息系统和不完整的序信息系统提出属性约简方法。Kryszkiewicz和Laske[113]提出了一种根据决策属性获取最小属性约简的方法。以上的属性约简方法计算复杂度比较高,在处理大规模数据集或高维数据集时有很大的限制。为了高效地获取约简属性,很多学者在粗糙集理论中提出了启发式属性约简方法[94]$$[104][114-118]。启发式属性约简方法可以分为四大类:正区域的属性约简、香农熵的属性约简、信息熵的属性约简和组合熵的属性约简,利用这些方法可以方便地从给定的决策表中进行属性约简。

2.基于粗糙集的规则提取

在属性约简对信息系统进行预处理的基础上,设计规则提取算法获得有意义的决策规则是非常重要的,它为我们做决策提供了很大的帮助[119]。Tsum-oto[120][121]研究了概率规则归纳方法,并将其应用于医疗数据库的知识提取中。Tsumoto[120]先研究了只有完全包含的对象集,认为这集是能进行分组的,而在文献[121]中引入了粗糙的包容关系。GrzymalaBusse等人[122-124]研究了提取最小决策规则集的LEMS算法,并将LEMS算法应用于分类和医学知识挖掘中。Bob Law[125]在数值型和非数值型混合数据集上研究了分类、决策规则提取,并将其应用于旅游购物的分析。沈强和Chouchoulas[126]提出了一个高度模块化的粗糙集属性约简和规则的提取框架,并将其应用于城市污水处理系统。

总之,基于粗糙集的属性约简和规则提取的专家系统已经成功地应用到生活中的很多方面,但是,已有属性约简和规则提取的计算代价仍然非常昂贵,因此设计合理有效的粗糙集属性约简和规则提取算法仍是当前研究的一个热点议题。