第1章 概述
目前,大数据问题已经全面地在科学研究与工程应用的各个领域出现[1]。大数据具有重大的科学价值和社会经济价值[2]。为了有效地利用大数据的科学价值和社会经济价值,许多国家布局和制定了大数据战略规划[3-6]。丰富的数据来源导致数据的多样性。与小量、单一来源的数据相比,今天的数据往往具有随机性、模糊性和不一致性等多种不确定性。在“万物皆数”的信息时代,通过数据的表象发现数据内涵的知识已然成为人工智能领域亟待解决的问题。因此,人们需要一种能去粗取精、去伪存真并将具有不确定性的海量数据转换成知识的技术。
1.1 粒计算理论
张钹和张铃[7]在20世纪90年代初指出“人类智能的一个公认特点,就是人类能从极不相同的粒度上观察和分析同一问题。人类不仅能在不同粒度世界上进行问题求解,而且能够很快地从一个粒度跳到另一个粒度或者仅仅在某一个粒度上,往返自如,毫无困难”。粒度是反映信息详细程度的概念,从哲学的观点来看,人类在对任何对象进行认知、度量、形成概念和推理时,粒度都贯穿其中。1997年,Zadeh[8]提出了粒计算是模糊信息粒化、粗糙集理论和区间计算的超集,是粒数学子集的结论。粒计算是当前人工智能领域中一种新的概念和计算范式,其采用多层次分解求解模式对大规模复杂问题进行结构化分析,并模拟人类大脑的认知思维规律,在对复杂问题的求解过程中,选择合适粒度的“粒”作为处理对象并求得满意解,提高了解决问题的效率。在粒计算的“大伞”之下,包含了很多具体的模型,如商空间[6]、模糊集[8]、粗糙集[9]、云模型[10, 11]等。
Yao[12]概括地认为,粒计算是在解决问题的过程中使用粒度的全部理论、方法、技术和工具的标签。Wang等[13]研究了粒计算框架下的模糊集方法,分析了粒计算框架下的模糊集,并提出扩展模糊集与其他理论相结合的思路,为大数据处理提供了新的研究方向。Pedrycz和Homenda[14]提出了“合理粒度”的概念,将信息粒的构建与优化问题联系起来。Wang 等[15, 16]从粒度空间优化、粒度层次切换和多粒度联合问题求解这三个层次对粒计算的研究工作进行了系统分析总结,提出了一种新的粒计算模型—数据驱动的粒认知计算模型,并指出大数据机器学习面临计算机“由细到粗”信息处理机制与人类“由粗到细”认知机制的矛盾。这是在新型认知启发的机器学习研究中需要解决的一个关键问题。粒计算自提出以来吸引了大量研究人员的兴趣[17-20]。粒计算的研究工作按其目的可以大致分为两类:一类是以粒计算思想为指导,对相关智能计算模型进行扩展研究[21-23];另一类是直接研究粒计算数据处理模型算法[24-26]。粒计算领域的概念和算法在不同的形式框架(模糊集、粗糙集等)下各不相同,因此,该领域需要一种可靠的基础模型。
1.商空间
Zhang B和Zhang L[27, 28]提出的商空间理论通过利用分层递阶的多粒度知识空间结构为基于模糊等价关系的推理问题提供了更实用的方法。相对于粗糙集和模糊集理论,商空间理论不仅关注同一粒度层次的对象之间的结构关系,而且模拟人类在不同粒度层次上观察和处理问题的能力,可以实现求解问题时在不同粒度层次上进行切换。因此,求解不同的问题需要不同粒度的空间描述,尤其当问题、任务非常复杂时,解决同一个问题可以从若干粒度空间进行联合求解,有时候根据用户要求往往只需要提供某个粒度层次下的解。张钹和张铃[7]将商空间理论与模糊数学相结合,提出了模糊商空间理论,从而为粒计算提供了有用的数学模型。在模糊商空间理论中,Zhang B和Zhang L[29]指出对于任意两个隶属度函数,只要它们的结构相同,那么它们的本质是一样的。Zhang B和Zhang L[29]进一步提出了一种更有意义的隶属度函数的结构定义—层次商空间结构(hierarchical quotient space structure,HQSS)。作为模糊等价关系的本质描述工具,关于HQSS的研究越来越多[30],而且HQSS已经应用于处理许多领域的不确定性信息,包括自动化控制[31,32]、医疗科学[33]、图像处理[34]和应用数学[35-38]等领域。当前有许多粗糙集方面的研究工作基于分层递阶的多粒度空间展开。Wang等[39]提出了一种在分层递阶粒结构下概率粗糙集的不确定性度量方法,该方法随着粒度的细化呈现单调性,并很好地运用于属性约简。Jia等[40]基于决策代价提出了决策粗糙集的*优粒度表示方法,在这个粒度上面可以实现决策代价*小化。Huang等[41]提出了一种多粒度直觉模糊集,并研究了它的四种层次结构。Li等[42]基于三支决策理论,通过在深度神经网络(deep neural networks,DNN)训练过程中考虑代价,寻找*优代价的特征集合,使得在这个特征集合上训练的总代价*小。
2.云模型
大多数知识表示方法的研究主要聚焦在从定量数据中提取定性概念,也就是从概念外延转换到概念内涵[43]。1995年,李德毅等[44]基于概率测度空间提出了定性概念与定量数据双向转换的认知模型—云模型,通过引入3个数字特征:期望Ex(expectation)、熵En(entropy)和超熵He(hyper entropy),并结合特定生成算法,构造出服从泛正态分布的随机变量—云滴,将认知中的模糊性纳入概率框架中进行统一描述。其中,期望Ex代表定性概念的基本确定性,是云滴在论域空间分布中的数学期望,即*能够代表定性概念的点;熵En代表定性概念的不确定性度量,由概念的随机性和模糊性共同决定;超熵He代表熵的不确定性,可以将定性概念的随机性约束弱化为某种泛正态分布,反映定性概念所对应的随机变量偏离正态分布的程度。再者,云模型通过正向云变换(forward cloud transformation,FCT)和逆向云变换(backward cloud transformation,BCT)实现定性概念及其定量表示之间的相互映射,提供了从数据到知识及从知识到数据的双向认知通道。因此,云模型不仅反映了定性概念自身所具有的不确定性,而且揭示了客观事物的随机性和模糊性的关联[45]。以上特性决定了云模型可以作为表示概念的基本模型。
云模型理论发展二十余年来,在理论研究上不断得到完善,云模型发生器、云规则发生器、逆向云算法、云变换和云模型的粒计算等理论相继被提出。特别是逆向云算法和云模型的粒计算方法的提出,突破了云模型理论存在的许多瓶颈,为以后的研究奠定了坚实的基础。2012年,王国胤等[46]出版了《云模型与粒计算》,对云模型与粒计算的结合进行了探讨。2014年,李德毅和杜鹢[47]出版了《不确定性人工智能》,进一步深化了云模型理论研究。我们调研关于云模型理论在不确定性信息处理、双向认知计算、多粒度机制方面的理论和应用,并思考云模型在大数据处理中的一系列科学问题,创新性地提出了大数据环境下的云模型研究框架。同时,云模型在智能控制、数据挖掘、系统评测等方面也得到了较好的效果[48-54]。
3.粗糙集
波兰数学家Pawlak[55]于1982年提出的粗糙集理论[54]是一种通过定量分析不精确、不确定信息获取知识的粒计算模型,同时也是一种天然的数据挖掘方法。粗糙集是一种较为客观的知识发现方法,可以在没有先验知识的前提下,直接通过不可分辨关系从数据中获得知识的特有信息。经典的粗糙集理论缺乏容错能力,很难满足实际需求。为了解决这个问题,Ziarko[56]通过引入一个阈值,将Pawlak粗糙集模型扩展为变精度粗糙集模型。随后许多学者提出了更加广泛的概率粗糙集模型,即通过引入一对阈值,将整个论域划分成三个不相交的区域,使得边界区域的对象个数减少,正负区域的对象个数增多,*后提高了Pawlak粗糙集模型的容错能力。当前概率粗糙集模型已被广泛地应用到各个领域,如决策粗糙集理论[57]、贝叶斯粗糙集理论[58]和博弈粗糙集理论[59]等。相比于Pawlak粗糙集模型,这些扩展模型的容错能力更强。这些模型中的目标概念通常为一个清晰的集合,即决策系统通常由几种互补且不相交的决策状态组成。例如,在诊断一个患者是否患病时,只有“患病”和“不患病”两种状态。但是,在许多现实的决策问题中,目标概念的状态可能是不确定、模糊的,例如,在评估一条河流的污染程度时,不能单纯地用“污染”和“无污染”来评估。为了解决这类问题,Dubois和Prade[60-62]提出了粗糙模糊集。当前,有许多关于粗糙模糊集方面的研究,大致分为三方面:理论研究、扩展模型和应用。其中,Banerjee和Pal[63]提出了两种类型的粗糙度度量模型,可以有效地刻画模糊集的粗糙度。Cheng[64]提出了两种快速计算粗糙模糊近似空间的增量式算法。为了将等价关系推广到任意的二元关系,Wu等[65]提出了一种研究粗糙模糊集的广义框架。Sun等[66]基于条件概率提出了概率粗糙模糊集,在此基础上进一步提出了决策粗糙模糊集模型。Feng和Mi[67]基于提出的不确定性度量模型,研究了多粒度决策模糊粗糙集的属性约简。
1.2 不确定性问题
随着对不确定性问题研究的深入,研究者从不同角度得到了多种理论模型。经典的粗糙集模型大多是基于单一知识粒度构建的,对于复杂的问题求解不太适用。结合粒度分层思想,多粒度的知识获取方法[11-14]从不同粒度层次上进行知识获取,通过构建独立的知识空间结构挖掘复杂数据的内在联系。Zhang B和Zhang L[27,28]提出的商空间理论提供了不同粒度空间的描述方法及不同粒度空间之间的转换和粒度空间寻优问题的解决方案。在商空间理论中,分层递阶思想把问题分解,从抽象粒层开始,从抽象到具体,从全局到局部对问题进行渐进式求解。从多粒度粗糙集[67-69]的观点来说,随着属性信息的不断增加,每个商空间中的等价类逐渐细分,形成分层递阶的多粒度知识空间结构,从而实现对不确定性知识的多粒度近似描述。但是,当前对于分层递阶的多粒度知识空间的研究仍然存在许多不足,例如,如何反映层次商空间结构中每个商空间的分类能力及它们之间的关系,即缺乏层次商空间结构的有效描述方法。因此,有必要进一步完善层次商空间的结构特征方面的研究,为研究多粒度知识空间中不确定性知识的度量模型与方法奠定理论基础,同时也助于进一步完善粒计算理论。
不确定性问题在多粒度知识空间中的不确定性度量是知识获取的一个基础问题。由于经典粗糙集模型在实际问题中常常会有很大的局限性,近年来许多专家学者致力于粗糙集理论的研究,提出了粗糙集的扩展模型。其中,为了有效地处理目标概念为不确定性时的情形,Dubois和Prade[60-62]提出了粗糙模糊集。在粗糙模糊集模型中,通过定义上、下近似集来描述一个不确定目标概念(目标模糊集),然后利用它们来进行不确定性度量或提取模糊决策规则。粗糙模糊集通过一对阈值控制分类精度,并通过等价类的均值隶属度将论域划分为三个域(正域、负域和边界域)。经典粗糙集的不确定性来自于边界域,但是,对于粗糙模糊集来说,由于其正域和负域中的元素存在不确定性,即对于目标概念的隶属度不一定为1或0,这导致粗糙模糊集的不确定性不仅来自于边界域,还来自于正域和负域。因此,传统的不确定性度量方法在粗糙模糊集的多粒度知识空间中不再具有单调性,从而不再适用于基于粗糙模糊集的知识发现。另外,在许多应用领域中,如医疗诊断、质量评估、风险预测,三个域的不确定性分析将有助于提高*终的决策质量。因此,在粗糙模糊集模型中,有必要研究具有单调性的不确定性度量模型及其对三个域的不确定性变化规律。当前的不确定性度量模型在一些情况下无法准确地体现两个不同知识空间刻画同一个模糊概念时的差异性,从而不能有效地实现粒度选择。因此,建立具有强区分能力的不确定性度量模型,成为研究多粒度知识空间中处理不确定性知识的一个关键问题[68-70]。
代价度量是机器学习中的一个重要内容,将代价度量引入粒计算对于不确定性问题的近似描述具有实际意义和应用价值。通过引
展开