第1章粒认知计算与粗糙集
大数据时代促使信息处理技术走向数据驱动技术,进而对数据的利用价值提出了更高的需求,如何将数据中隐含的知识更好地抽取出来,已经成为人们关注的新焦点。知识抽取把蕴含于数据源中的知识以结构化的方式呈现出来,既总结以往规律性知识,也增强新知识,促进精炼简洁的知识驱动。目前人们面对原始数据丰富但知识抽取方法匮乏的局面,如何从积累的数据中挖掘、抽取出有用知识,是目前知识抽取亟待解决的问题。
1.1粒认知计算
1.1.1知识与知识发现
知识是人类进行智能活动的基础,是人类实践的总结和提炼,具有抽象性和普遍性的特性。知识表现为命题、规则的集合,一般可分为说明性知识、过程性知识和控制性知识。说明性知识提供概念和事实,用规则表示问题的知识称作过程性知识。用控制策略表示问题的知识称为控制性知识,包括有关各种处理过程、策略和结构的知识,常用来协调整个问题求解过程。
知识发现是从各种数据中,根据不同的需求获得知识的过程。知识发现的目的是屏蔽原始数据的烦琐细节,从原始数据中提炼出有效的、新颖的、潜在有用的知识,并且以知识表现形态输出。
1.1.2粒
人类在处理大量复杂数据和信息时,由于人类认知能力有限,往往会把这些数据和信息按其各自特征和性能划分为若干较为简单的块,每个分出来的块被看成是一个粒。实际上,粒是指一些个体通过不分明关系、相似关系、邻近关系或功能关系等所形成的块。如商场的货物多种多样,如果不按某种方式摆放就很难进行有效管理。于是人们按货架所摆放货物的种类、体积、等级等将商场划分为若干块并以此安排货架,其每一块将摆放同一种类或体积相似或同一等级的货物。这里的块就是粒的概念,划分粒的过程称为粒化过程,划分出来的粒及其相配的划分所带来的属性称为粒度。如果划分所带来的属性在集合上存在包含关系,那么通常称粗粒度和细粒度。
图1.1所描述的是人们锻炼与体内胆固醇含量的数据。
图1.1中,如果按照整个数据集来看,虚线所围成的椭圆趋势表明,人越锻炼,体内胆固醇含量越高!这就令人不可思议,数据似乎是错误的。但是我们将数据按年龄大致划分为10岁、20岁、30岁、40岁、50岁,即实线所围成的椭圆,发现不同年龄段都明显呈现出“人越锻炼,体内胆固醇含量越低”,而且随着年龄的增长,尽管锻炼提高,胆固醇还是比低年龄段的要高。把数据作为整体,即考虑虚线椭圆围成的数据,相对按年龄划分得到的、用实线椭圆围成的数据粒度来说,是粗粒度数据分析,而年龄划分后的被视为相对细粒度数据分析。
自Zadeh提出粒(granularity)概念以来,粒度化思想产生了深远的影响,特别是大数据时代作用显著。很多领域都存在粒的概念,只是在不同领域中的表现形式不同。自动机与系统论中的“分解与划分”、*优控制中的“不确定性”、区间分析里的“区间数运算”,以及DS(Dempster/Shafer)证据理论中的“证据”都与粒概念密切相关。Hobss深入讨论了粒的分解和合并,以及如何得到不同大小的粒,并提出了产生不同大小粒的模型。
通过粒化,人类可以从多个层次、多尺度描述和理解客观世界和主观世界。例如,动物分类学家根据动物的各种特征(形态、细胞、遗传、生理、生化、生态和分布)将动物依次分为界、门、纲、目、科、属、种七个主要等级。这个动物家谱就是一种粒化的层次结构,界在*高层,下分42门(次高层),各门下有若干纲, ,显然层次结构为观察者或决策者提供了不同级别信息。粒提供不同尺度、不同分辨率、不同规模上数据信息化处理视角,更体现观测世界的思维方式。
1.1.3认知计算
自然界中,人类对事物的认知伴随着新概念的产生和旧概念的迭代更新。新概念的产生来源于对象和属性的充要性判断,如果对象和属性不统一,则可称属性是必要的或者充分的,当认知对象属性的充分必要条件达到一致时,新的概念应运而生。新概念的形成既能反映出人类认知过程的本质,也能反映出认知事物的本质。形式概念分析作为认知学习的核心推力,是对认知事物的统一表征和概括。因此,认知计算试图通过概念分析的形式揭示认知过程,并对其进行建模计算,形成适用于人工智能的认知计算框架。
以“数据”+“知识”为核心驱动力的认知计算中主张借助数据和知识呈现出整个认知框架。数据与知识的关系是交互的,数据可以抽象为知识的外延,知识又可以具象为数据的内涵。从不同层次逐级认识世界是人类固有的一种认知机制,在认知计算中,称为粒计算。粒计算试图模拟人类在不同层次上对现实世界进行感知的机制。同样,数据与知识在粒计算中也是交互的,细粒度可以理解为数据在知识上的细化表征,粗粒度可以描述为知识又可以称为数据的表现形式。
1.1.4粒计算
粒计算(granular computing,GrC)是一个新兴的、多学科交叉的研究领域,是当前计算智能领域中模拟人类思维和解决复杂问题的新方法,它涵盖了所有有关粒度的理论、方法和技术。粒计算起源于人工智能、机器学习、数据挖掘与智能系统等领域,从更高层面对这些领域进行概括分析,它强调对现实世界多层次与多视角的理解与描述,从而得到问题的粒结构表示。粒计算将结构化思维方式、结构化问题求解与结构化信息处理模式有机地结合在一起,具有其独*的理论、方法与技术,是研究复杂问题求解、大数据挖掘和不确定性信息处理等问题的有力工具。
不同的研究者对粒计算的理解并不完全相同。基于邻域系统的粒计算主要研究二元关系(邻域系统、粗糙集和信任函数)下的粒结构、粒表示,特别是模糊集和粗糙集方法,并将粒计算方法引入数据挖掘和知识发现。从认知世界的角度,粒计算包括粒化、组织及因果关系,其中粒化是整体分解为部分,组织是部分结合为整体,而因果关系则涉及原因与结果间的联系。粒化产生一系列的粒子,每个粒子即为一簇点,这些簇点内的元素或相似,或接近,或以某种功能结合在一起。一般来说,粒化在本质上是分层次,时间可粒化为年、月、日、小时、分、秒。粒计算三元论是以粒结构为基础,包含哲学思想(结构化思维)、方法论(结构化问题求解)和计算模式(结构化信息处理)三部分,为粒计算奠定了基本框架。粒计算也被看作是用一种独*的基于多层次与多视角的问题求解方法,从粒计算和信息表示等角度研究了知识的粒度、知识的粗糙性(知识的不确定性)与信息熵之间的关系。
总体来说,粒计算大体可分为两大类:一类侧重于不确定性处理;另一类则侧重于多粒度计算。从粒计算的角度看计算的对象,可能形成不同的计算模型。从多粒度计算的角度,计算模型大体由以下几个部分组成:①基本粒子,构成粒计算模型的*基本元素。一个粒子可以看作是由内部属性描述的个体元素的集合,以及由它的外部属性所描述的整体。②粒层,是对问题空间或计算对象的一种抽象化描述,按照某个实际需求的粒化准则得到的所有粒子的全体构成一个粒层。同一层的粒子内部往往具有相同的某种性质或功能。由于粒化的程度不同,导致同一问题空间会产生不同的粒层,各个粒层的粒子具有不同的粒度,即粒的大小不同。粒计算模型的主要目标是能够在不同粒层上进行问题求解,且不同粒层上的解能够相互转化。③粒结构,一个粒化准则对应一个粒层,不同的粒化准则对应多个粒层,粒层之间的相互联系构成一个关系结构,称为粒结构。在一般的粒计算理论中,把同一粒层的粒子看成一个集合,通常并不考虑粒子之间的结构关系,而在熵空间理论中,粒层中的粒子间具有结构关系,因此粒结构通常既指粒层间的结构关系,同时又指粒层中的结构。
1.2粗糙集
Pawlak等提出的粗糙集(roughset,RS)理论是用来研究不完整数据、不精确知识的表示、学习、归纳的方法,它突出的优点是具有很强的定性分析能力,即不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属度或隶属函数等,而是直接从给定问题的描述集合出发,通过不可分辨关系和不可分辨类确定问题的近似域,找出问题中的内在规律。粗糙集的研究对象是由一些多值属性描述的一个实例集合。通常,可得到的信息不一定足以将这些实例划分成确定的类别,也就是说,这种不确定性导致了实例的不可分辨性,粗糙集理论为此进行了深入研究并提供了有效的方法。用粗糙集来处理不确定性问题的*大优点在于:它不需要关于数据的预先或附加的信息,而且容易掌握和使用。粗糙集方法可以对数据进行预处理,去掉多余属性,可提高发现效率,降低错误率,但是粗糙集方法的模型描述能力针对具体问题进行具体解读。近年来,粗糙集理论发展迅速,已经在模式识别、机器学习、故障诊断、知识获取与发现、归纳推理、决策分析与支持等领域得到了应用。
1.2.1粗糙集示例
现有流感症状和确诊情况见表1.1。
在决策表中设置,其中C={头痛,胸口痛,体温},D={流感},那么,就可以设置c1=头痛,c2=胸口痛,c3=体温,所以有:
(头痛分类);
(胸口痛分类);
(体温分类);
所以c2为冗余属性,即可删除的属性,所以C的D约简为C-c2={c1,c3},即流感的关键因素是头痛和体温。
1.2.2基于粗糙集的知识表示
以分类为基础,可以将分类理解为等价关系。通常,对现实问题进行处理时,会将讨论的对象(或称元素、样本)限定在某一个特定的区域范围之内,这个区域内的所有个体就组成问题的论域U。这样,给定一组数据(集合)U和U上的一个等价关系R,在等价关系R下对数据(集合)U的划分,称为知识,记为U/R。也可以用U/R表示U上由R导出的所有等价类,[x]R表示包含元素x的R的等价类,x∈U。U上的一簇等价划分(对U的分类)称为关于U的知识库。根据等价关系可以对U进行不同的划分(知识),每种划分将把U分为不同的子集Xi,其中{X1,X2, ,Xi, ,Xn},这些子集Xi称为U中的一个概念或范畴。空集也认为是一个概念。因此,U中的任意概念簇也就是关于U的知识,它代表了对U中个体的分类。
知识表示就是要研究用机器表示知识的可行的、有效的、通用的原则和方法。传统的知识表示方法对知识描述是确定的、清晰的,即被描述的对象具有或不具有某种属性是明确的。然而,在现实世界中,人们常面对的是在领域信息不完整、不确定、不精确的前提下完成对事物的认识、分析、推理、判断、预测和决策。这往往要求人们对未知的信息进行估计、推测;对不完整数据进行分析、处理;对已知的证据进行分辨、扬弃。
一般地,一个信息系统S可表示为S=(U,A,V,f)。其中,U是对象的集合,也称论域,A为属性集,V是属性值的集合,f是一个信息函数,它指定U中每一个对象x的属性值。为了直观方便,S也可以如同数据库关系模型表示方法一样建立一个二维数据表格,纵轴表示实例标记,横轴表示属性实例,实例标记与属性的交汇点就是这个实例在这个属性的值。这个表称为信息表,与数据库关系表具有兼容性。相应地,将信息系统中的属性集A分成条件属性集C和决策属性集D两个子集,即A=C∪D且C∩D=,一般D={d},那么S=(U,C∪D,V,f)称为决策系统,根据决策系统所建立的信息表称为决策表。根据粗糙集理论对知识和概念的定义,信息系统和决策系统可以看成是知识表示系统,信息表或决策表是知识表示的具体形式。分类问题中数据大多可以用决策表的形式给出。实际上,这些关系表是对客观对象的描述和罗列,表示的是属于说明性的知识,当关系表包含的数据足够少但足以反映论域的时候,通过属性所对应的等价关系就可以体现论域中的过程知识,即概念之间的逻辑关系或规则知识。从信息表所表达的说明性知识中发现过程性知识(规则知识)就是知识发现的具体研究内容。
值得一提的是,建立任何实际的知识表示系统,都需要认真研究数据的预处理问题,包括原始数据的采样、收集和整理。不同领域的原始数据可以通过不同的方法处理,但是,取得的原始数据并不一定就适合直接用于粗糙集理论
展开