第1章数据挖掘与智能知识管理研究现状
1.1数据挖掘及其主要研究方向
计算机技术、网络技术和通信技术的发展和普及,以及网络经济、知识经济等新概念的出现,带来了极大的社会经济效益;同时也造成了大量数据的积累,我们的生活空间充满了大量的、庞杂的数据和信息,人们似乎已经淹没在数据的海洋中。“数据丰富,知识贫乏”,决策者很难从海量的数据中发现有价值的知识。面对这一挑战,数据挖掘(data minrng)技术应运而生,并显示出强大的生命力。
综合相关领域研究者的观点,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先不知道的、潜在有用的信息和知识的过程。此外,还有一些与数据挖掘类似的术语被相继提出,如知识发现(knowledge discovery in database,KDD)、知识提取、数据分析、数据融合(data fusion)、数据考古、数据捕捞等。人们把原始数据看做形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。知识发现(knowledge discovery,KD)的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。因此,数雛掘和知识发现是一门交叉学科,汇聚了不同领域的研究者,尤其是统计学、数据库、人工智能、模式识别、机器学习、可视化、并行计算等方面的专家学者。
数雛掘是近年来一个十分活跃的酿领域。KDD-词首先出现在1989年举行的第十一届国际联合人工智能学术会议(International Joint Conference on Artificial Intelligence,IJCAI)上。从1989年到1994年举行了四次KDD的国际研讨会。在此基础上,第一届数据挖掘与知识发现国际学术会议于1995年召开。1998年新的学术组织ACM-SIGKDD(Association for Computing Machinery,即美国计算机协会;Special Interested Group on Knowledge Discovery in Databases)即ACM下的数据库中的知识发现专业组建立。1999年ACM-SIGKDD组织了第五届数据挖掘与知识发现国际学术会议;1997年专题杂志Data Mining and Knowledge Discovery开始出版。此外,还有一些国际和地区性数据挖掘会议也定期召开,如“知识发现和数据挖掘太平洋亚洲会议”(PAK-DD)、“ACM-SIGKDD数据管理国际会议”(SIGMOD)、“信息与知识管理国际会议”(CIKM)等。近几年,从雜据挖掘研发的人员遍布世界80多个国家,数据挖掘的研究重点逐步从算法研究向具体应用过渡,从实验室原型走向商品化阶段(焦李成和刘芳,2006)。
目前,几种典型的数据挖掘技术是关联规则(association rules)挖掘、分类(classication)、聚类(dataclustering)、预(prediction)、顺序模式(sequential pattern)、时间序列(time-series)、异常点检测(anomaly detection)等,下面主要介绍前三种。
1.1.1关联规则挖掘
自从Agrawal等(1993)第一次提出这个概念以来,关联规则一直是众多学者的研究热点。现已发表的研究论文包括确定性关联规则的挖掘、量化关联规则的挖掘(Srikant and Agrawal,1995)、增量式关联规则的挖掘(Cheung et al.,1996)、模糊关联规则的挖掘(程继华等,1999)、广义关联规则的挖掘(Srikant and Agrawal,1995)等。关联规则挖掘的目的是在数据库中发现各项目之间的关联关系。著名的关联规则发现算法是Aprion算法,该算法通过多次迭代找出所有的频繁项目集。由于关联规则的数目可能是相当大的,人们在探索发现关联规则的同时,对于提高挖掘过程鮮也做了不少究,常见方法包舌减少对数据库的搜索次数、适当放松对精确度的限制、并行化数据挖掘等(焦李成和刘芳,2006)。不难看出,关联规则挖掘一直是数据挖掘领域的研究热点,近年来其研究正逐步走向深入成熟。
1.1.2分类
数据挖掘的另一个重要应用是对大量数据的分类能力,又定义为挖掘分麵则。分类问题也是机器学习、模式识别、专家系统、统计学等的研究领域,目前已经开发出许多相应的算法,如决策树算法、贝叶斯分类、神经网络、多目标线性规划(multiple criteria linear programming,MCLP)分类方法(Shi,1995;Shi et al.,2003,2005)、支持向量机(support vector machine,SVM)方法(Vapnik,1998)、基于数据库的方法等。
决策树算法是数据挖掘领域研究分类问题最常采用的方法。目前,决策树算法通过启发式属性选择策略来实现。决策树算法中最为著名的算法是Quinlan提出的ID3算法,该算法用信息熵的增益及其改进效率进行属性选择,增益率能克服增益偏向于多值属性的特点。决策树算法的其他算法还有FACT、QUEST、CHAID等。
贝叶斯分类是一基于统计的分类方法,可以测一类成员系的可能性,即给定样本属于一个特定类的概率。数据挖掘领域主要使用两种贝叶斯分类方法,即朴素贝叶斯方法和贝叶斯网络方法。贝叶斯网络也是一种适合表示不确定性知识的方法。
神经网络的研究已经取得了许多方面的进展和成果,提出了大量的网络模型,发现了许多学习算法,人工神经网络在模式分类、机器视觉、智能计算、信号处理、组合优化求解、医学诊断、数据挖掘等领域均得到很好的应用。神经网络可分为四种类型,即前向型、反馈型、随机型和自组织型,其中前向型神经网络是数据挖掘中广为应用的一网络,其原理和算法也是其他网络的基础。近年来,神经网络用于数据挖掘的分类的研究逐渐增多,Lam和Lee讨论了利用人工神经网络构造文本分类器及纖削咸的方法Gupta等分了现有神经网络算法用于分类等问题的现状,提出了一种规则抽取框架;Fu则提出了一种新的神经网络模型,用于从经验数据中归纳符号知识,通过基于事实的獅函数,改善网络的泛化能力;Hatano等提出了一种应用于超文本数据的分类视图机制,通过自组织映射(self-organization mapping net,SOM)和搜索引擎交互式地进行Web文档的分类(王颖,2012)。目前,神经网络作为一种自适应、自学习的算法模型在数据挖掘中已有了一些成功的应用。
MCLP分类方法是基于线性规划学的分类方法,近年来在数据挖掘领域得到了研究和应用。Shi和Peng(2001)提出了一种应用于数据挖掘分类的MCLP模型。
SVM方法是Vapnik根据统计学习理论提出的一种新的学习方法,近来受到学术界的重视。目前,在数据挖掘领域已经开始使用SVM原理,构造一些数据预处理算法及掘算法。
除了上述方法外,分类还可以使用K最邻近分类、基于案例的推理(case-based reasoning,CER)、遗传算法、粗糙集和模糊集方法。
1.1.3聚类
聚类将数据对象分组为多个类或簇,使同一个簇中的对象之间的相似度最高,而不同簇中的对细似度最低。如今,聚类分析已经成为数据挖掘研究领域一个非常活跃的课题。常用的聚类方法有统计学方法、模式识别、机器学习和数据库方法。数雛掘中的聚类研究主要集中于大型数据库中的聚类分析方法的构成,活跃的方向是聚类算法可伸缩性的酿、各种聚类方法对聚类复杂形状和复杂类型数据的有效性、高维的聚类分析技术的酿、大型数据库中混合了数鎌据和分类数据的聚类算法研究等。数据挖掘中的聚类方法一般有基于模型的方法、基于密度的方法、基于划分的方法、基于层次的方法、基于网络的方法及混合方法。
关于基于模型的方法,Fisher(1987)提出了COBWEB;Gennan等(1989)提出了CLASSIT;Cheeseman等(1993)提出了AutoClass;还有两个比较著名的方法是竞争学习方法和自组织特征映射方法。基于密度的方法包括DBSCAN、OPTICS、DENCLUE等。基于划分的方法中最著名的是K均值算法、K中心点算法及其扩展算法。基于层次的方法有AGENS、DIANA、BIRCH、CURE、ROCK、CHAMELEON等。基于网络的方法包括STING、CLIQUE、Wave-Cluster等。
1.1.4数据挖掘技术的应用
数雛掘的目的在于从海量数据中找到隐藏的有价值的知识,增加企业的知识存量,从而通过知识管理(knowledge management)提高企业的竞争力。需要指出的是,数雛掘技术从一开始就是面向应用的。目前,数雛掘技术在很多领域得到了应用,特别是在金融、电信、交通、零售、医疗等商业领域得到了广泛应用。数据挖掘所能解决的典型商业问题包括数据库营销(database marketing)、客户群体划分(customer segmentation classification)、背景分析(profile analysis)、交叉销售(cross-selling)、客户流失分析(churn analysis)、客户信用记分(credit scoring)、欺诈发现((raud detection)等。
例如,数雛掘技术被商业银行广泛应用于客户关系管理、风险识别和控制、资信评估等方面(Shi et al.,2005;郑启鹏等,2005;道焰和代玉龙,2005;苏光奎和苏彦,2005)。
1.2知识管理及主要流派
1.2.1知识管理的起源与发展过程
人類知识的思索由来已久:知识是什么?知识意味着什么?知识在人类、社会、企业,在人类工作及精神生活中扮演什么样的角色?这个问题经常引起人们的思索,其中哲学家和宗教思想家对这些问题进行的抽象性思考尤其重要。西方哲学家对知识——包括认识及动机——酿的最早论述可追溯到几千年前。在东方,哲学家也存在同样的传统_他们都特别强调用知识来指导人类的精神和现实生活。
知识管理最早见于霍顿(Horton)1979年的著作,是从资源管理演化的角度提出的。但是对知识管理的深入酿始于20世纪90年代,众多西方企业的大规模的以信息技术(information technology,IT)!数据挖掘为主的高科技活动将其推向高潮。知识管理已成为21世纪管理学的热点方向之一,并逐渐被企业重视。
1.2.2知识管理的概念
从广义上看,知识管理指的是对企业内所有与知识有关的活动、业务、计划及政策的系统而明确的管理(Wiig,2004)。从广泛的意义上来说,对知识的管理主要包括三个方面(王众托,2004a)。
(1)科学界的知识管理:这是在知识管理中最为久远的领域,已经有100年以上的历史,它涉及在科研领域中怎么样对知识的创造、传播等进行管理等问题。
(2)社会上的知识管理:这涉及社会和文化中的知识过程,如学校教育、城市与社区文化、终身学习等。
(3)组织中的知识管理:这是知识管理中发展最晚而进展最快的领域,包括企业的知识管理、非营利组织的知识管理、政府的知识管理、教育单位的知识管理等。其中企业的知识管理又是最活跃的。现在企业不但自己进行酿开发,而且和学术机构联合进行科学技术和管理的研究开发,知识应用于创新活动的重点将逐渐集中企业之中。
近年来人们在研究以业为重点的识理过程中,对知识管理做出过下列定义(王众托,2004a)。
(1)知识管理是对企业知识的识别、获取、开发、分解、使用和存储。
(2)知识管理是将所有的专业知识,不论是在纸上,在数据库里还是在人的头脑中掌握起来分配到能够产生最大效益的地方去。
(3)知识管理是获取恰当的知识在恰当的时候交给恰当的人,使他们能做出最好的决策。
(4)知识管理涉及发现和分析已有的和需要的知识,并规划和控制开发知识资产的行动,以达到组织的目标。
(5)知识管理就是鼓励创新与知识共享
……
展开