1.1 研究背景
1.1.1 数据挖掘技术的产生和发展
在过去的三十年,随着计算机硬件技术、数据收集技术和数据存储技术的快速发展,各行各业都逐步建立起各自的数据库体系。在这些数据库中存放着大量的数据,如何能有效地利用这些信息,使之能为生产实践所利用,成为人们所关注的问题。但相对于堆积成山的丰富的数据而言,人们缺乏强有力的分析手段和分析工具,因而造成了“数据丰富而信息缺乏”的状况。显然,数据库的检索和查询难以满足人们的需要,虽然伴随着数据仓库出现的联机分析处理(On—Line Ana—lytical Processing,OIAP)技术具有总结、概化和聚集的功能,可以从不同角度来观察数据,支持多维分析和决策支持,但它不能进行更深层次的分析,挖掘出大量数据背后所蕴藏的知识。在这种情况下,数据挖掘技术便应运而生。
数据挖掘指的是从大量的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、并且是潜在有用的信息[FPSU96]。它是计算机技术研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,目前已成为国际上数据库和信息决策领域中最前沿的研究方向之一,引起了学术界和工业界的广泛关注。一些国际上高级别的工业研究实验室,例如IBM Almaden和GTE,众多的学术单位,例如UC Berkeley,都在这个领域开展了各种各样的研究计划。其研究的主要目标是发展有关的方法论、理论和工具,以支持从大量数据中提取有用的和让人感兴趣的知识和模式。
数据挖掘,也叫数据库中发现知识(Knowledge Discovery in Databases,KDD)。KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第1届KDD国际学术会议,以后每年召开一次。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展成为国际学术大会。
……
展开