第1章 绪论<br> 1.1 研究背景<br> 数据是人们用各种工具和手段观察外部世界所得到的原始材料,它本身并没有什么直接的价值,有价值的是蕴藏在其中的信息和知识。随着信息技术的快速发展、互联网的广泛普及,人们获取、储存数据的手段和方式已变得非常便捷和廉价。数据的增长积累速度已远远超过数据总结和分析能力的提升速度,致使各行业的数据量以空前的速度急速增长。因而,一方面有大量的“数据过剩”;而另一方面却又严重地“信息匮乏”。如何开发宜于从海量数据中自动、高效地提取所需的有用知识,已成为众学科共同关注的焦点。<br> 数据库中知识发现是适应这一现实要求而发展起来的一种数据分析技术。KDD是指从数据中识别出有效、新颖、潜在有用的和最终可理解的模式或规则的非平凡过程。KDD是一个多阶段的处理过程,可能需要多次的反复循环和调整。这些典型的处理包括数据存储、目标数据选择、清洗、预处理、交换和缩减、数据挖掘、结果评价和解释等步骤。通常KDD可简要地概括为:数据准备、实施挖掘及结果评价和解释三个主要阶段。<br> KDD是一个介于统计学、机器学习、模式识别、数据库技术、数据可视化和并行计算等领域的交叉新兴学科,也因此有了许多不同的术语和名称。除KDD之外,主要有“数据挖掘”、“智能数据分析”、“信息发现”、“探索式数据分析”,等等。<br> ……
展开