第1部分 本书焦点
第1章 数据挖掘概述
要准确地回顾并概括过去一个世纪的巨变是很难的事情。尽管我们可以直接感受到各个领域
中的变化,但我们很难发现哪个领域的变化能超越信息数量的增加。信息爆炸为各行各业提供了新的机遇,同时也引致了一些新的问题,从制造业到医药行业再到市场营销无不如此。若要评价过去若干年世界信息储量的增加,就有必要回顾20世纪中具有历史意义的事件。
1900年,世界人口是16亿(除信息之外另一个可称为“爆炸”的领域)。而100年后,世界人口达到了60亿。人口爆炸导致在20世纪结束时人口达到该世纪初的3.75倍。
1906年,斯坦利孪生兄弟——弗朗西斯和弗里兰(Stanley Francis和Stanley Freelan)用斯坦利蒸汽机车创造了每小时l22英里的地速世界记录。在当时,船在水中每小时行驶15英里已经是相当快的了;而飞机能够上天也才仅有3年的历史。因而,当时地速的这一记录没有挑战者。而在63年以后,阿波罗号宇宙飞船飞往月球时的速度达到了每小时25000英里,是蒸汽机车创造的记录的205倍。
登月飞行是另一个新的里程碑。1900年,人们所能抵达的最远的旅程大约为25000英里,也就是环绕地球一圈的距离。到达月亮的往返路程大约是环球旅行的19倍。以上这些数字给人的印象是深刻的,但所有这些都无法与公司数据的增长相比。在20世纪初,或者即使到了20世纪中叶,没有一个公司的账目、订货记录和文件柜的数据总和能超过几十个百万字节(megabytes)。今天,最大的公司数据库的容量是用万亿字节(terabytes)来计量的。对于这些公司来说,数据的增长是以10万倍来计量的。这些比较主要是用文字和数字的形式进行(本书都采用相似的比较)。影像和录音也可储存大量数据和信息,同样是我们所关注的,但本书所介绍的数据挖掘技术还不能适用于视频和音频数据的挖掘工作中。
展开
——吉姆·古德奈特,SAS研究所主席和联合发起人
“数据挖掘是理解网上客户行为,并帮助互联网企业创建个性化客户服务的重要工具,是电子商务时代的重要工具。这是一本伟大的书,它是我专业工作中四、五本必备手册之一。”
——拉尔夫·金博尔,《数据仓库生命周期工具箱》作者
“本书解决了二个重要问题:从实际操作层面阐述数据挖掘并将它与商业世界联系起来,太多数据挖掘者忘记了他们最终是为商业服务的,但本书的作者没有犯这个低级错误。如果你对数
据挖掘有兴趣,本书是必读书。”
——比尔·因蒙,《创建数据仓库》作者