信阅平台

作者简介

薛薇，工学硕士，经济学博士，中国人民大学应用统计科学研究中心副主任，中国人民大学统计学院副教授。关注数据挖掘及统计建模、统计和数据挖掘软件应用、统计数据库系统研发等方面。涉足网络新媒体舆论传播和互动建模、政府和官方微博分析、电商数据分析、学科学术热点跟踪等文本挖掘，以及社会网络分析和以数据挖掘为依托的客户关系管理等领域。

展开

内容介绍

数据挖掘具有广阔的应用领域和发展前景。SPSS Modeler因界面友好且操作简捷，成为公认的数据挖掘实战的首选软件。
基于多年的教学和科研经验，作者深知数据挖掘理论和软件操作相结合的重要性，努力在本书中突出以下特点：
以数据挖掘过程为线索讲解Modeler软件操作。本书以数据挖掘实践过程为主线，从Modeler数据管理入手，说明问题由浅入深，讲解方法从易到难，旨在使读者在较短时间内掌握Modeler的基本功能和一般方法，并迅速运用到数据挖掘实战中。
数据挖掘理论的讲解通俗易懂，避免数学公式的罗列。本书对Modeler中的经典数据挖掘算法娓娓道来，旨在使读者知其然更知其所以然，加深对数据挖掘分析结论的理解和应用。
将数据挖掘方法、软件操作、案例分析有机结合。本书在论述数据挖掘方法核心思想和基本原理的同时，配合案例数据展示实战过程，旨在使读者直观理解理论，正确应用方法。

展开

精彩书摘

数据挖掘技术具有广阔的应用领域和发展前景，众多有识之士纷纷选择SPSS Modeler作为数据挖掘的工具软件，因此SPSS Modeler软件已经连续多年雄踞数据挖掘应用软件之首。

Modeler的前身名为Clementine，2009年IBM公司收购了SPSS数据分析软件公司，并将其广受赞誉的SPSS统计分析软件和Clementine数据挖掘软件进行整合，将Clementine更名为
SPSS Modeler（简称Modeler）后再次推向全球市场。
Modeler充分利用计算机系统的运算处理能力和图形展现能力，将方法、应用与工具有机地融为一体，是解决数据挖掘问题的最理想工具。
Modeler不但集成了诸多计算机科学中机器学习的优秀算法，同时也综合了一些行之有效的统计分析方法，成为内容最为全面、功能最为强大、使用最为方便的数据挖掘软件产品。
Modeler继续保持了SPSS产品的一贯风格：界面友好且操作简捷。原因在于Modeler始终把自己的操作者定位于实际工作部门的一线人员，而不是数据分析专家。这种所谓“傻瓜型”软件成为Modeler不断开拓市场的利器。
本书作者一直从事计算机数据分析的教学与科研工作，并长期跟踪研究SPSS公司的数据分析系列产品，具有相当丰富的数据分析软件开发经验。因此深知，一个基础相对薄弱的读者应该从哪些方面入手，才能很快地使用Modeler开始数据分析工作，并逐步成长为一名有经验的多面手。
我们认为读者掌握Modeler软件应体现三个层面：首先是软件操作层面，读者通过实际操作，尽快掌握软件的使用方法和处理步骤；其次是结果分析层面，读者通过案例演示，基本明白软件的输出结果，从而得出正确的分析结论；最后是方法论层面，读者通过对某个算法基本思路的了解，进一步提高方法应用和分析水平，升华对数据挖掘方法的认识。所以，注重对每种方法的操作使用、结果分析和算法基本思路的讲解是本书最重要的特征。
本书适用于从事数据分析的各应用领域的读者，尤其是商业销售、财会金融、证券保险、经济管理、社会研究、人文教育等行业的相关人员。同时，也能够作为高等院校计算机类、财经类、管理类专业本科生和研究生的数据挖掘教材。
针对上述读者群，在全书的编写中我们努力体现以下特色：
1.以数据挖掘过程为线索介绍Modeler
目前，具备基本的计算机操作能力已经不是读者的主要障碍，数据挖掘的过程与方法才是读者关心的主题和应用的难点。所以，本书以数据挖掘的实践过程为主线，从Modeler数据管理入手，说明问题从浅至深，讲解方法从易到难。这样，能使读者在较短时间内掌握Modeler的基本功能和一般方法，并可迅速运用到实际工作中去。
2.将数据挖掘方法、软件操作、案例分析有机结合
目前，经过消化的中文图书和资料相对短缺，Modeler相关图书一般都比较侧重对其英文手册的翻译介绍，侧重于对计算机操作过程的描述。而对数据挖掘方法则较多地罗列数学公式，输出结果也缺少恰当的解释。本书则结合实际案例，侧重数据挖掘方法核心思想和基本原理的阐述，以使读者直观理解方法，正确掌握方法的应用范围。
3. 数据挖掘方法讲解全面，语言通俗
本书对Modeler的数据挖掘算法进行了全面的分析和应用，内容力求丰富翔实。同时使用通俗的语言和示例讲述算法，尽量避免使用公式和推导堆砌算法。
请读者到人大经管图书在线(http://wwwrdjgcomcn)下载本书案例数据和数据流文件。数据流文件需使用Modeler 14.2以上版本打开，执行时只需修改数据源节点中的数据文件所在目录项，即可正确执行流文件。
在此特别感谢中国人民大学出版社对本书出版的大力支持和各位编辑热情细致的工作。由于水平所限，书中难免出现问题和错误，敬请各位读者批评指正。

展开

第1章数据挖掘和Modeler使用概述

1．1数据挖掘的产生背景

1．2什么是数据挖掘

1．3Modeler软件概述

第2章Modeler的数据读入和数据集成

2．1变量类型

2．2读入数据

2．3生成实验方案

2．4数据集成

第3章Modeler的数据理解

3．1变量说明

3．2数据质量的评估和调整

3．3数据的排序

3．4数据的分类汇总

第4章Modeler的数据准备

4．1变量变换

4．2变量派生

4．3数据精简

4．4数据筛选

4．5数据准备的其他工作

第5章Modeler的基本分析

5．1数值型变量的基本分析

5．2两分类型变量相关性的研究

5．3两总体的均值比较

5．4RFM分析

第6章Modeler的数据精简

6．1变量值的离散化处理

6．2特征选择

6．3因子分析

第7章分类预测：Modeler的决策树

7．1决策树算法概述

7．2Modeler的C50算法及应用

7．3Modeler的分类回归树及应用

7．4Modeler的CHAID算法及应用

7．5Modeler的QUEST算法及应用

7．6模型的对比分析

第8章分类预测：Modeler的人工神经网络

8．1人工神经网络算法概述

8．2Modeler的BP反向传播网络

8．3Modeler的BP反向传播网络的应用

8．4Modeler的径向基函数网络及应用

第9章分类预测：Modeler的支持向量机

9．1支持向量分类的基本思路

9．2支持向量分类的基本原理

9．3支持向量回归

9．4支持向量机的应用

第10章分类预测：Modeler的贝叶斯网络

10．1贝叶斯方法基础

10．2贝叶斯网络概述

10．3TAN贝叶斯网络

10．4马尔科夫毯网络

10．5贝叶斯网络的应用

第11章探索内部结构：Modeler的聚类分析

11．1聚类分析的一般问题

11．2Modeler的KMeans聚类及应用

11．3Modeler的两步聚类及应用

11．4Modeler的Kohonen网络聚类及应用

11．5基于聚类分析的离群点探索

第12章探索内部结构：Modeler的关联分析

12．1简单关联规则及其有效性

12．2Modeler的Apriori算法及应用

12．3Modeler的序列关联及应用

参考文献

展开