信阅平台

作者简介

李保坤，美国新墨新墨西哥州立大学博士，西南财经大学统计学院副教授，应用统计研究所副所长。

展开

内容介绍

《数据挖掘教程》的文字内容主要参考了美国麻省理工学院的数据挖掘开放讲义、国外许多大学老师关于数据挖掘课程的教学资料以及网络上对有关算法的介绍材料。书中使用的数据均来自统计学教材或数据挖掘教材中使用的标准数据，数据分析结果和图形展示由作者自己制作的西南财经大学数据挖掘系统软件生成。

展开

精彩书摘

    第一章  介绍
    1.1  这本书的读者对象
    数据挖掘通常要涉及统计和机器学习（或者叫做人工智能）方面的算法。如果作者的目的只是让读者掌握数据挖掘的技术和工具的话，这类书籍因为缺乏详细的解释，因此对读者的指导作用就不会太强。另外也有许多关于数据挖掘算法比较专业的书籍，它们的对象是统计研究人员或者高年级的研究生，里面没有具体的商业案例分析，因此一般的读者会觉得太涩。有鉴于此，我们在写作此书时内容上主要突出了以下两个特色：
    （1）介绍分类、预测、数据精简等数据挖掘核心技术的基础理论和算法；
    （2）采用商业案例说明这些算法的使用。
    另外，这本书在形式上和普通的书籍有一个显著的区别：它配备了一套演示各种算法的软件——西南财经大学数据挖掘系统，供读者理解数据挖掘思想、算法以及进行数据挖掘练习。

展开

第一章  介绍
1.1  这本书的读者对象
1.2  什么是数据挖掘
1.3  数据挖掘的用途
1.4  数据挖掘的起源
1.5  术语和注释
1.6  数据集合的组织
1.7  数据挖掘迅速发展的因素

第二章  数据挖掘过程概览
2.1  数据挖掘的核心思想
2.2  有约束学习和无约束学习
2.3  数据挖掘的步骤
2.4  SEMMA
2.5  预备阶段
附录：数据分块方法
2.6建立模型--线性回归的一个例子

第三章  有约束学习--分类和预测
3.1  一个分两类的分类法
3.2  贝叶斯最小误差法则
3.3  采用分类误差作为标准的分类方法评价
3.4  不对称错误分类代价和贝叶斯风险
3.5  分层采样和不对称代价
3.6  推广到多于两类的情况
3.7  提升图
3.8  波士顿住房（两类）
3.9  采用三分（Triage）策略的分类

第四章  多元线性回归
4.1  多元线性回归复习
4.2  回归过程举例
4.3  线性回归的自变量选择
4.4  线性回归分析的一般步骤

第五章  Logistic回归
5.1  一个简单例子
5.2  Logistic回归模型
5.3  机会比（Odds Ratio）
5.4  概率
5.5  模型拟合的又一个例子
附录A：回归系数的极大似然估计和置信区间计算
附录B：使用西南财大数据挖掘系统对波士顿住宅区的数据处理

第六章  神经网络
6.1  神经元（一个数学模型）
6.2  神经网络
6.3  费歇尔（Fisher）的鸢尾花数据
6.4  后向传播算法--分类
6.5  调整网络用于预测
6.6  多个区域最优和遍数
6.7  过分拟合和训练遍数的选择
6.8  结构的适应性选择
6.9  成功应用的例子
附录：使用西南财大数据挖掘系统的神经网络分类演示

第七章  分类与回归树
7.1  分类树
7.2  递归分区
7.3  骑乘式割草机
7.4  剪枝
7.5  最小误差树
7.6  最佳剪枝树
7.7  树的分类规则
7.8  回归树
附录：西南财大数据挖掘系统分类树介绍

第八章  判别分析
8.1  骑乘式割草机
8.2  Fisher的线性判别函数
8.3  贝叶斯线性分类函数
8.4  距离度量
8.5  分类误差
8.6  鸢尾花的分类
附录A：马氏距离
附录B：西南财大数据挖掘系统的判别分析

第九章  其他有约束学习方法
9.1  K-最近邻点
9.2  简单贝叶斯
9.3  简单贝叶斯分类实例

第十章  关联分析--关联法则
10.1  发现交易数据库里的关联法则
10.2  支持度和置信度
10.3  增益和重要性
10.4  相关系数和负关联法则
10.5  先验算法
10.6  缺点

第十一章  数据精简和探索
11.1  降维--主成分分析
11.2  成年长子的头部测量数值
11.3  主成分
11.4  葡萄酒的特征
11.5  数据标准化
11.6  主成分和正交最小二乘

第十二章  聚类分析
12.1  什么是聚类分析？
12.2  电力公司数据
12.3  层次聚类法
12.4  k-均值算法
12.5  相似测度
12.6  其他的距离测度
附录：西南财大数据挖掘系统的聚类分析

展开