10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。
本书注重易用性和实践性,旨在让读者快速掌握运用Python语言进行数据分析与挖掘的方法,从应用层面讲解初学者*急切需要了解的功能,深入浅出地介绍了数据挖掘中常用的建模实现函数。
这是一本适合教学和零基础自学的Python与数据挖掘的教程,即便你完全没有Python编程基础和数据挖掘基础,根据本书中的理论知识和上机实践,你也能迅速掌握如何使用Python进行数据挖掘。本书已经被多所高校预定为教材,为了便于教学,书中还提供了大量的上机实验和教学资源。
本书主要分为两篇:
基础篇(1~6章):第1章旨在让读者从全局把握数据挖掘、建模工具以及Python开发环境的搭建;第2章正式开始讲解Python的基础知识,包括操作符、变量类型、流程控制、数据结构等内容;第3、4章主要对Python面向对象的特性进行介绍,包括函数、类与对象等基本概念;第5章介绍主流的数据分析与挖掘的模块,以及其中具体的方法及对应的功能;第6章继续拓展了模块的相关内容,介绍图表绘制的专用模块(Matplotlib和Bokeh),深入浅出地展示如何方便地绘制点、线、图等。
建模应用篇(7~11章):主要对数据挖掘中的常用算法进行介绍,强调在Python中对应函数的使用方法及其结果的解释说明。内容涵盖五大主流的数据挖掘算法,包括分类与预测、聚类分析建模、关联规则分析、智能推荐和时间序列分析。按照从模型建立到模型评价的架构进行介绍,使读者熟练掌握从建模到对模型评价的完整建模过程。
前言
第一部分 基础篇
第1章 数据挖掘概述 2
1.1 数据挖掘简介 2
1.2 工具简介 3
1.2.1 WEKA 3
1.2.2 RapidMiner 4
1.2.3 Python 5
1.2.4 R 5
1.3 Python开发环境的搭建 6
1.3.1 Python安装 6
1.3.2 Python初识 11
1.3.3 与读者的约定 14
1.4 小结 15
第2章 Python基础入门 16
2.1 常用操作符 16
2.1.1 算术操作符 17
2.1.2 赋值操作符 17
2.1.3 比较操作符 18
2.1.4 逻辑操作符 18
2.1.5 操作符优先级 18
2.2 数字数据 19
2.2.1 变量与赋值 19
2.2.2 数字数据类型 20
2.3 流程控制 20
2.3.1 if语句 21
2.3.2 while循环 23
2.3.3 for循环 25
2.4 数据结构 27
2.4.1 列表 28
2.4.2 字符串 31
2.4.3 元组 35
2.4.4 字典 36
2.4.5 集合 39
2.5 文件的读写 40
2.5.1 改变工作目录 40
2.5.2 txt文件读取 41
2.5.3 csv文件读取 42
2.5.4 文件输出 43
2.5.5 使用JSON处理数据 43
2.6 上机实验 44
第3章 函数 47
3.1 创建函数 48
3.2 函数参数 50
3.3 可变对象与不可变对象 52
3.4 作用域 53
3.5 上机实验 55
第4章 面向对象编程 56
4.1 简介 56
4.2 类与对象 58
4.3 __init__方法 59
4.4 对象的方法 61
4.5 继承 65
4.6 上机实验 68
第5章 Python实用模块 69
5.1 什么是模块 69
5.2 NumPy 70
5.3 Pandas 75
5.4 SciPy 81
5.5 scikit-learn 84
5.6 其他Python常用模块 87
5.7 小结 88
5.8 上机实验 88
第6章 图表绘制入门 89
6.1 Matplotlib 89
6.2 Bokeh 94
6.3 其他优秀的绘图模块 97
6.4 小结 97
6.5 上机实验 97
第二部分 建模应用篇
第7章 分类与预测 100
7.1 回归分析 100
7.1.1 线性回归 101
7.1.2 逻辑回归 104
7.2 决策树 107
7.2.1 ID3算法 107
7.2.2 其他树模型 111
7.3 人工神经网络 113
7.4 kNN算法 122
7.5 朴素贝叶斯分类算法 124
7.6 小结 127
7.7 上机实验 127
第8章 聚类分析建模 129
8.1 K-Means聚类分析函数 129
8.2 系统聚类算法 133
8.3 DBSCAN聚类算法 138
8.4 上机实验 142
第9章 关联规则分析 144
9.1 Apriori关联规则算法 145
9.2 Apriori在Python中的实现 146
9.3 小结 149
9.4 上机实验 149
第10章 智能推荐 151
10.1 基于用户的协同过滤算法 152
10.2 基于用户的协同过滤算法在Python中的实现 154
10.3 小结 157
10.4 上机实验 157
第11章 时间序列分析 159
11.1 ARIMA模型 159
11.2 小结 171
11.3 上机实验 172
参考文献 174