第1章 数据科学概述
1.1 数据科学简介
1.1.1 基本概念及发展历史
1.1.2 特点及应用领域
1.1.3 数据科学的过程
1.2 Python的安装
1.3 常用工具包概述
1.4 Anaconda3的安装
1.5 Jupyter Notebook的使用
1.5.1 Jupyter Notebook简介
1.5.2 Jupyter Notebook的启动
1.5.3 新手如何快速上手Jupyter Notebook
1.6 本章小结
课后习题
第2章 数据预处理
2.1 NumPy数据处理及运算
2.1.1 NumPy的安装
2.1.2 创建N维数组
2.1.3 NumPy切片和索引
2.1.4 NumPy数组操作
2.1.5 数学函数
2.1.6 统计函数
2.1.7 排序函数
2.1.8 直方图函数
2.2 Pandas基础
2.2.1 数据快捷加载
2.2.2 Pandas的数据结构
2.3 非数值数据转换
2.3.1 map()函数
2.3.2 One-Hot编码
2.4 数据清洗
2.4.1 缺失值处理
2.4.2 错误数据替换
2.4.3 数据去重
2.4.4 数据合并连接
2.4.5 数据分组及聚合
2.5 本章小结
课后习题
第3章 数据存储与管理
3.1 概述
3.1.1 数据存储的概念
3.1.2 数据管理技术的概念
3.1.3 数据库的概念
3.1.4 新型数据管理系统
3.2 关系数据库
3.2.1 关系数据模型
3.2.2 应用举例
3.3 分布式文件系统
3.3.1 HDFS的概念及特点
3.3.2 HDFS数据文件存储
3.3.3 HDFS的结构及组件
3.3.4 HDFS的读/写操作
3.3.5 Python访问HDFS
3.4 分布式数据库
3.4.1 HBase的特点
3.4.2 HBase相关概念
3.4.3 HBase架构
3.4.4 Python操作HBase
3.5 流数据
3.5.1 流数据概述
3.5.2 流数据模型
3.5.3 流数据处理系统
3.6 本章小结
课后习题
第4章 探索性数据分析
4.1 EDA简介
4.2 特征创建
4.3 维度约简
4.3.1 为什么要降维
4.3.2 基于特征转换的降维
4.3.3 基于特征选择的降维
4.3.4 基于特征组合的降维
4.4 异常值检测及处理
4.4.1 单变量异常检测
4.4.2 OneClassSVM
4.4.3 EllipticEnvelope
4.5 评价函数
4.5.1 多标签分类
4.5.2 二分类
4.5.3 回归
4.6 测试和验证
4.7 交叉验证
4.7.1 建立自定义评分函数
4.7.2 使用交叉验证迭代器
4.8 超参数调优
4.8.1 超参数调优概述
4.8.2 超参数调优实践
4.9 小结
课后习题
第5章 单模型学习算法
5.1 概述
5.1.1 分类模型和回归模型
5.1.2 机器学习的步骤和要素
5.2 线性回归和逻辑回归
5.2.1 从线性回归到逻辑回归
5.2.2 线性回归实践
5.2.3 Sigmoid函数
5.2.4 推广至多元场景
5.2.5 逻辑回归实践
5.2.6 算法小结
进阶A 交叉熵损失函数和平方差损失函数
5.3 朴素贝叶斯分类
5.3.1 朴素贝叶斯分类算法
5.3.2 朴素贝叶斯实践
5.3.3 算法小结
5.4 最近邻算法
5.4.1 k近邻算法的概念及原理
5.4.2 k值的选取及特征归一化的重要性
5.4.3 最近邻算法实践
5.4.4 算法小结
进阶B kd树
B.1 kd树的构建
B.2 kd树的搜索
B.3 kd树的不足
5.5 支持向量机
5.5.1 支持向量机基础
5.5.2 软间隔
5.5.3 核函数
5.5.4 支持向量机实践
5.5.5 算法小结
进阶C 对偶问题
C.1 拉格朗日乘子法
C.2 支持向量机优化
进阶D 软间隔情况下的化问题及其求解
5.6 决策树
5.6.1 信息论知识
5.6.2 决策树基础
5.6.3 决策树实践
5.6.4 算法小结
5.7 聚类
5.7.1 K均值聚类
5.7.2 小批量KMeans
5.7.3 Affinity Propagation聚类算法
5.7.4 层次聚类
5.7.5 DBSCAN
5.7.6 算法小结
5.8 本章小结
课后习题
第6章 集成学习算法
6.1 集成学习能带来什么
6.1.1 集成学习的基本步骤
6.1.2 集成学习中的偏差与方差
6.2 Bagging元学习器
6.3 随机森林
6.3.1 随机森林算法
6.3.2 极度随机化树
6.3.3 随机森林实践
6.3.4 算法小结
6.4 Boosting算法
6.5 AdaBoost算法
6.5.1 AdaBoost实践
6.5.2 算法小结
进阶E AdaBoost算法伪代码
6.6 GBDT算法
6.6.1 分类和回归
6.6.2 GBDT实践
6.7 基于直方图的梯度提升
6.7.1 用法
6.7.2 直方图梯度提升模型实践
6.8 堆叠泛化
6.9 概率校准
6.9.1 校准曲线
6.9.2 校准分类器
6.10 本章小结
课后习题
第7章 数据可视化
7.1 可视化的定义及作用
7.2 可视化的原则
7.3 常用的可视化分析技术与工具
7.4 Matp
展开