第1章 数据挖掘基础
1.1 数据挖掘是什么
1.1.1 数据挖掘算法的类型
1.1.2 数据挖掘需要的技能
1.1.3 数据挖掘的常见误区
1.2 数据挖掘的常见问题
1.2.1 预测问题
1.2.2 分类问题
1.2.3 聚类问题
1.2.4 关联问题
1.3 数据挖掘的标准流程
1.3.1 商业理解
1.3.2 数据理解
1.3.3 数据准备
1.3.4 模型构建
1.3.5 模型评估
1.3.6 模型部署
1.4 数据分析和数据挖掘的区别
1.4.1 数据分析
1.4.2 数据挖掘
第2章 回归模型
2.1 回归模型简介
2.2 相关分析
2.2.1 依存关系
2.2.2 相关系数的计算
2.2.3 相关系数的方向与大小
2.2.4 居民购物习惯相关分析案例
2.3 简单线性回归分析
2.3.1 线性回归方程解读
2.3.2 使用最小二乘法求解回归方程
2.3.3 使用广告投放费用预测销售额案例
2.4 多重线性回归分析
2.4.1 使用最小二乘法求解多重线性回归方程
2.4.2 使用广告投放费用与客流量预测销售额案例
2.5 一元非线性回归
2.5.1 一元非线性回归模型
2.5.2 一元非线性回归模型求解
2.5.3 使用上线天数预测活跃用户数案例
第3章 分类模型
3.1 分类模型基础
3.1.1 分类模型的建模五步骤
3.1.2 分类模型评估指标
3.1.3 K折交叉验证
3.2 KNN模型
3.2.1 KNN模型原理
3.2.2 使用商户数据预测是否续约案例
3.3 贝叶斯分类
3.3.1 贝叶斯分类的核心概念
3.3.2 朴素贝叶斯分类
3.3.3 朴素贝叶斯分类算法在离散型特征上的求解
3.3.4 朴素贝叶斯分类算法在连续型特征上的求解
3.3.5 使用议员在议案上的投票记录预测其所属党派案例
3.3.6 根据商户数据预测其是否续约案例
3.3.7 根据新闻文本预测其所属分类案例
3.4 决策树
3.4.1 决策树分类
3.4.2 决策树分类算法原理
3.4.3 使用高中生基本信息预测其是否计划升学案例
3.4.4 案例解读
3.5 随机森林
3.5.1 随机森林的特点
3.5.2 网格搜索
3.5.3 使用随机森林算法提升决策树算法效果案例
3.6 支持向量机
3.6.1 支持向量机的核心原理
3.6.2 根据葡萄酒成分数据预测其分类案例
3.7 逻辑回归
3.7.1 逻辑回归的核心概念
3.7.2 逻辑回归的数学推导
3.7.3 使用住户信息预测房屋是否屋主所有案例
第4章 特征工程
4.1 描述性统计分析
4.2 数据标准化
4.2.1 Min-Max标准化
4.2.2 Z-Score 标准化
4.2.3 Normalizer归一化
4.3 数据变换
4.3.1 二值化
4.3.2 分桶
4.3.3 幂变换
4.4 缺失值处理
4.4.1 删除缺失值所在的行
4.4.2 均值/众数/中值填充
4.4.3 模型填充
4.5 降维
4.5.1 主成分分析
4.5.2 因子分析
第5章 聚类算法
5.1 K均值算法
5.1.1 K均值算法的核心概念
5.1.2 电信套餐制定案例
5.2 DBSCAN算法
5.2.1 DBSCAN算法核心概念
5.2.2 用户常活动区域挖掘案例
5.3 层次聚类算法
5.3.1 演示:聚类层次的计算过程
5.3.2 基于运营商基站信息挖掘商圈案例
第6章 关联算法
6.1 关联规则
6.1.1 关联规则的核心概念
6.1.2 超市关联规则挖掘案例
6.1.3 超市关联规则解读
6.2 协同过滤
6.2.1 协同过滤算法的实现
6.2.2 安装scikit-surprise模块
6.2.3 基于电影数据的协同过滤案例
6.3 奇异值分解
第7章 时间序列
7.1 时间序列分解
7.1.1 非季节性时间序列分解
7.1.2 季节性时间序列
7.2 序列预测
7.2.1 把不平稳的时间序列转换成平稳的时间序列
7.2.2 自回归模型
7.2.3 移动平均模型
7.2.4 自回归移动平均模型
第8章 模型持久化
8.1 保存模型
8.2 恢复模型
8.3 管道模型
展开