第1章 机器学习概论
1.1 机器学习的概念
1.2 机器学习的意义
1.3 机器学习的种类
1.4 机器学习基本流程
第2章 R语言综合基础
2.1 简易环境配置
2.2 编程保留符号
2.3 基本数据类型
2.3.1 数值型
2.3.2 逻辑型
2.3.3 字符型
2.3.4 因子型
2.3.5 类型判断与转换
2.4 常用数据结构
2.4.1 向量
2.4.2 矩阵
2.4.3 列表
2.4.4 数据框
2.5 程序流程控制
2.5.1 选择结构
2.5.2 循环结构
2.6 函数使用技巧
第3章 高效数据操作
3.1 R数据操作包简介
3.2 数据读写
3.3 管道操作符
3.4 基本操作
3.4.1 筛选列
3.4.2 筛选行
3.4.3 更新
3.4.4 排序
3.4.5 汇总
3.4.6 分组计算
3.4.7 列的重命名
3.5 多表连接
3.6 长宽转换
3.7 集合运算
3.8 缺失值处理
3.9 列表列的运用
第4章 tidyverse快速入门
4.1 数据读取(readr)
4.2 数据整理
4.2.1 批处理(purrr)
4.2.2 因子操作(forcats)
4.2.3 时间操作(lubridate)
4.2.4 字符串操作(stringr)
4.2.5 数据框清洗(tibbledplyrtidyr)
4.3 数据可视化(ggplot2)
第5章 探索性数据分析
5.1 基本概念介绍
5.1.1 平均值
5.1.2 标准差
5.1.3 极值
5.1.4 中位数
5.1.5 相关系数
5.2 探索工具实践
5.2.1 vtree
5.2.2 skimr
5.2.3 naniar
第6章 特征工程
6.1 特征修饰
6.1.1 归一化
6.1.2 数据分箱
6.1.3 缺失值填补
6.2 特征构造
6.2.1 构造交互项
6.2.2 基于降维技术的特征构造
6.2.3 One-Hot编码
6.3 特征筛选
6.3.1 过滤法
6.3.2 封装法
6.3.3 嵌入法
第7章 重采样方法
7.1 针对模型评估的重采样
7.1.1 交叉验证
7.1.2 自举法
7.2 针对类失衡的重采样
第8章 模型表现的衡量
8.1 回归模型的表现衡量
8.2 分类模型的表现衡量
第9章 模型选择
9.1 机器学习模型概览
9.1.1 线性回归
9.1.2 K近邻算法(KNN)
9.1.3 朴素贝叶斯方法
9.1.4 判别分析
9.1.5 支持向量机
9.1.6 人工神经网络
9.1.7 决策树
9.1.8 随机森林
9.1.9 梯度下降法
9.2 mlr3工作流简介
9.2.1 环境配置
9.2.2 任务定义
9.2.3 学习器选择
9.2.4 训练与预测
9.3 基于mlr3的模型筛选
第10章 参数调节
10.1 指定终止搜索条件
10.2 设置指定参数组合
10.3 范围内网格搜索
10.4 范围内随机搜索
第11章 模型分析
11.1 变量重要性评估
11.2 变量影响作用分析
11.3 基于个案的可加性归因方法
第12章 集成学习
12.1 集成学习的三种策略
12.1.1 装袋法简介
12.1.2 提升法简介
12.1.3 堆叠法简介
12.2 基于caret与caretEnsemble框架的集成学习实现
12.2.1 环境部署
12.2.2 数据准备
12.2.3 装袋法
12.2.4 提升法
12.2.5 堆叠
第13章 实践案例一:基于caret包对泰坦尼克号乘客存活率进行二分类预测
13.1 工具简介
13.2 问题背景
13.3 数据审视
13.4 特征工程
13.5 数据划分
13.6 模型训练
13.7 模型的预测与评估
13.8 超参数调节
第14章 实践案例二:基于mlr框架对波士顿房价进行回归预测
14.1 工具简介
14.2 问题背景
14.3 数据审视与预处理
14.4 任务定义
14.5 建模与调参
14.6 模型表现比较
14.7 进一步的参数调节
14.8 模型解释
第15章 实践案例三:基于mlr3框架对皮马印第安人糖尿病数据集进行特征筛选
15.1 工具简介
15.2 问题背景
15.3 去除冗余特征
15.4 特征重要性排序
15.5 利用封装法对特征进行筛选
第16章 实践案例四:基于tidymodels框架对鸢尾花进行多分类预测
16.1 工具简介
16.2 问题背景
16.3 数据集划分
16.4 数据预处理
16.5 指定重采样方法
16.6 模型定义与调参
16.7 观察模型在测试集的表现
展开