1 机器学习 1
1.1 机器学习和人工智能 2
1.2 机器学习和大数据 4
1.3 机器学习和数据挖掘 6
1.4 机器学习分类和应用 7
1.5 机器学习开发步骤 10
1.5.1 数据挖掘标准流程 10
1.5.2 机器学习开发步骤 15
本章小结 18
2 Scikit-learn预备知识 20
2.1 NumPy 21
2.1.1 NumPy数组概念 23
2.1.2 NumPy数据类型 24
2.1.3 NumPy数组创建 26
2.1.4 NumPy数组操作 37
2.1.5 NumPy随机数 51
2.1.6 NumPy输入输出 57
2.1.7 NumPy矩阵 58
2.1.8 NumPy线性代数 59
2.1.9 NumPy常数 63
2.2 Pandas 63
2.2.1 Pandas数据结构 64
2.2.2 Pandas顶层函数 114
2.2.3 Pandas应用举例 115
2.3 SciPy库 122
2.3.1 SciPy库基础知识 123
2.3.2 稀疏矩阵及其处理 124
2.3.3 SciPy库应用举例 138
2.4 Matplotlib 144
2.4.1 Matplotlib基础知识 145
2.4.2 Matplotlib应用举例 149
本章小结 161
3 Scikit-learn基础应用 163
3.1 机器学习的算法和模型 164
3.1.1 特征变量和目标变量 165
3.1.2 算法训练 166
3.1.3 过拟合和欠拟合 174
3.1.4 模型性能度量 175
3.2 模型选择 180
3.3 Scikit-learn的功能模块 180
3.4 Scikit-learn 应用 182
3.4.1 安装Scikit-learn 182
3.4.2 数据导入 183
3.4.3 模型持久化 185
3.4.4 文本数据处理 186
3.4.5 随机状态控制 187
3.4.6 分类型变量处理 187
3.4.7 Pandas数据框处理 188
3.4.8 输入输出约定 188
3.5 应用实例 191
本章小结 193
4 Scikit-learn数据变换 195
4.1 概念介绍 196
4.1.1 评估器(estimator) 196
4.1.2 转换器(transformer) 197
4.1.3 管道(pipeline) 198
4.2 数据预处理 199
4.2.1 数据标准化 201
4.2.2 数据非线性转换 223
4.2.3 数据归一化 232
4.2.4 分类型特征变量编码 237
4.2.5 数据离散化 245
4.2.6 特征组合 251
4.3 缺失值处理 254
4.3.1 单变量插补 255
4.3.2 多变量插补 258
4.3.3 最近邻插补 262
4.3.4 标记插补缺失值 264
4.4 目标变量预处理 268
4.4.1 多类别分类标签二值化 268
4.4.2 多标签分类标签二值化 273
4.4.3 目标变量标签编码 276
本章小结 279
5 Scikit-learn特征抽取和降维 281
5.1 特征抽取 282
5.1.1 字典列表对象向量化 283
5.1.2 特征哈希 286
5.1.3 文本特征抽取 291
5.1.4 图像特征抽取 316
5.2 特征降维 320
5.2.1 主成分分析 321
5.2.2 特征聚合 326
5.2.3 随机投影 330
本章小结 340
附录 342
1. 互操作和框架增强包 343
2. 评估器和任务扩展包 344
3. 统计知识扩展包 347
4. 推荐引擎扩展包 347
5. 特定领域的扩展包 347
展开