信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书首先向您介绍数据科学，然后教您安装和搭建数据分析编程环境所需的软件包。在机器学习中，您将学习机器学习的三项主要技术：监督学习、无监督学习和强化学习。您还将探索基本的分类与回归技术，如支持向量机、决策树以及逻辑回归等。在前面的章节中，您将学习Python语言的基本功能、数据结构和语法，这些语言用于轻松处理大型数据集。您将学习用于矩阵计算和数据操作的Numpy库和Pandas库、学习如何使用Matplotlib创建可定制的可视化图表，并应用Boostinq算法XGBoost进行预测。在后面的章节中，您将学习用于图像识别的卷积神经网络（CNN）、深度学习算法。您还将学习如何将人类的语言输入到神经网络中，建立一个可以处理语境信息的模型，以及创建人类语言处理系统进行结果预测。学习完本书，您将能够理解并实现许多新的数据科学算法，并且有信心使用本课程以外的工具或库进行操作。

展开

精彩书评

展开

精彩书摘

展开

第1章数据科学和数据预处理导论
1.1 引言
1.2 Python库
1.3 构建机器学习模型的路线图
1.4 数据表示方式
练习1：加载样本数据集，创建特征矩阵和目标矩阵
1.5 数据清洗
练习2：删除缺失数据
练习3：填补缺失数据
练习4：查找并删除数据中的异常值
1.6 数据整合
练习5：整合数据
1.7 数据转换
练习6：用数字替换分类数据
练习7：使用标签编码方法将分类数据转换为数值数据
练习8：使用One-Hot编码将分类数据转换为数值数据
1.8 不同量纲的数据
练习9：使用StandardScaler()方法实现缩放
练习10：使用MinMaxScaler()方法实现缩放
1.9 数据离散化
练习11：连续数据的离散化
1.10 训练和测试数据
练习12：拆分数据为训练集和测试集
作业1：使用银行营销订阅数据集进行预处理
1.11 监督学习
1.12 无监督学习
1.13 强化学习
1.14 性能指标
1.15 偏差和方差
1.16 本章小结
第2章数据可视化
2.1 引言
2.2 函数法
练习13：函数法——折线图
练习14：函数法——在图中添加第二条线
作业2：折线图
练习15：创建柱状图
作业3：柱状图
练习16：函数法——直方图
练习17：函数法——箱线图
练习18：散点图
2.3 面向对象法创建子图
练习19：使用子图的单线图
练习20：使用子图的多线图
作业4：使用子图的多种绘图类型
2.4 本章小结
第3章基于Scikit-Learn库的机器学习简介
3.1 引言
3.2 线性回归与逻辑回归简介
3.3 简单线性回归
练习21：为线性回归模型准备数据
练习22：拟合简单线性回归模型并确定截距和系数
练习23：简单线性回归模型的预测生成及性能评估
3.4 多元线性回归
练习24：拟合多元线性回归模型并确定截距和系数
作业5：生成预测并评估多元线性回归模型的性能
3.5 逻辑回归
练习25：拟合逻辑回归模型并确定截距和系数
练习26：生成预测并评估逻辑回归模型的性能
练习27：调整多重逻辑回归模型的超参数
作业6：生成预测以及评估调参后的逻辑回归模型性能
3.6 基于支持向量机的最大保证金分类
练习28：为支持向量分类器模型准备数据
练习29：使用网格搜索优化SVC模型
作业7：生成预测并评估SVC网格搜索模型的性能
3.7 决策树
作业8：使用决策树分类器之前的数据准备
练习30：使用网格搜索调整决策树分类器的超参数
练习31：以编程方式从决策树分类器网格搜索模型中提取调整的超参数
作业9：决策树分类器模型的预测和性能评估
3.8 随机森林
练习32：为随机森林回归器准备数据
作业10：调整随机森林回归器
练习33：以编程方式提取调整后的超参数并从随机森林回归网格搜索模型确定特征重要性
作业11：生成预测并调参的随机森林回归模型性能评估
3.9 本章小结
第4章降维和无监督学习
4.1 引言
4.2 层次聚类分析
练习34：建立HCA模型
练习35：绘制HCA模型并分配预测
4.3 k-均值聚类
练习36：拟合k-均值聚类模型并分配预测
作业12：k-均值聚类和计算预测的共同练习
练习37：通过n_clusters计算平均惯性
练习38：用n_clusters绘制平均惯性
4.4 主成分分析
练习39：拟合PCA模型
练习40：使用解释方差阈值选择n_components
作业13：PCA转换后通过聚类评估平均惯性
练习41：n_clusters对惯性的视觉比较
4.5 使用线性判别函数分析的监督数据压缩
练习42：拟合LDA模型
练习43：在分类器模型中使用LDA变换后的组件
4.6 本章小结
第5章掌握结构化数据
5.1 引言
5.2 提升算法
练习44：使用XGBoost库进行分类
5.3 XGBoost库
作业14：训练和预测一个人的收人
5.4 外部内存使用
5.5 交叉验证
练习45：使用交叉验证找到最佳超参数
5.6 保存和加载模型
练习46：创建一个基于实时输入进行预测的Python脚本
作业15：预测流失的客户
5.7 神经网络
5.8 Keras库
练习47：为Python安装Keras库并使用它执行分类
练习48：使用神经网络预测鳄梨价格
5.9 分类变量
练习49：基于实体嵌入预测鳄梨价格
作业16：预测客户的购买力
5.10 本章小结
第6章解码图像
6.1 引言
6.2 图像
练习50：使用完全连接神经网络对MNIST进行分类
6.3 卷积神经网络
6.4 Adam优化算法
6.5 交叉熵损失
练习51：使用CNN对MNIST进行分类
6.6 正则化
练习52：基于CIFAR-10图像使用正则化改善图像分类
6.7 图像数据预处理
作业17：预测图像中是一只猫还是一只狗
6.8 数据增强
6.9 生成器
练习53：使用图像增强对CIFAR-10图像进行分类

展开