信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书围绕多元统计分析展开，结合R与Python实现相关内容。首先介绍数据科学相关概念、多元分析对象、所需工具等基础知识，回顾矩阵代数和数学概念。接着详细讲解有监督学习，涵盖分类及回归多种方法，如最小二乘线性回归、logistic回归、决策树、集成算法、增强算法和神经网络等。然后阐述降维、聚类、相关和关联的方法，包括主成分分析、因子分析、分层聚类、典型相关分析、对应分析等。各章均配有习题，帮助读者巩固知识。此外，书中第7章给出正文中未展示的代码，涉及各章重要内容的R和Python实现，方便读者实践操作，将理论与实际编程结合，提升对多元统计分析的理解和应用能力。

展开

精彩书评

展开

精彩书摘

展开

第1章引言
1.1 数据科学
1.1.1 统计是数据科学吗？
1.1.2 计算机学科在数据科学中的地位
1.1.3 问题驱动应成为基本思维方式
1.2 多元分析的对象
1.3 需要的工具
1.4 各章的安排
1.5 软件和编程
1.6 如何教学
第2章矩阵代数和一些数学概念回顾
2.1 矩阵
2.1.1 基本定义
2.1.2 基本矩阵运算
2.1.3 行列式
2.1.4 矩阵的逆
2.1.5 矩阵的广义逆
2.1.6 Kronecker积
2.1.7 幂等矩阵
2.1.8 向量空间
2.1.9 正交性
2.1.10 矩阵的秩
2.1.11 矩阵的迹
2.1.12 特征值
2.1.13 广义特征值
2.1.14 分块矩阵
2.2 矩阵的分解
2.2.1 矩阵的特征值分解
2.2.2 奇异值分解及广义奇异值分解
2.2.3 QR分解
2.2.4 Cholesky分解
2.3 二次型
2.3.1 定义
2.3.2 二次型和矩阵的定性
2.3.3 椭球
2.4 矩阵的导数
2.4.1 向量关于数量的偏导数
2.4.2 数量关于向量的偏导数
2.4.3 向量关于向量的偏导数
2.4.4 矩阵关于数量的偏导数
2.4.5 数量关于矩阵的偏导数
2.4.6 有关内积、二次型的导数
2.4.7 函数的偏导数
2.5 数据集的不纯度
2.5.1 数据的纯与不纯
2.5.2 数量变量数据的不纯度
2.5.3 分类变量数据的不纯度
2.5.4 当数据集拆分成子集时不纯度的减少
2.6 相关系数理解的误区
2.6.1 相关系数不涉及非线性相关
2.6.2 相关系数检验（ρ是否为0）和是否相关（ρ是否足够大）没有关系
2.7 习题
第3章有监督学习：分类及回归
3.1 有监督学习的目标和过程
3.1.1 寻找一个预测模型使预测值接近真实值
3.1.2 预测模型优劣的度量
3.2 交叉验证
3.2.1 交叉验证概念
3.2.2 几种交叉验证方式
3.3 有监督学习过程汇总
3.4 最小二乘线性回归
3.4.1 线性模型
3.4.2 最小二乘估计
3.4.3 例3.1 混凝土数据的最小二乘线性回归拟合
3.4.4 例3.1 混凝土数据的最小二乘线性回归交叉验证及与机器学习模型的比较
3.4.5 一般回归教科书对线性回归还有什么其他内容？
3.5 为二分类任务的logistic回归
3.5.1 logistic回归模型
3.5.2 logistic回归模型对例3.3欺诈竞标数据的拟合
3.5.3 ROC曲线等对于二分类问题的描述
3.5.4 例3.3欺诈数据的logistic回归和基于决策树的若干模型的交叉验证比较
3.5.5 logistic回归的局限性
3.6 决策树
3.6.1 决策树的构造
3.6.2 决策树生长的要素
3.6.3 集成模型：决策树或其他模型作为基础学习器的扩展
3.7 集成算法：bagging
3.7.1 基于自助法抽样的bagging
3.7.2 对例3.5皮肤病数据的bagging分类
3.7.3 对例3.6服装业数据的bagging回归
3.8 集成算法：随机森林
3.8.1 对例3.5皮肤病数据的随机森林分类
3.8.2 对例3.6服装业数据的随机森林回归
3.9 增强算法：AdaBoost分类模型
3.9.1 模型概述
3.9.2 对例3.5皮肤病数据的AdaBoost分类和交叉验证
3.9.3 对例3.5皮肤病数据的AdaBoost分类的变量重要性
3.10 增强算法：Xgboost模型
3.10.1 模型概述
3.10.2 对例3.5皮肤病数据的Xgboost分类
3.10.3 对例3.6服装业数据的Xgboost回归
3.11 神经网络概述
3.11.1 神经网络的结构
3.11.2 神经网络的训练
3.11.3 对例3.5皮肤病数据的神经网络分类
3.11.4 对例3.2波士顿住房数据的神经网络回归
3.12 习题
第4章降维
4.1 主成分分析降维
4.1.1 数据中变量之间的关系与降维的可能性
4.1.2 主成分分析基本问题和计算
4.1.3 主成分分析在图像处理中的应用
4.1.4 案例：例4.4洛杉矶街区数据的主成分分析
4.1.5 主成分分析的一些数学知识*
4.2 因子分析降维
4.2.1 概述
4.2.2 例子和计算
4.2.3 因子分析计算基于的原理*
4.3 自编码器降维*
4.3.1 概念
4.3.2 使用Python的Keras API于例3.3欺诈竞标数据的自编码器降维
4.4 习题
第5章聚类
5.1 聚类分析概述
5.1.1 聚类目的
5.1.2 聚类和分类方法没有必然联系
5.1.3 点间距离
5.1.4 类间距离
5.1.5 集群倾向的度量
5.2 分层聚类
5.2.1 对连续型变量数据的分层聚类：例
5.2.2 对混合变量数据的观测值分层聚类：例5.3花卉数据
5.3 k均值聚类、k众数聚类、k原型聚类
5.3.1 k均值聚类的基本思想
5.3.2 k均值聚类中类别数目的确定
5.3.3 k众数聚类
5.3.4 k原型聚类——混合变量数据的聚类
5.4 基于密度聚类的思想*
5.5 基于模型的聚类*
5.5.1 直观描述

展开