第Ⅰ部分 数据科学简介
第1章 序言:为什么有数据科学?
1.1 数据科学是什么
1.2 案例学习:棒球资料统计分析的演变
1.3 数据集
1.4 扩展资源
第2章 数据可视化
2.1 2012年联邦大选周期
2.1.1 这两组数据有区别吗?
2.1.2 图形变化
2.1.3 检查变量之间的关系
2.1.4 网络
2.2 组成数据图形
2.2.1 数据图形分类
2.2.2 颜色
2.2.3 剖析数据图形
2.3 数据图形的重要性挑战者号
2.4 创建有效的演示
2.5 更广阔的数据可视化世界
2.6 扩展资源
2.7 练习题
2.8 附加练习
第3章 图形语法
3.1 数据图形语法
3.1.1 画面
3.1.2 刻度
3.1.3 指南
3.1.4 方面
3.1.5 层次
3.2 R中的规范数据图形
3.2.1 单变量显示
3.2.2 多元显示
3.2.3 地图
3.2.4 网络
3.3 扩展示例:历史婴儿名字
3.3.1 至今仍活着的人口的百分比
3.3.2 最普通的女性名字
3.4 扩展资源
3.5 练习题
3.6 附加练习
第4章 在一张表中整理数据
4.1 数据整理语法
4.1.1 select()和filter()
4.1.2 mutate()和rename()
4.1.3 arrange()
4.1.4 用group_by()进行summarize()
4.2 扩展示例:Ben在大都会队(Mets)的时间
4.3 扩展资源
4.4 练习题
4.5 附加练习
第5章 多张表的数据整理
5.1 inner_join()
5.2 left_join()
5.3 扩展示例:Manny Ramirez
5.4 扩展资源
5.5 练习题
5.6 附加练习
第6章 数据规整
6.1 规整数据
6.1.1 动机
6.1.2 规整的数据是什么
6.2 重塑数据
6.2.1 用于从宽到窄以及从窄到宽转换的数据动词
6.2.2 pivot_wider()函数
6.2.3 pivot_longer()函数
6.2.4 list-column
6.2.5 示例:中性姓名
6.3 命名约定
6.4 数据获取
6.4.1 数据表友好的格式
6.4.2 API
6.4.3 清洗数据
6.4.4 示例:日本核反应堆
6.5 扩展资源
6.6 练习题
6.7 附加练习
第7章 迭代
7.1 向量化操作
7.2 利用dplyr实现across()
7.3 map()函数族
7.4 在一维向量上迭代
7.4.1 迭代已知函数
7.4.2 迭代任意函数
7.5 在子组上迭代
7.5.1 示例:期望获胜率
7.5.2 示例:年度领导者
7.6 仿真
7.7 扩展示例:与BMI相关的因子
7.8 扩展资源
7.9 练习题
7.10 附加练习
第8章 数据科学伦理学
8.1 引言
8.2 真实的谎言
8.2.1 坚持你的立场
8.2.1 全球温度
8.2.3 COVID-19报道
8.3 数据科学在社会中的作用
8.4 职业道德的一些设置
8.4.1 CEO
8.4.2 就业歧视
8.4.3 “Gaydar”
8.4.4 种族预测
8.4.5 数据爬取
8.4.6 可重复的电子表格分析
8.4.7 药物危害
8.4.8 法律谈判
8.5 道德行为的一些指导性原则
8.5.1 CEO
8.5.2 就业歧视
8.5.3 “Gaydar”
8.5.4 种族预测
8.5.5 数据爬取
8.5.6 可重复的电子表格分析
8.5.7 药物危害
8.5.8 法律谈判
8.6 算法偏差
8.7 数据与泄露
8.7.1 重新识别和泄露避免
8.7.2 安全的数据存储
8.7.3 数据爬取和使用条款
8.8 再现性
8.9 集体的道德准则
8.10 职业道德行为准则
8.11 扩展资源
8.12 练习题
8.13 附加练习
第Ⅱ部分 统计与建模
第9章 统计基础
9.1 样本和总体
9.2 样本统计
9.3 自举
9.4 异常值
9.5 统计模型:方差解释
9.6 混淆和解释其他因素
9.7 p值的风险
9.8 扩展资源
9.9 练习题
9.10 附加练习
第10章 预测建模
10.1 预测建模
10.2 简单的分类模型
10.3 评价方法
10.3.1 权衡偏差与方差
10.3.2 交叉验证
10.3.3 混淆矩阵和ROC曲线
10.3.4 定量响应的预测误差测量
10.3.5 示例:收益模型评估
10.4 扩展示例:谁患有糖尿病?
10.5 扩展资源
10.6 练习题
10.7 附加练习
第11章 监督学习
11.1 非回归分类器
11.1.1 决策树
11.1.2 随机森林
11.1.3 最近邻
11.1.4 朴素贝叶斯
11.1.5 人工神经网络
11.1.6 集成方法
11.2 参数调整
11.3 示例:收入模型redux的评价
11.4 扩展示例
展开