第1 章 感知数据 001
1.0 了解数据科学项目 001
1.1 文件中的数据 003
1.1.1 CSV文件 003
1.1.2 Excel文件 009
1.1.3 图像文件 015
1.2 数据库中的数据 019
1.3 网页上的数据 029
1.4 来自API 的数据 039
第2 章 数据清理 044
2.0 基本概念 045
2.1 转化数据类型 046
2.2 处理重复数据 054
2.3 处理缺失数据 057
2.3.1 检查缺失数据 058
2.3.2 用指定值填补 063
2.3.3 根据规律填补 069
2.4 处理离群数据 076
第3 章 特征变换 083
3.0 特征的类型 084
3.1 特征数值化 085
3.2 特征二值化 088
3.3 OneHot编码 093
3.4 数据变换 098
3.5 特征离散化 104
3.5.1 无监督离散化 104
3.5.2 有监督离散化 110
3.6 数据规范化 113
第4 章 特征选择 124
4.0 特征选择简述 124
4.1 封装器法 127
4.1.1 循序特征选择 127
4.1.2 穷举特征选择 135
4.1.3 递归特征消除 140
4.2 过滤器法 144
4.3 嵌入法 149
第5 章 特征抽取 154
5.1 无监督特征抽取 154
5.1.1 主成分分析 154
5.1.2 因子分析 161
5.2 有监督特征抽取 167
附录A Jupyter简介 173
附录B NumPy简介 176
附录C Pandas简介 185
附录D Matplotlib简介 194
后记 199
展开