搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
Python数据清洗
0.00     定价 ¥ 119.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购24本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787302609360
  • 作      者:
    作者:(美)迈克尔·沃克尔|责编:贾小红|译者:刘亮
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2022-07-01
收藏
内容介绍
本书详细阐述了与Python数据清洗相关的基本解决方案,主要包括将表格数据导入Pandas中、将HTML和JSON导入Pandas中、衡量数据好坏、识别缺失值和离群值、使用可视化方法识别意外值、使用Series操作清洗和探索数据、聚合时修复混乱数据、组合DataFrame、规整和重塑数据、用户定义的函数和类等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
展开
目录

目录

第1章 将表格数据导入Pandas中 1

1.1 技术要求 1

1.2 导入CSV文件 2

1.2.1 准备工作 2

1.2.2 实战操作 3

1.2.3 原理解释 5

1.2.4 扩展知识 6

1.2.5 参考资料 7

1.3 导入Excel文件 7

1.3.1 准备工作 8

1.3.2 实战操作 8

1.3.3 原理解释 13

1.3.4 扩展知识 13

1.3.5 参考资料 14

1.4 从SQL数据库中导入数据 14

1.4.1 准备工作 15

1.4.2 实战操作 15

1.4.3 原理解释 19

1.4.4 扩展知识 21

1.4.5 参考资料 21

1.5 导入SPSS、Stata和SAS数据 21

1.5.1 准备工作 22

1.5.2 实战操作 22

1.5.3 原理解释 28

1.5.4 扩展知识 29

1.5.5 参考资料 30

1.6 导入R数据 30

1.6.1 准备工作 30

1.6.2 实战操作 31

1.6.3 原理解释 33

1.6.4 扩展知识 34

1.6.5 参考资料 34

1.7 保留表格数据 35

1.7.1 准备工作 36

1.7.2 实战操作 36

1.7.3 原理解释 39

1.7.4 扩展知识 39

第2章 将HTML和JSON导入Pandas中 41

2.1 技术要求 41

2.2 导入简单的JSON数据 41

2.2.1 准备工作 42

2.2.2 实战操作 42

2.2.3 原理解释 47

2.2.4 扩展知识 48

2.3 通过API导入更复杂的JSON数据 48

2.3.1 准备工作 49

2.3.2 实战操作 50

2.3.3 原理解释 52

2.3.4 扩展知识 53

2.3.5 参考资料 53

2.4 从网页中导入数据 53

2.4.1 准备工作 54

2.4.2 实战操作 55

2.4.3 原理解释 58

2.4.4 扩展知识 59

2.5 持久保存JSON数据 59

2.5.1 准备工作 60

2.5.2 实战操作 60

2.5.3 原理解释 62

2.5.4 扩展知识 63

第3章 衡量数据好坏 65

3.1 技术要求 66

3.2 初步了解数据 66

3.2.1 准备工作 66

3.2.2 实战操作 67

3.2.3 原理解释 70

3.2.4 扩展知识 71

3.2.5 参考资料 71

3.3 选择和组织列 71

3.3.1 准备工作 72

3.3.2 实战操作 72

3.3.3 原理解释 77

3.3.4 扩展知识 77

3.3.5 参考资料 78

3.4 选择行 79

3.4.1 准备工作 79

3.4.2 实战操作 79

3.4.3 原理解释 86

3.4.4 扩展知识 87

3.4.5 参考资料 87

3.5 生成分类变量的频率 87

3.5.1 准备工作 88

3.5.2 实战操作 88

3.5.3 原理解释 91

3.5.4 扩展知识 92

3.6 生成连续变量的摘要统计信息 92

3.6.1 准备工作 92

3.6.2 实战操作 93

3.6.3 原理解释 95

3.6.4 参考资料 96

第4章 识别缺失值和离群值 97

4.1 技术要求 97

4.2 寻找缺失值 97

4.2.1 准备工作 98

4.2.2 实战操作 98

4.2.3 原理解释 101

4.2.4 参考资料 101

4.3 用一个变量识别离群值 102

4.3.1 准备工作 102

4.3.2 实战操作 102

4.3.3 原理解释 109

4.3.4 扩展知识 109

4.3.5 参考资料 110

4.4 识别双变量关系中的离群值和意外值 110

4.4.1 准备工作 111

4.4.2 实战操作 112

4.4.3 原理解释 118

4.4.4 扩展知识 119

4.4.5 参考资料 119

4.5 检查变量关系中的逻辑不一致情况 119

4.5.1 准备工作 119

4.5.2 实战操作 120

4.5.3 原理解释 126

4.5.4 参考资料 126

4.6 使用线性回归来确定具有重大影响的数据点 126

4.6.1 准备工作 127

4.6.2 实战操作 127

4.6.3 原理解释 129

4.6.4 扩展知识 130

4.7 使用k最近邻算法找到离群值 130

4.7.1 准备工作 130

4.7.2 实战操作 131

4.7.3 原理解释 133

4.7.4 扩展知识 133

4.7.5 参考资料 134

4.8 使用隔离森林算法查找异常 134

4.8.1 准备工作 134

4.8.2 实战操作 134

4.8.3 原理解释 137

4.8.4 扩展知识 138

4.8.5 参考资料 138

第5章 使用可视化方法识别意外值 139

5.1 技术要求 139

5.2 使用直方图检查连续变量的分布 140

5.2.1 准备工作 140

5.2.2 实战操作 141

5.2.3 原理解释 146

5.2.4 扩展知识 147

5.3 使用箱形图识别连续变量的离群值 147

5.3.1 准备工作 148

5.3.2 实战操作 148

5.3.3 原理解释 153

5.3.4 扩展知识 153

5.3.5 参考资料 153

5.4 使用分组的箱形图发现特定组中的意外值 154

5.4.1 准备工作 154

5.4.2 实战操作 154

5.4.3 原理解释 159

5.4.4 扩展知识 159

5.4.5 参考资料 160

5.5 使用小提琴图检查分布形状和离群值 160

5.5.1 准备工作 160

5.5.2 实战操作 161

5.5.3 原理解释 165

5.5.4 扩展知识 166

5.5.5 参考资料 166

5.6 使用散点图查看双变量关系 166

5.6.1 准备工作 167

5.6.2 实战操作 167

5.6.3 原理解释 172

5.6.4 扩展知识 173

5.6.5 参考资料 173

5.7 使用折线图检查连续变量的趋势 173

5.7.1 准备工作 173

5.7.2 实战操作 173

5.7.3 原理解释 178

5.7.4 扩展知识 179

5.7.5 参考资料 179

5.8 根据相关性矩阵生成热图 179

5.8.1 准备工作 180

5.8.2 实战操作 180

5.8.3 原理解释 182

5.8.4 扩展知识 183

5.8.5 参考资料 183

第6章 使用Series操作清洗和探索数据 185

6.1 技术要求 186

6.2 从Pandas Series中获取值 186

6.2.1 准备工作 186

6.2.2 实战操作 187

6.2.3 原理解释 190

6.3 显示Pandas Series的摘要统计信息 190

6.3.1 准备工作 191

6.3.2 实战操作 191

6.3.3 原理解释 193

6.3.4 扩展知识 195

6.3.5 参考资料 195

6.4 更改Series值 195

6.4.1 准备工作 195

6.4.2 实战操作 195

6.4.3 原理解释 198

6.4.4 扩展知识 199

6.4.5 参考资料 199

6.5 有条件地更改Series值 199

6.5.1 准备工作 199

6.5.2 实战操作 200

6.5.3 原理解释 203

6.5.4 扩展知识 205

6.5.5 参考资料 206

6.6 评估和清洗字符串Series数据 206

6.6.1 准备工作 206

6.6.2 实战操作 206

6.6.3 原理解释 210

6.6.4 扩展知识 211

6.7 处理日期 211

6.7.1 准备工作 211

6.7.2 实战操作 212

6.7.3 原理解释 216

6.7.4 参考资料 217

6.8 识别和清洗缺失的数据 217

6.8.1 准备工作 217

6.8.2 实战操作 217

6.8.3 原理解释 221

6.8.4 扩展知识 221

6.8.5 参考资料 221

6.9 使用k最近邻算法填充缺失值 222

6.9.1 准备工作 222

6.9.2 实战操作 222

6.9.3 原理解释 223

6.9.4 扩展知识 224

6.9.5 参考资料 224

第7章 聚合时修复混乱数据 225

7.1 技术要求 226

7.2 使用itertuples遍历数据 226

7.2.1 准备工作 226

7.2.2 实战操作 227

7.2.3 原理解释 229

7.2.4 扩展知识 230

7.3 使用NumPy数组按组计算汇总 231

7.3.1 准备工作 231

7.3.2 实战操作 231

7.3.3 原理解释 233

7.3.4 扩展知识 234

7.3.5 参考资料 234

7.4 使用groupby组织数据 234

7.4.1 准备工作 234

7.4.2 实战操作 234

7.4.3 原理解释 237

7.4.4 扩展知识 237

7.5 通过groupby使用更复杂的聚合函数 237

7.5.1 准备工作 238

7.5.2 实战操作 238

7.5.3 原理解释 242

7.5.4 扩展知识 243

7.5.5 参考资料 244

7.6 结合groupby使用用户定义的函数 244

7.6.1 准备工作 244

7.6.2 实战操作 244

7.6.3 原理解释 247

7.6.4 扩展知识 247

7.6.5 参考资料 248

7.7 使用groupby更改DataFrame的分析单位 248

7.7.1 准备工作 249

7.7.2 实战操作 249

7.7.3 原理解释 250

第8章 组合DataFrame 251

8.1 技术要求 252

8.2 垂直组合DataFrame 252

8.2.1 准备工作 252

8.2.2 实战操作 253

8.2.3 原理解释 256

8.2.4 参考资料 256

8.3 进行一对一合并 256

8.3.1 准备工作 258

8.3.2 实战操作 258

8.3.3 原理解释 262

8.3.4 扩展知识 263

8.4 按多列进行一对一合并 263

8.4.1 准备工作 263

8.4.2 实战操作 263

8.4.3 原理解释 266

8.4.4 扩展知识 266

8.5 进行一对多合并 266

8.5.1 准备工作 267

8.5.2 实战操作 267

8.5.3 原理解释 271

8.5.4 扩展知识 271

8.5.5 参考资料 271

8.6 进行多对多合并 271

8.6.1 准备工作 272

8.6.2 实战操作 272

8.6.3 原理解释 276

8.6.4 扩展知识 277

8.7 开发合并例程 277

8.7.1 准备工作 277

8.7.2 实战操作 278

8.7.3 原理解释 279

8.7.4 参考资料 280

第9章 规整和重塑数据 281

9.1 技术要求 282

9.2 删除重复的行 282

9.2.1 准备工作 282

9.2.2 实战操作 283

9.2.3 原理解释 285

9.2.4 扩展知识 286

9.2.5 参考资料 286

9.3 修复多对多关系 286

9.3.1 准备工作 287

9.3.2 实战操作 287

9.3.3 原理解释 291

9.3.4 扩展知识 292

9.3.5 参考资料 292

9.4 使用stack和melt将数据由宽变长 292

9.4.1 准备工作 293

9.4.2 实战操作 293

9.4.3 原理解释 297

9.5 使用wide_to_long处理多列 297

9.5.1 准备工作 297

9.5.2 实战操作 297

9.5.3 原理解释 299

9.5.4 扩展知识 299

9.6 使用unstack和pivot将数据由长变宽 300

9.6.1 准备工作 300

9.6.2 实战操作 300

9.6.3 原理解释 302

第10章 用户定义的函数和类 303

10.1 技术要求 303

10.2 用于查看数据的函数 303

10.2.1 准备工作 304

10.2.2 实战操作 304

10.2.3 原理解释 307

10.2.4 扩展知识 308

10.3 用于显示摘要统计信息和频率的函数 308

10.3.1 准备工作 308

10.3.2 实战操作 309

10.3.3 原理解释 313

10.3.4 扩展知识 313

10.3.5 参考资料 313

10.4 识别离群值和意外值的函数 314

10.4.1 准备工作 314

10.4.2 实战操作 315

10.4.3 原理解释 319

10.4.4 扩展知识 319

10.4.5 参考资料 319

10.5 聚合或合并数据的函数 319

10.5.1 准备工作 320

10.5.2 实战操作 320

10.5.3 原理解释 325

10.5.4 扩展知识 325

10.5.5 参考资料 326

10.6 包含更新Series值逻辑的类 326

10.6.1 准备工作 326

10.6.2 实战操作 326

10.6.3 原理解释 330

10.6.4 扩展知识 331

10.6.5 参考资料 331

10.7 处理非表格数据结构的类 331

10.7.1 准备工作 332

10.7.2 实战操作 333

10.7.3 原理解释 336

10.7.4 扩展知识 336


展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证