前言
第1章 数据整理与数据质量简介
1.1 什么是数据整理
1.2 什么是数据质量
1.3 为什么选用Python语言整理数据
1.4 编写并运行Python代码
1.5 如何在自己的设备上编写Python代码
1.6 在网页版的开发环境中编写Python代码
1.7 编写“Hello World!”程序
1.8 添加代码
1.9 运行代码
1.10 撰写文档、保存工作资料和管理不同版本的资料
1.11 小结
第2章 Python入门
2.1 词性
2.2 用循环结构与条件结构控制程序的走向
2.3 代码中可能出现的各种错误
2.4 用Citi Bike数据来演示如何编写数据整理程序
2.5 小结
第3章 了解数据质量
3.1 判断数据是否合适
3.2 判断数据是否完整
3.3 提升数据的质量
3.4 小结
第4章 用Python处理基于文件与基于feed的数据
4.1 结构化的数据与非结构化的数据
4.2 处理结构化的数据
4.3 以了解失业情况为例来整理现实数据
4.4 处理非结构化的数据
4.5 小结
第5章 访问网络数据
5.1 联网访问在线的XML与JSON数据
5.2 API简介
5.3 以搜索引擎为例讲解如何调用基本的API
5.4 如何调用带有基本身份认证机制的API
5.5 阅读API文档
5.6 使用Python时保护你的API密钥
5.7 如何调用带有OAuth认证机制的API
5.8 调用API时所应遵循的行为准则
5.9 获取数据的最后一招:网页抓取
5.10 小结
第6章 评估数据质量
6.1 流行病与PPP
6.2 评估数据的完整程度
6.3 评估数据的适合程度
6.4 小结
第7章 清洗、转换和增强数据
7.1 如何从Citi Bike数据中选取一部分内容
7.2 把数据文件清洗干净
7.3 把Excel表格中的日期处理好
7.4 把定宽数据转换成真正的CSV文件
7.5 修正拼写不一致的现象
7.6 为了找到简单方案而走过的弯路
7.7 一些容易出错的地方
7.8 增强数据
7.9 小结
第8章 调整并重构代码
8.1 重新思考自定义的函数
8.2 什么是作用域
8.3 为函数设计参数
8.4 返回值
8.5 以嵌套的形式调用函数
8.6 既有趣又有用的重构
8.7 用pydoc给自定义的脚本与函数撰写文档
8.8 让Python脚本支持命令行参数
8.9 命令行脚本与notebook的区别
8.10 小结
第9章 数据分析入门
9.1 情境很重要
9.2 常规与反常
9.3 评估集中趋势
9.4 另辟蹊径:识别异常值
9.5 数据分析可视化
9.6 这些200万美元的贷款记录是怎么回事
9.7 注意按比例计算
9.8 小结
第10章 展示数据
10.1 视觉说服力
10.2 把整理数据后形成的观点表达出来
10.3 如何选择图表
10.4 视觉说服力要素
10.5 通过seaborn与matplotlib库自定义更好的可视化图表
10.6 提高设计水平
10.7 小结
第11章 Python以外的工具
11.1 查看数据的其他工具
11.2 分享并展示数据的其他工具
11.3 考虑原则问题
11.4 小结
附录A 其他Python编程资源
附录B 再讲一讲Git
附录C 获取数据的渠道
附录D 与可视化及信息设计有关的资源
展开