第I部分 基础知识
第1章 对高效数据处理的迫切需求
1.1 数据泛滥的严重性
1.2 现代计算架构和高性能计算
1.2.1 计算机内部的变化
1.2.2 网络的变化
1.2.3 云计算
1.3 Python的局限性
1.4 解决方案小结
1.5 本章小结
第2章 发挥内置功能的最佳性能
2.1 分析同时具有IO和计算任务的应用程序
2.1.1 下载数据并计算最低温度
2.1.2 Python的内置分析模块
2.1.3 使用本地缓存
2.2 对代码进行分析以检测性能瓶颈
2.2.1 可视化分析信息
2.2.2 行分析
2.2.3 代码分析小结
2.3 优化基本数据结构:列表、集合、字典
2.3.1 列表搜索的性能
2.3.2 使用集合进行搜索
2.3.3 Python中的列表、集合和字典的复杂性
2.4 节约内存
2.4.1 Python内存估算
2.4.2 其他表示方法的内存占用
2.4.3 使用数组进行紧凑表示
2.4.4 串联知识点:估算Python对象的内存占用
2.4.5 Python对象内存占用小结
2.5 在大数据管道中使用惰性编程和生成器
2.6 本章小结
第3章 并发、并行和异步
3.1 编写异步服务器框架
3.1.1 实现与客户通信的框架
3.1.2 协程
3.1.3 使用简单的同步客户端发送复杂数据
3.1.4 实现进程间通信的其他方法
3.1.5 异步编程小结
3.2 实现基本的MapReduce引擎
3.2.1 理解MapReduce框架
3.2.2 开发简单的测试场景
3.2.3 第一次实现MapReduce框架
3.3 实现MapReduce并发引擎
3.3.1 使用concurrent.futures实现线程服务器
3.3.2 使用futures异步执行
3.3.3 GIL和多线程
3.4 使用多进程实现MapReduce
3.4.1 基于concurrent.futures的解决方案
3.4.2 基于多进程模块的解决方案
……
第II部分 硬件
第III部分 用于现代数据处理的应用和库
第IV部分 高级主题
附录A 搭建环境
附录B 使用Numba生成高效的底层代码
展开