第1章 了解Dask
1.1 需要使用Dask的理由
1.2 Dask在生态系统中的定位
1.2.1 大数据
1.2.2 数据科学
1.2.3 并行分布式Python
1.3 Dask社区库
1.3.1 加速Python
1.3.2 SQL引擎
1.3.3 工作流程调度
1.4 Dask的局限性
1.5 小结
第2章 Dask基础操作
2.1 本地安装Dask
2.2 Hello World
2.2.1 Hello World任务
2.2.2 分布式集合
2.2.3 Dask DataFrame
2.3 小结
第3章 Dask的工作原理:基础知识
3.1 执行后端
3.1.1 本地后端
3.1.2 分布式后端(Dask客户端和调度程序)
3.2 Dask的诊断用户界面
3.3 序列化和Pickling
3.4 分区/分块集合
3.4.1 Dask数组
3.4.2 Dask bag
3.4.3 Dask DataFrame
3.4.4 打乱
3.4.5 加载期间分区
3.5 任务、图和惰性评估
3.5.1 惰性评估
3.5.2 任务依赖关系
3.5.3 可视化
3.5.4 中间任务结果
3.5.5 任务规模调整
3.5.6 当任务图变得太大时
3.5.7 组合计算
3.5.8 持久化、缓存和记忆化
3.6 容错能力
3.7 小结
第4章 Dask DataFrame
4.1 Dask DataFrame的构建方式
4.2 加载和写入
4.2.1 格式
4.2.2 文件系统
4.3 索引
4.4 打乱数据
4.4.1 滚动窗口和map_overlap
4.4.2 聚合
4.4.3 完全打乱
4.4.4 分区
4.5 尴槛尬的并行操作
4.6 使用多个DataFrame
4.6.1 组合DataFrame的常用函数解析
4.6.2 多DataFrame内部原理
4.6.3 缺失的功能
4.7 无法使用的功能
……
第5章 Dask的集合
第6章 高级任务调度:Futures
第7章 添加可变状态和DaskActor
第8章 评估Dask的组件和库
第9章 迁移现有的分析工程
第10章 使用GPU和其他特殊资源的Dask
第11章 使用Dask进行机器学习
第12章 生产化Dask:Notebook、部署、调整和监控
附录A Dask用户的关键系统概念
附录B 可扩展的DataFrame
附录C 调试Dask
附录D 使用Streamz和Dask进行流式处理
展开