信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书详细阐述了与Dask扩展Python性能相关的基本知识，主要包括了解Dask、Dask基础操作、Dask的工作原理、Dask DataFrame、Dask的集合、高级任务调度、添加可变状态和Dask Actor、评估Dask的组件和库、迁移现有的分析工程、使用GPU和其他特殊资源的Dask、使用Dask进行机器学习、生产化Dask等内容。此外，本书还提供了相应的示例、代码，以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学用书和参考手册。

展开

精彩书评

展开

精彩书摘

展开

第1章了解Dask
1.1 需要使用Dask的理由
1.2 Dask在生态系统中的定位
1.2.1 大数据
1.2.2 数据科学
1.2.3 并行分布式Python
1.3 Dask社区库
1.3.1 加速Python
1.3.2 SQL引擎
1.3.3 工作流程调度
1.4 Dask的局限性
1.5 小结
第2章 Dask基础操作
2.1 本地安装Dask
2.2 Hello World
2.2.1 Hello World任务
2.2.2 分布式集合
2.2.3 Dask DataFrame
2.3 小结
第3章 Dask的工作原理：基础知识
3.1 执行后端
3.1.1 本地后端
3.1.2 分布式后端(Dask客户端和调度程序)
3.2 Dask的诊断用户界面
3.3 序列化和Pickling
3.4 分区/分块集合
3.4.1 Dask数组
3.4.2 Dask bag
3.4.3 Dask DataFrame
3.4.4 打乱
3.4.5 加载期间分区
3.5 任务、图和惰性评估
3.5.1 惰性评估
3.5.2 任务依赖关系
3.5.3 可视化
3.5.4 中间任务结果
3.5.5 任务规模调整
3.5.6 当任务图变得太大时
3.5.7 组合计算
3.5.8 持久化、缓存和记忆化
3.6 容错能力
3.7 小结
第4章 Dask DataFrame
4.1 Dask DataFrame的构建方式
4.2 加载和写入
4.2.1 格式
4.2.2 文件系统
4.3 索引
4.4 打乱数据
4.4.1 滚动窗口和map_overlap
4.4.2 聚合
4.4.3 完全打乱
4.4.4 分区
4.5 尴槛尬的并行操作
4.6 使用多个DataFrame
4.6.1 组合DataFrame的常用函数解析
4.6.2 多DataFrame内部原理
4.6.3 缺失的功能
4.7 无法使用的功能
……
第5章 Dask的集合
第6章高级任务调度：Futures
第7章添加可变状态和DaskActor
第8章评估Dask的组件和库
第9章迁移现有的分析工程
第10章使用GPU和其他特殊资源的Dask
第11章使用Dask进行机器学习
第12章生产化Dask：Notebook、部署、调整和监控
附录A Dask用户的关键系统概念
附录B 可扩展的DataFrame
附录C 调试Dask
附录D 使用Streamz和Dask进行流式处理

展开