信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书结合作者一线开发实践，循序渐进地介绍了新版Apache Spark 3.x的开发技术。全书共10章，第1章和第2章主要介绍Spark的基本概念、安装，并演示如何编写最简单的Spark程序。第3章深入探讨了Spark的核心组件RDD。第4章讲解了Spark集群管理，帮助读者理解任务提交与执行的基本原理。第5章介绍了Spark SQL，这是处理结构化数据的基础工具。第6章展示了Spark Web UI，通过界面化的方式了解Spark集群运行状况。第7章和第8章分别介绍了Spark流式数据处理框架Spark Streaming和Structured Streaming。第9章和第10章则分别介绍了业界流行的机器学习和图计算处理框架MLlib和GraphX。书中各章节还提供了丰富的实战案例和上机练习题，以便读者在学习的同时进行实际操作，迅速提升动手能力。本书技术先进，案例丰富，适合对Spark大数据应用感兴趣的学生、大数据开发人员及架构师使用，也可作为培训机构和高校大数据课程的教学用书。

展开

精彩书评

展开

精彩书摘

展开

第1章 Spark概述
1.1 Spark简介
1.1.1 诞生与初始阶段
1.1.2 开源与社区建设
1.1.3 成为顶级项目
1.1.4 版本更新
1.2 Spark组成
1.2.1 Spark Core
1.2.2 集群管理器
1.2.3 Spark UI
1.2.4 Spark SQL
1.2.5 Spark Streaming
1.2.6 Structured Streaming
1.2.7 MLlib
1.2.8 GraphX
1.2.9 其他
1.3 Spark数据类型
1.3.1 RDD
1.3.2 DataFrame
1.3.3 Dataset
1.3.4 数值类型
1.3.5 字符串类型
1.3.6 日期和时间类型
1.3.7 复杂类型
1.4 Spark的使用场景
1.4.1 批处理
1.4.2 实时流处理
1.4.3 分布式文件系统
1.4.4 机器学习
1.4.5 图计算
1.5 Spark与Hadoop的联系与区别
1.5.1 Hadoop概述
1.5.2 Spark的优缺点
1.5.3 Spark与Hadoop的关系
1.6 本章小结
第2章 Spark安装及初体验
2.1 下载并安装Spark
2.1.1 普通安装
2.1.2 通过Docker镜像安装
2.1.3 验证安装
2.2 通过Shell使用Spark
2.2.1 使用Scala的Shell
2.2.2 使用其他语言的Shell
2.3 实战：通过Spark进行词频统计
2.3.1 初始化应用
2.3.2 创建Spark应用程序
2.3.3 准备数据文件
2.3.4 运行程序
2.4 日志信息详解
2.4.1 启动信息
2.4.2 资源分配、Spark上下文初始化
2.4.3 任务进度和状态
2.4.4 应用程序日志
2.4.5 完成信息
2.5 动手练习
练习1：安装和配置Spark
练习2：使用Spark读取CSV文件并显示前5行
练习3：使用Spark创建不同类型的数据结构
练习4：通过Spark进行词频统计
2.6 本章小结
第3章 RDD基础编程
3.1 了解RDD的基本概念
3.1.1 RDD的定义
3.1.2 RDD的特性
3.1.3 RDD的操作
3.1.4 RDD的依赖关系
3.1.5 RDD的容错机制
3.1.6 RDD的持久化
3.2 创建RDD
3.2.1 并行化集合
3.2.2 读取外部数据集
3.3 操作RDD
3.4 实战：transformation操作
3.4.1 map
3.4.2 filter
3.4.3 flatMap
3.4.4 sample
3.4.5 union
3.4.6 distinct
3.4.7 groupByKey
3.5 实战：action操作
3.5.1 collect
3.5.2 reduce
3.5.3 count
3.5.4 first
3.5.5 take
3.5.6 foreach
3.5.7 saveAsTextFile
3.6 惰性求值
3.7 函数式编程
3.8 持久化
3.8.1 RDD持久化的基本概念
3.8.2 RDD持久化的方法
3.8.3 RDD持久化的存储级别
3.8.4 RDD持久化的使用场景
3.8.5 RDD持久化的注意事项
3.8.6 删除数据
3.9 实战：持久化
3.10 共享变量
3.10.1 广播变量
3.10.2 累加器
3.11 混洗
3.11.1 定义与原理
3.11.2 混洗流程
3.11.3 混洗优化方法
3.12 键－值对
3.13 动手练习
练习1：创建一个RDD并打印其元素（并行化集合）
练习2：读取外部数据集并统计单词数量（读取外部数据集）
3.14 本章小结
第4章 Spark集群管理
4.1 Spark集群概述
4.1.1 Spark集群组件
4.1.2 使用Spark集群的注意事项
4.1.3 集群管理器类型
4.2 提交任务到Spark集群
4.2.1 捆绑应用程序的依赖关系
4.2.2 使用spark-submit启动应用
4.2.3 主节点URL
4.2.4 从文件加载配置
4.3 启动Spark集群
4.3.1 手动启动集群
4.3.2 集群启动脚本
4.4 Spark集群的高可用方案
4.4.1 使用ZooKeeper的备用模式
4.4.2 使用本地文件系统的单节点恢复
4.5 使用YARN集群
4.5.1 在YARN集群管理器上启动Spark
4.5.2 添加其他的JAR
4.5.3 调试应用
4.5.4 使用Spark历史记录服务器替换Spark Web UI
4.6 YARN集群的常用配置
4.7 YARN集群资源分配和配置
4.8 YARN阶段级调度
4.8.1 阶段级调度概述
4.8.2 注意事项
4.9 动手练习
练习1：提交任务到Spark集群
练习2：启动Spark集群
练习3：使用YARN集群
练习4：使用Spark进行数据清洗和转换
4.10 本章小结
第5章 Spark SQL
5.1 Spark SQL的基本概念及工作原理
5.1.1 Spark SQL的基本概念
5.1.2 Spark SQL的工作原理
5.1.3 Spark RDD与Spark SQL的比较
5.1.4 抉择建议
5.2 Dataset与DataFrame
5.2.1 SQL API与Dataset/DataFrame API
5.2.2 RDD、Dataset和DataFrame的优缺点总结
5.2.3 RDD、Dataset、DataFrame的相互转换
5.3 实战：DataFrame的基本操作
5.3.1 创建SparkSession
5.3.2 创建DataFrame
5.3.3 DataFr

展开