搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
图解Spark(大数据快速分析实战)
0.00     定价 ¥ 109.90
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购22本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787115580115
  • 作      者:
    作者:王磊|责编:谢晓芳
  • 出 版 社 :
    人民邮电出版社
  • 出版日期:
    2022-02-01
收藏
畅销推荐
内容介绍
本书共8章,内容主要包括Spark概述及入门实战,Spark的作业调度和资源分配算法,Spark SQL、DataFrame、Dataset的原理和实战,深入理解Spark数据源,流式计算的原理和实战,亿级数据处理平台Spark性能调优,Spark机器学习库,Spark 3.0的新特性和数据湖等。 本书适合Spark开发人员和Spark运维人员阅读。
展开
目录
第1章 Spark概述及入门实战
1.1 Spark简介
1.1.1 为什么要学习Spark
1.1.2 学好Spark的关键点
1.1.3 Spark学习难点
1.1.4 本书编写思路
1.2 Spark原理及特点
1.2.1 Spark的核心优势
1.2.2 Spark生态介绍
1.2.3 Spark模块的组成
1.2.4 Spark运行模式
1.2.5 Spark集群的角色组成
1.2.6 Spark核心概念
1.2.7 Spark作业运行流程
1.3 Spark入门实战
1.3.1 Spark独立环境安装实战
1.3.2 YARN环境安装实战
1.3.3 Spark批处理作业入门实战
1.3.4 Spark流式作业入门实战
第2章 Spark的作业调度和资源分配算法
2.1 Spark的作业调度
2.1.1 Spark作业运行框架概述
2.1.2 Spark调度器原理
2.1.3 Spark应用程序的核心概念
2.1.4 Spark应用程序的调度流程
2.1.5 在YARN级别调度Spark作业
2.1.6 在任务级别调度Spark作业
2.1.7 本地化调度简介
2.1.8 本地化调度流程:延迟调度策略
2.1.9 Spark任务延迟调度
2.1.10 Spark失败重试与黑名单机制
2.1.11 推测执行
2.1.12 资源分配机制
2.2 Spark on YARN资源调度
2.2.1 Spark on YARN运行模式
2.2.2 YARN调度器
2.3 RDD概念
2.3.1 RDD简介
2.3.2 RDD的特点
2.4 RDD分区
2.4.1 分区的概念
2.4.2 分区器
2.4.3 自定义分区器
2.5 RDD依赖关系
2.6 Stage
2.7 RDD持久化
2.7.1 RDD持久化的概念
2.7.2 RDD持久化的使用
2.7.3 RDD持久化级别
2.7.4 RDD持久化原则
2.8 RDD检查点
2.9 RDD实战
2.9.1 编写一个简单的RDD演示程序
2.9.2 利用外部存储系统生成RDD
2.9.3 RDD支持Transformation操作和Action操作
2.9.4 RDD懒加载
2.9.5 Spark函数的3种实现方式
2.9.6 RDD操作中常用Transformation算子的原理及使用
2.9.7 RDD操作中常用Action算子的原理及使用
2.9.8 Spark广播变量的概念、好处和使用
第3章 Spark SQL、DataFrame、Dataset原理和实战
3.1 Spark SQL基础概念
3.1.1 Spark SQL介绍
3.1.2 Spark SQL查询语句介绍
3.1.3 DataFrame的概念
3.1.4 Dataset的概念
3.2 创建一个Spark SQL应用
3.3 Spark SQL视图操作
3.4 Spark Dataset操作
3.5 Spark DataFrame操作
3.5.1 DataFrame Schema设置
3.5.2 DataFrame数据加载
3.5.3 DataFrame数据保存
3.6 Spark SQL操作
3.6.1 Spark SQL表关联操作
3.6.2 Spark SQL函数操作
第4章 深入理解Spark数据源
4.1 Spark文件读写原理
4.1.1 Spark数据分布
4.1.2 Spark数据读取过程
4.1.3 Spark数据写出过程
4.2 Spark数据格式
4.2.1 TEXT
4.2.2 CSV
4.2.3 JSON
4.2.4 Parquet
4.2.5 ORC
4.2.6 AVRO
4.2.7 到底应该使用哪种数据格式
4.3 Spark读写HDFS
4.3.1 HDFS的概念和特点
4.3.2 HDFS架构
4.3.3 HDFS数据的写入和读取流程
4.3.4 HDFS的使用
4.4 Spark读写HBase
4.4.1 HBase的概念
4.4.2 HBase架构
4.4.3 HBase数据模型
4.4.4 HBase的使用
4.5 Spark读写MongoDB
4.5.1 MongoDB的概念
4.5.2 MongoDB数据模型
4.5.3 MongoDB架构
4.5.4 MongoDB的使用
4.6 Spark读写Cassandra
4.6.1 Cassandra的概念
4.6.2 Gossip协议
4.6.3 Cassandra数据模型
4.6.4 Cassandra架构
4.6.5 Cassandra的使用
4.7 Spark读写MySQL
4.8 Spark读写Kafka
4.8.1 Kafka的概念
4.8.2 Kafka集群架构
4.8.3 Kafka数据存储设计
4.8.4 Kafka消息并发设计
4.8.5 Kafka的使用
4.9 Spark读写ElasticSearch
4.9.1 ElasticSearch的概念
4.9.2 ElasticSearch数据模型
4.9.3 ElasticSearch集群架构
4.9.4 ElasticSearch副本架构
4.9.5 ElasticSearch的使用
第5章 Spark流式计算的原理和实战
5.1 Spark Streaming
5.1.1 Spark Streaming介绍
5.1.2 Spark Streaming入门实战
5.1.3 Spark Streaming的数据源
5.1.4 DStream
5.2 Spark Structured Streaming
5.2.1 Spark Structured Streaming介绍
5.2.2 Spark Structured Streaming的特点
5.2.3 Spark Structured Streaming的数据模型
5.2.4 创建一个Spark Structured Streaming应用
5.2.5 时间概念、延迟数据处理策略和容错语义
5.2.6 Spark Structured Streaming编程模型
5.2.7 在结构化数据流上执行操作
5.2.8 启动Spark Structur
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证