信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书主要为Spark开发提供编程指导，涉及的主要内容包括Spark开发基础知识、RDD编程、SQL编程、Streaming开发及机器学习开发等。由于大数据相关技术、软件平台等更新迭代较快，因此本书在介绍相关内容时，尽量选择较新的软件版本。本书所介绍的Spark API基于Spark 3.3.x，相较于Spark 2.x或其他更早版本，部分API有更新，请读者注意版本变化带来的差异。Spark是基于Scala编程语言开发的。基于Scala的API开发，代码的执行效率高，学习过程更轻松。Scala经过多年发展，迭代更新了若干版本，版本变化较大（版本不兼容）。本书选用了相对较新又相对成熟稳定的Scala 2.13.x版本。本书适合作为大数据应用开发工程技术人员的编程指导书，也适合作为高等院校计算机、大数据相关专业大数据应用开发或Spark应用开发的教材或教学参考书。

展开

精彩书评

展开

精彩书摘

展开

第1章大数据概述
1.1 大数据的概念
1.2 大数据的关键技术
1.3 大数据计算模式
1.4 本书内容介绍
1.5 Linux虚拟机的安装与使用
1.5.1 安装环境
1.5.2 安装VirtualBox
1.5.3 安装虚拟机系统Ubuntu
1.5.4 Linux命令
1.5.5 主机与虚拟机交互
第2章 Scala基础
2.1 Scala概述
2.1.1 Scala简介
2.1.2 Scala安装
2.1.3 Scala使用基础
2.2 Scala初步
2.2.1 初识Scala REPL
2.2.2 变量定义
2.2.3 Scala REPL中的多行输入
2.2.4 函数定义
2.3 Scala基本数据类型与操作
2.3.1 基本数据类型
2.3.2 操作符
2.3.3 运算的优先级与结合性
2.3.4 富操作（Rich Operations）
2.4 控制结构
2.4.1 if表达式
2.4.2 while循环
2.4.3 for表达式
2.4.4 match表达式
2.4.5 try表达式（异常处理）
2.5 Scala常用数据结构
2.5.1 序列数
2.5.2 数组
2.5.3 列表
2.5.4 元组
2.5.5 集合
2.5.6 映射
2.6 函数式编程
2.7 Scala类与对象
2.7.1 类、字段及方法
2.7.2 单例对象
2.7.3 样例类
2.8 Scala应用程序
第3章 Spark开发基础
3.1 Spark概述
3.1.1 Spark简介
3.1.2 Spark架构设计
3.2 Spark安装及部署
3.2.1 安装Spark
3.2.2 Spark部署方式
3.3 配置Spark访问HDFS数据源
3.3.1 Hadoop部署
3.3.2 配置Spark访问HDFS
3.4 使用Spark shell
3.4.1 启动Spark shell
3.4.2 使用Spark shell
3.4.3 退出Scala Spark shell
3.4.4 Spark shell常用选项
3.5 Spark 开发环境
3.5.1 SBT
3.5.2 IntelliJ IDEA
第4章 Spark RDD编程
4.1 RDD概述
4.2 RDD编程基础
4.2.1 环境初始化
4.2.2 交互式编程
4.2.3 一个简单的应用程序
4.3 RDD常用操作
4.3.1 转换
4.3.2 动作
4.3.3 函数参数传递
4.4 键/值对RDD
4.5 共享变量
4.5.1 广播变量
4.5.2 累加器
4.6 文件数据读写
4.6.1 从文件创建RDD
4.6.2 保存RDD
4.7 RDD程序例子
4.7.1 词频统计WordCount
4.7.2 文件合并
4.7.3 求 Top值
第5章 Spark SQL编程
15.1 Spark SQL基础
5.1.1 概述
5.1.2 Spark SQL架构
5.1.3 一个简单的Spark SQL开发例子
5.2 数据帧DataFrame
5.2.1 DataFrame结构
5.2.2 创建DataFrame
5.2.3 DataFrame常用操作
5.2.4 保存DataFrame
5.3 数据集Dataset
5.3.1 创建Dataset
5.3.2 Dataset常用方法
5.4 数据源
5.4.1 通用load/save函数
5.4.2 文件数据源
5.4.3 Hive数据源
5.4.4 SQL数据源
5.5 安装关系数据库
5.5.1 PostgreSQL
5.5.2 MySQL Server
第6章 Streaming编程
6.1 流计算概述
6.1.1 流计算背景
6.1.2 流计算概念
6.1.3 流计算框架
6.2 Spark Streaming
6.2.1 概述
6.2.2 Spark Streaming简单示例
6.2.3 Spark Streaming开发基础
6.2.4 DStream常用操作
6.2 Structured Streaming
6.3.1 概述
6.3.2 Structured Streaming简单示例
6.3.3 编程模型
6.3.4 DataFrame和Dataset数据流API
6.4 Structured Streaming编程实践
6.4.1 Kafka数据源准备
6.4.2 Structured Streaming Kafka依赖包
6.4.3 在 Spark shell中连接Kafka
第7章 Spark MLlib实践
7.1 机器学习
7.1.1 机器学习概述
7.1.2 机器学习常用术语
7.1.3 机器学习的应用
7.1.4 机器学习的方法
7.1.5 大数据与机器学习
7.2 Spark MLlib
7.2.1 Spark机器学习概述
7.2.2 MLlib概述
7.2.3 MLlib机器学习管道
7.3 MLlib初级实践
7.3.1 数据准备
7.3.2 创建训练集与测试集
7.3.3 使用转换器准备特征
7.3.4 使用估计器构建模型
7.3.5 创建管道
7.3.6 评估模型
7.4 超参数调优
7.4.1 基于树的模型
7.4.2 k折交叉验证
7.4.3 管道优化
参考文献

展开