信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书基于Spark 3.3.1框架展开，系统介绍Spark生态系统各组件的操作，以及相应的大数据分析方法。本书各章节均提供丰富的示例及其详细的操作步骤，并配套示例源码、PPT课件和教学大纲。本书共分11章，内容包括Scala编程基础、Spark框架全生态体验、Spark RDD、Spark SQL、Kafka、Spark Streaming、Spark ML、Spark GraphX、Redis等技术框架和应用，并通过广告点击实时大数据分析和电影影评大数据分析两个综合项目进行实战提升。本书适合Spark框架初学者，既可以作为大数据分析技术、大数据应用开发工程师的查询手册，也可以作为高等院校或高职高专计算机技术、软件工程、数据科学与大数据科学、智能科学与技术、人工智能等专业大数据课程的教材。

展开

精彩书评

展开

精彩书摘

展开

第1章 Spark开发之Scala编程基础
1.1 开发环境搭建
1.2 基础语法
1.3 函数
1.4 控制语句
1.5 函数式编程
1.6 模式匹配
1.7 类和对象
1.8 异常处理
1.9 Trait（特征）
1.10 文件I/O
第2章 Spark框架全生态体验
2.1 Spark概述
2.1.1 关于Spark
2.1.2 Spark的基本概念
2.1.3 Spark集群模式
2.2 Linux环境搭建
2.2.1 VirtualBox虚拟机安装
2.2.2 安装Linux操作系统
2.2.3 SSH工具与使用
2.2.4 Linux统一设置
2.3 Hadoop安装与配置
2.3.1 Hadoop安装环境准备
2.3.2 Hadoop伪分布式安装
2.3.3 Hadoop完全分布式环境搭建
2.4 Spark安装与配置
2.4.1 本地模式安装
2.4.2 伪分布模式安装
2.4.3 完全分布模式安装
2.4.4 Spark on YARN
2.5 spark-submit
2.5.1 使用spark-submit提交
2.5.2 spark-submit参数说明
2.6 DataFrame
2.6.1 DataFrame概述
2.6.2 DataFrame的基础应用
2.7 Spark SQL
2.7.1 快速示例
2.7.2 read和write
2.8 Spark Streaming
2.9 共享变量
2.9.1 广播变量
2.9.2 累加器
第3章 Spark RDD弹性分布式数据集
3.1 什么是RDD
3.2 RDD的主要属性
3.3 RDD的特点
3.3.1 弹性
3.3.2 分区
3.3.3 只读
3.3.4 依赖（血缘）
3.3.5 缓存
3.3.6 checkpoint
3.4 RDD的创建与处理过程
3.4.1 RDD的创建
3.4.2 RDD的处理过程
3.4.3 RDD的算子
3.4.4 常见的转换算子
3.4.5 常见的行动算子
第4章 Spark SQL结构化数据文件处理
4.1 Spark SQL概述
4.1.1 什么是Spark SQL
4.1.2 Spark SQL的特点
4.1.3 什么是DataFrame
4.1.4 什么是DataSet
4.2 Spark SQL编程
4.2.1 SparkSession
4.2.2 使用DataFrame进行编程
4.2.3 使用DataSet进行编程
4.2.4 DataFrame和DataSet之间的交互
4.2.5 使用IDEA 创建Spark SQL程序
4.2.6 自定义Spark SQL函数
4.3 Spark SQL数据源
4.3.1 通用加载和保存函数
4.3.2 加载JSON文件
4.3.3 读取Parquet文件
4.3.4 JDBC
第5章 Kafka实战
5.1 Kafka的特点
5.2 Katka术语
5.3 Kafka单机部署
5.4 Kafka集群部署
第6章 Spark Streaming实时计算
6.1 Spark Streaming概述
6.1.1 Spark Streaming是什么
6.1.2 Spark Streaming特点
6.1.3 Spark Streaming架构
6.2 DStream入门
6.2.1 WordCount案例
6.2.2 WordCount案例解析
6.3 DStream创建
6.3.1 RDD队列
6.3.2 自定义数据源
6.3.3 Katka数据源
6.4 DStream实战
6.4.1 从端口读取数据
6.4.2 FileStream
6.4.3 窗口函数
6.4.4 updateStateByKey
6.5 Structured Streaming
6.5.1 概述
6.5.2 快速示例
第7章 Spark ML机器学习
7.1 机器学习
7.2 Spark ML
7.3 典型机器学习流程介绍
7.3.1 提出问题
7.3.2 假设函数
7.3.3 损失函数
7.3.4 训练模型确定参数
7.4 经典算法模型实战
7.4.1 聚类算法实战
7.4.2 回归算法实战
7.4.3 协同过滤算法实战
7.4.4 分类算法实战
第8章 Spark Graphx图计算
8.1 Spark GraphX
8.2 Spark GraphX的抽象
8.3 Spark GraphX图的构建
8.4 Spark GraphX图的计算模式
8.5 GraphX3个主要算法实战
8.6 GraphX综合应用项目实战
第9章 Redis数据库入门
9.1 Redis环境安装
9.1.1 简介
9.1.2 安装
9.1.3 Java客户端
9.2 Redis常见数据类型
9.2.1 key
9.2.2 string类型
9.2.3 list
9.2.4 set
9.2.5 sorted set
9.2.6 hash
9.3 Redis排序
9.4 Redis事务
9.5 Redis发布订阅及示例
9.6 Redis持久化
第10章广告点击实时大数据分析项目实战
10.1 项目环境准备
10.2 数据生成模块
10.3 从Kafka读取数据
10.3.1 bean类AdsInfo
10.3.2 工具类MyKatkaUtil
10.3.3 从Kafka消费数据
10.4 数据统计实现
10.4.1 每天每地区热门广告点击率Top3
10.4.2 最近1小时内广告点击量实时统计
第11章电影影评大数据分析项目实战
11.1 项目介绍
11.2 项目实现
11.2.1 公共代码开发
11.2.2 平均评分最高的前10部电影
11.2.3 电影类别及其平均评分
11.2.4 评分次数最多的前10部电影

展开