第1章 大数据技术概述
1.1 大数据技术简介
1.1.1 大数据的发展
1.1.2 大数据的流程
1.2 大数据的主流软件
1.2.1 Hadoop
1.2.2 Spark
1.2.3 Flink
1.2.4 Hadoop与Spark对比
1.3 大数据的主流编程语言
1.3.1 Python语言
1.3.2 Java语言
1.3.3 Scala语言
1.4 本章小结
第2章 Hadoop部署安装与使用
2.1 Linux基本操作
2.1.1 Linux简介
2.1.2 新建与删除用户
2.1.3 目录权限的查看与修改
2.1.4 Linux的常用命令
2.1.5 任务实现
2.2 搭建Hadoop完全分布式集群
2.2.1 关闭防火墙
2.2.2 安装SSH
2.2.3 安装Xshell及Xftp(可选)
2.2.4 安装Java
2.2.5 安装Hadoop
2.2.6 克隆主机
2.2.7 安装完全分布式模式
2.3 查看Hadoop集群的基本信息
2.3.1 查询存储系统信息
2.3.2 查询计算资源信息
2.4 本章小结
第3章 HDFS基本操作
3.1 HadoopShell命令操作HDFS
3.1.1 HDFS简介
3.1.2 HDFSShell命令简介
3.1.3 目录操作
3.1.4 文件操作
3.1.5 利用Web界面管理HDFS
3.1.6 任务实现
3.2 Java操作HDFS
3.2.1 在Eclipse中创建HDFS交互Java项目
3.2.2 在Java项目中编写Java应用程序
3.2.3 编译运行应用程序与打包文件
3.2.4 任务实现
3.2.5 文件常用操作的参考代码
3.3 本章小结
第4章 MapReduce基本原理与编程实现
4.1 MapReduce基本原理
4.1.1 MapReduce简介
4.1.2 MapReduce编程核心思想
4.1.3 MapReduce编程规范
4.1.4 MapReduce的输入格式
4.1.5 MapReduce的输出格式
4.1.6 分区
4.1.7 合并
4.2 编程实现——按访问次数排序
4.2.1 编程思路与处理逻辑
4.2.2 核心模块代码
4.2.3 任务实现
4.3 本章小结
第5章 Hive部署与编程基础
5.1 搭建伪分布式Hive
5.1.1 Hive概述
5.1.2 Hive安装和配置
5.2 Hive基本操作
5.2.1 数据库基本操作
5.2.2 数据表基本操作
5.2.3 数据基本操作
5.3 编程实现——部门工资统计
5.4 本章小结
第6章 Spark部署与编程基础
6.1 Spark的运行原理
6.1.1 集群架构
6.1.2 运行流程
6.1.3 核心数据集RDD
6.1.4 核心原理
6.2 Scala安装与使用
6.2.1 Scala语言概述
6.2.2 Scala特性
6.2.3 环境设置与安装
6.3 Spark安装与使用
6.3.1 环境搭建前的准备
6.3.2 Spark的安装与配置
6.3.3 在PySpark中运行代码
6.3.4 编程实现——Spark独立应用程序
6.4 本章小结
第7章 SparkRDD:弹性分布式数据集
7.1 RDD概述
7.2 RDD编程
7.2.1 RDD编程基础
7.2.2 键值对RDD
7.2.3 数据读写操作
7.3 编程实现
7.3.1 任务1:取出排名前五的订单支付金额
7.3.2 任务2:文件排序
7.3.3 任务3:二次排序
7.4 本章小结
第8章 SparkSQL:结构化数据文件处理
8.1 SparkSQL概述
8.1.1 SparkSQL简介
8.1.2 SparkSQLCLI配置
8.1.3 SparkSQL与Shell交互
8.2 DataFrame基础操作
8.2.1 创建DataFrame对象
8.2.2 DataFrame查看数据
8.2.3 DataFrame查询操作
8.2.4 DataFrame输出操作
8.3 SparkSQL与MySQL的交互
8.4 本章小结
第9章 SparkStreaming:实时计算框架
9.1 SparkStreaming概述
9.1.1 SparkStreaming应用场景
9.1.2 流计算概述
9.1.3 SparkStreaming特性分析
9.2 DStream编程模型基础
9.2.1 DStream概述
9.2.2 基本输入源
9.2.3 转换操作
9.2.4 输出操作
9.3 编程实现——流数据过滤与分析
9.4 本章小结
第10章 SparkGraphFrames:图计算
10.1 图计算概述
10.1.1 图的基本概念
10.1.2 图计算的应用
10.1.3 GraphFrames简介
10.2 GraphFrames编程模型基础
10.2.1 创建实例化图
10.2.2 视图和图操作
10.2.3 保存和加载图
10.3 编程实现——基于GraphFrames的网页排名
10.3.1 准备数据集
10.3.2 GraphFrames实现算法
10.3.3 使用PageRank进行网页排名
10.4 本章小结
第11章 大数据生态常用工具介绍
11.1 Flume的安装与使用
11.1.1 安装及配置Flume
11.1.2 实例分析
11.2 Kafka的安装与使用
11.2.1 Kafka相关概念
11.2.2 安装Kafka
11.2.3 实例分析
11.3 Sqoop的安装与使用
11.3.1 安装及配置Sqoop
11.3.2 添加MySQL驱动程序
11.3.3 测试Sqoop与MySQL的连接
11.4 编程实现——编写Spark程序使用Kafka数据
展开