第1章 大数据核心理论基础与架构
1.1 大数据概述
1.1.1 大数据的基本概念和特性
1.1.2 大数据平台所要解决的核心问题
1.1.3 数据仓库与大数据
1.2 大数据的理论基础
1.2.1 Google文件系统
1.2.2 MapReduce分布式计算模型
1.2.3 BigTable分布式数据库
1.3 大数据生态圈组件
1.3.1 Hadoop生态圈
1.3.2 Spark生态圈
1.3.3 Flink生态圈
1.4 基于大数据组件的平台架构
第2章 部署大数据环境
2.1 准备大数据平台环境
2.1.1 安装Linux操作系统
2.1.2 配置Linux环境
2.2 部署Hadoop环境
2.2.1 Hadoop的目录结构
2.2.2 部署Hadoop本地模式
2.2.3 部署Hadoop伪分布模式
2.2.4 部署Hadoop全分布模式
2.3 部署 Spark环境
2.3.1 部署Spark伪分布模式
2.3.2 部署Spark全分布模式
2.4 部署Flink环境
2.4.1 部署Flink伪分布模式
2.4.2 部署Flink全分布模式
2.5 大数据体系的单点故障问题
第3章 HDFS
3.1 HDFS体系架构详解
3.1.1 NameNode
3.1.2 DataNode
3.1.3 SecondaryNameNode
3.2 使用不同方式操作HDFS
3.2.1 HDFS令令行
3.2.2 Java API
3.2.3 Web Console
3.3 HDFS的高级特性
3.3.1 回收站
3.3.2 快照
3.3.3 配额管理
3.3.4 安全模式
3.3.5 权限管理
3.4 联盟
3.4.1 联盟概述
3.4.2 联盟的架构
3.4.3 部署联盟
3.5 HDFS的底层通信方式RPC
3.5.1 RPC概述
3.5.2 开发服务器端程序和客户端程库
3.5.3 运行RPC服务器端程序和客户端程序
……
第4章 NoSQL数据库HBase
第5章 MapReduce编程
第6章 数据分析引擎Hive
第7章 数据分析引擎Pig
第8章 数据分析引擎Presto
第9章 大数据计算引擎Spark Core
第10章 数据分析引擎Spark SQL
第11章 流式计算引擎Spark Streaming
第12章 大数据计算引擎Flink基础
第13章 大数据计算引擎Flink进阶
第14章 分布式协调服务ZooKeeper
第15章 大数据的ETL采集框架
第16章 消息系统Kafka
展开