信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书覆盖完整的大数据生态圈体系，主要包括Hadoop生态圈体系、Spark生态圈体系、Flink生态圈体系、NoSQL数据库及相关组件。本书侧重动手实操，提供完整并详细的实验步骤，可以让读者真实模拟大数据平台体系的运行环境，在虚拟机上构建自己的大数据集群。同时，本书也兼顾必要的理论讲解，深入浅出，让读者在了解大数据基本架构和原理机制的基础上，能够通过实验真正掌握大数据平台体系中的技术组件。本书适合具有一定Java编程基础的人员阅读，如平台架构师、开发人员、运维管理人员等。本书内容详尽，不仅可以作为初学者的学习用书，而且可以作为工作中的参考手册。

展开

精彩书评

展开

精彩书摘

展开

第1章大数据核心理论基础与架构
1.1 大数据概述
1.1.1 大数据的基本概念和特性
1.1.2 大数据平台所要解决的核心问题
1.1.3 数据仓库与大数据
1.2 大数据的理论基础
1.2.1 Google文件系统
1.2.2 MapReduce分布式计算模型
1.2.3 BigTable分布式数据库
1.3 大数据生态圈组件
1.3.1 Hadoop生态圈
1.3.2 Spark生态圈
1.3.3 Flink生态圈
1.4 基于大数据组件的平台架构
第2章部署大数据环境
2.1 准备大数据平台环境
2.1.1 安装Linux操作系统
2.1.2 配置Linux环境
2.2 部署Hadoop环境
2.2.1 Hadoop的目录结构
2.2.2 部署Hadoop本地模式
2.2.3 部署Hadoop伪分布模式
2.2.4 部署Hadoop全分布模式
2.3 部署 Spark环境
2.3.1 部署Spark伪分布模式
2.3.2 部署Spark全分布模式
2.4 部署Flink环境
2.4.1 部署Flink伪分布模式
2.4.2 部署Flink全分布模式
2.5 大数据体系的单点故障问题
第3章 HDFS
3.1 HDFS体系架构详解
3.1.1 NameNode
3.1.2 DataNode
3.1.3 SecondaryNameNode
3.2 使用不同方式操作HDFS
3.2.1 HDFS令令行
3.2.2 Java API
3.2.3 Web Console
3.3 HDFS的高级特性
3.3.1 回收站
3.3.2 快照
3.3.3 配额管理
3.3.4 安全模式
3.3.5 权限管理
3.4 联盟
3.4.1 联盟概述
3.4.2 联盟的架构
3.4.3 部署联盟
3.5 HDFS的底层通信方式RPC
3.5.1 RPC概述
3.5.2 开发服务器端程序和客户端程库
3.5.3 运行RPC服务器端程序和客户端程序
……
第4章 NoSQL数据库HBase
第5章 MapReduce编程
第6章数据分析引擎Hive
第7章数据分析引擎Pig
第8章数据分析引擎Presto
第9章大数据计算引擎Spark Core
第10章数据分析引擎Spark SQL
第11章流式计算引擎Spark Streaming
第12章大数据计算引擎Flink基础
第13章大数据计算引擎Flink进阶
第14章分布式协调服务ZooKeeper
第15章大数据的ETL采集框架
第16章消息系统Kafka

展开