信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书以大数据为中心，对大数据及其相关技术、产品和实践案例进行了详细的讲解。全书共分9章，从大数据概述、华为大数据产品入手，详细介绍了开源的分布式计算框架——Hadoop，以及Hadoop生态圈的多个组件：Flume、Kafka、HDFS、Zookeeper、MapReduce、YARN、HBase、Hive、Spark以及Flink；除上述组件外，还介绍了ElasticSearch和ClickHouse。本书适合正在准备考取华为HCIA-Big Data认证的人员、从事大数据工作的专业人员阅读，也可作为高等院校相关专业师生的参考书。

展开

精彩书评

展开

精彩书摘

展开

第1章大数据概述
1.1 什么是大数据
1.1.1 大数据的来源
1.1.2 大数据的发展历程
1.2 大数据的数据特征及数据类型
1.3 华为鲲鹏大数据
1.4 大数据的发展趋势
1.5 华为DataArts Studio
1.5.1 什么是DataArts Studio
1.5.2 DataArts Studio产品功能
1.5.3 DataArts Studio应用场景
1.6 华为云大数据服务——MRS
习题
第2章大数据采集与分布式流处理平台
2.1 大数据采集技术
2.2 Flume
2.2.1 Flume简介及框架
2.2.2 Flume的关键特性
2.2.3 Flume应用举例
2.3 Kafka
2.3.1 Kafka简介
2.3.2 Kafka的架构与功能
2.3.3 Kafka数据管理
习题
第3章大数据分布式处理概述
3.1 大数据开发与分布式技术简介
3.1.1 大数据开发
3.1.2 分布式管理技术
3.2 Hadoop——分布式大数据系统
3.2.1 Hadoop简介
3.2.2 Hadoop 3.x
3.3 Hadoop的体系架构
3.4 Hadoop与分布式开发
3.5 Hadoop的生态系统
习题
第4章 HDFS分布式文件系统和ZooKeeper
4.1 分布式文件系统
4.1.1 分布式文件系统的设计思路
4.1.2 最早的分布式文件系统
4.1.3 大数据环境下分布式文件系统的优化思路
4.2 HDFS的体系架构及特点
4.2.1 HDFS的体系架构
4.2.2 HDFS的特点
4.3 HDFS的完整性
4.3.1 校验和
4.3.2 运行后台进程来检测数据块
4.4 HDFS数据的读/写流程
4.5 HDFS的常用工具
4.5.1 FsShell实现
4.5.2 DFSAdmin实现
4.6 ZooKeeper分布式协调服务
4.6.1 ZooKeeper概述
4.6.2 ZooKeeper的体系结构
4.6.3 ZooKeeper奇数节点和偶数节点
习题
第5章分布式计算——MapReduce和YARN
5.1 什么是MapReduce
5.2 MapReduce编程模型
5.2.1 MapReduce简单模型
5.2.2 MapReduce复杂模型
5.2.3 WordCount案例
5.3 MapReduce数据流及任务流
5.3.1 MapReduce数据流
5.3.2 MapReduce任务流
5.4 YARN概述
5.5 YARN的基本框架
5.6 YARN的工作流程
习题
第6章分布式数据库技术——HBase
6.1 海量数据与NoSQL
6.1.1 关系数据库的局限
6.1.2 CAP理论
6.1.3 NoSQL
6.2 HBase简介
6.3 HBase表视图
6.3.1 HBase逻辑视图
6.3.2 HBase物理视图
6.4 HBase物理存储模型
6.5 HBase的基本操作
6.5.1 HBase Shell的命令
6.5.2 general操作
6.5.3 DDL（数据定义语言）操作
习题
第7章分布式数据仓库技术——Hive
7.1 什么是Hive
7.1.1 Hive的本质
7.1.2 Hive的基础架构
7.2 Hive的安全性
7.2.1 默认授权模式
7.2.2 基于存储的授权模式
7.2.3 基于SQL标准的授权模式
7.3 Hive Shell
7.4 Hive的性能调优
7.4.1 分区表
7.4.2 存储优化
7.4.3 矢量化查询优化
7.5 HQL简介
7.5.1 认识HQL
7.5.2 Hive管理数据的方式
习题
第8章 ClickHouse与ElasticSearch分布式搜索
8.1 ClickHouse概述
8.2 ClickHouse的架构及其基本特性
8.2.1 ClickHouse的架构
8.2.2 ClickHouse的基本特性
8.3 ClickHouse的使用案例
8.4 ElasticSearch简介
8.5 ElasticSearch的架构及其基本特性
8.5.1 ElasticSearch的架构
8.5.2 ElasticSearch的基本特性
8.6 ElasticSearch的使用案例
习题
第9章大数据实时处理技术
9.1 Spark——分布式技术
9.1.1 Spark概述与架构
9.1.2 弹性分布式数据集
9.1.3 Spark的扩展功能
9.1.4 Spark的应用举例
9.2 Flink——分布式实时处理引擎
9.2.1 Flink的原理与架构
9.2.2 Flink的运行架构
9.2.3 Flink应用举例
习题

展开