信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书基于Hadoop 3.3.0，覆盖Hadoop、HBase、Hive的核心概念、实践应用、程序开发等方面的内容，帮你快速解决大数据是什么和怎么用的问题，书中还利用Docker来部署Hadoop分布式集群，让你同时学会4种流行的技术。本书共9章，主要内容包括Hadoop概述、HDFS原理详解、Yarn原理详解、Hadoop系统配置、高可用Hadoop配置、HDFS编程、MapReduce编程、Hive实战、HBase实战。本书从案例入手、通俗易懂，能使读者在最短时间内迅速掌握Hadoop大数据技术。本书既适合Hadoop大数据初学者、大数据应用开发人员、大数据处理人员使用，也适合高等院校和培训机构大数据相关专业的师生教学参考。

展开

精彩书评

展开

精彩书摘

展开

第1章概述
1.1 什么是大数据
1.1.1 大数据系统的定位
1.1.2 与传统分布式系统的区别
1.1.3 成功的大数据系统项目
1.2 Hadoop的原理
1.2.1 存储与资源调度
1.2.2 计算框架原理
1.3 总结
第2章 HDFS原理详解
2.1 主从节点架构
2.2 数据冗余
2.3 fsimage与edits
2.4 SecondaryNameNode
2.5 HA
2.6 自动故障转移
2.7 ZooKeeper
2.8 防脑裂
2.9 联邦
2.10 总结
第3章 Yarn原理详解
3.1 概述
3.2 作业调度策略
3.2.1 容量调度器
3.2.2 公平调度器
3.2.3 队列其他事项
3.3 Yarn与MapReduce程序
第4章配置Hadoop系统
4.1 Docker简介
4.2 安装Docker
4.2.1 Windows、macOS做宿主系统
4.2.2 Linux做宿主系统
4.2.3 测试Docker容器
4.3 创建Hadoop容器
4.4 配置独立模式Hadoop
4.5 配置伪分布Hadoop
4.5.1 安装并配置SSH
4.5.2 安装其他命令行程序
4.5.3 编辑core-site.xml
4.5.4 编辑hdfs-site.xml
4.5.5 编辑mapred-site.xml
4.5.6 编辑yarn-site.xml
4.5.7 编辑hadoop-env.sh
4.5.8 运行伪分布式Hadoop
4.5.9 状态监控
4.6 基于Dockerfile的伪分布Hadoop
4.6.1 Dockerfile
4.6.2 构建Hadoop镜像
4.6.3 运行容器
4.6.4 配置Hadoop
4.7 配置全分布式Hadoop
4.7.1 组件部署架构
4.7.2 配置思路
4.7.3 修改配置文件
4.7.4 创建集群
4.7.5 启动集群
4.8 Windows下运行Hadoop
4.8.1 配置独立模式Hadoop
4.8.2 配置伪分布式Hadoop
4.9 Yarn调度配置
4.9.1 容量调度器
4.9.2 公平调度器
第5章配置高可用Hadoop
5.1 HDFS高可用
5.1.1 组件部署架构
5.1.2 修改配置文件
5.1.3 创建镜像
5.1.4 创建HA HDFS集群
5.1.5 运行HA HDFS
5.1.6 测试HA HDFS
5.1.7 NameNode自动故障转移
5.2 Yarn高可用
第6章 HDFS编程
6.1 安装开发工具
6.1.1 安装Git
6.1.2 安装Maven
6.1.3 安装VSCode
6.1.4 安装VSCode插件
6.2 Native编程
6.2.1 创建HDFS客户端项目
6.2.2 示例1：查看目录状态
6.2.3 添加依赖库
6.2.4 运行程序
6.2.5 示例2：创建目录和文件
6.2.6 示例3：读取文件内容
6.2.7 示例4：上传和下载文件
6.3 WebHDFS与HttpFS
6.3.1 WebHDFS
6.3.2 VSCode插件RestClient
6.3.3 HttpFS
第7章 MapReduce编程
7.1 准备测试环境与创建项目
7.2 添加MapReduce逻辑
7.2.1 添加Map类
7.2.2 添加Reduce类
7.3 创建Job
7.4 添加依赖库
7.5 运行程序
7.6 查看运行日志
7.7 在Hadoop中运行程序
7.8 Combiner
7.9 Mapper与Reducer数量
7.10 实现SQL语句
7.10.1 简单查询
7.10.2 排序
7.10.3 复杂排序
7.10.4 分区
7.10.5 组合
7.10.6 总结
7.11 实现SQL JOIN
7.11.1 INNER JOIN
7.11.2 MapReduce实现JOIN
7.11.3 Mapper JOIN
7.11.4 DistributedCache
7.12 Counter
7.13 其他组件
7.14 升级版的WordCount
7.15 分布式k-means
7.15.1 Mapper类
7.15.2 Reducer类
7.15.3 执行任务的方法
7.15.4 辅助类
7.15.5 运行
7.15.6 MapReduce深入剖析
第8章 Hive
8.1 Hive的设计架构
8.2 运行架构
8.3 安装配置Hive
8.3.1 安装依赖软件
8.3.2 创建Hive镜像Dockerfile
8.3.3 创建docker-compose.yml
8.3.4 Hadoop配置调整
8.3.5 为Hive准备数据库
8.4 运行Hive
8.5 其他运行方式
8.5.1 MetaStore单独运行
8.5.2 嵌入Meta数据库
8.5.3 HiveServer2与beeline合体
8.6 Hive数据管理
8.6.1 基本操作
8.6.2 Hive表
8.6.3 数据倾斜
8.7 Hive查询优化
8.8 索引
8.9 HCatalog
8.10 Hive编程
8.10.1 JDBC操作Hive
8.10.2 自定义函数
8.11 总结
第9章 HBase
9.1 什么是HBase
9.2 HBase架构
9.3 安装与配置
9.3.1 独立模式运行
9.3.2 伪分布模式
9.3.3 全分布模式
9.4 基本数据操作
9.4.1 表管理
9.4.2 添加数据
9.4.3 修改数据
9.4.4 获取数据
9.4.5 删除数据
9.5 HBase设计原理
9.5.1 Region
9.5.2 定位数据
9.5.3 数据存储模型
9.5.4 快速写的秘密
9.5.5 快速读的秘密
9.5.6 合并StoreFile
9.5.7 Region拆分与合并
9.5.8 故障恢复

展开