第1章 大数据概述
1.1 大数据的产生背景和发展历史
1.1.1 大数据产生的背景
1.1.2 大数据的发展历程
1.2 大数据的特征
1.2.1 数据量大
1.2.2 数据类型繁多
1.2.3 处理速度快
1.2.4 价值密度低
1.2.5 真实性
1.3 大数据的影响
1.3.1 大数据对科学研究的影响
1.3.2 大数据对思维方式的影响
1.3.3 大数据对社会发展的影响
1.3.4 大数据对就业市场的影响
1.3.5 大数据对人才培养的影响
1.4 大数据关键技术
1.5 大数据计算模式
1.6 大数据的应用
1.7 人工智能、大数据、物联网、云计算之间的关系
本章小结
习题
实验1.1 VMware虚拟机中安装CentOS系统
第2章 Hadoop概述及生态系统
2.1 Hadoop概述
2.1.1 Hadoop起源
2.1.2 Hadoop的发展简史
2.1.3 Hadoop的特性
2.1.4 Hadoop的应用现状
2.1.5 Hadoop的版本
2.2 Hadoop生态系统
2.2.1 HDFS
2.2.2 HBase
2.2.3 MapReduce
2.2.4 Hive
2.2.5 Pig
2.2.6 Mahout
2.2.7 ZooKeeper
2.2.8 Flume
2.2.9 Sqoop
2.2.10 Ambari
本章小结
习题
实验2.1 CentOS 7集群环境配置
第3章 分布式文件系统HDFS
3.1 分布式文件系统介绍
3.1.1 什么是DFS
3.1.2 DFS集群架构
3.1.3 分布式文件系统的结构
3.2 HDFS简介
3.2.1 HDFS概念
3.2.2 HDFS体系结构
3.2.3 HDFS命名空间
3.2.4 HDFS通信协议
3.2.5 HDFS客户端
3.2.6 HDFS特点
3.2.7 HDFS的局限性
3.3 HDFS主要组件
3.3.1 数据块
3.3.2 名称节点
3.3.3 数据节点
3.3.4 第二名称节点
3.3.5 数据错误与恢复
3.4 HDFS的数据读写过程
3.4.1 HDFS读数据的过程
3.4.2 HDFS写数据的过程
本章小结
习题
实验3.1 完全分布式文件系统搭建
实验3.2 HDFS基本访问操作
第4章 HDFS 2.0新性
4.1 Hadoop的优化与发展
4.1.1 Hadoop 1.0的局限性与不足
4.1.2 针对Hadoop的改进与提升
4.2 HDFS 2.0的新性
4.2.1 HDFS HA
4.2.2 HDFS联邦
本章小结
习题
实验4.1 HDFS HA配置与API访问
第5章 分布式计算框架MapReduce
5.1 MapReduce概述
5.1.1 MapReduce核心思想
5.1.2 MapReduce编程模型
5.1.3 MapReduce的特点
5.1.4 MapReduce的应用场景
5.2 MapReduce的工作原理
5.2.1 MapReduce的执行过程
5.2.2 Map段工作原理
5.2.3 Shuffle过程详解
5.2.4 Reduce段工作原理
5.3 典型实例:WordCount
5.3.1 WordCount的程序任务
5.3.2 WordCount的设计思路
5.3.3 一个WordCount执行过程实例
5.4 资源管理系统YARN
5.4.1 YARN设计思想
5.4.2 YARN体系结构
5.4.3 YARN工作流程
5.4.4 YARN的发展目标
本章小结
习题
实验5.1 MapReduce并行编程基础
实验5.2 MapReduce应用实例
第6章 数据仓库Hive
6.1 数据仓库简介
6.1.1 什么是数据仓库
6.1.2 数据仓库的结构
6.2 Hive基础
6.2.1 什么是Hive
6.2.2 Hive与传统数据库的区别
6.2.3 Hive与其他组件的关系
6.2.4 Hive的特点
6.2.5 Hive系统架构
6.3 Hive工作原理
6.3.1 Hive的数据类型
6.3.2 Hive的数据模型
6.3.3 SQL语句转换成MapReduce
6.3.4 Hive工作过程
本章小结
习题
实验6.1 数据仓库工具Hive环境搭建
实验6.2 数据仓库工具Hive操作
第7章 分布式数据库HBase
7.1 HBase简介
7.1.1 什么是HBase
7.1.2 HBase与传统关系型数据库的区别
7.1.3 HBase访问接口
7.2 HBase数据模型
7.2.1 HBase基本结构
7.2.2 概念视图
7.2.3 物理视图
7.2.4 面向列的存储
7.2.5 HBase数据模型
7.3 HBase的运行机制
7.3.1 HBase系统架构
7.3.2 表和Region
7.3.3 Region的定位
7.3.4 Region服务器的工作原理
7.3.5 Store的工作原理
7.3.6 HLog的工作原理
本章小结
习题
实验7.1 分布式数据库HBase的安装与操作
第8章 数据迁移工具Sqoop
8.1 Sqoop简介
8.1.1 什么是Sqoop
8.1.2 Sqoop点
8.1.3 数据导入的方式
8.2 Sqoop工作机制
8.2.1 Sqoop基本架构
8.2.2 Sqoop import
8.2.3 Sqoop export
本章小结
习题
实验8.1 Sqoop的安装与操作
第9章 日志采集系统Flume
9.1 Flume简介
9.1.1 什么是Flume
9.1.2 Flume的特点
9.2 Flume架构
9.2.1 Flume基本架构
9.2.2 Flume的主要
展开