第1篇 大数据基础
第1章 大数据概述
1.1 大数据时代
1.1.1 第三次信息化浪潮
1.1.2 信息科技为大数据时代提供技术支撑
1.1.3 数据产生方式的变革促成大数据时代的到来
1.1.4 大数据的发展历程
1.2 什么是大数据
1.2.1 数据量大
1.2.2 数据类型繁多
1.2.3 处理速度快
1.2.4 价值密度低
1.3 大数据的影响
1.3.1 大数据对科学研究的影响
1.3.2 大数据对思维方式的影响
1.3.3 大数据对社会发展的影响
1.3.4 大数据对就业市场的影响
1.3.5 大数据对人才培养的影响
1.4 大数据的应用
1.4.1 大数据在各个领域的应用
1.4.2 大数据应用的3个层次
1.5 大数据关键技术
1.6 大数据计算模式
1.6.1 批处理计算
1.6.2 流计算
1.6.3 图计算
1.6.4 查询分析计算
1.7 大数据产业
1.8 大数据与云计算、物联网
1.8.1 云计算
1.8.2 物联网
1.8.3 大数据与云计算、物联网的关系
1.9 本章小结
1.10 习题
第2章 大数据处理架构Hadoop
2.1 Hadoop概述
2.1.1 Hadoop简介
2.1.2 Hadoop的发展简史
2.1.3 Hadoop的特性
2.1.4 Hadoop的应用现状
2.1.5 Hadoop的版本
2.2 Hadoop生态系统
2.2.1 HDFS
2.2.2 HBase
2.2.3 MapReduce
2.2.4 Hive
2.2.5 Pig
2.2.6 Mahout
2.2.7 ZooKeeper
2.2.8 Flume
2.2.9 Kafka
2.2.10 Ambari
2.3 Hadoop的安装与使用
2.3.1 创建hadoop用户
2.3.2 更新apt和安装Vim编辑器
2.3.3 安装SSH和配置SSH无密码登录
2.3.4 安装Java环境
2.3.5 安装单机Hadoop
2.3.6 Hadoop伪分布式安装
2.4 本章小结
2.5 习题
实验1 熟悉常用的Linux操作和Hadoop操作
第2篇 大数据存储与管理
第3章 分布式文件系统HDFS
3.1 分布式文件系统
3.1.1 计算机集群的基本架构
3.1.2 分布式文件系统的结构
3.1.3 分布式文件系统的设计需求
3.2 HDFS简介
3.3 HDFS的相关概念
3.3.1 数据块
3.3.2 名称节点和数据节点
3.3.3 第二名称节点
3.4 HDFS体系结构
3.4.1 HDFS概述
3.4.2 HDFS命名空间管理
3.4.3 通信协议
3.4.4 客户端
3.4.5 HDFS体系结构的局限性
3.5 HDFS的存储原理
3.5.1 数据的冗余存储
3.5.2 数据存取策略
3.5.3 数据错误与恢复
3.6 HDFS的数据读写过程
3.6.1 读数据的过程
3.6.2 写数据的过程
3.7 HDFS编程实践
3.7.1 HDFS常用命令
3.7.2 HDFS的Web页面
3.7.3 HDFS常用Java API及应用实例
3.8 本章小结
3.9 习题
实验2 熟悉常用的HDFS操作
第4章 分布式数据库HBase
4.1 HBase概述
4.1.1 从BigTable说起
4.1.2 HBase简介
4.1.3 HBase与传统关系数据库的对比分析
4.2 HBase访问接口
4.3 HBase数据模型
4.3.1 数据模型概述
4.3.2 数据模型的相关概念
4.3.3 数据坐标
4.3.4 概念视图
4.3.5 物理视图
4.3.6 面向列的存储
4.4 HBase的实现原理
4.4.1 HBase的功能组件
4.4.2 表和Region
4.4.3 Region的定位
4.5 HBase运行机制
4.5.1 HBase的系统架构
4.5.2 Region服务器的工作原理
4.5.3 Store的工作原理
4.5.4 HLog文件的工作原理
4.6 HBase编程实践
4.6.1 HBase常用的Shell命令
4.6.2 HBase常用的Java API及应用实例
4.7 本章小结
4.8 习题
实验3 熟悉常用的HBase操作
第5章 NoSQL数据库
5.1 NoSQL数据库简介
5.2 NoSQL数据库兴起的原因
5.2.1 关系数据库无法满足Web 2.0的需求
5.2.2 关系数据库的关键特性在Web 2.0时代成为“鸡肋”
5.3 NoSQL数据库与关系数据库的简单比较
5.4 NoSQL数据库的四大类型
5.4.1 键值数据库
5.4.2 列族数据库
5.4.3 文档数据库
5.4.4 图数据库
5.5 NoSQL数据库的三大基石
5.5.1 第一大基石:CAP
5.5.2 第二大基石:BASE
5.5.3 第三大基石:最终一致性
5.6 从NoSQL数据库到NewSQL数据库
5.7 本章小结
5.8 习题
实验4 NoSQL数据库和关系数据库的操作比较
第6章 云数据库
6.1 云数据库概述
6.1.1 云计算是云数据
展开