第1章 大数据概述
1.1 大数据定义和特征
1.1.1 大数据定义
1.1.2 大数据的特征
1.1.3 大数据发展历程
1.2 大数据的影响
1.3 大数据发展趋势
1.4 大数据的关键技术
1.5 大数据的计算模式
1.6 大数据的应用领域
1.7 数据资源化和交易
1.7.1 数据资源化
1.7.2 大数据交易
1.8 大数据安全与隐私
1.9 本章小结
习题
第2章 大数据、云计算与物联网
2.1 云计算
2.1.1 云计算概述
2.1.2 云计算的分类
2.1.3 云计算的基本特点
2.1.4 云计算的关键技术
2.1.5 云计算的应用
2.2 物联网
2.2.1 物联网概述
2.2.2 物联网的发展过程
2.2.3 物联网的特征
2.2.4 物联网的关键技术
2.2.5 物联网系统结构
2.2.6 物联网的应用
2.3 大数据、云计算与物联网三者之间的关系
2.4 本章小结
第3章 大数据架构与Hadoop
3.1 大数据架构
3.1.1 大数据架构概述
3.1.2 数据类型
3.1.3 大数据架构及数据解决方案
3.2 Hadoop概述
3.2.1 Hadoop简介
3.2.2 Hadoop的发展历程
3.2.3 Hadoop的特点
3.2.4 Hadoop应用现状
3.2.5 Hadoop的版本
3.3 Hadoop的生态系统概述
3.3.1 Hadoop的生态系统
3.3.2 Hadoop的组成介绍
3.4 Hadoop的安装
3.4.1 安装前的准备
3.4.2 安装VirtualBox
3.4.3 安装Linux发行版Ubuntu
3.4.4 创建Hadoop用户
3.4.5 设置SSH无密码登录
3.4.6 安装Java环境
3.4.7 安装单机Hadoop
3.4.8 安装伪分布式Hadoop
3.5 本章小结
习题
第4章 数据采集与预处理
4.1 大数据采集
4.1.1 大数据采集概述
4.1.2 大数据采集方法
4.2 大数据采集工具
4.2.1 Flume
4.2.2 Kafka
4.2.3 Sqoop
4.2.4 Scribe
4.3 大数据预处理技术
4.3.1 预处理意义
4.3.2 预处理方法
4.4 本章小结
习题
第5章 大数据分析与大数据挖掘
5.1 大数据分析的基本概念
5.1.1 数据分析概论
5.1.2 数据分析的类型
5.2 大数据分析方法
5.2.1 数据分析方法概述
5.2.2 数据分析过程
5.2.3 数据处理结果分析
5.3 数据挖掘概述
5.3.1 数据和知识
5.3.2 数据挖掘的概念
5.3.3 数据挖掘过程
5.3.4 数据挖掘技术
5.4 分类算法
5.4.1 朴素贝叶斯分类
5.4.2 SVM算法
5.5 聚类算法
5.5.1 k-means算法
5.5.2 DBSCAN算法
5.6 Apriori频繁项集挖掘算法
5.6.1 Apriori算法原理
5.6.2 Apriori算法的基本思想
5.6.3 Apriori算法流程
5.6.4 Apriori算法的优缺点
5.6.5 Apriori算法实例
5.7 常用挖掘工具
5.7.1 Mahout
5.7.2 Spark MLlib
5.8 本章小结
习题
第6章 数据存储与HDFS
6.1 大数据存储
6.1.1 大数据存储概述
6.1.2 分布式存储系统
6.1.3 云存储
6.2 数据仓库
6.2.1 数据仓库概述
6.2.2 数据仓库架构及构建
6.2.3 数据集市
6.3 HDFS简介
6.3.1 HDFS概述
6.3.2 HDFS的优点和缺点
6.4 HDFS基本技术
6.4.1 数据块
6.4.2 名称节点、数据节点和第二名称节点
6.5 HDFS体系结构
6.5.1 HDFS体系结构概述
6.5.2 HDFS命名空间
6.5.3 通信协议和客户端
6.5.4 HDFS 1.0体系结构的局限性
6.5.5 HDFS 2.0设计
6.6 HDFS存储原理
6.6.1 数据的冗余存储
6.6.2 如何存取数据
6.6.3 如何恢复数据
6.7 HDFS的文件读写操作过程
6.7.1 HDFS读取数据的过程
6.7.2 HDFS写入数据的过程
6.8 HDFS编程实例
6.8.1 使用Shell命令与HDFS进行交互
6.8.2 在Web上显示HDFS
6.8.3 使用Java API与HDFS进行交互
6.9 本章小结
习题
第7章 MapReduce
7.1 MapReduce概述
7.1.1 MapReduce的基本概念
7.1.2 MapReduce的思想
7.1.3 MapReduce的抽象方法
7.2 Map和Reduce任务
7.2.1 函数式编程
7.2.2 mapper和reducer
7.3 MapReduce执行框架和工作流程
7.3.1 执行框架
7.3.2 MapReduce工作流程概述
7.3.3 Shuffle执行过程
7.3.4 分割器和组合器
7.4 MapReduce算法及应用
7.4.1 概述
7.4.2 本地聚合
7.4.3 对和条纹
7.4.4 相对频率
7.5 MapReduce编程实例
7.6 本章小结
习题
第8章 数据可视化
8.1 大数据可视化概述
8.1.1 何为数据可视化
8.1.2 大数据可视化方法
8.2 大数据可视化软件工具
8.2.1 Excel
8.2.2 Tableau
8.2.3
展开