信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书是一本介绍大数据处理技术的专业图书，力求提高读者对大数据处理的认知水平和动手能力。本书首先介绍大数据技术的相关概念和发展历程，从实践的角度介绍Hadoop和Spark的安装部署、编程基础和使用方法；然后结合具体案例，重点介绍Spark RDD、Spark SQL、Spark Streaming、Spark Graph Frame等的应用思路和方法，并通过具体代码，让读者更好地感受大数据处理技术的效果。本书既可以作为高等院校计算机、大数据等相关专业的教材，也可以作为大数据技术相关从业人员的参考书，还可作为零基础人员学习Hadoop和Spark技术的入门图书。

展开

精彩书评

展开

精彩书摘

展开

第1章大数据技术概述
1.1 大数据技术简介
1.1.1 大数据的发展
1.1.2 大数据的流程
1.2 大数据的主流软件
1.2.1 Hadoop
1.2.2 Spark
1.2.3 Flink
1.2.4 Hadoop与Spark对比
1.3 大数据的主流编程语言
1.3.1 Python语言
1.3.2 Java语言
1.3.3 Scala语言
1.4 本章小结
第2章 Hadoop部署安装与使用
2.1 Linux基本操作
2.1.1 Linux简介
2.1.2 新建与删除用户
2.1.3 目录权限的查看与修改
2.1.4 Linux的常用命令
2.1.5 任务实现
2.2 搭建Hadoop完全分布式集群
2.2.1 关闭防火墙
2.2.2 安装SSH
2.2.3 安装Xshell及Xftp（可选）
2.2.4 安装Java
2.2.5 安装Hadoop
2.2.6 克隆主机
2.2.7 安装完全分布式模式
2.3 查看Hadoop集群的基本信息
2.3.1 查询存储系统信息
2.3.2 查询计算资源信息
2.4 本章小结
第3章 HDFS基本操作
3.1 HadoopShell命令操作HDFS
3.1.1 HDFS简介
3.1.2 HDFSShell命令简介
3.1.3 目录操作
3.1.4 文件操作
3.1.5 利用Web界面管理HDFS
3.1.6 任务实现
3.2 Java操作HDFS
3.2.1 在Eclipse中创建HDFS交互Java项目
3.2.2 在Java项目中编写Java应用程序
3.2.3 编译运行应用程序与打包文件
3.2.4 任务实现
3.2.5 文件常用操作的参考代码
3.3 本章小结
第4章 MapReduce基本原理与编程实现
4.1 MapReduce基本原理
4.1.1 MapReduce简介
4.1.2 MapReduce编程核心思想
4.1.3 MapReduce编程规范
4.1.4 MapReduce的输入格式
4.1.5 MapReduce的输出格式
4.1.6 分区
4.1.7 合并
4.2 编程实现——按访问次数排序
4.2.1 编程思路与处理逻辑
4.2.2 核心模块代码
4.2.3 任务实现
4.3 本章小结
第5章 Hive部署与编程基础
5.1 搭建伪分布式Hive
5.1.1 Hive概述
5.1.2 Hive安装和配置
5.2 Hive基本操作
5.2.1 数据库基本操作
5.2.2 数据表基本操作
5.2.3 数据基本操作
5.3 编程实现——部门工资统计
5.4 本章小结
第6章 Spark部署与编程基础
6.1 Spark的运行原理
6.1.1 集群架构
6.1.2 运行流程
6.1.3 核心数据集RDD
6.1.4 核心原理
6.2 Scala安装与使用
6.2.1 Scala语言概述
6.2.2 Scala特性
6.2.3 环境设置与安装
6.3 Spark安装与使用
6.3.1 环境搭建前的准备
6.3.2 Spark的安装与配置
6.3.3 在PySpark中运行代码
6.3.4 编程实现——Spark独立应用程序
6.4 本章小结
第7章 SparkRDD：弹性分布式数据集
7.1 RDD概述
7.2 RDD编程
7.2.1 RDD编程基础
7.2.2 键值对RDD
7.2.3 数据读写操作
7.3 编程实现
7.3.1 任务1：取出排名前五的订单支付金额
7.3.2 任务2：文件排序
7.3.3 任务3：二次排序
7.4 本章小结
第8章 SparkSQL：结构化数据文件处理
8.1 SparkSQL概述
8.1.1 SparkSQL简介
8.1.2 SparkSQLCLI配置
8.1.3 SparkSQL与Shell交互
8.2 DataFrame基础操作
8.2.1 创建DataFrame对象
8.2.2 DataFrame查看数据
8.2.3 DataFrame查询操作
8.2.4 DataFrame输出操作
8.3 SparkSQL与MySQL的交互
8.4 本章小结
第9章 SparkStreaming：实时计算框架
9.1 SparkStreaming概述
9.1.1 SparkStreaming应用场景
9.1.2 流计算概述
9.1.3 SparkStreaming特性分析
9.2 DStream编程模型基础
9.2.1 DStream概述
9.2.2 基本输入源
9.2.3 转换操作
9.2.4 输出操作
9.3 编程实现——流数据过滤与分析
9.4 本章小结
第10章 SparkGraphFrames：图计算
10.1 图计算概述
10.1.1 图的基本概念
10.1.2 图计算的应用
10.1.3 GraphFrames简介
10.2 GraphFrames编程模型基础
10.2.1 创建实例化图
10.2.2 视图和图操作
10.2.3 保存和加载图
10.3 编程实现——基于GraphFrames的网页排名
10.3.1 准备数据集
10.3.2 GraphFrames实现算法
10.3.3 使用PageRank进行网页排名
10.4 本章小结
第11章大数据生态常用工具介绍
11.1 Flume的安装与使用
11.1.1 安装及配置Flume
11.1.2 实例分析
11.2 Kafka的安装与使用
11.2.1 Kafka相关概念
11.2.2 安装Kafka
11.2.3 实例分析
11.3 Sqoop的安装与使用
11.3.1 安装及配置Sqoop
11.3.2 添加MySQL驱动程序
11.3.3 测试Sqoop与MySQL的连接
11.4 编程实现——编写Spark程序使用Kafka数据

展开