搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
大数据技术与应用--Hadoop和PySpark实现/大数据与人工智能技术丛书
0.00     定价 ¥ 59.80
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787302687436
  • 作      者:
    编者:周显春//肖衡|责编:黄芝//薛阳
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2025-05-01
收藏
畅销推荐
内容介绍
本书以Python为基础,深入讲解HDFS分布式文件系统和PySpark3编程。全书共9章,内容包括Docker环境下Hadoop与Spark的配置、HDFS操作技巧、RDD编程方法、Spark SQL应用、Spark架构及运行机制、Pandas on Spark使用及Spark ML编程实践。本书通过实际操作案例,帮助读者掌握Hadoop和PySpark的环境搭建与应用编程,附带丰富的教学资源,包括教案、教学课件、练习题、源代码、数据集及核心知识点视频讲解及实验指导,为读者提供强大支持。 本书适合作为全国高等学校计算机、软件工程、数据科学与大数据技术、人工智能等专业的教材,同时对大数据应用开发者和技术从业者亦有参考价值。
展开
目录
第1章 大数据技术概述
1.1 大数据技术的发展背景
1.2 大数据核心概念和关键技术
1.2.1 大数据核心概念
1.2.2 大数据关键技术
1.3 代表性大数据分布式处理框架
1.3.1 Hadoop
1.3.2 Spark
1.3.3 Flink
1.3.4 常见计算框架的性能对比
本章小结
习题1
实验1 Linux常用命令的使用
第2章 基于Docker的Hadoop集群搭建
2.1 Docker基础知识
2.1.1 Docker的核心概念
2.1.2 Docker的常见操作
2.1.3 Docker网络
2.2 Docker环境的准备
2.2.1 CentOS镜像下载
2.2.2 创建与访问容器
2.3 Hadoop集群的搭建
2.3.1 集群部署模式
2.3.2 集群规划
2.3.3 前置软件的安装和配置
2.3.4 Hadoop的安装与配置
2.4 集群的运行与验证
2.4.1 集群的启动与关闭
2.4.2 Web页面监控
本章小结
习题2
实验2 基于Docker的Hadoop集群搭建
第3章 大数据存储与查询
3.1 HDFS概述
3.2 HDFS运行架构与原理
3.2.1 存储架构
3.2.2 读写原理
3.3 HDFS Shell操作
3.3.1 HDFS Shell介绍
3.3.2 HDFS Shell常用操作实践
3.4 HDFS的Python API操作
3.4.1 pyhdfs API操作概述
3.4.2 HDFS的Python API常用操作实践
3.5 HBase
3.5.1 HBase的重要特点和概念
3.5.2 HBase集群部署
3.5.3 HBase Shell基本操作
3.5.4 HBase数据查询
本章小结
习题3
实验3 HDFS存储和HBase查询
第4章 基于Docker的Spark集群搭建与使用
4.1 Spark集群的搭建
4.1.1 Scala的下载与安装
4.1.2 Spark的下载与安装
4.1.3 Spark集群配置
4.1.4 其他依赖包的安装与配置
4.1.5 生成Spark集群镜像
4.2 集群运行
4.2.1 创建容器
4.2.2 启动Spark集群
4.2.3 启动Spark History Server
4.2.4 关闭集群
4.3 Spark部署
4.3.1 Spark部署分类
4.3.2 Spark常用部署
4.3.3 使用spark-submit提交作业
4.3.4 可能出现的配置问题
本章小结
习题4
实验4 基于Docker的Spark集群搭建
第5章 Spark概述
5.1 Spark的定义
5.1.1 Spark的主要发展阶段
5.1.2 Spark的生态系统
5.1.3 应用场景
5.2 Spark的架构与运行原理
5.2.1 基本概念
5.2.2 架构设计
5.2.3 运行流程
5.3 基于Jupyter Notebook的PySpark开发平台搭建
5.3.1 配置Jupyter Notebook远程访问
5.3.2 基于Jupyter Notebook的PySpark环境启动及验证
5.3.3 基于Jupyter Notebook的PySpark应用程序的开发
5.4 基于PyCharm的PySpark开发平台搭建
5.4.1 创建与配置SFTP连接
5.4.2 部署应用程序
5.4.3 开发平台的验证
5.4.4 可能出现的问题
本章小结
习题5
实验5 基于Jupyter Notebook的PySpark开发平台的搭建
第6章 Spark RDD
6.1 RDD的运作方式
6.1.1 RDD的概念
6.1.2 RDD的特性
6.1.3 RDD之间的依赖关系
6.1.4 阶段划分
6.1.5 RDD的运行过程
6.2 RDD的创建
6.2.1 并行化创建RDD
6.2.2 读取外部数据集
6.3 RDD操作
6.3.1 RDD的分类
6.3.2 RDD的转换
6.3.3 RDD的动作
6.3.4 键值对RDD
6.3.5 综合案例
6.4 文件读写
本章小结
习题6
实验6 Spark RDD编程实践
第7章 Spark SQL
7.1 Spark SQL概述
7.2 DataFrames的创建与保存
7.2.1 createDataFrame函数
7.2.2 读写外部文件
7.2.3 读写数据库
7.3 DataFrame的常用操作
7.3.1 基本操作
7.3.2 复杂操作
7.3.3 自定义函数
7.4 DataFrame与RDD的相互转换
7.4.1 DataFrame转RDD
7.4.2 RDD转DataFrame
本章小结
习题7
实验7 Spark SQL编程实践
第8章 Pandas API on Spark编程
8.1 Pandas on Spark基础
8.1.1 Pandas on Spark产生的背景
8.1.2 Pandas on Spark的数据类型
8.1.3 Pandas on Spark的数据结构
8.2 Pandas API on Spark
8.2.1 读取/保存函数
8.2.2 常用属性
8.2.3 索引
8.2.4 常用方法
8.2.5 分组
8.2.6 Spark-related函数
8.2.7 Pandas-on-Spark specific
8.2.8 Plotting pandas on pyspark
8.3 不同DataFrame的转换
8.3.1 Pandas on Spark DataFrame
8.3.2 Spark DataFrame
8.4 综合案例——酒店预订需求分析
8.4.1 需求分析
8.4.2 数据读取及字段理解
8.4.3 数据预处理
8.4.4 用户数据探索
本章小结
习题8
实验8 Pandas API on Spark编程实践
第9章 PySpark ML
9.1 Spark ML概述
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证