本书是PySpark大数据分析的入门读物,适合有一定Python基础的读者学习使用。本书基于最新版本的PySpark 3.4.x编写,全书共11章,系统地介绍了PySpark大数据分析的方法和技巧,内容涵盖了大数据的相关技术、PySpark的基本概念、Spark环境搭建、数据分析的基本概念及相关工具、开发工具的选择、Spark核心编程和Spark SQL操作等基础知识和核心技术,以及Spark流式数据处理、Spark机器学习库MLlib和基于协同过滤的图书推荐系统等高级主题。本书通过多个实战案例,带领读者掌握使用Python和Spark进行大数据分析的方法和技巧,从而提高读者的数据处理能力和业务价值。
本书内容全面、示例丰富、讲解清晰,读者可以直接应用书中的案例。本书适合自学,也可作为计算机、软件工程、数据科学与大数据等专业的教学参考书,用于指导大数据分析编程实践,还可供相关技术人员参考。
展开