本书主要为Spark开发提供编程指导,涉及的主要内容包括Spark开发基础知识、RDD编程、SQL编程、Streaming开发及机器学习开发等。
由于大数据相关技术、软件平台等更新迭代较快,因此本书在介绍相关内容时,尽量选择较新的软件版本。本书所介绍的Spark API基于Spark 3.3.x,相较于Spark 2.x或其他更早版本,部分API有更新,请读者注意版本变化带来的差异。Spark是基于Scala编程语言开发的。基于Scala的API开发,代码的执行效率高,学习过程更轻松。Scala经过多年发展,迭代更新了若干版本,版本变化较大(版本不兼容)。本书选用了相对较新又相对成熟稳定的Scala 2.13.x版本。
本书适合作为大数据应用开发工程技术人员的编程指导书,也适合作为高等院校计算机、大数据相关专业大数据应用开发或Spark应用开发的教材或教学参考书。
展开