Spark是一个高效的分布式计算系统,相比Hadoop,它在性能上比Hadoop要高100倍。Spark提供比Hadoop更上层的API,同样的算法在Spark中实现往往只有Hadoop的1/10或者1/100的长度。
Spark较大的集群来自腾讯——8000个节点,而单个较大的Job分别是阿里巴巴和Databricks——1PB,震撼人心!同时,截止2015年6月,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行。
本书是国内(包括Github社区)较新的基于Spark1.4版本的技术书籍,涵盖Spark技术的环境搭建、RDD实操应用、内部机制、调优和企业应用等内容,具体如下。
1)基于IntelliJIDEA的运行、开发和编译环境的详细搭建过程。
2)详细介绍Spark技术基础概念和应用实践。
3)基于Spark1.4官方文档对Spark四大应用框架进行解读。
4)基于源码深入剖析Spark的资源调度、任务调度和shuffle过程。
5)深入解读近两年Spark峰会和国内企业分享的典型应用案例。
本书的编写系统完整,力争以通俗易懂的语言全方位精细解读Spark技术,本书主要针对大数据技术初学者,包括但不限于大学生、研究生和工程师。此外,Spark应用开发人员、运维工程师和开源软件爱好者也可以将本书作为参考用书。
本书共分为概念、开发、机制和应用四篇,概念篇介绍Spark的背景概念和环境配置方法,开发篇介绍了Spark核心开发、四大应用框架和调优策略,机制篇则对Spark的RDD、调度和shuffle等机制进行解读,应用篇针对Spark在业界的典型应用进行阐述。
展开