Hadoop是目前受关注的大数据处理平台和解决方案,并且已经广泛应用于生产环境。本书基于新的Hadoop(CDH5,Apache Hadoop 2.6)版本介绍Hadoop技术的相关知识,不但详细介绍了Hadoop、HDFS、YARN、MapReduce、Hive、Sqoop和HBase等,还深入探讨了Hadoop、HBase的运维和性能调优,并包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现。
本书的大特点是面向实践。基础篇介绍Hadoop及相关组件的同时,包含了大量动手实例,而应用篇包含的基于Hadoop的完整实例脱胎于生产环境的真实项目。在应用篇中,读者不仅能够通过项目实战巩固基础篇的学习效果,还能学习商业智能系统的开发过程。
本书由浅至深,从理论基础到项目实战,适合Hadoop的初学者阅读,也可以作为高等院校相关课程的教学参考书。
本书主要内容
? 包含了Hadoop新版本的几乎所有主要特性,是Hadoop目前成熟的形态。
? 深入介绍了NoSQL架构模式、HBase的架构和实现,以及HBase的高级特性。
? 深入介绍了统一资源管理和调度平台的范型和YARN实现。
? 深入介绍了Hadoop、HBase性能调优,满足海量数据处理的需求。
? 包含了一个完整的项目实战,从需求定义、系统设计和架构后到代码实现。
? 包含了一个机器学习算法应用实战,利用Hadoop进行大数据挖掘,从数据中寻找模式。
展开