人类已进入大数据时代。大数据是指具有海量(volume)、多模态(variety)、变化速度快(velocity)、蕴含价值高(value)和不精确性高(veracity)“5V”特征的数据。大数据给传统的机器学习带来巨大的挑战,已引起学术界和工业界的高度关注。Hadoop和Spark正是在这种背景下产生的两个大数据开源平台。本书重点介绍基于这两种大数据开源平台的机器学习,包括机器学习概述、大数据与大数据处理系统、Hadoop分布式文件系统HDFS、Hadoop并行编程框架MapReduce、Hadoop大数据机器学习和Spark大数据机器学习。
本书可作为计算机科学与技术、软件工程、数据科学与大数据技术等专业研究生和高年级本科生的大数据处理或大数据机器学习课程的教材,也可供从事相关研究工作的科研人员参考。
展开