信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

机器学习是一门多领域交叉学科，可以通过模拟来让计算机获取新的知识或技能。Apache Spark是一种通用大数据框架，也是一种近实时弹性分布式计算和数据虚拟化技术，Spark使人们可以大规模使用机器学习技术，而无须在专用数据中心或硬件上进行大量投资。本书提供了Apache Spark机器学习API的全面解决方案，不仅介绍了用Spark完成机器学习任务所需的基础知识，也涉及一些Spark机器学习的高级技能。全书共有13章，从环境配置讲起，陆续介绍了线性代数库、数据处理机制、构建机器学习系统的常见攻略、回归和分类、用Spark实现推荐引擎、无监督学习、梯度下降算法、决策树和集成模型、数据降维、文本分析和Spark Steaming的使用。本书是为那些掌握了机器学习技术的Scala开发人员准备的，尤其适合缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识，并且具有使用Scala实现机器学习算法的一些实践经验。但不要求读者提前了解Spark ML库及其生态系统。

展开

精彩书评

展开

精彩书摘

展开

第1章 Scala和Spark的机器学习实战
1.1 引言
1.1.1 ApacheSpark
1.1.2 机器学习
1.1.3 Scala
1.1.4 本书的软件版本和使用的类库
1.2 下载和安装JDK
1.2.1 准备工作
1.2.2 操作步骤
1.3 下载和安装IntelliJ
1.3.1 准备工作
1.3.2 操作步骤
1.4 下载和安装Spark
1.4.1 准备工作
1.4.2 操作步骤
1.5 用IntelliJ配置Spark
1.5.1 准备工作
1.5.2 操作步骤
1.5.3 更多
1.5.4 参考资料
1.6 运行Spark机器学习示例代码
1.6.1 准备工作
1.6.2 操作步骤
1.7 获取机器学习实战所需的数据源
1.7.1 准备工作
1.7.2 操作步骤
1.7.3 更多
1.8 用IntelliJIDE运行第一个ApacheSpark2.0程序
1.8.1 操作步骤
1.8.2 工作原理
1.8.3 更多
1.8.4 参考资料
1.9 在Spark程序中添加图表
1.9.1 操作步骤
1.9.2 工作原理
1.9.3 更多
1.9.4 参考资料
第2章 Spark机器学习中的线性代数库
2.1 引言
2.2 Vector和Matrix的包引入和初始化设置
2.2.1 操作步骤
2.2.2 更多
2.2.3 参考资料
2.3 用Spark2.0创建和配置DenseVector
2.3.1 操作步骤
2.3.2 工作原理
2.3.3 更多
2.3.4 参考资料
2.4 用Spark2.0创建和配置SparseVector
2.4.1 操作步骤
2.4.2 工作原理
2.4.3 更多
2.4.4 参考资料
2.5 用Spark2.0创建和配置DenseMatrix
2.5.1 操作步骤
2.5.2 工作原理
2.5.3 更多
2.5.4 参考资料
2.6 用Spark2.0的本地SparseMatrix
2.6.1 操作步骤
2.6.2 工作原理
2.6.3 更多
2.6.4 参考资料
2.7 用Spark2.0进行Vector运算
2.7.1 操作步骤
2.7.2 工作原理
2.7.3 更多
2.7.4 参考资料
2.8 用Spark2.0进行Matrix运算
2.8.1 操作步骤
2.8.2 工作原理
2.9 研究Spark2.0分布式RowMatrix
2.9.1 操作步骤
2.9.2 工作原理
2.9.3 更多
2.9.4 参考资料
2.1 0研究Spark2.0分布式IndexedRowMatrix
2.1 0.1 操作步骤
2.1 0.2 工作原理
2.1 0.3 参考资料
2.1 1研究Spark2.0分布式CoordinateMatrix
2.1 1.1 操作步骤
2.1 1.2 工作原理
2.1 1.3 参考资料
2.1 2研究Spark2.0分布式BlockMatrix
2.1 2.1 操作步骤
2.1 2.2 工作原理
2.1 2.3 参考资料
第3章 Spark机器学习的三剑客
3.1 引言
3.1.1 RDD——一切是从什么开始
3.1.2 DataFrame—使用高级API统一API和SQL的自然演变
3.1.3 Dataset——一个高级的统一数据API
3.2 用Spark2.0的内部数据源创建RDD
3.2.1 操作步骤
3.2.2 工作原理
3.3 用Spark2.0的外部数据源创建RDD
3.3.1 操作步骤
3.3.2 工作原理
3.3.3 更多
12.6.3 更多
12.6.4 参考资料
第13章 SparkStreaming和机器学习库
13.1 引言
13.2 用于近实时机器学习的structuredstreaming
13.2.1 操作步骤
13.2.2 工作原理
13.2.3 更多
13.2.4 参考资料
13.3 用于实时机器学习的流式DataFrame
13.3.1 操作步骤
13.3.2 工作原理
13.3.3 更多
13.3.4 参考资料
13.4 用于实时机器学习的流式Dataset
13.4.1 操作步骤
13.4.2 工作原理
13.4.3 更多
13.4.4 参考资料
13.5 流式数据和用于调试的queueStream
13.5.1 操作步骤
13.5.2 工作原理
13.5.3 参考资料
13.6 下载并熟悉著名的Iris数据，用于无监督分类
13.6.1 操作步骤
13.6.2 工作原理
13.6.3 更多
13.6.4 参考资料
13.7 用于实时在线分类器的流式KMeans
13.7.1 操作步骤
13.7.2 工作原理
13.7.3 更多
13.7.4 参考资料
13.8 下载葡萄酒质量数据，用于流式回归
13.8.1 操作步骤
13.8.2 工作原理
13.8.3 更多
13.9 用于实时回归的流式线性回归
13.9.1 操作步骤
13.9.2 参考资料
13.9.3 更多
13.9.4 参考资料
13.10 下载Pima糖尿病数据，用于监督分类
13.10.1 操作步骤
13.10.2 工作原理
13.10.3 更多
13.10.4 参考资料
13.11 用于在线分类器的流式逻辑回归
13.11.1 操作步骤
13.11.2 工作原理
13.11.3 更多
13.11.4 参考资料
3.3.4 参考资料
3.4 用Spark2.0的filter()API转换RDD
3.4.1 操作步骤
3.4.2 工作原理
3.4.3 更多
3.4.4 参考资料
3.5 用flatMap()API转换RDD
3.5.1 操作步骤
3

展开