信阅平台

产品特色

内容介绍

全书一共分三大部分：
基础篇（1-2章）对Spark机器学习进行概述、并通过Spark机器学习开始进行数据分析；
算法篇（3-8章）针对分类、聚类、回归、协同过滤、关联规则、降维等算法进行详细讲解，并进行案例支持；
综合案例篇（9-12章）重点通过异常检测、用户画像、广告点击率预估、智慧交通大数据4个综合场景，详细讲解基于Spark机器学习的综合应用。

展开

前　言
第一篇　基础篇
第1章　机器学习概述 2
1.1　机器学习概述 2
1.1.1　理解大数据 2
1.1.2　机器学习发展过程 4
1.1.3　大数据生态环境 5
1.2　机器学习算法 6
1.2.1　传统机器学习 6
1.2.2　深度学习 8
1.2.3　其他机器学习 8
1.3　机器学习分类 9
1.3.1　监督学习 9
1.3.2　无监督学习 10
1.3.3　半监督学习 10
1.3.4　强化学习 10
1.4　机器学习综合应用 11
1.4.1　异常检测 12
1.4.2　用户画像 12
1.4.3　广告点击率预估 12
1.4.4　企业征信大数据应用 12
1.4.5　智慧交通大数据应用 13
1.5　本章小结 13
第2章　数据分析流程和方法 14
2.1　数据分析概述 14
2.2　数据分析流程 15
2.2.1　业务调研 16
2.2.2　明确目标 16
2.2.3　数据准备 16
2.2.4　特征处理 17
2.2.5　模型训练与评估 21
2.2.6　输出结论 23
2.3　数据分析的基本方法 24
2.3.1　汇总统计 24
2.3.2　相关性分析 25
2.3.3　分层抽样 26
2.3.4　假设检验 26
2.4　简单的数据分析实践 27
2.4.1　环境准备 27
2.4.2　准备数据 28
2.4.3　数据分析 29
2.5　本章小结 30
第二篇　算法篇
第3章　构建分类模型 32
3.1　分类模型概述 32
3.2　分类模型算法 34
3.2.1　逻辑回归 34
3.2.2　朴素贝叶斯模型 36
3.2.3　SVM模型 37
3.2.4　决策树模型 39
3.2.5　K-近邻 40
3.3　分类效果评估 40
3.3.1　正确率 41
3.3.2　准确率、召回率和F1值 41
3.3.3　ROC和AUC 42
3.4　App数据的分类实现 44
3.4.1　选择分类器 44
3.4.2　准备数据 45
3.4.3　训练模型 46
3.4.4　模型性能评估 48
3.4.5　模型参数调优 49
3.5　其他分类模型 50
3.5.1　随机森林 50
3.5.2　梯度提升树 51
3.5.3　因式分解机模型 51
3.6　本章小结 52
第4章　构建聚类模型 53
4.1　聚类概述 53
4.2　聚类模型 54
4.2.1　KMeans聚类 54
4.2.2　DBSCAN聚类 55
4.2.3　主题聚类 56
4.3　聚类效果评价 58
4.3.1　集中平方误差和 58
4.3.2　Purity评价法 59
4.4　使用KMeans对鸢尾花卉数据集聚类 59
4.4.1　准备数据 59
4.4.2　特征处理 60
4.4.3　聚类分析 60
4.4.4　模型性能评估 62
4.5　使用DBSCAN对GPS数据进行聚类 62
4.5.1　准备数据 63
4.5.2　特征处理 64
4.5.3　聚类分析 64
4.5.4　模型参数调优 65
4.6　其他模型 66
4.6.1　层次聚类 66
4.6.2　基于图的聚类 67
4.6.3　混合聚类模型 67
4.7　本章小结 68
第5章　构建回归模型 69
5.1　常用回归模型 69
5.1.1　线性回归模型 70
5.1.2　回归树模型 70
5.1.3　其他回归模型 71
5.2　评估指标 73
5.3　回归模型优化 74
5.3.1　特征选择 74
5.3.2　特征变换 74
5.4　构建UCI裙子销售数据回归模型 75
5.4.1　准备数据 75
5.4.2　训练模型 78
5.4.3　评估效果 79
5.4.4　模型优化 79
5.5　其他回归模型案例 80
5.5.1　GDP影响因素分析 81
5.5.2　大气污染分析 81
5.5.3　大数据比赛中的回归问题 81
5.6　本章小结 82
第6章　构建关联规则模型 83
6.1　关联规则概述 83
6.2　常用关联规则算法 84
6.2.1　Apriori算法 84
6.2.2　FP-Growth算法 85
6.3　效果评估和优化 86
6.3.1　效果评估 86
6.3.2　效果优化 87
6.4　使用FP-Growth对豆瓣评分数据进行挖掘 88
6.4.1　准备数据 89
6.4.2　训练模型 89
6.4.3　观察规则 91
6.4.4　参数调优 91
6.4.5　使用算法 92
6.5　其他应用场景 94
6.6　本章小结 96
第7章　协同过滤 97
7.1　协同过滤概述 97
7.2　常用的协同过滤算法 98
7.2.1　基于用户的协同过滤 99
7.2.2　基于物品的协同过滤 100
7.2.3　矩阵分解技术 101
7.2.4　推荐算法的选择 102
7.3　评估标准 103
7.3.1　准确率 103
7.3.2　覆盖率 103
7.3.3　多样性 104
7.3.4　其他指标 104
7.4　使用电影评分数据进行协同过滤实践 104
7.4.1　准备数据 105
7.4.2　训练模型 106
7.4.3　测试模型 109
7.4.4　使用ALS结果 111
7.5　本章小结 112
第8章　数据降维 113
8.1　降维概述 113
8.2　常用降维算法 114
8.2.1　主成分分析 114
8.2.2　奇异值分解 116
8.2.3　广义降维 117
8.2.4　文本降维 118
8.3　降维评估标准 121
8.4　使用PCA对Digits数据集进行降维 122
8.4.1　准备数据 122
8.4.2　训练模型 123
8.4.3　分析降维结果 124
8.5　其他降维方法 124
8.5.1　线性判别分析 124
8.5.2　局部线性嵌入 125
8.5.3　拉普拉斯特征映射 125
8.6　本章小结 126
第三篇　综合应用篇
第9章　异常检测 128
9.1　异常概述 128
9.1.1　异常的产生 129
9.1.2　异常检测的分类 129
9.2　异常检测方法 130
9.2.1　基于模型的方法 130
9.2.2　基于邻近度的方法 131
9.2.3　基于密度的方法 132
9.2.4　基于聚类的方法 133
9.3　异常检测系统 133
9.3.1　异常检测过程 133
9.

展开