目 录<br />Data Mining and Machine Learning<br />译者序<br />前言<br />作者简介<br />第一部分 数据分析基础 1<br />第1章 数据矩阵 3<br />1.1 数据矩阵的组成 3<br />1.2 属性 4<br />1.3 数据:代数和几何观点 5<br />1.3.1 距离和角度 7<br />1.3.2 均值和总方差 9<br />1.3.3 正交投影 10<br />1.3.4 线性无关和维数 12<br />1.4 数据:概率观点 13<br />1.4.1 二元随机变量 17<br />1.4.2 多元随机变量 20<br />1.4.3 随机抽样与统计 21<br />1.5 拓展阅读 22<br />1.6 练习 23<br />第2章 数值型属性 24<br />2.1 一元分析 24<br />2.1.1 集中趋势度量 25<br />2.1.2 离散度度量 28<br />2.2 二元分析 32<br />2.2.1 位置和离散度的度量 33<br />2.2.2 相关性度量 33<br />2.3 多元分析 37<br />2.4 数据归一化 41<br />2.5 正态分布 42<br />2.5.1 一元正态分布 43<br />2.5.2 多元正态分布 44<br />2.6 拓展阅读 47<br />2.7 练习 47<br />第3章 类别型属性 49<br />3.1 一元分析 49<br />3.1.1 伯努利变量 49<br />3.1.2 多元伯努利变量 51<br />3.2 二元分析 56<br />3.3 多元分析 65<br />3.4 距离和角度 69<br />3.5 离散化 70<br />3.6 拓展阅读 72<br />3.7 练习 72<br />第4章 图数据 74<br />4.1 图的概念 74<br />4.2 拓扑属性 77<br />4.3 中心度分析 81<br />4.3.1 基本中心度 81<br />4.3.2 Web中心度 82<br />4.4 图模型 89<br />4.4.1 Erd?s-Rényi随机图模型 91<br />4.4.2 Watts-Strogatz小世界图<br />模型 94<br />4.4.3 Barabási-Albert无标度模型 98<br />4.5 拓展阅读 104<br />4.6 练习 105<br />第5章 核方法 107<br />5.1 核矩阵 110<br />5.1.1 再生核映射 111<br />5.1.2 Mercer核映射 113<br />5.2 向量核 115<br />5.3 特征空间中的基本核运算 119<br />5.4 复杂对象的核 124<br />5.4.1 字符串的谱核 124<br />5.4.2 图节点的扩散核 125<br />5.5 拓展阅读 129<br />5.6 练习 129<br />第6章 高维数据 130<br />6.1 高维对象 130<br />6.2 高维体积 133<br />6.3 超立方体的内接超球面 135<br />6.4 薄超球面壳的体积 136<br />6.5 超空间的对角线 137<br />6.6 多元正态分布的密度 138<br />6.7 附录:超球面体积的推导 140<br />6.8 拓展阅读 143<br />6.9 练习 144<br />第7章 降维 146<br />7.1 背景介绍 146<br />7.2 主成分分析 149<br />7.2.1 最优一维近似 149<br />7.2.2 最优二维近似 152<br />7.2.3 最优r维近似 155<br />7.2.4 主成分分析的几何意义 158<br />7.3 核主成分分析 160<br />7.4 奇异值分解 166<br />7.4.1 奇异值分解中的几何<br />意义 167<br />7.4.2 SVD和PCA之间的<br />联系 168<br />7.5 拓展阅读 169<br />7.6 练习 169<br />第二部分 频繁模式挖掘 171<br />第8章 项集挖掘 173<br />8.1 频繁项集和关联规则 173<br />8.2 项集挖掘算法 176<br />8.2.1 逐层方法:Apriori算法 177<br />8.2.2 事务标识符集的交集方法:<br />Eclat算法 181<br />8.2.3 频繁模式树方法:FPGrowth<br />算法 184<br />8.3 生成关联规则 188<br />8.4 拓展阅读 189<br />8.5 练习 190<br />第9章 项集概览 194<br />9.1 最大频繁项集和闭频繁项集 194<br />9.2 挖掘最大频繁项集:GenMax<br />算法 196<br />9.3 挖掘闭频繁项集:Charm算法 198<br />9.4 非可导项集 200<br />9.5 拓展阅读 205<br />9.6 练习 205<br />第10章 序列挖掘 208<br />10.1 频繁序列 208<br />10.2 挖掘频繁序列 209<br />10.2.1 逐层挖掘:GSP 209<br />10.2.2 垂直序列挖掘:Spade 211<br />10.2.3 基于投影的序列挖掘:<br />PrefixSpan 212<br />10.3 基于后缀树的子串挖掘 214<br />10.3.1 后缀树 214<br />10.3.2 Ukkonen线性时间复杂度<br />算法 217<br />10.4 拓展阅读 222<br />10.5 练习 223<br />第11章 图模式挖掘 226<br />11.1 同构与支持度 226<br />11.2 候选图生成 229<br />11.3 gSpan算法 232<br />11.3.1 扩展和支持度计算 233<br />11.3.2 权威性检测 238<br />11.4 拓展阅读 239<br />11.5 练习 239<br />第12章 模式评估与规则评估 242<br />12.1 模式评估和规则评估的度量 242<br />12.1.1 规则评估度量 242<br />12.1.2 模式评估度量 249<br />12.1.3 比较多条规则和模式 251<br />12.2 显著性检验和置信区间 253<br />12.2.1 产生式规则的费希尔<br />精确检验 254<br />12.2.2 显著性的置换检验 257<br />12.2.3 置信区间内的自助抽样 261<br />12.3 拓展阅读 262<br />12.4 练习 263<br />第三部分 聚类 265<br />第13章 基于代表点的聚类 267<br />13.1 K-means算法 267<br />13.2 核K-means 271<br />13.3 期望最大化聚类 274<br />1