第9章介绍推荐系统。很多Web应用中都有给用户推荐其感兴趣的数据项的功能。Netflix竞赛就是一个例子,该竞赛期望对用户感兴趣的电影进行预测。而Amazon希望根据顾客的购买兴趣来推荐一款商品。推荐主要有两种方法。一种方法是,我们可以将数据项通过其特征来刻画,比如电影中的明星,然后推荐与已知的用户喜欢的物品具有同样特征的物品。另一种方法是,我们可以考察那些与当前用户具有相似爱好的用户,根据他们喜欢的物品来向当前用户推荐(该技术通常称为协同过滤)。
第10章介绍社会网络及分析算法。最典型的社会网络的例子是Facebook的朋友关系图,其中节点代表人,而两个人如果是朋友的话,他们之间就有边相连。而像Twitter上的粉丝关注构成的有向图也可以看成社会网络。社会网络中一个要解决的普遍问题是识别其中的“社区”,即一个个小规模的节点集合,但是集合内节点之间却有大量的边将它们连接起来。社会网络的其他问题也是图的一般性问题,比如传递闭包或图直径的计算,但是在网络规模如此巨大的情况下问题也变得十分困难。
第11章介绍降维技术。给定一个极大的、通常比较稀疏的矩阵。我们可以将该矩阵想象为两类实体之间的关系表示,比如观众对影片的评级关系。直观上看,只会存在很少量的概念,而且概念的数目会比影片或观众的数目少很多,这些概念可以解释为什么某些观众喜欢某些影片。我们提供了多个将矩阵简化为多个矩阵的乘积的算法,简化后的矩阵某一维要小很多。其中,一个矩阵将一类实体与这些少量的概念相关联,另一个矩阵将概念和另一类实体相关联。如果处理正确的话,这些小矩阵的乘积会十分接近原始矩阵。
最后,第12章讨论极大规模数据集上的机器学习算法。其中的技术包括感知机、支持向量机、基于梯度下降的模型求解、近邻模型和决策树等。
……
展开
Anand Rajaraman 数据库和Web技术领域权威,创业投资基金Cambrian联合创始人,斯坦福大学计算机科学系助理教授。Rajaraman的职业生涯非常成功:1996年创办Junglee公司,两年后被亚马逊以2.5亿美元收购,Rajaraman被聘为亚马逊技术总监,推动亚马逊从一个零售商转型为零售平台;2000年与人合创Cambrian,孵化出几个后来被谷歌收购的公司;2005年创办Kosmix公司并任CEO,该公司于2011年被沃尔玛集团收购,Rajaraman被聘为沃尔玛负责全球电子商务业务的高级副总裁。Rajaraman生于印度,在斯坦福大学获得计算机科学硕士和博士学位。求学期间与人合著的一篇论文荣列近20年来被引用次数最多的论文之一。
Jeffrey David Ullman 美国国家工程院院士,计算机科学家。早年在贝尔实验室工作,之后任教于普林斯顿大学,十年后加入斯坦福大学直至退休,一生的科研、著书和育人成果卓著。他是ACM会员,曾获SIGMOD创新奖、高德纳奖、冯诺依曼奖等多项科研大奖;他是“龙书”《编译原理》、数据库名著《数据库系统实现》等多部经典著作的合著者;麾下多名学生成为了数据库领域的专家,其中最有名的当属谷歌创始人Sergey Brin;本书第二作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。