搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787121252242
  • 作      者:
    (美)Vijay Srinivas Agneeswaran著
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2015
收藏
编辑推荐

  《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》中,VijayAgneeswaran博士介绍了这些技术,以及它们的应用案例,并从架构到代码的不同层面对应用它们做了演示。

展开
作者简介

  Vijay Srinivas Agneeswaran 博士,1998 年于SVCE 的马德拉斯分校获得计算机科学与工程专业的学士学位,2001 年获取了印度理工学院马德拉斯分校的硕士学位(研究性质),2008年又获取了该校的博士学位。他曾在瑞士洛桑的联邦理工学院的分布式信息系统实验室(LSIR)担任过一年的博士后研究员。之前7 年先后就职于Oracle、Cognizant 及Impetus,对大数据及云领域的工程研发贡献颇多。目前担任Impetus 的大数据实验室的执行总监。他的研发团队在专利、论文、受邀的会议发言以及下一代产品创新方面都处于领导地位。他主要研究的领域包括大数据管理、批处理及实时分析,以及大数据的机器学习算法的实现范式。最近8 年来,他一直是计算机协会(ACM)以及电气和电子工程师协会(IEEE)的专家成员,并于2012年12 月被推选为IEEE 的资深成员。他在美国、欧洲以及印度的专利局都申请过专利(并持有美国的两项专利)。他在前沿的期刊及会议,包括IEEE transaction 上都发表过论文。他还是国内外多个会议的特邀发言人,譬如O’Reilly 的Strata 大数据系列会议。最近一次公开发表论文是在Liebertpub 的大数据期刊上。他与妻子及儿女一起居住在班加罗尔,对印度、埃及、巴比伦以及希腊古代的文化与哲学的研究非常感兴趣。

展开
内容介绍

  《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》每章一个主题,介绍了各种大数据分析技术与机器学习算法。本书能够让读者掌握大数据分析和机器学习的相关技术的大致脉络,为之后的进阶学习提供参考与指导。《颠覆大数据分析:基于Storm、Spark等Hadoop替代技术的实时应用》适合大数据技术入门者、希望对大数据技术有所了解,以及想要学习大数据技术但是不知道应该从何处入手的读者阅读。

展开
精彩书摘
  在Storm内部,有一组“acker”任务持续追踪来自每条元组消息的DAG。这些任务的数量可通过storm.yaml中的TOPOLOGY—ACKERS参数设定。在处理大量消息时,可能将不得不增大这个数字。每个消息元组得到一个64—bit ID,用于ackers追踪。元组的DAG状态由一个叫作ack val的64—bit值维护,只是简单地把树中每个确认过的ID执行异或运算。当ack val成为0时,acker任务就认为这棵元组树被完全处理了。 
  在某些情况下,当性能至关重要,而可靠性又不是问题时,可靠性也可以被关闭。在这些情况下,程序员可以指定TOPOLOGY—ACKERS为0,并在分发新元组时,不指定输入元组的非锚定消息(unanchor messages)。这样就跳过了确认消息,节省了带宽,提高了吞吐量。到目前为止,我们已经讨论且只讨论了至少处理一次数据流的语义。 
  仅处理一次数据流的语义可以采用事务性拓扑实现。Stonn通过为每条元组提供相关联的事务ID为数据流处理提供事务性语义(仅一次,不完全等同于关系数据库的ACID语义)。对于重新发送数据流来说,相同的事务ID也会被发送并担保这个元组不会被重复处理。这方面牵涉对于消息处理的严格顺序,就像是在处理一个元组。由于这样做效率很低,Storm允许批量处理由一个事务ID关联的元组。不像早先的情况,程序不得不将消息锚定到输入元组,事务性拓扑对程序员是透明的。Storm内部将元组的处理分为两阶段——第一阶段为处理阶段,可以并行处理多个批次,99—阶段为提交阶段,强制严格按照批次ID提交。 
  事务性拓扑已经过时了——它已被整合进一个叫作Trident的更大的框架。Trident允许对流数据进行查询,包括聚合、连接、分组函数,还有过滤器。Trident构建于事务性拓扑之上并提供一致的一次性语义。 
  基于Storm的设计模式 
  我们将要学习如何实现基于Storm的一些通用设计模式。设计模式,我们也称之为软件工程意识,是在给定上下文环境中,针对设计问题的可重用的通常解决方案(Gamma等,l995)。它们是分布式远程过程调用(DRPC)、持续计算以及机器学习。
  ……
展开
目录
前言    
致谢    
关于作者     
    
1引言:为什么要超越 Hadoop Map-Reduce     
    
Hadoop的适用范围     
大数据分析之机器学习实现的革命 10    
第一代机器学习工具 /范式     
第二代机器学习工具 /范式     
第三代机器学习工具 /范式     
小结    
参考文献     
    
2何为伯克利数据分析栈(BDAS)     
    
实现 BDAS的动机     
Spark:动机     
Shark:动机     
Mesos:动机     
BDAS的设计及架构     
Spark:高效的集群数据处理的范式     
Spark的弹性分布式数据集     
Spark的实现     
Spark VS     分布式共享内存系统
RDD的表达性     
类似 Spark的系统     
Shark:分布式系统上的 SQL接口     46
Spark为 Shark提供的扩展     
列内存存储 49    
分布式数据加载     
完全分区智能连接     
分区修剪     
机器学习的支持     
Mesos:集群调度及管理系统     
Mesos组件 52    
资源分配     
隔离     
容错性     
小结    
参考文献     
    
使用 Spark实现机器学习算法     
    
机器学习基础知识     
机器学习:随机森林示例     
逻辑回归:概述 72    
二元形式的逻辑回归     
逻辑回归估计     
多元逻辑回归     
Spark中的逻辑回归算法     
支持向量机     
复杂决策面 81    
支持向量机背后的数学原理     
Spark中的支持向量机     
Spark对 PMML的支持     
PMML结构     
PMML的生产者及消费者     
Spark对朴素贝叶斯的 PMML支持     
Spark对线性回归的 PMML支持     
在 Spark中使用 MLbase进行机器学习     
参考文献     
    
实现实时的机器学习算法    
    
Storm简介     
数据流     
拓扑     
Storm集群     
简单的实时计算例子     
数据流组     
Storm的消息处理担保     
基于 Storm的设计模式     
分布式远程过程调用     
Trident:基于 Storm的实时聚合     
实现基于 Storm的逻辑回归算法     
实现基于 Storm的支持向量机算法     
Storm对朴素贝叶斯 PMML的支持     
实时分析的应用     
工业日志分类     
互联网流量过滤器     
Storm的替代品     
Spark流     
D-Streams的动机     
参考文献     
    
图处理范式 138    
    
Pregel:基于 BSP的图处理框架     
类似的做法     
开源的 Pregel实现     
Giraph     
GoldenORB     
Phoebus     
Apache Hama    
Stanford GPS    
GraphLab     
GraphLab:多核版本     
    
分布式的 GraphLab     
PowerGraph     
通过 GraphLab实现网页排名算法     
顶点程序     
基于 GraphLab实现随机梯度下降算法     
参考文献     
    
结论:超越Hadoop Map-Reduce的大数据分析    
Hadoop YARN概览     
Hadoop YARN的动机     
作为资源调度器的 YARN     
YARN上的其他框架     
大数据分析的未来是怎样的     
参考文献     
    
附录 A代码笔记     

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证