搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
分布式实时计算框架原理及实践案例
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787121296208
  • 作      者:
    王成光著
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2016
收藏
编辑推荐
  挖掘海量用户行为数据,如用户的浏览、收藏、分享、购买、评论、点赞和搜索等
  快速有效地使用用户兴趣点大数据,挖掘出用户对产品的兴趣点,实时更新用户画像
  向用户推荐其当前感兴趣的产品及广告
  用计算将数据和流量变成财富、真正发挥数据资产的巨大价值。
  互联网行业数据变现利器!
展开
作者简介
  王成光,目前任职一点资讯研发架构师,硕士毕业8年,曾先后任职窝窝团、优购、搜狐、网易等架构师、技术专家职位,专注于搜索、推荐、数据挖掘领域研发工作,涉足技术范围:
  搜索:ES/SolrCloud
  分布式计算:Hadoop、Storm和Spark
  MQ: Kafka、RabbitMQ、ActiveMQ、ZeroMQ
  NoSQL: Reids/SSDB、Mongo3.0、HBase1.0、AeroSpike
  SOA微服务: RPC和Web Service
展开
内容介绍
  “授人以鱼不如授人以渔”,《分布式实时计算框架原理及实践案例》是作者以如此初心写成的,主要参考当前主流分布式实时计算框架Storm的任务分发和Spark Streaming的Mini-Batch设计思想,以及底层实现技术,开源了作者自研的轻量级分布式实时计算框架——Light_drtc,并且重点介绍设计思想和相关实现技术(Kafka/RabbitMQ、Redis/SSDB 、GuavaCache、MongoDB、HBase、ES/SolrCloud、Thrift、Avro、Jetty),最后从工程角度向大家介绍完整的个性化推荐系统,并实例介绍Light_drtc在用户画像实时更新的应用。《分布式实时计算框架原理及实践案例》描述浅显易懂,希望读者理解分布式实时计算的实现原理,并快速上手解决实际问题。
展开
精彩书评
  互联网深深渗入各个行业,消费级智能设备和IoT 爆炸式增长,联网设备数量早已突破百亿,很快将达到千亿量级。伴随而来的是计算能力需求剧增、数据呈指数级积累,以及支撑架构设计和实施能力的巨大考验。企业的竞争力将高度等同于拥有的计算及数据处理能力。作为风口浪尖的设计及实施者,软件工程师在现今变革的时代面临的机遇和挑战前所未有。
  本书作者从自身实战经验总结并研发的分布式计算框架入手,对主流支撑框架做了高度简练的介绍,并集合框架对时下热门且实用的用户画像分析这一难题进行剖析,深入浅出,将晦涩难懂的概念通过案例完全展示在读者面前,让海量数据的价值在计算魔术中逐渐显现。本书实为难得的架构实战干货,相信可以帮助工程师及架构师避免踩坑,完成进阶。
  在我互联网及软件技术行业近二十年的创业经历里,在技术道路上极度追求不断突破的极客不少见,成光给我的形象却犹为深刻。记得初次见面时间不长却一见如故,交谈甚欢。这些工程师是互联网时代精华的组成部分,他们是互联网生产力的缔造者,也一定是成功者。
  ——互联网连续创业者 陈超仁(原基调网络创始人、前美丽说高级副总裁)

  对于解决实际问题来说,一线的经验参考重要。在实际实现一个业务系统、解决一个业务问题的时候,很少会仅使用一项单一技术就可以解决,往往需要多项技术相结合使用。在大数据处理领域,Hadoop、Storm、Spark 等核心技术是必不可少的。但是要想构建一个完整的解决方案,还需要RPC、消息队列、缓存系统、数据库系统,一个都不能少。以上每一项技术的书籍及网上的资料不可谓不多,也不缺乏精品。但从业务解决方案入手,综合多项技术,有针对性地介绍、分析、总结的书籍却很缺乏。本书作者王成光同学,多年来一直奋战在大数据处理领域的开发一线,具有丰富的实战经验。他曾经从无到有一手搭建了优购网(百丽电商)的搜索推荐及BI 系统,后曾在网易等一线互联网公司任职。他在解决业务需求的基础上,逐渐沉淀提炼出一套轻量级分布式实时计算服务框架——light_drtc。本书不仅对这个自研框架的架构原理做了介绍,同时分享了研发这套架构的心得体验。同时,对
  系统中应用到的各项技术进行了详细的、有针对性的介绍、对比及分析,不乏精准独到的个人见解,非常值得一读。这本书是作者多年经验和智慧的结晶,细读它,你一定会有所收获。
  ——阿里巴巴技术专家 赵文旭

  大数据技术发展到现在,实时流处理技术变得越来越重要。在这个大数据实时处理狂潮中,各种开源流计算框架也如雨后春笋般地涌现出来。比较常见的有Storm、Samza、Spark Streaming、Flink,以及Twitter 新开源的Heron 等等。比较遗憾的是如大部分开源技术一样,这些流计算框架都为国外公司所主导。国内虽然有BAT 等互联网巨头,却没有在实时计算框架方面有对应自己地位的开源产品。令人稍感欣慰的是,light_drtc 作为纯粹国内技术人员主导开发的一个轻量级的流计算框架进入了开源世界,让实时计算开源框架中有了中国力量。分布式实时计算技术对于大数据技术来讲非常重要,不过在技术上能讲解得非常透彻的中文技术书籍并不多。认识王成光时他正沉浸在开发light_drtc 的状态中,关于分布式实时处理技术,我们聊了很多,有很多技术的见解也很一致。令人非常高兴的是他不仅将自己实践积累的产品light_drtc 开源出来,同时将自己多年技术积累的经验以写书的形式奉献给了广大对分布式实时计算技术有兴趣的技术人员。《分布式实时计算框架原理与实践案例》这本书不止是一本对当前实时流计算技术进行解析的一本书,同时也是作者对在工作中实战经验总结的一本书。授人以鱼不如授人以渔,我相信这本书能够给大数据技术人员,尤其是大数据流处理技术有兴趣的人带来很大的帮助。
  ——TalkingData 研发副总裁 阎志涛

  本书不仅详实地推介了作者自主研发的实时计算框架,还基本涵盖介绍了当今主流的开源计算系统。内容浅显易懂,案例切合实际,分析精准到位。对于年轻的IT 读者来说,不失为良师益友。
  ——京东首席技术顾问 翁志

  本书是作者基于自己多年的思考和实践经验,经过不断提炼而得的。一方面把当前业界在实时计算领域常用的产品和技术进行深入介绍,让读者对该领域中的各个产品如何使用不再迷茫,也为具有一定经验的从业者对下一步系统中关键服务如何选型和优化提供了新的方向;另一方面作者博采众家之长而创造的light_drtc,降低了中小企业在分布式实时计算领域的门槛,使大数据处理能力触手可得。通过作者的实例,在了解大数据技术如何应用的同时,也能了解到在实例背后作者所体现出的思路、方法和方案。希望通过本书能让更多的人了解大数据处理,有更多的企业挖掘出自身的数据价值。
  ——中国建筑电商CTO 邓威

  成光对于架构的不断钻研和踏实肯干给我留下了很深的印象,非常有幸见证了他这套分布式实时计算系统在新闻推荐领域中的应用。这本书结合他多年的一线实践经验,详细阐述了分布式计算系统、搜索架构和数据库等在企业应用的经历,对于初学者和想深入理解这一方面知识的同学会起到很好的引导。感谢成光为国内的工程架构贡献自己的一份力量!
  ——腾讯技术副总监 鞠奇

  作者硕士从事计算机应用中文信息处理的研究工作,毕业后在百丽、好乐买、搜狐和网易等担任搜索、推荐架构师等关键岗位。多年来一直从事大数据相关的开发和研究工作,从未停止对技术的了解和钻研。作者结合当前主流开源软件的特点,以及中小型企业人才和资源不足的困难,利用多年来的技术积累和沉淀,独力研发了一套轻量级分布式实时计算服务框架——Light_drtc,包含实时数据收集服务、资源协调及任务管理服务和任务计算服务,可以帮助企业快速搭建自定义的实时计算平台,让企业聚焦于业务数据的分析和处理。本书系统介绍了Light_drtc 的设计思想、功能,以及核心技术。同时深入浅出地介绍了当前主流开源大数据处理技术,如Hadoop,Spark 及Storm 等主流计算框架,以及消息队列、内存数据库、NoSQL、搜索、RPC 框架等核心技术架构,帮助开发者系统全面地了解大数据平台的核心技术。
  作为中小型企业的技术负责人,对此书的作者表示感谢,作者提供了一套轻量级的解决方案,并介绍了相关的技术环节,让小企业可以专注于数据的应用,而不是花大量的时间用于搭建平台,切实提供了很大的帮助。感谢作者花了大量精力对中小企业的支持以及对开源的支持,希望本书可以帮助更多的企业,也为国家大数据平台的发展贡献一份力量。
  ——大码美衣CTO 王伟涛
展开
目录
第1 章 分布式实时计算框架介绍.1
1.1 分布式计算Hadoop.1
1.2 分布式实时计算........3
1.2.1 Spark Streaming..3
1.2.2 Storm .......6
1.2.3 其他框架.8
1.3 为什么自研......8
1.4 总结......10
第2 章 light_drtc 简介及使用说明......... 11
2.1 light_drtc 框架简介 11
2.2 light_drtc 代码结构12
2.3 light_drtc 重要配置项.......14
2.4 light_drtc 和Storm 比较...15
2.5 light_drtc 使用说明16
2.5.1 ACN(AN 和CN 整合)作为独立服务....16
2.5.2 CN、AN 作为独立服务........20
2.5.3 任务计算JN.....23
2.6 总结......26
第3 章 light_drtc 核心技术实现...27
3.1 light_drtc 技术架构27
3.2 light_drtc 计算框架设计思想....30
3.2.1 CN 设计思想....30
3.2.2 AN 多主模式设计思想..........31
3.2.3 JN 设计思想.....34
3.3 light_drtc 核心技术的实现.........36
3.3.1 实时收集数据CN.......36
3.3.2 任务协调管理AN.......40
3.3.3 任务计算JN.....49
3.4 总结......50
第4 章 消息队列MQ.51
4.1 消息队列使用场景.51
4.2 消息队列原理..........53
4.2.1 MQ 使用流程...53
4.2.2 MQ 基本概念...54
4.2.3 MQ 通信模式...55
4.2.4 目前知名MQ 比较.....56
4.3 MQ 消费状态监控..61
4.3.1 KafkaOffsetMonitor 介绍.......62
4.3.2 KafkaOffsetMonitor 部署.......62
4.4 RabbitMQ 和Kafka 的基本使用.........64
4.4.1 RabbitMQ 读写实例...64
4.4.2 Kafka 读写实例68
4.5 总结......71
第5 章 内存数据库Redis3.0 及SSDB..........72
5.1 Redis 相关介绍........72
5.1.1 Redis3.0 集群架构......73
5.1.2 Redis3.0 集群选举与容错......74
5.1.3 SSDB 简介.......75
5.2 Redis3.0 集群搭建..76
5.2.1 集群所依赖的Ruby 环境......77
5.2.2 Redis 集群创建77
5.2.3 Redis 集群验证78
5.2.4 SSDB 简单部署..........79
5.3 Redis 管理及使用...81
5.3.1 Redis 基本使用81
5.3.2 Redis 管理........83
5.4 Redis 客户端应用...86
5.4.1 Redis3.0 客户端..........86
5.4.2 SSDB 客户端...89
5.5 本地缓存Guava Cache.....90
5.5.1 认识Guava Cache .......90
5.5.2 Guava Cache 使用.......91
5.5.3 Java 客户端使用.........94
5.6 总结......97
第6 章 NoSQL:MongoDB3.0 和HBase1.0 .........98
6.1 MongoDB3.0 和HBase1.0 新特性......99
6.1.1 MongoDB3.0 新特性..99
6.1.2 HBase1.0 新特性.......102
6.1.3 MongoDB 和HBase 比较....104
6.2 MongoDB3.0 集群和索引........105
6.2.1 MongoDB3.0 集群....105
6.2.2 Mongo 索引介绍.......107
6.3 HBase 底层实现介绍......108
6.3.1 HBase 相关Hadoop 体系....108
6.3.2 HBase 系统架构........ 110
6.4 Mongo 和HBase 客户端使用. 113
6.4.1 Mongo 客户端 113
6.4.2 HBase 客户端. 119
6.5 总结.....124
第7 章 全文检索:ElasticSearch2.x..125
7.1 认识ElasticSearch 和Solr........125
7.1.1 ElasticSearch 和Solr 基本介绍......125
7.1.2 ES 基本概念...127
7.1.3 ES 和SolrCloud 集群结构...129
7.1.4 ES 使用案例...130
7.2 ES 和Solr 比较分析.......131
7.2.1 ES 和Solr 发展比较.131
7.2.2 ES 和Solr 综合比较.132
7.3 ES 集群介绍135
7.3.1 插件安装........135
7.3.2 中文分词安装136
7.3.3 ES2.X 集群节点类型138
7.3.4 ES 配置事项...142
7.4 ES 客户端使用......144
7.4.1 ES 客户端连接..........145
7.4.2 ES 基本操作...146
7.4.3 ES 高级使用...150
7.5 ES 在自研框架中的作用..........154
7.6 总结.....155
第8 章 微服务架构通信——RPC 和Web Service ........156
8.1 微服务架构由来....156
8.1.1 微服务与SOA 比较..157
8.1.2 微服务架构的优缺点159
8.1.3 微服务雪崩效应的防范.......161
8.2 RPC 介绍及实践...163
8.2.1 Thrift/Nifty 介绍........163
8.2.2 Avro 介绍.......168
8.2.3 Dubbo/Dubbox 介绍..180
8.2.4 GRPC/ProtoBuf 介绍185
8.2.5 ZeroC ICE.......191
8.3 Web Service 介绍及实践..........199
8.3.1 SOAP 和Rest .200
8.3.2 JWS(JDK 自身实现Web Service)........202
8.3.3 Jetty:嵌入式Servlet 容器..204
8.3.4 基于Spring MVC......206
8.3.5 其他Web Service 框架........ 211
8.4 总结.....212
第9 章 综合实例:新闻推荐中的用户画像近实时更新213
9.1 个性化推荐系统组成.....213
9.1.1 用户行为收集214
9.1.2 行为日志解析216
9.1.3 常用推荐算法221
9.1.4 用户画像数据仓库...245
9.1.5 元数据索引库247
9.1.6 用户推荐服务248
9.2 新闻推荐中用户画像近实时更新设计......248
9.2.1 新闻推荐中用户画像构成...250
9.2.2 新闻推荐中用户画像标签数据字典.........251
9.2.3 新闻推荐用户画像实时更新流程..257
9.3 新闻推荐用户画像近实时更新技术实现..260
9.3.1 Storm 接入Kafka 实时计算实例...260
9.3.2 Spark Streaming 接入Kafka 实时计算实例........265
9.3.3 Light_drtc 接入Kafka..........270
9.3.4 用户画像实时更新核心实现..........270
9.4 总结.....280
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证