“授人以鱼不如授人以渔”,《分布式实时计算框架原理及实践案例》是作者以如此初心写成的,主要参考当前主流分布式实时计算框架Storm的任务分发和Spark Streaming的Mini-Batch设计思想,以及底层实现技术,开源了作者自研的轻量级分布式实时计算框架——Light_drtc,并且重点介绍设计思想和相关实现技术(Kafka/RabbitMQ、Redis/SSDB 、GuavaCache、MongoDB、HBase、ES/SolrCloud、Thrift、Avro、Jetty),最后从工程角度向大家介绍完整的个性化推荐系统,并实例介绍Light_drtc在用户画像实时更新的应用。《分布式实时计算框架原理及实践案例》描述浅显易懂,希望读者理解分布式实时计算的实现原理,并快速上手解决实际问题。
展开
本书作者从自身实战经验总结并研发的分布式计算框架入手,对主流支撑框架做了高度简练的介绍,并集合框架对时下热门且实用的用户画像分析这一难题进行剖析,深入浅出,将晦涩难懂的概念通过案例完全展示在读者面前,让海量数据的价值在计算魔术中逐渐显现。本书实为难得的架构实战干货,相信可以帮助工程师及架构师避免踩坑,完成进阶。
在我互联网及软件技术行业近二十年的创业经历里,在技术道路上极度追求不断突破的极客不少见,成光给我的形象却犹为深刻。记得初次见面时间不长却一见如故,交谈甚欢。这些工程师是互联网时代精华的组成部分,他们是互联网生产力的缔造者,也一定是成功者。
——互联网连续创业者 陈超仁(原基调网络创始人、前美丽说高级副总裁)
对于解决实际问题来说,一线的经验参考重要。在实际实现一个业务系统、解决一个业务问题的时候,很少会仅使用一项单一技术就可以解决,往往需要多项技术相结合使用。在大数据处理领域,Hadoop、Storm、Spark 等核心技术是必不可少的。但是要想构建一个完整的解决方案,还需要RPC、消息队列、缓存系统、数据库系统,一个都不能少。以上每一项技术的书籍及网上的资料不可谓不多,也不缺乏精品。但从业务解决方案入手,综合多项技术,有针对性地介绍、分析、总结的书籍却很缺乏。本书作者王成光同学,多年来一直奋战在大数据处理领域的开发一线,具有丰富的实战经验。他曾经从无到有一手搭建了优购网(百丽电商)的搜索推荐及BI 系统,后曾在网易等一线互联网公司任职。他在解决业务需求的基础上,逐渐沉淀提炼出一套轻量级分布式实时计算服务框架——light_drtc。本书不仅对这个自研框架的架构原理做了介绍,同时分享了研发这套架构的心得体验。同时,对
系统中应用到的各项技术进行了详细的、有针对性的介绍、对比及分析,不乏精准独到的个人见解,非常值得一读。这本书是作者多年经验和智慧的结晶,细读它,你一定会有所收获。
——阿里巴巴技术专家 赵文旭
大数据技术发展到现在,实时流处理技术变得越来越重要。在这个大数据实时处理狂潮中,各种开源流计算框架也如雨后春笋般地涌现出来。比较常见的有Storm、Samza、Spark Streaming、Flink,以及Twitter 新开源的Heron 等等。比较遗憾的是如大部分开源技术一样,这些流计算框架都为国外公司所主导。国内虽然有BAT 等互联网巨头,却没有在实时计算框架方面有对应自己地位的开源产品。令人稍感欣慰的是,light_drtc 作为纯粹国内技术人员主导开发的一个轻量级的流计算框架进入了开源世界,让实时计算开源框架中有了中国力量。分布式实时计算技术对于大数据技术来讲非常重要,不过在技术上能讲解得非常透彻的中文技术书籍并不多。认识王成光时他正沉浸在开发light_drtc 的状态中,关于分布式实时处理技术,我们聊了很多,有很多技术的见解也很一致。令人非常高兴的是他不仅将自己实践积累的产品light_drtc 开源出来,同时将自己多年技术积累的经验以写书的形式奉献给了广大对分布式实时计算技术有兴趣的技术人员。《分布式实时计算框架原理与实践案例》这本书不止是一本对当前实时流计算技术进行解析的一本书,同时也是作者对在工作中实战经验总结的一本书。授人以鱼不如授人以渔,我相信这本书能够给大数据技术人员,尤其是大数据流处理技术有兴趣的人带来很大的帮助。
——TalkingData 研发副总裁 阎志涛
本书不仅详实地推介了作者自主研发的实时计算框架,还基本涵盖介绍了当今主流的开源计算系统。内容浅显易懂,案例切合实际,分析精准到位。对于年轻的IT 读者来说,不失为良师益友。
——京东首席技术顾问 翁志
本书是作者基于自己多年的思考和实践经验,经过不断提炼而得的。一方面把当前业界在实时计算领域常用的产品和技术进行深入介绍,让读者对该领域中的各个产品如何使用不再迷茫,也为具有一定经验的从业者对下一步系统中关键服务如何选型和优化提供了新的方向;另一方面作者博采众家之长而创造的light_drtc,降低了中小企业在分布式实时计算领域的门槛,使大数据处理能力触手可得。通过作者的实例,在了解大数据技术如何应用的同时,也能了解到在实例背后作者所体现出的思路、方法和方案。希望通过本书能让更多的人了解大数据处理,有更多的企业挖掘出自身的数据价值。
——中国建筑电商CTO 邓威
成光对于架构的不断钻研和踏实肯干给我留下了很深的印象,非常有幸见证了他这套分布式实时计算系统在新闻推荐领域中的应用。这本书结合他多年的一线实践经验,详细阐述了分布式计算系统、搜索架构和数据库等在企业应用的经历,对于初学者和想深入理解这一方面知识的同学会起到很好的引导。感谢成光为国内的工程架构贡献自己的一份力量!
——腾讯技术副总监 鞠奇
作者硕士从事计算机应用中文信息处理的研究工作,毕业后在百丽、好乐买、搜狐和网易等担任搜索、推荐架构师等关键岗位。多年来一直从事大数据相关的开发和研究工作,从未停止对技术的了解和钻研。作者结合当前主流开源软件的特点,以及中小型企业人才和资源不足的困难,利用多年来的技术积累和沉淀,独力研发了一套轻量级分布式实时计算服务框架——Light_drtc,包含实时数据收集服务、资源协调及任务管理服务和任务计算服务,可以帮助企业快速搭建自定义的实时计算平台,让企业聚焦于业务数据的分析和处理。本书系统介绍了Light_drtc 的设计思想、功能,以及核心技术。同时深入浅出地介绍了当前主流开源大数据处理技术,如Hadoop,Spark 及Storm 等主流计算框架,以及消息队列、内存数据库、NoSQL、搜索、RPC 框架等核心技术架构,帮助开发者系统全面地了解大数据平台的核心技术。
作为中小型企业的技术负责人,对此书的作者表示感谢,作者提供了一套轻量级的解决方案,并介绍了相关的技术环节,让小企业可以专注于数据的应用,而不是花大量的时间用于搭建平台,切实提供了很大的帮助。感谢作者花了大量精力对中小企业的支持以及对开源的支持,希望本书可以帮助更多的企业,也为国家大数据平台的发展贡献一份力量。
——大码美衣CTO 王伟涛