Betsy Beyer,是Google 纽约负责SRE 的一名技术文档作家。她之前曾为遍布全球的Google 数据中心与Mountain View 硬件运维团队编写文档。在搬到纽约之前,Betsy 是Stanford 大学技术性写作课程的讲师。她曾经学习国际关系与英文文学,并在Stanford和Tulane 获得学历。
Chris Jones,是Google App Engine 的一名SRE。Google App Engine 是一个PaaS 服务,每天处理超过280 亿个请求。他的办公室在旧金山,他之前的工作包括Google 广告统计、数据仓库,以及用户支持系统的维护。在之前,Chris 曾经在学校IT 行业任职,同时参与过竞选数据分析,以及一些BSD 内核的修改。他有计算机工程、经济学,以及技术政策学的学位。同时他也是一名有执照的职业工程师。
Jennifer Petoff,是Google SRE 团队的一名项目经理,工作地点在都柏林,爱尔兰。她曾经负责管理大型全球项目,包括:科学研究、工程、人力资源,以及广告等。Jennifer在加入Google 之前,曾在化工行业任职八年。她获得了Stanford 大学的化学博士与学士学位,同时她还拥有Rochester 大学的心理学学位。
Niall Murphy,是Google 爱尔兰团队广告SRE 的负责人。他拥有20 年互联网行业经验,目前是INEX(爱尔兰网络互联枢纽)的主席。他曾经写作以及参与写作很多科技文章与书籍,包括O’Reilly 出版的IPv6 Network Administration,以及很多RFC。他目前在参与书写爱尔兰互联网发展史。他拥有计算机科学、数学,以及诗歌学的学历(他当时一定是想错了!)。他目前与妻子和两个儿子居住在都柏林。
孙宇聪,前Google SRE(2007-2015),山景城总部,曾参与构建运维Youtube 全球CDN网络,2008年奥运会直播项目,构建维护海量视频编码传输系统。后参与Google内部云平台运维工作,负责运维全球百万级别服务器集群,以及Borg、Omega等大规模集群理系统。2015年加入Coding,任CTO一职。回国后,积极推动国内容器化运维架构升级。目前是开放运维联盟之应用运维规范制定组,高可用运维规范制定者。
展开
多年前,Google是通过发布技术论文帮助业界解决分布式难题的,如今各种分布式系统百花齐放,如何管理这些系统对传统的运维技术和理念产生了极大的挑战,现在 Google给我们带来了技术指导和zui佳实践。该书汇集了 Google多年生产环境的管理经验,连编写工作都采用了分布式实现的方法,由各个领域的资深专家联合创作而成。可以把本书看作是一座灯塔,很多公司的集群规模还远达不到 Google的规模,但是参照本书中的技术指导和zui佳实践,不仅可以加速传统运维向 SRE的进化,更重要的是可以帮助公司高效地运维和管理各种复杂的分布式系统。
——吕宏利,Google Ads SRE
信息技术领域是英文缩写词的高产领域,几乎所有的新概念、新技术和新产品的推出甚至一场市场营销的策划都会伴随着新的英文缩写词的出现。 SRE这个缩写,在公司内部不仅代表了一个全新的运维理念和其伴随的崭新的工程领域、一套完整的系统运维体系和其对应的zui佳实践,而且也是我和我的好朋友——本书的译者孙宇聪一起工作了数年的战斗集体。而本书的作者们也都是这个大集体中的师长和伙伴。
系统运维长久以来都依赖实践积累之上的口口相传,经验通常是领域从业者手里掌握的秘诀。本书从实践出发,汇集了众多业内优秀的系统运维人员的实战心得,理论基础和实操指导并重,系统化地阐述了在新一代信息系统架构(大规模、分布式、高并发、多业务、多租户)下系统运维的理念(当前被广泛接受并被大量实践的 DevOps就起源于此)、思路、zui佳实践以及对应的组织架构和人员管理的方方面面,是系统运维领域从业人员不可多得的参考和学习资料。本书是对新时代系统运维领域实践的总结和理论升华。
本书的译者孙宇聪在生活中是一个略显粗犷的大男人,但对于本书的翻译,他充分发挥了自己在这个领域中多年的从业经验和对系统运维的深刻理解,细致入微地做到内容和语言两个方面的精准和优美,这在翻译的技术图书中是非常难得的。
——张矩,锋瑞资本执行董事,前 Google SRE
很高兴受译者孙宇聪邀请为该书写推荐序,这本书是 Google的 SRE部门多年实践的总结,孙宇聪本人也在 Google SRE部门工作多年。SRE部门在 Google真正落实了 DevOps。 SRE工程师在 Google不只是维护各种线上服务的稳定性,还要负责保证各项服务的性能,同时负责管理维护数据中心。美国多家互联网公司都在依照 Google的方式来组织和运作 SRE部门,可以说 SRE被 Google发扬光大,Google的 SRE实践正在成为 DevOps的标准。
SRE和传统的 IT运维有很大区别,SRE真正实现了 DevOps:首先, SRE深度参与开发阶段的工作,对应用程序的设计实现方式、依赖库、运行时的资源消耗都有严格的规约;其次,SRE工程师本身也要做不少编程工作,来实现各种工具用以自动解决问题和故障,换句话说,SRE强调的是对问题和故障的自动处理,而非人工干预;再者,按照 SRE的约定,开发人员自行负责程序上线部署更新,毕竟开发人员对自己开发的程序更熟悉,易于处理程序上线过程中遇到的问题。总之,作为 Google的 DevOps实践,SRE非常注重开发和运维职能的结合,极大地加快了业务应用迭代周期,提升了 IT对业务的支撑能力。
随着 DevOps在国内的宣传推广,国内的很多企业客户也逐渐接受了 DevOps的理念,但是在具体落地实践 DevOps的过程中缺乏实际案例作为参照。本书的推出,方便了国内广大 IT人员在落地 DevOps过程中参照 Google的 SRE实践。非常感谢孙宇聪把这么好的一本书翻译成中文。
——王璞,数人云创始人
Google首创了 SRE这个职业,并将其 SRE思想体系和方法论贡献出来汇集成此书。中文版的及时出版,使得国内广大运维从业者可以更高效地赏阅并实践。很荣幸此书在 GOPS全球运维大会首发,高效运维社区将继续作为 Google SRE国内第1传播平台,推进其和《互联网应用运维框架及能力模型》(本书译者孙宇聪先生联合撰写)的融合,促进其在中国运维行业的落地生根、蓬勃发展。
——萧田国,高效运维社区发起人,开放运维联盟联合主席
从接触 Google SRE的概念开始,就感受到它神秘地存在,直到看到英文版的 SRE书籍,才知道它对传统运维的颠覆性。本书的面世,让国内更多的运维人员接触到 Google先进的运维理论与实践。个人坚信这种理论和实践的提升与改变,才是运维人的出路,运维的业务价值、行业价值便也随之而来。运维也可以“高大上”地存在!
——王津银,“精益运维”发起人;优维科技创始人;开放运维联盟发起人之一;开放运维联盟应用标准规范组组长、起草人
大型互联网应用的部署规模从几千台到几十万台不一,随着软件系统的复杂度提升也呈现出越来越庞大的趋势,如何通过少数人力管理好庞大复杂的应用环境?如何在环境极度复杂的情况下确保软件的服务质量?如何在确保质量的情况下优化软件迭代速度?很多问题困扰着项目管理者、产品经理、软件工程师、运维人员。本书从 Google所面临的问题、价值观、解决方案、体系建设、zui佳实践等方面理论结合实际,非常具备指导意义,每一个希望提高工作效率、改进工作成果的技术和管理人员都应该认真阅读理解,结合自身工作环境进行实践,找出一条适合自己的持续发展之路。
——莫显峰,Ucloud联合创始人,CTO
Google丰富的产品与服务已成为全球多数网民每天生活的一部分,而支撑这许多应用的是其背后庞大的基础设施。为了更有效地保证用户体验,Google建立了独树一帜的运维体系并称之为 SRE(Site Reliability Engineering)。绝大部分传统 IT公司会雇佣系统管理员( sysadmin)来运维复杂的计算机系统,但由于大部分工作依靠手工操作,所以随着用户增长,Sysadmin的团队也必须相应地增长。Google SRE团队的精华在于研发软件系统,将运维自动化以替代传统模型中的人工操作。这本书详细地描述了 Google SRE的原则与理念,并列举了实际案例来说明如何灵活运用这些准则。
孙宇聪在 Google任职八年。他不仅精通基础设施的各个方面,还热衷于钻研平台架构。他致力于为中文读者解析 Google运维的窍门,于是在繁忙的工作之余,翻译了这本由他的原同事们撰写的书。由于 Google的规模很大,许多人可能认为 Google的做法无法效仿,但书中描述的原则与道理是可以触类旁通的。书中提及许多实用的道理,比如, 100%的可用性是不现实的,需要达到这个目标的成本通常远超于所能获得的价值,所以 Google会针对每种产品设定一个错误预算(容错率),既能保证用户体验又不影响创新和部署的速度。
我希望读者像我一样,通过阅读这本书,能学习到如何更有效地运维自己的产品与平台。
——Joe Zhu,Zenlayer创始人
Google SRE团队通过写作本书为整个运维行业做出了巨大的贡献。通过本书,他们将指导思想、zui佳实践和常见的应用架构模式以及团队建设模式共享出来,揭示了 Google如何能够持续不断地建设、部署世界级的工程项目,同时保持世界一流的可靠性标准。每个感兴趣的人都应该通读本书,切身尝试书里提到的一些想法。
Jez Humble,Continuous Delivery和 Lean Enterprise书籍的共同作者
我还记得 Google第1次在运维技术论坛上发表的演讲。感觉就像听了一场野生动物专家针对两栖爬行动物的专题介绍。演讲非常有意思,但是由于演讲的内容和观众的日常工作感觉距离太遥远,因此演讲的效果并不好。
随着 IT行业的不断改变,中小型企业的运维实践逐渐和 Google接轨。突然之间, Google多年打磨、积累形成的运维实践变成了zui热门的行业焦点。对于一个面临日益严峻的可靠性、可扩展性、可维护性挑战的行业,这本书真是太及时了!
——David N. Blank-Edelman,总监,USENIX董事会成员,以及 SREcon 大会的共同创始人
自从我离开 Google这座充满魔力的城堡,我就一直在等这本书面世,我一直在用书中的思想理念给同事们布道。
——Bjo.. rn Rabenstein,SoundCloud 生产工程团队负责人, Prometheus(开源项目)开发者,前 Google SRE(2013)
Google是 SRE理念的发明者。本书不光介绍了这个职位的技术细节,还包括了其中的思考过程、团队目标、设计理念以及学到的宝贵课程。如果你想从起源上了解 SRE一词的意义,应该从本书开始。
——Russ Allbery,Google SRE,安全工程师
本书的作者们和大家分享了 Google SRE团队的成长经历,包括其中走过的弯路。 Google凭借这些实践经验,将 Google服务部署到全世界,同时保持世界一流的可靠性。我高度建议任何一个想要创建、扩展大规模集成系统的人阅读本书。这本书针对如何构造一个可长期维护的系统提供了非常宝贵的实践经验。
——Rik Farrow,USENIX成员
开发一个 Gmail这样的大型分布式系统已经很难了。如何运营维护这样的一套系统,在保障每天不断更新的同时保障一流的可靠性就更难了。这本书就像一套完备的菜谱,收集了 Google在实践过程中积累的宝贵经验。希望通过阅读本书,读者能够绕开一些 Google曾经走过的弯路。
——Urs Ho..lzle,Google 基础架构组资深副总裁