(1)作者背景资深:就职于虎牙直播,历任项目研发负责人、SRE负责人、架构师,虎牙事故管理委员会委员、基础保障部架构师委员会委员。
(2)作者经验丰富:拥有20年软件开发、架构、运维、SRE经验,为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定的保障体系。
(3)总结中国SRE实践:作者立足于本土SRE实践经验,历时4年精心打磨,帮助读者构建针对SRE的完整的知识体系、工程体系、理论体系。
(4)全流程讲解SRE:从架构、开发、测试、运维全流程讲解如何进行软件可靠性工程建设,总结了要符合时代要求的SRE方法论体系。
(4)建设SRE六种能力:详解SRE的6种能力(可靠性设计能力、观测能力、修复能力、保障能力、反脆弱能力、管理能力)的概念、设计、建设原则与方法、度量与改进。
(5)10余行业专家推荐:中国SRE奠基人、虎牙科技CEO以及华为、腾讯、阿里、B站、亚马逊等企业的10余位技术专家高度评价。
第1章 互联网软件可靠性概论 1
1.1 为什么要研究互联网软件可靠性
工程 1
1.1.1 大型互联网企业的典型案例
回顾 1
1.1.2 研究互联网服务可靠性的
迫切性和重要性 3
1.1.3 研究软件可靠性工程是未来更
复杂的软件产品发展的需要 3
1.2 什么是可靠性工程 3
1.2.1 可靠性与可靠性工程概述 4
1.2.2 可靠性工程发展的3个阶段 4
1.2.3 传统物理可靠性工程方法 6
1.3 软件可靠性工程 9
1.3.1 软件可靠性工程的概念 9
1.3.2 软件可靠性工程发展的两个
阶段 10
1.4 互联网软件的可靠性 16
1.4.1 相关名词介绍 16
1.4.2 互联网软件可靠性工程现状及
挑战 18
1.4.3 互联网软件可靠性工程方法
发展的3个阶段 21
1.5 互联网软件可靠性工程的工作
思路 26
1.5.1 理解软件可靠性的3个核心
问题 26
1.5.2 建立可靠性工程体系框架的
思路 30
1.6 本章小结 31
第2章 互联网软件可靠性工程及
可靠性度量 32
2.1 软件生命周期的可靠性工作 32
2.1.1 互联网软件生命周期的可靠性
工作及原则 33
2.1.2 需求阶段的可靠性工作 34
2.1.3 设计与实现阶段的可靠性
工作 35
2.1.4 测试与验证阶段的可靠性
工作 37
2.1.5 部署与发布阶段的可靠性
工作 38
2.1.6 持续运行阶段的可靠性
工作 39
2.2 故障生命周期的可靠性工作 41
2.2.1 监控故障 42
2.2.2 故障定界定位 42
2.2.3 修复故障 43
2.3 可靠性工程6种能力综述 44
2.4 互联网软件可靠性度量与评价 45
2.4.1 可靠性度量介绍 45
2.4.2 可靠性度量和分析方法 47
2.4.3 软件可靠性度量过程 54
2.4.4 如何制定可靠性目标 58
2.5 本章小结 60
第3章 互联网软件可靠性设计与
分析 61
3.1 为什么要进行可靠性设计 61
3.1.1 什么是可靠性设计 61
3.1.2 可靠性是设计出来的 62
3.2 可靠性设计原则与通用方法 64
3.2.1 可靠性设计的原则 64
3.2.2 可靠性设计的4种方法 65
3.3 软件可靠性架构模型 68
3.4 可靠性分析与架构风险 72
3.5 可靠性分配 74
3.5.1 可靠性分配的目的 74
3.5.2 可靠性分配的原则 75
3.5.3 可靠性分配的方法 75
3.6 架构分层设计及其可靠性方法 76
3.6.1 可靠性视角的分层架构 77
3.6.2 业务架构的可靠性设计 78
3.6.3 应用架构的可靠性设计 78
3.6.4 系统架构的可靠性设计 85
3.6.5 部署架构的可靠性设计 92
3.6.6 基础设施架构的可靠性设计 97
3.6.7 可靠性相关能力的设计 99
3.7 架构可靠性评审 99
3.7.1 评审目的 99
3.7.2 评审过程 100
3.7.3 评审方法 101
3.8 可靠性预计 102
3.9 本章小结 103
第4章 可靠性观测能力建设与
实践 104
4.1 建设观测能力的目的 104
4.2 排查、监控、观测技术的发展 107
4.2.1 登录服务器通过系统命令
排查问题 107
4.2.2 集中式监控系统与日志系统 110
4.2.3 可观测性 115
4.2.4 观测能力与监控 116
4.2.5 建立综合的观测能力 117
4.3 监控观测的感知场景与感知
方式 118
4.3.1 业务可靠性感知 119
4.3.2 影响范围及原因定界定位 121
4.3.3 帮助理解复杂系统结构并
自动建模 126
4.3.4 智能告警条件的数据感知 129
4.3.5 根因推荐与排查诊断、决策 131
4.3.6 容量感知与弹性 135
4.3.7 人的感知与决策能力 137
4.3.8 场景化的固化大盘 138
4.3.9 巡检与非实时分析 140
4.4 观测能力设计 141
4.4.1 设计原则 141
4.4.2 设计方法 143
4.5 观测能力要求与度量 148
4.5.1 定性要求与分析 148
4.5.2 定量要求与分析 150
4.6 观测能力建设实践 154
4.7 本章小结 157
第5章 故障修复、综合保障能力建设与实践 158
5.1 软件故障修复能力概述 158
5.1.1 什么是软件故障修复能力 158
5.1.2 修复能力是现代软件系统的
重要能力 159
5.1.3 研究故障规律是修复能力的
基础 159
5.2 软件故障修复能力设计与建设 160
5.2.1 设计原则 160
5.2.2 预案平台的设计 163
5.2.3 变更型故障快速修复 167
5.2.4 灾难型故障快速修复 171
5.2.5 容量型故障快速修复 175
5.2.6 应急协同 177
5.3 运维保障能力 184
5.4 修复能力的度量和要求 188
5.4.1 定性要求 188
5.4.2 定量要求与评估 189
5.5 修复能力及保障能力建设实践 193
5.5.1 虎牙音视频修复能力实践 193
5.5.2 预案平台建设实践 194
5.5.3 虎牙带宽资源保障能力
实践 196
5.6 本章小结 196
第6章 可靠性试验与反脆弱能力
建设与实践 197
6.1 互联网软件可靠性试验与反脆弱
能力概述 197
6.1.1 什么是可靠性试验与反脆弱
能力 198
6.1.2 为什么要反脆弱 199
6.2 软件系统的脆弱性因素分析 200
6.2.1 环境、产品、人的关系 201
6.2.2 脆弱性因素分析 202
6.3 反脆弱能力建设与分析 212
6.3.1 应对脆弱性的思路 213
6.3.2 反脆弱能力建设原则 213
6.3.3 环境脆弱性的可靠性试验:
混沌工程 214
6.3.4 软件系统自身的可靠性试验:
故障注入 218
6.3.5 人为因素反脆弱设计:
故障演练 221
6.3.6 变更型故障反脆弱设计:
变更管控 222
6.4 可靠性试验与反脆弱能力的
要求 223
6.4.1 定性要求 223
6.4.2 定量要求 226
6.5 实践案例 227
6.6 本章小结 230
第7章 可靠性管理能力 231
7.1 可靠性管理工作概述 231
7.2 软件可靠性工作规划及目标
管理 235
7.3 故障治理 237
7.3.1 故障复盘 238
7.3.2 故障评审定级 243
7.3.3 定期回顾可靠性 247
7.4 人员与团队管理 248
7.4.1 可靠性工程师团队 248
7.4.2 团队转型 250
7.5 以SRE方式运维业务 254
7.5.1 以SRE方式接手现有业务 255
7.5.2 接手新业务 256
7.6 本章小结 257