《云计算实战:可靠性与可用性设计/“十二五”国家重点图书出版规划项目·国际先进工业技术译丛》作者是阿尔卡特朗讯公司软件解决方案及服务的工程经理,拥有十多项美国专利,已发表多本可靠性和可用性方面的专著。
内容聚焦在可用性和可靠性上,深入透彻,具有很高的实用价值,而且出版时间新。
《云计算实战:可靠性与可用性设计/“十二五”国家重点图书出版规划项目·国际先进工业技术译丛》在明确了云计算、虚拟化、服务可靠性以及服务可用性的关键术语和概念的基础上,通过对云计算服务可靠性及可用性的分析,结合云计算所涉及的虚拟化、分布式部署等技术特点,全面、深入、系统地探讨了云计算系统及服务可靠性的设计、计算、评估、优化方法。
《云计算实战:可靠性与可用性设计/“十二五”国家重点图书出版规划项目·国际先进工业技术译丛》具有较强专业性和技术性,同时还具有较强的可操作性,对云计算专业从业人员和科研工作者来说,是一本不可多得的学习与参考书籍。《云计算实战:可靠性与可用性设计/“十二五”国家重点图书出版规划项目·国际先进工业技术译丛》既适用于云计算系统的专业技术研发和工程实施人员,也适合于高等院校通信、电子、计算机等专业的师生,同时也可为云服务用户提供有益的参考。
第1部分 基本概念篇
第1章 云计算
1.1 云的基本特征
1.1.1 按需自服务
1.1.2 广泛的网络访问
1.1.3 资源共享
1.1.4 快速弹性
1.1.5 服务可度量
1.2 共有的云特征
1.3 云计算到底是什么
1.3.1 什么是数据中心
1.3.2 云计算和传统数据中心有何不同
1.4 服务模式
1.5 云部署模式
1.6 云计算中的角色
1.7 云计算的优势
1.8 云计算的风险
第2章 虚拟化
2.1 背景
2.2 什么是虚拟化
2.2.1 管理程序的类型
2.2.2 虚拟和仿真
2.3 服务器虚拟化
2.3.1 完全虚拟化
2.3.2 部分虚拟化
2.3.3 操作系统虚拟化
2.3.4 讨论
2.4 虚拟机的生命周期
2.4.1 虚拟机快照
2.4.2 克隆虚拟机
2.4.3 高可用性机制
2.5 虚拟化的可靠性和可用性风险
第3章 服务可靠性和服务可用性
3.1 错误和失效
3.2 八成分框架
3.3 服务可用性
3.3.1 服务可用性指标
3.3.2 MTBF和MTTR
3.3.3 服务和网元影响中断
3.3.4 局部中断
3.3.5 可用性等级
3.3.6 中断归因
3.3.7 计划内宕机时间
3.4 服务可靠性
3.4.1 服务可靠性指标
3.4.2 缺陷事务
3.5 服务时延
3.6 冗余和高可用性
3.6.1 冗余
3.6.2 高可用性
3.7 高可用性和灾难恢复
3.8 流媒体服务
3.8.1 控制和数据平面
3.8.2 服务质量指标
3.8.3 等时性数据
3.8.4 时延期望
3.8.5 流媒体质量损伤
3.9 云计算的可靠性和可用性风险
第2部分 分析篇
第4章 云计算的可靠性和可用性分析
4.1 服务可靠性和可用性的期望
4.2 云基本特征的风险
4.2.1 按需自助服务
4.2.2 宽带网络接入
4.2.3 资源池
4.2.4 快速弹性
4.2.5 测量服务
4.3 常见云特征的影响
4.3.1 虚拟化
4.3.2 地理分布
4.3.3 弹性计算
4.3.4 高级安全性
4.3.5 大规模
4.3.6 同质化
4.4 服务模式的风险
4.4.1 传统的责任归因
4.4.2 云应用的责任归因
4.5 IT服务管理和可用性的风险
4.5.1 ITIL概述
4.5.2 服务策略
4.5.3 服务设计
4.5.4 服务转移
4.5.5 服务运营
4.5.6 持续服务改进
4.5.7 IT服务管理概述
4.5.8 服务编排的风险
4.5.9 IT服务管理风险
4.6 过程区域中断的风险
4.7 故障检测的注意事项
4.7.1 硬件故障
4.7.2 编程错误
4.7.3 数据的不一致性和错误
4.7.4 冗余错误
4.7.5 系统电源故障
4.7.6 网络错误
4.7.7 应用协议错误
4.8 部署模型的风险
4.9 IaaS数据中心的期望值
第5章 虚拟化的可靠性分析
5.1 可靠性分析技术
5.1.1 可靠性框图
5.1.2 单点故障分析
5.1.3 故障模式影响分析(FMEA)
5.2 虚拟化技术的可靠性分析
5.2.1 全虚拟化分析
5.2.2 虚拟操作系统分析
5.2.3 半虚拟化分析
5.2.4 VM共存分析
5.2.5 讨论
5.3 软件故障率分析
5.3.1 虚拟化和软件故障率
5.3.2 虚拟机管理程序故障率
5.3.3 虚拟化和云的其他软件风险
5.4 恢复模型
5.4.1 传统的恢复选项
5.4.2 虚拟化恢复选项
5.4.3 讨论
5.5 应用架构策略
5.5.1 按需单用户模式
5.5.2 单用户守护进程模式
5.5.3 多用户服务器模式
5.5.4 服务器整合模式
5.6 虚拟化恢复方式的可用性建模
5.6.1 虚拟化单工架构的可用性
5.6.2 虚拟化冗余架构的可用性
5.6.3 关键故障率
5.6.4 故障覆盖率
5.6.5 故障检测延迟
5.6.6 切换延迟
5.6.7 切换成功率
5.6.8 建模与“快速故障”
5.6.9 本地和虚拟化部署的比较
第6章 硬件可靠性、虚拟化和服务可用性
6.1 对硬件故障停机时间的期望
6.2 硬件故障
6.3 硬件故障率
6.4 硬件故障检测
6.5 硬件故障遏制
6.6 硬件故障的缓解
6.7 通过虚拟化缓解硬件故障
6.7.1 虚拟CPU
6.7.2 虚拟内存
6.7.3 虚拟存储
6.8 虚拟化网络
6.8.1 虚拟网络接口卡
6.8.2 虚拟局域网
6.8.3 虚拟IP地址
6.8.4 虚拟专用网络
6.9 虚拟硬件的MTTR
6.10 讨论
第7章 容量和弹性
7.1 系统负载基础知识
7.1.1 特别事件的考虑
7.1.2 Slashdot效应
7.2 过载、服务的可靠性和可用性
7.3 传统的容量规划
7.4 云和容量
7.4.1 标称的云存储模型
7.4.2 弹性的期望
7.5 管理联机容量
7.6 容量相关的服务风险
7.6.1 弹性和弹性故障
7.6.2 部分容量故障
7.6.3 服务延迟风险
7.6.4 容量损伤和服务可靠性
7.7 容量管理风险
7.7.1 脆弱的应用架构
7.7.2 故障或监测数据不足
7.7.3 错误的容量决策
7.7.4 不可靠的容量扩张
7.7.5 不可靠的容量缩减
7.7.6 转换速度不足
7.7.7 缓慢的容量管理决策
7.7.8 资源库存耗竭
7.7.9 云跳转失败
7.7.10 政策限制
7.8 安全性和服务可用性
7.8.1 服务可用性的安全风险
7.8.2 拒绝服务攻击
7.8.3 DoS攻击的防御
7.8.4 量化安全攻击对服务可用性的影响
7.8.5 建议
7.9 弹性扩张和收缩的架构
第8章 服务编排分析
8.1 服务编排定义
8.2 基于策略的管理
8.2.1 SLR的作用
8.2.2 服务可靠性和可用性的测量
8.3 云管理
8.3.1 云管理中快速弹性的作用
8.3.2 云管理中云突发的作用
8.4 服务编排在风险缓解中的作用
8.4.1 延迟
8.4.2 可靠性
8.4.3 监督管理
8.4.4 安全
8.5 小结
第9章 地理分布、地理冗余和灾难恢复
9.1 地理分布VS地理冗余
9.2 传统的灾难恢复
9.3 虚拟化和灾难恢复
9.4 云计算和灾难恢复
9.5 地理冗余恢复模型
9.6 云和传统地理冗余的附加益处
9.6.1 减少预期的宕机时间
9.6.2 缓解灾难性的网络元件故障
9.6.3 减少未发现的和双工元件故障
9.7 讨论
第3部分 建议篇
第10章 应用、解决方案和责任认定
10.1 应用配置场景
10.2 应用的部署方案
10.3 系统宕机时间预期
10.3.1 传统的系统宕机时间预期
10.3.2 虚拟化应用宕机时间预期
10.3.3 IaaS的硬件宕机时间预期
10.3.4 云应用的宕机时间预算
10.3.5 总结
10.4 最终的端到端解决方案的注意事项
10.4.1 什么是端到端解决方案
10.4.2 云消费者的特定架构
10.4.3 数据中心冗余
10.5 服务不佳的原因
10.6 解决方案服务的测量
10.7 管理可靠性和云计算服务
第11章 构建可靠系统的建议
11.1 虚拟化和云计算的架构
11.1.1 软件映射到VM
11.1.2 服务负载分配
11.1.3 数据管理
11.1.4 软件冗余和高可用性机制
11.1.5 快速弹性
11.1.6 过载控制
11.1.7 共享
11.1.8 多租户
11.1.9 同步应用
11.2 灾难恢复
11.3 IT服务管理的注意事项
11.3.1 软件升级和打补丁
11.3.2 服务迁移活动的影响分析
11.3.3 通过VM迁移缓解服务迁移活动的影响
11.3.4 服务迁移活动的测试
11.3.5 流程错误最小化
11.3.6 服务编排的注意事项
11.4 许多分布式云VS少量巨型云
11.5 硬件归因宕机时间最小化
11.6 架构优化
11.6.1 可靠性和可用性标准
11.6.2 可访问性优化
11.6.3 高可用性、持续性、可靠性和质量优化
11.6.4 灾难恢复优化
11.6.5 操作注意事项
11.6.6 案例分析
11.6.7 理论最优的应用架构
第12章 虚拟化应用的可靠性设计
12.1 可靠性设计
12.2 调整DfR以适应虚拟化应用
12.2.1 硬件独立性应用场景
12.2.2 服务器整合应用场景
12.2.3 多租户应用场景
12.2.4 虚拟化设备应用方案
12.2.5 云部署应用场景
12.3 可靠性要求
12.3.1 通用可用性要求
12.3.2 服务的可靠性和延迟要求
12.3.3 过载要求
12.3.4 在线容量增长和收缩
12.3.5 (虚拟化)实时迁移要求
12.3.6 系统转变活动的要求
12.3.7 地理冗余和服务持续性要求
12.4 可靠性定性分析
12.4.1 虚拟化应用的SPOF分析
12.4.2 虚拟化应用的故障模式影响分析
12.4.3 容量的增长和收缩分析
12.5 可靠性定量预算与建模
12.5.1 可用性(宕机时间)建模
12.5.2 整体宕机时间预算及目标
12.5.3 管理维护预算分配
12.6 健壮性测试
12.6.1 基准健壮性测试
12.6.2 高级主题:虚拟化能更好地测试健壮性
12.7 稳定性测试
12.8 实际性能分析
12.9 可靠性路线图
12.10 硬件可靠性
第13章 云计算解决方案的可靠性设计
13.1 解决方案的可靠性设计
13.2 解决方案范围和期望
13.3 可靠性需求
13.3.1 解决方案的可用性需求
13.3.2 解决方案的可靠性需求
13.3.3 灾难恢复需求
13.3.4 弹性需求
13.3.5 明确的配置参数
13.4 解决方案建模与分析
13.4.1 云数据中心部署的可靠性框图
13.4.2 解决方案故障模式的影响分析
13.4.3 解决方案服务转变活动的影响分析
13.4.4 云数据中心的服务可用性(MP 2)分析
13.4.5 聚合服务可用性(MP 3)建模
13.4.6 恢复点目标分析
13.5 组件可靠性检查
13.6 解决方案的测试和验证
13.6.1 健壮性测试
13.6.2 服务的可靠性测试
13.6.3 地理冗余测试
13.6.4 弹性与调度测试
13.6.5 稳定性测试
13.6.6 在用服务测试
13.7 实际性能的跟踪和分析
13.7.1 云服务的测量
13.7.2 解决方案的可靠性路线图
13.8 解决方案可靠性的其他主题
13.8.1 服务等级协议
13.8.2 云服务提供商的选择
13.8.3 书面的可靠性计划
第14章 总结
14.1 服务可靠性和服务可用性
14.2 故障问责和云计算
14.3 服务宕机时间因素
14.4 服务可用性测量点
14.5 云容量和弹性的考虑
14.6 最大化服务可用性
14.6.1 降低产品归因的宕机时间
14.6.2 降低数据中心归因的宕机时间
14.6.3 降低IT服务管理的宕机时间
14.6.4 降低灾难恢复的宕机时间
14.6.5 优化云服务可用性
14.7 可靠性努力
14.8 结束语
缩略语
参考文献