搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
大规模云数据中心智能管理技术及应用
0.00     定价 ¥ 160.00
图书来源: 浙江图书馆(由JD配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787030783127
  • 作      者:
    夏元清,等
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2024-05-01
收藏
内容介绍
《大规模云数据中心智能管理技术及应用》深入探讨了云计算的关键基础设施——云数据中心的关键技术和智能管理方法。在国家重点研发计划项目、国家自然科学基金重点项目以及企事业单位研究所科技合作项目等多个层次的项目支持下,项目组攻克了一系列关键技术挑战。《大规模云数据中心智能管理技术及应用》重点介绍了大规模云数据中心运行数据管理技术、大规模云数据中心运行能效评估与预测技术、大规模云数据中心资源智能管理与调度技术、大规模云工作流智能管理与调度技术。在上述关键技术攻关的基础上,《大规模云数据中心智能管理技术及应用》介绍了云数据中心智能化管理与运维体系架构及相关子系统的设计与开发,并面向典型工业应用开展了应用示范。
展开
精彩书摘
第1章 云数据中心智能管理概述
  1.1云数据中心智能管理背景与意义
  随着计算机网络、物联网和智能技术的发展,数据呈爆炸式增长,给数据的处理、迁移及应用分析带来了诸多挑战。云计算是一种计算模型和服务模式,它将计算任务分布在大量计算机构成的不同云数据中心,使大数据应用系统能够根据需要获取计算能力、存储空间和信息服务。云计算与大数据技术的应用将全面提升科技生产的智能化水平。目前,“云计算与大数据”已上升为国家战略。为落实《国家中长期科学和技术发展规划纲要(2006—2020年)》,以及《国务院关于促进云计算创新发展培育信息产业新业态的意见》和《国务院关于印发促进大数据发展行动纲要的通知》等提出的任务,国家重点研发计划启动实施“云计算和大数据”重点专项。
  本书主要包括五方面内容:内容一,大规模云数据中心运行数据管理关键技术研究;内容二,大规模云数据中心运行能效评估与预测关键技术研究;内容三,大规模云数据中心资源智能管理与调度关键技术研究;内容四,大规模云工作流智能管理与调度关键技术研究;内容五,云数据中心智能管理系统研制及应用示范。
  大规模云数据中心运行数据管理关键技术研究:随着信息技术的发展和人类社会活动的交汇,各种数据呈现爆发增长和海量汇聚等特点,建设和优化大规模智慧、安全、灵活的云数据中心具有重要意义,旨在为用户提供高质量服务的同时减少运维成本。采集大规模云数据中心运行数据是建设大规模云数据中心管理体系的基础,其中数据包括静态数据和动态运行数据。目前虽然全球云服务提供商(如亚马逊、谷歌、阿里云等)已经建立了各自的云数据中心管理体系,但未来的发展趋势必将是多云数据中心协同。因此亟须制定多云数据中心的能耗指标,开发能适应任务负载动态变化的模型和启发式能耗评估体系。为建立有效的云数据中心能耗评估体系,需要采集云数据中心的物理机能耗数据不间断电源(uninterruptible power supply, UPS)和温度等必要数据,同时采用分布式数据存储系统对数据进行存储,保障采集的海量运行数据的安全性。
  大规模云数据中心运行能效评估与预测关键技术研究: 科学、节能且高效的云数据中心能够有效地提高性能、降低能耗和保证服务质量。此外,随着云计算的发展,高性能不再是建立云数据中心的唯一目标,云服务提供商越来越重视云数据中心的能耗问题[13]。当前,云数据中心的高能耗已经成为云计算发展中*为严重的问题之一,实现高性能、低能耗和满足服务质量需求[4]的云数据中心是非常迫切的。为了实现高能效的云数据中心,*先需要科学、可靠的能效评估方法,以便对云数据中心在特定条件下的能源效率进行评估。
  大规模云数据中心资源智能管理与调度关键技术研究: 云计算是通过网络以自助服务的方式获得所需信息技术(information technology, IT)资源的一种模式。支撑云计算技术发展的基础设施是遍布世界各地的云数据中心,每个云数据中心都包含由大量物理服务器构成的集群,目前集群已经达到数十万服务器的规模[5]。传统启发式调度算法旨在对特定集群环境在一定时间内得出一种可行的调度策略,使用启发式调度算法往往将模型简化,或者复杂建模方法中会包含很多参数,需要专业人员根据集群环境进行特定化调整。面向特定集群环境设计启发式调度算法需要耗费大量精力进行设计、实施和验证[6]。深度强化学习适用于解决序列决策问题,考虑将深度强化学习方法应用到资源调度问题中,根据不同集群环境和不同优化目标让智能体自主学习出相应的策略,解决启发式算法参数难调的难题,为启发式算法提供一个更优的替代策略。
  大规模云工作流智能管理与调度关键技术研究: 云计算的蓬勃发展促使越来越多的企业或者个人选择将业务上云,巨大的数据量和各类日益复杂的应用请求为云资源的分配和调度带来困难。为了并行化处理大规模计算应用,充分利用云计算资源,相关人员常将复杂应用分解为子任务,并利用工作流模型对其进行建模。如何给工作流的各项子任务合理、高效地分配云计算资源,降低完成时间,提升云资源利用效率,是云计算运维人员亟待解决的问题之一。同时,不同云应用的工作流结构和用户提出的需求存在多样性和差异性,智能化预测、感知技术对后续资源分配及调度而言十分必要。此外,云服务提供商在保障用户服务质量的同时,需要降低运营成本,*大化自身效益。因此,云工作流调度的执行时间和计算成本彼此冲突,构成多目标优化问题。现有的调度方法求解能力较差,性能难以满足云服务提供商及用户需求,无法解决云计算环境复杂、资源种类多、用户需求多样化等调度求解难点。因此,迫切需要结合智能化算法,面向各类典型应用场景以及不同偏好的用户,研发云工作流智能管理与调度优化算法,预测工作流结构及需求,优化执行时间和耗费成本,从而提高工作能效,满足用户服务质量需求、保障云服务提供商的经济效益。
  云数据中心智能管理系统研制及应用示范: 目前,云服务提供商如亚马逊已经在世界各地建立了云数据中心,进行海量信息储存,提供即时云服务。随着数据资源的爆炸式涌出,云数据中心亟须接入相应的智能管理系统,实现云数据中心资源融合、智能调度、弹性伸缩,优化整合海量异构资源,提供资源按需服务、智能调度、不间断进化和灵活管理,支撑多层次多类型的云计算服务。然而,当前云工作流和云服务请求的接受率无法满足高并发用户在时间和成本等多方面的差异化需求,无法支持大规模的云数据中心管理。因此,迫切需要研制面向大规模云数据中心的智能管理系统,实现云数据中心资源优化管理,从而提高工作效率,满足用户差异化需求,降低云服务提供商的管理成本。
  1.2 研究现状与主要技术挑战
  1.2.1 云数据中心运行数据管理现状与挑战
  1. 研究现状
  为了应对大规模实时采集的挑战,运行数据的质量和实时性的权衡是云数据中心数据采集的重要问题。尽管智能云数据中心并不是一个全新的领域,很多现有的工作也在不同的角度为解决采集问题做出了贡献,如网络拥塞控制、物理拓扑优化等,但是专门针对云数据中心运行数据采集的研究依然十分少见。具体而言,在计算机科学文献库(digital bibliography and library project, DBLP)中检索“data center collection”或“datacenter collection”或“data center acquisition”或 “datacenter acquisition”,仅有三篇论文与云数据中心数据采集相关。例如,文献[7]提到云数据中心采集的多对一模式是incast 场景,其发生的原因是大量多源数据发往同一节点时交换机缓冲区超载,大量数据包丢失造成采集延迟升高。该论文中提到了几种解决策略: 增加缓冲区大小,优化传输控制协议(transmission control protocol, TCP)重传机制,计算静态情况下TCP*佳参数,使用DIATCP协议[8]。然而,增加缓冲区大小需要升级硬件配置,需要投入更多资金和维护,而其余的从网络层角度出发的解决策略则仅仅致力于解决引起延迟的网络协议本身,并没有从源头解决问题。因此,研究如何使用和改进抽样采集技术使之在大规模云数据中心数据采集中发挥作用具有一定的研究价值和前瞻性。
  Perf是一款Linux性能分析和数据采集工具,它提供了一个性能分析框架,比如硬件(CPU、MPU)功能和软件(软件计数器、Tracepoint)功能。利用Perf工具可以评估程序对硬件资源的使用情况,例如各级cache访问次数,各级cache的丢失次数,流水线停顿周期,前端总线访问次数等,实现对微体系结构层的信息采集。Prometheus是一个开源系统监控和警报工具包,*初由SoundCloud构建。自2012年成立以来,许多公司和组织都采用了Prometheus,该项目拥有非常活跃的开发人员和用户社区。它现在是一个*立的开源项目,*立于任何公司进行维护。Prometheus成为继Kubernetes(K8s)后加入云计算基金会2016的第二托管项目,其发展如图1-1所示。
  图1-1 Prometheus发展
  现实应用产生的各种数据存在着不同程度的噪声和冗余,如果不对这些原始数据进行预处理,将会严重影响数据质量[9]。数据预处理覆盖的内容非常广泛,主要涉及的数据质量问题包括: 缺失值问题、异常值问题、冗余问题、高维低密度数据问题等。在统计学领域,缺失值问题的研究在20世纪70年代就受到了重视,出现了许多基于统计学理论的缺失值处理方法(直接删除和缺失值填充)和基于机器学习的数据预处理技术。
  随着采集数据的不断增长,数据存储问题也日益严重。针对海量运行数据的存储问题,需要采用合适的分布式数据存储系统对数据进行存储。Ceph是一个分布式存储系统,提供对象、块和文件存储,是一款免费开源软件,可以部署于普通的x86兼容服务器上。Ceph诞生于2004年,*早是研究人员Sage Weil进行一项关于存储系统的博士研究项目,致力于开发下一代高性能分布式文件系统。随着云计算的发展,Ceph在OpenStack的影响下成为开源社区受关注较高的分布式数据存储系统之一。Ceph的存储架构如图1-2所示。
  图1-2 Ceph的存储架构示意图
  图1-3 Kafka的总体架构
  Kafka是由LinkedIn公司开发,通过ZooKeeper协调管理的分布式消息收集和分发系统,具有分布式、支持分区(partition)和多副本的(replica)等特点。此外,Kafka可以实时处理大量数据以满足各种需求场景: 如基于Hadoop的批处理系统、低延迟的实时系统、Storm/Spark/Flink流式处理引擎、web/nginx日志、消息服务等。图13给出了Kafka的总体结构。
  HBase是Apache开源项目中面向大数据存储的著名项目之一,是美国谷歌公司推出的分布式大数据存储系统BigTable的开源实现,属于NoSQL数据库系统。HBase的数据存储以Hadoop的分布式文件系统HDFS为基础,分布式地存储在多个服务器上,以保证数据的可靠性和较高的I/O吞吐率。HBase中每个表格能够存储上亿行数据,每行数据的属性可以高达上百万列。在HBase的表格中,数据都是以主键值(primary key)来进行检索,即每一行数据都包括一个主键值。同时,HBase中表格的列划分成列族(column family),任何一列都属于一个列族。某一行和某一列交叉的位置称为一个单元(cell),存放具体的数据。另外,每一个单元的数据都有多个版本,用于区别该单元不同版本的数据,而默认的版本号就是该数据插入到HBase表格时的时间戳。图1-4给出了HBase的数据存储架构。
  图1-4 HBase的数据存储架构
  2. 主要技术挑战
  1) 云数据中心多源运行数据抽样采集
  云数据中心会产生体量庞大的运行数据,直接对海量运行数据进行存储和分析会极大地增加存储开销和计算代价。在保证运行数据质量的前提下,*大程度地抽样采集,降低其存储和传输代价具有非常重要的实际意义。此外,云数据中心各复杂子系统会产生海量的运行数据,例如环境温度监控、能源消耗情况、资源分配和使用、IT 设备物理状态等数据,这些异构运行数据的智能化采集,特别是多云数据中心多源运行数据的采集是个公认的难题。
  2) 运行数据安全存储
  由于分布在不同地域且高度动态化,多个云数据中心运行数据的采集和管理问题十分复杂,多云数据中心运行数据的安全、可靠、高效存储是运行数据智能化管理亟待解决的核心问题。
  3) 运行数据高效检索
  从分布式储存的加密运行数据中方便快捷地检索信息,是保证运行数据安全和高效利用的前提条件。因此,运行数据智能化管理是大规模云数据中心亟须解决的现实问题,对于大规
展开
目录
目录

前言
第1章 云数据中心智能管理概述1
1.1 云数据中心智能管理背景与意义1
1.2 研究现状与主要技术挑战2
1.2.1 云数据中心运行数据管理现状与挑战2
1.2.2 云数据中心运行能效评估与预测现状与挑战6
1.2.3 云数据中心资源管理与调度现状与挑战8
1.2.4 云工作流管理与调度现状与挑战10
1.2.5 云数据中心智能管理系统现状与挑战12
1.3 研究目标与总体技术架构13
1.3.1 大规模云数据中心运行数据管理关键技术14
1.3.2 大规模云数据中心运行能效评估与预测关键技术15
1.3.3 大规模云数据中心资源智能管理与调度关键技术15
1.3.4 大规模云工作流智能管理与调度关键技术16
1.3.5 云数据中心智能管理系统研制及应用示范18
1.4 本章小结18
第2章 大规模云数据中心运行数据管理关键技术20
2.1 多云数据中心运行数据采集方法20
2.1.1 基于概率性采样的自适应性采集技术20
2.1.2 面向不同设备粒度的多源数据采集技术27
2.2 质量感知的数据预处理技术29
2.2.1 缺失值处理29
2.2.2 离群点30
2.2.3 标准化30
2.3 运行数据冗余发现与删除技术30
2.3.1 基于压缩点的冗余数据处理技术31
2.3.2 面向云数据中心集群调度的冗余数据处理优化技术33
2.4 分布式、支持冗余备份的安全存储系统35
2.4.1 运行数据高效压缩技术36
2.4.2 分布式运行数据安全存储模型41
2.4.3 异构运行数据高效检索方法41
2.5 本章小结45
第3章 大规模云数据中心运行能效评估与预测关键技术46
3.1 基于深度学习的云数据中心能耗预测方法46
3.1.1 深度学习基本原理46
3.1.2 基于深度学习的能效预测算法设计49
3.1.3 仿真环境中的测试结果分析52
3.2 基于特征贡献值的工作流可解释性能耗预测方法53
3.2.1 可解释性机器学习54
3.2.2 能耗可解释性框架56
3.2.3 基于交互贡献值的可解释性方法57
3.2.4 实验结果和分解能耗分析59
3.3 云数据中心虚拟化环境能耗评估方法64
3.3.1 虚拟机能耗评估方法64
3.3.2 基于虚拟机能耗模型的容器能耗评估方法71
3.4 云数据中心多指标融合的能效定性评估方法75
3.4.1 云数据中心能效评估指标体系76
3.4.2 云数据中心多指标融合的能效定性评估模型76
3.4.3 仿真环境下的实验结果和分析78
3.5 面向云计算的基于QoS参数的能效评估方法81
3.5.1 问题描述81
3.5.2 基于QoS的能效评估模型82
3.5.3 实验分析与结果展示86
3.6 本章小结91
第4章 大规模云数据中心资源智能管理与调度关键技术92
4.1 基于深度强化学习的云数据中心集群资源智能调度方法92
4.1.1 深度强化学习基本原理92
4.1.2 基于深度强化学习的资源调度算法设计93
4.1.3 仿真环境中的测试结果分析98
4.2 成本能耗与服务质量平衡的数据计算密集型任务资源分配与调度方法101
4.2.1 数据计算密集型任务资源分配与调度方法101
4.2.2 系统架构与问题建模101
4.2.3 基于深度强化学习的任务调度方法102
4.2.4 基于深度强化学习的云资源分配策略103
4.2.5 服务质量感知的计算任务调度策略106
4.2.6 实验部署与性能评测107
4.3 多云数据中心的用户请求调度方法109
4.3.1 基于深度强化学习的多云数据中心调度策略110
4.3.2 用户体验感知的多云数据中心调度策略112
4.3.3 复杂约束下的成本优化策略115
4.4 基于模仿学习的深度强化学习训练优化方法119
4.4.1 模仿学习基本原理119
4.4.2 模仿学习训练优化技术120
4.4.3 基于模仿学习的云端资源自适应调度120
4.5 数据驱动的任务群并合智能调度技术124
4.5.1 并合调度框架125
4.5.2 并合调度算法设计与配置125
4.5.3 并合调度算法测试138
4.6 本章小结145
第5章 大规模云工作流智能管理与调度关键技术146
5.1 支持云工作流管理与调度的关键预测技术146
5.1.1 基于密集型宽度学习的容器资源使用量预测方法146
5.1.2 基于密集型宽度学习的改进型容器云资源的预测方法149
5.1.3 基于极限梯度提升的云工作流任务执行时间预测方法152
5.1.4 基于多维度特征融合的云工作流任务执行时间预测方法158
5.2 大规模云工作流动态优化调度技术164
5.2.1 基于用户优先级感知和花费约束的云工作流调度技术164
5.2.2 基于分布式策略多云工作流动态调度方法168
5.2.3 面向随机混合云工作流实时调度方法177
5.3 满足用户个性化需求调度策略186
5.3.1 基于云工作流结构和成本感知的预测调度算法187
5.3.2 基于改进非支配遗传算法的多目标云工作流调度方法198
5.3.3 基于强化学习策略的多目标云工作流调度方法207
5.4 本章小结212
第6章 云数据中心智能管理系统研制及应用214
6.1 云数据中心智能化管理与运维体系架构设计214
6.2 云数据中心智能管理系统及其应用215
6.2.1 大规模云数据中心运行数据管理子系统研制216
6.2.2 大规模云数据中心运行能效评估与预测子系统研制251
6.2.3 大规模云数据中心资源管理与调度子系统研制254
6.2.4 大规模云工作流智能管理与调度子系统研制286
6.3 系统集成——云数据中心智能管理系统294
6.3.1 大规模云数据中心资源管理与调度子系统集成294
6.3.2 大规模云数据中心运行能效评估与预测子系统集成294
6.3.3 大规模云工作流智能管理与调度子系统集成296
6.3.4 完整系统集成296
6.4 面向典型工业应用开展云数据中心智能化管理系统应用示范300
6.4.1 应用示范——设备故障诊断300
6.4.2 应用示范——无人驾驶车辆轨迹跟踪控制305
6.4.3 应用示范——智能废钢判级系统308
6.5 本章小结313
参考文献315
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证