第1章 概述
1.1 研究意义
多模态智慧网络以网络结构全维可定义为基础,是一种网络各层功能多模态呈现的网络架构,支持路由寻址、交换模式、互连方式、网元形态、传输协议等的全维度定义和多模态呈现,支持互联网的演进式发展,从根本上满足网络智慧化、多元化、个性化、高鲁棒、高效能的业务需求。
现有的互联网是一种刚性架构,已经无法再继续以打补丁的方式来满足垂直行业的定制化需求,现有网络基础架构及由此构建的技术体系在智慧化、多元化、个性化、高鲁棒、高效能等方面面临一系列重大挑战,制约了其在更广更深层次上支撑经济社会的发展。
面向专业化、个性化服务承载需求,基于全维可定义的网络结构进行网络各层功能的多模态呈现。各种网络模态间的互联互通、协同组合、无缝切换,可提高网络服务的多元化能力和对于用户个性化需求的适应能力。
在此,多模态体现为寻址路由、交换模式、互连方式、网元形态、传输协议等网络要素的多种模态,其中,寻址路由体现为基于互联网协议(internet protocol,IP)、内容、身份、地理空间等标识的多种寻址路由模态,交换模式体现为分组交换、新型电路交换等模态,互连方式体现为光纤、同轴线等有线链路或Wi-Fi、长期演进(long term evolution,LTE)技术等无线链路模态,网元形态体现为骨干级、汇聚级、接入级等的各种功能、性能、外形等不同的各种节点模态,传输协议体现为面向各种业务、场景、功能等需求的网络协议。
全方位覆盖能力包含全方位空间覆盖能力和全方位场景覆盖能力。全方位空间覆盖能力以多样化通信手段为基础,使网络互联范围延伸到自海底至深空的宽广空间范围,形成覆盖陆、海、空、天等的超广域互联网络;全方位场景覆盖能力能够适应不同应用场景的需求,实现地域性高密度大容量覆盖、混合接入速率覆盖等,强化网络的服务场景适应能力。
针对工业控制、远程医疗、智能家居等新兴产业的发展需求,通过全方位解构网络功能要素,包括网元设备、协议控制、承载方式和网络接口等全要素的开放和结构定义,可以显著地增强网络对上层业务需求的适应性。灵活组合各种网络元素,*终能够实现对具有高可靠性、低时延、全息信息传输、大容量和巨连接等全业务承载的能力。
网络功能的不断丰富化、多样化为网络管理和网络运维带来巨大挑战。引入网络智慧化管理控制机制,一方面可以减少网络对人工管理的依赖,实现自动化的功能定义及资源规划,提高网络运维效率;另一方面,网络智慧化也可以基于人工智能(artificial intelligence,AI)等技术发现网络的*优化资源配置和运维策略,突破传统算法局限性,提高网络资源利用率和服务效率。
网络的内生安全性能够以内生防御的网络构造机制应对网络中软硬件设计过程中不可避免的安全漏洞及后门等安全威胁,从网络构造层面将传统网络的附加式安全模块替代为网络内生性安全能力,实现“高可信、高可用、高可靠”三位一体的网络安全服务。
AI作为计算机科学的重要分支是国内外科学研究的热门领域之一。许多国家纷纷出台鼓励AI发展的有关政策,将AI作为国家重要的发展战略,众多高校、研究机构和企业都加大了对AI研究的投入力度。*近,我国在《新一代人工智能发展规划》中明确提出将群体智能作为重点研究方向,即通过多个智能体联合行动,通过相互协作来完成大多中心化方法不能处理的任务。深度强化学习(deep reinforcement learning,DRL)作为AI领域中的重要技术,其通过智能体与环境进行交互并学习从状态到行为的映射,以不断试错的方式获得*大化奖励并完成具体目标。DRL 模型结合了深度学习(deep learning,DL)的感知能力和强化学习(reinforcement learning,RL)的决策能力,其中,单智能体DRL在多个领域的成功应用推动了多智能体深度强化学习(multi-agent deep reinforcement learning,MADRL)的发展。MADRL已成为实现群体智能的重要技术之一。MADRL系统中智能体可各自按照目标和任务进行自主决策,也可以通过协作赋予整个系统更强大的功能,从而完成更复杂的任务,MADRL具有广阔的发展前景及巨大的应用价值。
多智能体系统面临状态维度呈指数级增长、环境非稳态和节点状态部分可观测等问题,这使得MADRL在面对大规模复杂场景时的适应度方面遇到了明显的瓶颈。为了解决上述问题,MADRL模型需要构建高效的特征提取、信息融合和多粒度的奖励函数模块来提升智能体的知识水平和决策能力,解决传统MADRL模型无法适应智能体变化场景、难以在实际中得到有效应用的问题。建立具有多粒度、多头自注意力、多通道的MADRL模型有许多好处:智能体可以获取其他智能体的观测信息和意图,从而动态地调整自身策略,获得更高的系统奖励;解决在部分可观测环境中智能体只能观测到自身的局部状态信息等问题,提高系统的决策水平;实现智能体对其他智能体策略变化情况的感知,从而解决多智能体场景中的非稳态问题。在多智能体场景下构建新型的DRL模型可以更准确合理地建立和刻画智能体之间的关系,从而更高效地实现智能体之间的联系,同时,可提升智能体间协作性能并解决MADRL 中的一些问题。
MADRL具有较强的通用性,被认为是迈向通用人工智能(artificial general intelligence,AGI)的重要途径。利用多智能体一致性的组织、表示、通信等特点,通过定义不同类别的智能体,构成智慧网络的不同智能成员(包括终端智能体、边缘计算智能体和云计算智能体),实现智慧网络管理。然而,在设备需求异构、数量丰富、拓扑易变背景下,如何实现多设备间的协同、模型优化和多任务学习是MADRL面临的主要挑战。目前,MADRL与人类学习的水平还有较大的差距,因为人类只需要相对较少的经验就能有较合理的表现,而MADRL模型通常需要大量的训练数据进行学习,并且人类可以灵活地适应不断变化的任务条件,而MADRL通常专用于特定的任务领域。这就造成了MADRL智能体在遇到新任务时,需要大量样本与环境进行交互,样本复杂度高,训练时间很长,算法难以收敛。为了弥补MADRL 等 DRL 技术无法快速适应的弊端,元学习孕育而生。近些年来,虽然有大量研究者开始研究整合 DRL 和元学习,但少有针对基于边缘计算的MADRL和元学习的智能体快速适应算法及智能体持续学习算法的研究,而该算法的研究不仅有助于推动MADRL向AGI的方向发展,同时也能满足多任务网络场景的需求。
MADRL 在理论、应用等方面都有不错的进展,但在智慧网络通信资源分配应用中还是面临着许多挑战,尚处于起步阶段。网络的智能化已成为必然的趋势和当前众多领域的研究应用热点。相关部委、研究机构和各类企业对智慧网络的发展布局力度逐步加大,并积极致力于推进相关技术领域的研发、标准制定和商业化进程。然而,在资源受限的网络节点运行DRL模型面临着极大的挑战,制约了MADRL的落地和规模化应用。基于边缘计算的智慧网络架构能够兼顾传统网络的泛在感知和处理特性,也能解决加入AI之后对存储与算力的要求。边缘计算(edge computing,EC)技术的加入为本地计算资源不足的问题提供了新的机遇。此外,云边端融合计算可为资源受限场景提供新的高效计算模式。将MADRL的中心化训练分布式执行(centralized training with decentralized execution,CTDE)的训练框架与云边端融合的高效计算模式进行整合,通过云边端融合的MADRL模型分割计算框架可以将MADRL模型功能合理切分,分别部署在云-边-端上,三者协同有助于模型的进一步优化和更好地完成智慧网络高效资源分配的决策任务。
综上所述,关于MADRL相关技术的研究已成为学术界和产业界的重点研究方向。然而,对于针对资源受限场景下MADRL模型及关键技术的研究,现有算法没有充分地考虑到终端算力受限的场景下MADRL模型的部署问题,以及模型的可扩展和可迁移性。因此,本书旨在结合边缘计算、多头自注意力机制和元DRL算法,来设计适应于资源受限场景下的MADRL模型及架构,在减少通信开销的情况下,让智能体获取其他智能体的观测信息和意图,从而动态地调整自身策略,获得更高的系统奖励;针对MADRL中的非稳态问题,设计基于自注意力机制的信息融合协助智能体对其他智能体策略变化情况的感知;针对多任务场景,进一步拓展原有算法的应用领域,克服原有算法的缺点,本书研究成果对未来智能物联网(internet of things,IoT)、多智能体仿真、无人驾驶、智能游戏、智能机器人领域有实际的意义。
?1.2 应用前景
目前,MADRL技术有着广泛的应用,如足球机器人、游戏AI、自动驾驶等。随着DRL在语音识别、文本翻译和目标检测等领域的发展,多智能体强化学习同这些领域技术逐步融合,取得了许多成果,并在多个应用场景实现了落地。
智慧网络领域:随着AI技术的不断突破,如自然语言理解,一方面,需要通过联网实现在线语言处理,另一方面,也会简化未来人机交互。这会对产业有很大的影响,未来的智慧网络一定会是和人工智能的紧密结合。目前AI已经在多个行业展现出巨大的发展潜力,而智慧网络作为未来网络的重要发展方向,AI和智慧网络的结合必然会对这个行业产生颠覆性的改变。
游戏领域:MADRL在游戏领域取得了令人兴奋的成绩。Google Deep Mind团队开发的Alpha Go系列围棋程序击败了人类顶级围棋选手,提出的深度Q网络(deep Q-network,DQN)算法在多种Atari游戏中成功地超越人类专业玩家。OpenAI研发的游戏机器人能够在比围棋更复杂的游戏Dota2中击败人类专业玩家。由此可见,将MADRL应用于多种复杂游戏环境中,能够提升DRL算法的通用性和智能体的决策能力。
**系统:**系统是工业界*推崇的机器学习技术之一,好的**系统可以带来大量的流量和营收。**系统是一个历史悠久而又热门的研究领域。近年来,基于DRL技术的**系统在尝试挖掘用户的新兴趣爱好方面取得了进展,不仅能被动地迎合用户喜好,而且完全可以主动地创造用户的兴趣点。
物联网是实现行业数字化转型的重要手段,并将催生新的产业生态和商业模式。目前,物联网正经历着从互联向智能,从智能向自主的演进。AI技术在其中发挥着越来越大的作用。AI让物联网拥有了“大脑”,使“物联”提升为“智联”,而物联网则给予AI更广阔的研究“沃土”,促使AI走向“应用智能”。然而,基于物联网的行业应用有各种各样的业务要求,如传输时延、传输带宽、数据安全、数据聚合、数据处理、数据分析和智能决策等,其中,对实时性、高带宽和安全性等有着非常高要求的应用都迫切需要尽可能地在靠近网络的边缘侧提供集中的智能管理控制功能。
AI促进智慧网络发展,而资源管理调度是智慧网络的关键技术。基于MADRL的资源管理调度可满足智慧网络多样化、差异化的通信需求,实现合理部署通信基础设施及设计多网接入机制,是提高网络单元信息交互实时性和可靠性的重要保障。此外,MADRL在智慧网络、无人驾驶、交通运输调度、电力系统优化、分布式传感网络及金融和社会学等领域还有大量的应用研究。MADRL技术的发展及应用有助于构建具有自组织、自学习、自适应、可迁移、持续学习能力的多智能体系统,具有非常重要的研究意义和广泛的应用前景。
?1.3 国内外研究现状及评价
?1.3.1 国内外研究现状及发展趋势
DRL在增强智能体能力方面有着巨大的潜能,同时也为多智能体协作提出了新的挑战与机遇。如何在不同的环境状态下,使得多个DRL智能体能够进行快速、有效的相互协作,完成更加复杂的任务,已成为机器学习领域及AI领域一个炙手可热的研究课题。当前,国内外研究学者
展开