第1章 绪论
在自然界中,当大量生物个体聚集在一起时,往往可以形成协调、有序,甚至震撼人心的运动场面,如海豚的合作捕食、大雁的集体迁徙以及狼群的狩猎行动等。受这些群体现象所表现出的自主、协调、稳定等特点的启发,美国麻省理工学院的Minsky提出了智能体(agent)这一概念,并将自然界生物群体中的每个个体的社会行为应用到工程和计算机领域中,从而实现对复杂实际问题的简单处理。由此可见,多智能体协同控制对于高效完成控制任务具有极其重要的理论意义与战略价值。本章*先介绍多智能体系统的基本概念以及研究意义,其次介绍多智能体系统协同控制的研究现状,然后给出本书的结构特点及内容安排,*后给出本章小结。
1.1 多智能体系统概述
多智能体系统是人工智能的一个重要分支,通常用于处理复杂的实际问题,而此实际问题往往是单个智能体无法处理的。近年来,多智能体系统越来越成为人工智能领域的核心。在人工智能领域著名的国际人工智能联合会议(International Joint Conference on Artificial Intelligence, IJCAI)上,IJCAI计算机与思维奖的获得者许多都来自多智能体系统这一前沿领域。近些年来,多智能体系统越来越受各国科研人员的重视,其已被应用于航空航天等重要领域(图1.1)。
图1.1 多智能体控制系统在航空航天等领域的应用
多智能体系统由很多个具备通信能力的智能体组成,通过智能体与其邻近智能体间的交流,使所有智能体趋于一致,协同实现单一智能体所无法实现的复杂任务。与此同时,多智能体系统的应用不仅仅局限于航空航天等领域,还可应用于消防救援中,如消防救援机器人(图1.2),它通过多个机器人间的信息共享,对周围进行快速搜索并实施救援。利用多智能体系统解决实际问题,可以将复杂的问题简单化,增加系统的抗干扰能力,并使系统的工作效率得到提升。
图1.2 机器人合作组织救援、安全防护
从系统阶数上看,多智能体系统可分为一阶系统、二阶系统和高阶系统[1-4]。多智能体系统可从结构上分为集中式、分散式和分布式三种[5-7]。集中式多智能体系统是一种自上而下的层次控制结构,由所选中的一个智能体统一控制整个系统。其优点是协调性较好,但存在动态性能较差等缺点。分散式多智能体系统是指每个智能体都是*立的,自主进行信息处理并决策。分散式多智能体系统具有良好的容错能力,但其缺点是对通信要求较高,实现系统的整体目标较为困难。分布式多智能体系统结合了前面二者的优点,同时具备容错性、实时性等优势,提高了系统的协调效率,因此广泛应用于实际工程中。
尽管多智能体系统在理论研究中取得了显著进展,但在实际应用中仍面临诸多挑战。例如,在执行协同任务时,多智能体系统需要应对通信资源有限、任务时间约束严格、智能体状态信息泄露、通信网络遭受攻击、潜在的碰撞威胁以及智能体间的合作-竞争关系等诸多挑战。为应对这些挑战,有必要对事件触发控制、固定时间控制、隐私保护控制、网络安全控制以及避碰控制等领域进行深入研究,进而突破多智能体系统控制技术的发展瓶颈,并推动其在实际场景中的广泛应用。综上所述,多智能体系统已成为控制领域的研究热点之一,正处于蓬勃兴起的研究阶段,可以应用于军事和民用等重要领域,因此需要进一步研究,以拓宽多智能体系统的应用领域。
1.2 多智能体系统协同控制研究现状
1.2.1 多智能体系统鲁棒协同控制
多智能体系统协同控制是指每个智能体通过与其邻近智能体进行通信,并根据自身状态信息,*终使所有智能体的状态趋于一致。多智能体协同控制通过智能体间的信息交换、任务分配、协同合作等来完成单个智能体所不能完成的复杂任务,具有自主性强、协调性高等特点,可以提升控制系统的鲁棒性、灵活性和可靠性。协同控制主要包括一致性(consensus)、编队(formation)、群集(flocking)、蜂拥(swarming)、聚集(rendezvous)等[8-12],其中一致性是多智能体协同控制的基础,其他行为都可以由一致性的概念衍生得到。在多智能体系统协同控制中,一致性控制和编队控制问题*为重要,本书主要针对这两种形为对多智能体系统的协同控制展开介绍。
鲁棒性是多智能体协同控制中一个基础且重要的性能指标,主要是指多智能体在外界干扰存在的条件下,仍能保证实现协同控制任务的能力。为提升多智能体协同控制的鲁棒性,通常可采用控制、滑模控制、自适应控制、神经网络控制等,其中滑模控制设计较为简单,具有快速响应、对参数变化及扰动不灵敏、无需系统在线辨识、物理实现简单等优点,在多智能体协同控制领域应用广泛。
一致性是多智能体系统协同控制的基础,这一思想于20世纪70年代在统计学领域被*次提出[13]。随后,文献[14]从系统理论的角度给出了一阶系统一致性问题的定义,并设计了线性一致性算法。进一步,文献[15]将一致性算法拓展至二阶多智能体系统。至此,有关多智能体系统的一致性控制研究逐渐走向成熟,有一阶系统、二阶系统、高阶系统的一致性控制研究;有线性系统、非线性系统的一致性控制研究[16,17];有连续系统、离散系统的一致性控制研究[18,19];有固定拓扑和切换拓扑的一致性控制研究[20,21]。考虑到多智能体系统的鲁棒性和抗干扰能力,文献[22]在一致性算法的设计过程中引入滑模控制,有效提升了系统的鲁棒性和对外部干扰的抑制能力。
编队控制是当前多智能体系统研究的重点,旨在通过智能体间的相互交流维持智能体的编队队形,在军事、民用等各个领域都具有良好的发展空间。多智能体编队尤其以多飞行器编队*为常见,如图1.3所示。针对无人机编队控制问题,文献[23]设计了基于群集行为的分布式多无人机编队控制和避障控制算法,但其未考虑无人机的抗干扰能力。基于此问题,文献[24]在编队控制器设计过程中引入滑模控制,有效解决了无人机编队过程中对外部干扰抑制的问题,但其在很大程度上依赖被控对象的精确模型,为解决这个问题,文献[25]提出了一种基于领航-跟随者模型的模糊控制算法来实现多智能体系统的编队控制任务,不依赖于被控对象精确模型,但其编队队形保持的稳定性不能得到保障。在多智能体编队控制的研究中,*重要的问题当属队形控制和保持问题。为了保证多智能体系统在编队过程中队形不变,需要对智能体编队飞行的控制策略进行深入研究。
图1.3 飞行器编队
从控制策略上编队方法主要分为主从式(leader-follower)方法、基于行为法(behavior-based)、虚拟结构法(virtual structure)、人工势场法(artificial potential field)等。主从式方法是较为简单的编队控制策略,其主要思路是领导智能体根据期望轨迹进行平稳运动,而跟随智能体通过与领导者交流获得其状态,并根据期望编队距离与领导者保持相应的编队队形。基于行为法的多智能体编队通常应用于机器人协同控制[26],其主要思路是针对智能体编队控制过程中存在的多种行为,如编队期望轨迹的跟踪、编队的避碰等进行加权,进而设计多智能体编队控制器。虚拟结构法是指通过设计一个虚拟的领导者协调其他智能体。人工势场法通过构造引力场函数来吸引智能体保持队形。
目前,基于一致性的多智能体编队控制已成为热门研究方向。一致性是指每个智能体通过与其邻近智能体进行通信,同时根据自身状态信息,*终使所有智能体的状态趋于一致。文献[27]提出实现智能体一致性的速度匹配原则:要求每个智能体的速度大小相同,方向根据邻近智能体的信息,按多智能体的平均方向进行更新。文献[28]和文献[29]根据代数图论进行分析,得到了智能体状态趋于一致的通信拓扑条件。考虑多智能体系统一致性的收敛时间,文献[30]和文献[31]设计了有限时间一致性控制方案。文献[32]采用虚拟结构方式,为二阶多智能体系统设计了一致性控制算法。文献[33]考虑到多智能体系统存在未知参数的情况,设计了自适应一致性控制器。文献[34]和文献[35]对多拉格朗日系统进行深入研究,为多智能体系统的协同控制提供了一般方法。文献[36]和文献[37]通过主从式控制方法为多智能体系统设计了编队控制器。文献[38]基于领航-跟随框架设计了滑模编队控制算法。文献[39]采用分层模型预测方法,在多无人机保持队形的同时,解决了障碍物躲避问题。文献[40]针对多无人机的时变编队问题,设计了基于一致性的多智能体编队控制器。文献[41]研究了多无人机的分布式编队问题,设计了基于滑模控制、系统存在输入饱和、基于动态面的三种不同编队控制方法并通过仿真进行验证。
1.2.2 多智能体系统事件触发协同控制
传统一致性控制假设智能体可连续获取其邻近智能体的状态信息,而智能体间的持续通信会使控制器连续更新,导致大量的资源浪费,需要足够的控制资源以及理想的通信环境支持。随着多智能体系统规模的扩大以及协同任务复杂性的提高,对控制资源及通信带宽提出了更高要求,而通信及控制资源总是有限的,因此上述理想情况在实际应用中并不可行。为了节省有限的通信及控制资源,避免不必要的通信传输及控制器更新,人们将采样控制引入多智能体系统的一致性问题中[42]。采样控制主要分为时间触发采样控制和事件触发采样控制。时间触发采样控制系统框图如图1.4所示,其根据所设定的时间常数,对系统的状态进行周期性采样。然而,这种以固定时间触发的采样方案会浪费大量的通信资源,且智能体自身携带的微处理器能量有限,很难适应大量数据以及频繁周期性数据的传输。因此,时间触发采样控制虽然可在一定程度上降低通信次数以及控制器更新次数,但效果不佳。基于此,事件触发采样控制被认为是可替代时间触发采样控制的一种方法,可有效节省通信及控制资源。
图1.4 时间触发采样控制系统框图
事件触发采样控制系统框图如图1.5所示。被控对象状态信息的采集是基于事件的而非基于时间或实时的,通过设计触发条件,只有当量测误差超过设计的触发阈值时,控制器才会更新,从而避免不必要的信息传输,节省通信及控制资源。
图1.5 事件触发采样控制系统框图
针对多智能体系统事件触发协同控制问题,文献[43]对分布式事件触发控制器进行了研究,并验证了事件触发框架适用于一阶多智能体系统。文献[44]讨论了二阶多智能体系统的事件触发一致性问题,但其智能体间的通信本质上是连续的。为减少智能体间不必要的数据传输,
展开