第1章绪论
本书基于现代控制理论的一个重要分支——微分对策理论,研究飞行器对抗中的决策问题。这包括制导律问题和机动控制决策问题,还包括双机对抗*优策略及其作战能力评价,同时也考虑了飞机相关系统的性能改善等问题。
20世纪50年代初,美国兰德公司的Isaacs博士主导了关于追逃博弈问题的研究。1965年Isaacs的专著Differential Games:A Mathematical Theory with Applications to Warfare and Pursuit,Control and Optimization[1]标志着微分对策理论的正式诞生。该书提出追逃博弈问题并研究了相关微分对策理论,包括定性微分对策问题及其中的界栅、截获区和躲避区等概念。其中给出了对策空间中某点是否位于截获区内的判定条件。Isaacs基于动态规划原理给出了对策值存在的*优性必要条件,称为Isaacs方程[2]。数学家Friedman[3]基于离散近似序列方法建立了微分对策值和鞍点的存在性理论,奠定了微分对策的数学理论基础。
20世纪60年代末,Starr和Ho等针对多人非零和微分对策问题讨论了不同的解概念,包括极小化极大(minimax)解、纳什(Nash)均衡解和非劣势组策略[3-6]。70年代,Roxin等[7]针对随机微分对策理论开展了研究。Nichols[8]讨论了*优控制同随机微分对策的关系。基于变分法和鞅理论的随机微分对策解的存在性和唯一性得到了深入研究[9-12]。同一时期,时延微分对策也成为研究的焦点[13-15]。80年代,主从微分对策成为研究的热点,其中跟随者角色需要根据领导者角色的策略来制订自身的对策[16]。90年代出现了多目标微分对策和模糊微分对策[17,18]。
2000年以来,微分对策理论的研究工作主要集中在多人、随机、状态受约束和信息不完备等方面。不完全信息博弈可转化为信息完全但不完美的博弈问题加以研究[19-22]。在该时期,国内涌现的早期微分对策领域研究专家包括张嗣瀛、沙基昌和李登峰等。张嗣瀛[23,24]基于现代控制理论研究并证明了定量微分对策的双方极值原理。沙基昌[25,26]采用微分对策研究了多兵种作战火力分配等军事对抗问题。李登峰[2]在国内*次对微分对策理论体系进行了系统性数学描述。
微分对策应用广泛,根据应用问题的特性可以划分为多种类型。例如,根据支付函数的形式,可以分为定性微分对策与定量微分对策;根据参与人各方的支付函数形式是否相同,可以分为零和微分对策和非零和微分对策;根据信息是否完整和准确,可以分为确定性微分对策和随机性微分对策;根据终端时刻是否指定,可以分为生存型微分对策和固定逗留期微分对策。微分对策问题的求解是理论研究和应用的一个难点,目前主要有包括解析方法与迭代方法在内的间接法,基于数学规划的直接法和包括自适应动态规划在内的智能算法。
除了军事领域应用之外,微分对策在经济学、生物学、计算机科学和人工智能等多个领域都有着广泛的研究和应用[27-31]。此外,微分对策方法也可以用于分析新型冠状病毒传播的关键影响因素[32]。同时,还能应用于协同创新体系的研究、网络安全分析和预警等领域[33-35]。
1.1微分对策问题
1.定量微分对策
定量微分对策中,各方参与人通过自身控制策略优化支付函数。微分对策不需要了解对手策略,而是考虑使*坏情况下的损失*小化。*优控制则要假设对手策略已知才能做出决策。
零和微分对策中的各方参与人针对同一个支付函数进行相反的优化控制。追逃问题是典型的零和微分对策,双方参与人通过各自的控制影响系统状态,使支付函数*小化或*大化。相应的支付函数通常为终端时刻相对距离或零控脱靶量,同时包含过程能耗乃至终端角度等指标。追逃问题可以分为固定逗留期微分对策问题[36-38]和生存型微分对策问题[39]。前者的终端时刻固定,而后者的终端时刻不固定,但终端状态可能需满足*小脱靶量等条件。
追逃微分对策在军事领域有广泛的应用,如航天器轨道追逃问题[40,41]、制导律研究[42-45]和飞行器对抗的机动控制策略[29,46-48]等。在航天器交会过程中,各个航天器都有自主决策和机动能力。此时,**制导控制理论、非线性制导理论和*优制导理论的效果在很大程度上受到对方航天器机动的影响[49]。相较之下,追逃微分对策是研究这种问题*为自然的方法。
追逃微分对策在制导律中的应用包括弹道导弹的机动突防和拦截问题[50]。因对手具有随意机动能力,飞行规律难以预知,此时*优控制无法给出有效控制策略。然而这种问题本质上是一种动态博弈,因此可使用追逃微分对策方法加以研究。在支付函数中增加终端时间和角度约束,可以实现追方以给定角度约束接近逃方的制导律[51,52]。若存在多名追方,且按照不同角度接近逃方,则可以有效压缩逃方的逃逸策略空间,提高捕获概率[53]。
多弹协同制导是典型的多对一追逃问题,可用于拦截大机动目标的制导律设计方面[54,55]。在多对一追踪问题中,不同的追方个体可以采用不同的策略并相互配合。例如,通过建立使追方总体相对距离*小化的合围支付函数,可达到追方对逃方进行圆形包围和捕获的效果[56]。
主动防御问题是追逃问题的一种扩展形式,在近些年成为理论研究所关注的一个热点[57]。该问题涉及三方参与人:追方、逃方和防御方。追方试图捕捉逃方,逃方则与防御方合作以躲避追方或使防御方拦截追方。在这个过程中,防御方与逃方相互配合,起到对追方进行干扰和阻截的效果。主动防御问题可以衍生出多种复杂变体问题,如多名防御者阻止多名进攻者到达一个静止目标位置。此时可以建立配对算法,并采用分而治之的方式,将原问题动态拆分为一防一攻或一防二攻的追逃问题加以研究[58]。主动防御问题有多种衍生形式,如追方可以有多名,而逃方和防御方各有一名[45]。防御方的数量也可以不限于一个,而是有多个。此时通过分组配对可以设计追、逃、防三方的控制策略[59]。目标的数目也可以有多个,这种情况下防御方需要阻止追方接近任何一个目标[60]。
防御方和逃方的相互配合是一种非零和微分对策。非零和微分对策还可以应用于协同制导和编队控制等问题。例如,可采用微分对策实现无领队情况下的编队航向角自主协同控制[61]。在编队成员相互协同过程中考虑Nash均衡策略和网络几何属性,可间接实现期望的编队模式[62]。在编队微分对策问题中增加障碍距离函数项,可在编队飞行时进行避障[63]。
在飞行器对抗应用中存在双角色微分对策问题,即参与人不是单一的追方或逃方[64-66]。它们互有攻守,都需要在避免被对方毁伤的条件下达到毁伤对方的结果。这种双角色微分对策问题中的参与人虽然有两个目标,但不适于用多目标优化中的帕累托前沿理论进行研究。
理论研究中多假设信息是完全且完美的。但是在实际过程,参与人很难获知其他人的完整、准确信息。因此,不完全信息的微分对策理论是研究重点之一,如随机微分对策[67-69],其中的支付函数通常为随机泛函的期望值。针对只知道状态方程结构而不知道其中函数具体形式的问题,可采用龙伯格(Luenberger)类型微分神经网络[70-72]来观测学习未知的函数,通过这种方式处理微分对策中的信息不完整性[73]。针对后向线性二次非零和随机微分对策问题,可以通过耦合正倒向随机微分方程解的理论得到纳什均衡解[74]。对于飞行器对抗问题,由于各方模型结构较为确定,所以可采用扩展卡尔曼滤波等*优估计方法消除信息的不完整性。在追逃问题中,当初始相对位置不确定时,基于确定性微分对策做蒙特卡洛仿真,可以将初始相对位置映射为捕获地点和捕获时间,并为控制决策提供依据[58]。通过为每个参与人建立关于其他参与人的信念的方式,可以将不完整信息博弈问题转换为不完美信息博弈问题[75]。
2.定性微分对策
定性微分对策中,参与人通过优化自身的控制策略来使支付函数满足某种性质,从而达到想要的结局。Isaacs[1]在其著作中提出杀人司机问题(homicidal chauffeur problem),采用定性微分对策方法研究了相应的界栅和*优决策。界栅是一种半透面,将对策空间中目标集以外的部分划分为截获区和躲避区的时间相关超流形[76-78]。截获区在一些研究中也称为可达集[79,80]。在截获区中,假设逃方采取任意可行策略,追方都存在相应的策略,从而使得逃方被拉进自己的目标集中,*终实现捕获逃方的目标;在躲避区中,假设追方采取任意可行策略,逃方都存在相应的策略,使自身得以避免进入追方的目标集,*终实现逃脱的目标。在界栅上,追逃双方需要按照界栅处的*优控制进行决策,否则如果逃方不采取*优策略而追方采取了*优控制,则逃方将进入追方的截获区。反过来,如果系统状态位于界栅上时,追方没有采取*优机动,则逃方有机会进入躲避区。因此,双方在界栅上的对抗尤为激烈。
针对追逃问题,可以采用定性微分对策研究相关界栅及其上*优机动策略[81-85]。针对截获区和躲避区内的机动控制策略,*先可以判断当前状态点是否位于截获区、躲避区或界栅上,其次在不同区域中采用具体的定性微分对策方法来制订策略。定性微分对策的应用研究重点包括界栅计算与可视化,以及界栅上的*优控制策略计算[86-95]。在实际应用中,各方参与人的运动能量是有限的,由此衍生出有限时间局部截获区和有限时间局部危险区概念及相应的计算方法[96-99]。对手的截获区即自己的危险区,通过计算危险区可以给出空中避撞控制和路径重规划的准则[100]。界栅和截获区的计算也可以为攻击占位提供决策依据[101]。此外,参与人在博弈过程中可能受到路径约束的限制,如安全走廊,或对策空间中存在障碍物,此时对界栅、截获区和躲避区的分析需要考虑具体情况[87,89,92,102-104]。
和定量微分对策相似,定性微分对策问题形式也十分丰富。例如,可以反转杀人司机问题中行人和司机的角色[105]。再如,针对在特定区域内的一对一和多对一间谍抓捕问题,可以建立界栅及各个区域的*优控制策略,使得追逃双方在自己的截获区中必然能够达成逃逸或抓捕的目标[106,107],也可以先研究一对一情况下的截获区,*后基于几何方法对这些区域进行合成处理[108]。一个例子是二人突防炮塔问题,其中以一名突防队员或无人系统作为诱饵,来提高另一名队员的突防成功率。根据制定的突防策略,可以计算出对策空间中划分胜负结局对应区域的界栅[109]。此外还有二追一逃的三人生命线定性微分对策问题[110]。基于分解-合成的定性微分对策方法还应用于二对一追逃问题[111,112]。针对主动防御问题,可以采用定性微分对策方法讨论攻防双方获胜区边界,以制定*大化各自截获区的*优策略[113]。和定量微分对策相同,定性微分对策也存在着信息不完整和不完美的情况与相应的处理方法[114]。值得一提的是,在追逃微分对策中,若逃方也具有攻击追方的能力,则在一定态势条件下,追逃双方的角色将会互换。可以将这种参与人同时具有追、逃两种角色的问题称为双目标微分对策或双重角色微分对策[115,116]。
定性微分对策除了计算界栅之外,还可以对对策空间进行几何剖分,以确定追逃双方的控制策略,确保期望结局的发生[117,118]。在主动防御问题中,采用阿波罗尼斯圆的方法可以在理论上确保防御方在追方抵达目标之前将其拦下[106,119-121]。这种基于几何方法的定性微分对策理论非常直观、易于理解和应用,但这类方法需要根据具体问题进行分析和构造。基于界栅的定性微分对策理论更为通用,然而其理论和计算过程却较为复杂。
1.2求解算法
求解算法是微分对策应用研究中的重点和难点。定性微分对策问题的计算集中,在界栅*面及其上的*优控制方面,主要包括目标集上可用部分边界的确定和采
展开