搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
非合作博弈Nash平衡实现算法--基于群智能和学习机制的视角/运筹与管理科学丛书
0.00     定价 ¥ 88.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787030806352
  • 作      者:
    作者:贾文生//刘露萍|责编:李静科//孙翠勤|总主编:袁亚湘
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2025.06
收藏
内容介绍
Nash平衡是非合作博弈的核心概念之一,如何实现Nash平衡已成为国际博弈论领域的研究热点和前沿之一。《非合作博弈Nash平衡实现算法:基于群智能和学习机制的视角》主要围绕矩阵博弈、双矩阵博弈、广义博弈、主从博弈、多目标博弈、随机博弈和平均场博弈等非合作博弈模型的Nash平衡实现开展研究,借鉴了群体智能和学习机制的思想,分别设计了免疫粒子群算法、协同免疫量子粒子群算法、混沌鲸鱼黏菌算法、改进精英机制多目标遗传算法、*小化后悔值学习算法、短视调整过程学习算法等,并深入探讨了群智能和不同学习机制实现非合作博弈模型Nash平衡的理论和应用。《非合作博弈Nash平衡实现算法:基于群智能和学习机制的视角》内容涵盖了非合作博弈的主要模型,特别是涵盖了关注度较高的多目标博弈、随机博弈和平均场博弈等模型,并且融合了数学、计算科学、博弈论与信息经济学、生物学等多学科特点,是非合作博弈模型Nash平衡实现方面的探索和尝试。
展开
精彩书摘
第1章预备知识
  1.1引言
  随着互联网、信息技术的飞速发展,博弈论(game theory)作为研究个体或者团体之间利益冲突与合作的理论,是分析局中人交互和决策行为的重要工具.Von Neumann和Morgenstern于1944年的专著《博弈论与经济行为》(Theory of Games and Economic Behavior)已经成为博弈论研究的奠基之作,该书中提到W:“博弈论是建立经济行为理论*恰当的方法1950年和1951年Nash发表了两篇关于非合作博弈的重要文章,其中借助Brouwer不动点定理和Kaku-tani不动点定理证明了N人非合作有限博弈均衡点的存在性,后来被人们称为Nash均衡,并逐渐成为非合作博弈的核心概念之一.1994年,Harsanyi、Nash和Selten—起获得诺贝尔经济学奖.之后诺贝尔经济学奖先后7次授予博弈论研究与应用的学者,分别是1996年Mirrless和Vickrey,2001年Akerlof、Spence和Stiglitz,2005年Aumann和Schelling,2007年Hurwicz、Maskin和My-erson,2012年Roth和Shapley,2014年Tirole,2020年Milgrom和Wilson.博弈论在理论和应用上得到了空前发展.博弈论作为经济学的标准分析工具之一,在生物学、政治学、管理学、社会科学、大数据和人工智能等领域都有着广泛的应用.
  Nash平衡意味着在此策略组合下每个局中人都没有单*改变策略的动机.但令人遗憾的是,Nash平衡往往不止一个,甚至有无穷多个,这就构成了Nash平衡的多重性.著名学者Pudenberg和Levine在《博弈学习理论》(The Theory of Learning in Games)中指出:“由于博弈局中人的理性程度不同,策略交互行为的复杂性使得作为沟通的各个策略集的反应函数并不是一一对应的关系,而是一个集值映射,这是Nash均衡非唯一性的本质原因Nash平衡的多重性带来的不仅是均衡点集的稳定性问题,还引导出了Nash平衡如何实现的关键问题.Nash平衡是如何实现的?正如博弈论学者Aumann提到的“既然博弈论提出多重解的概念,其意义何在?哪一个解是正确的?人们真实的行为是什么?如果有人持有以上观点,那么博弈论也就失去了它的魅力,因为没有一个解会告诉人们的真实行动是什么博弈论学者Birnnore也指出“均衡选取问题可能是现代博弈论所面临的*大挑战因此,大量学者已经从Nash平衡的精炼和选取方面研究并试图解决这一难题.1959年,Aumann为N人非合作博弈提供了强均衡的概念1975年,Selten通过考虑博弈策略集的扰动提出了完美均衡的概念[13].针对Selten关于正则博弈的完美均衡,1978年,Myerson对其进一步精炼提出了恰当均衡的概念[14].1962年,吴文俊和江嘉禾通过考虑N人非合作有限博弈支付函数的扰动提出了本质均衡的概念[15],并证明了任意非合作有限博弈可以用一列本质博弈来任意逼近.Kohlberg和Mertens[16]用公理化和代数几何的方法证明了任一N人非合作有限博弈,其均衡点集的连通区必为有限个,其中至少有一个是本质的.俞建等用非线性分析方法证明了一般N人非合作博弈Nash平衡点集本质连通区的存在性,这不仅推广了**的Kohlberg和Mertens的主要结论,而且给了它一个新的证明方法.此外,俞建等还研究了广义博弈、多目标博弈以及广义多目标博弈等平衡点集本质连通区的存在性和稳定性,相关文献可参考[17-23].
  Nash平衡的实现是基于局中人的有限理性构建一种合理的学习规则使得局中人能够预测到同一确定的Nash平衡.针对Nash平衡的实现问题,即Nash平衡如何形成及形成的路径仍然是一个尚未解决且重要的研究课题.Nash平衡的实现需要局中人按照一定的步骤逐步加以预测,以前Nash平衡的实现通常等价于一个较容易求解的问题,比如优化问题、不动点问题、变分不等式问题、多项式方程问题和非线性代数方程组问题.然而,Nash平衡实现所需要的完全理性与实际问题中的决策者知识和计算能力的局限性往往存在一定的偏离,纯粹的等价转化有些过于理想.由于博弈局中人的理性程度是不一致的,甚至是有冲突的,因此寻求一种基于局中人理性的学习算法是很有必要的.Nisan等_的《算法博弈论》(Algorithmic Game Theory)总结了博弈均衡的可计算、算法设计、计算复杂性、机制设计等研究成果,吸引了大量数学家、经济学家和计算机科学家对博弈问题均衡实现的研究.一般地,博弈问题的Nash平衡实现主要被分为两大类:一类是传统的纯数学分析算法,主要借助于LemkeHowson算法投影梯度算法[26]、信赖域优化算法和同伦算法[27]等技巧来计算和分析,这类算法对函数可微性、凹凸性等性质要求较高,然而由实际问题建立的博弈模型往往不一定满足这些要求.Nash平衡的求解是一个NP难问题@1,博弈规模越来越大,传统的计算方法面临着计算复杂度高和计算时间长的问题.另一类是基于个体理性与集体理性的学习机制算法,比如基于群体智能算法方面,它是受生物机制启发的一类学习算法,其主要特点是模拟生物群体智能选择行为的属性,蕴含了生物体之间学习和合作的特性因此,Nash平衡实现问题是重要的,尝试设计不同学习机制算法去实现博弈Nash平衡有待进一步探索和研究.
  随机博弈(stochasticgame)是描述博弈论中一类由一个或多个局中人所进行的、具有状态转移概率的动态博弈过程,由Shapley于20世纪50年代初期提
  出强化学习是一种重要的学习方法,是智能体通过不断地与环境交互,利用环境反馈的奖励信号,学习从一个环境状态到行为映射关系的过程,以使决策可以有*大化回报.许多学者将多智能体强化学习建模为随机博弈.Asienkiewicz和Balbus岡研究了在一定条件下随机博弈Nash平衡的存在性.Shoham等[33]讨论了一般和随机博弈NashQ学习.因此,Q学习和各种改进学习算法在随机博弈Nash平衡的实现中扮演着重要的角色.Bowling和Veloso[34]提出了合理性和收敛性是随机博弈中多智能体学习算法的两个理想特征,但是大多数多智能体强化学习算法要么缺乏严格的收敛保证,要么仅在强假设(例如存在唯一Nash平衡)下才可能收敛,或者在所有情况下都证明不收敛.Hu等研究了NashQ学习算法,并将多智能体学习扩展到非合作一般和随机博弈中,NashQ学习满足合理性,但是很多情况下不收敛.Littman基于Nash<3学习提出了朋友或敌人<5学习(friend-or-foeQlearning,简记为FFQ)算法,FFQ算法收敛,却通常不够理性.在这两个算法的基础上,Greenwald等提出了既收敛又具有整体理性的相关均衡算法[37].但大多数强化学习算法要么缺乏严格的收敛性证明[38],要么仅在很强假设条件下存在唯一的Nash平衡I39],或者在动态情况下不收敛强化学习是从交互中进行学习,学习者需要能从自身经验中学习.将强化学***融入到博弈论中,设计有限理性学习机制算法实现博弈的Nash平衡,同时评估学习机制算法收敛性和合理性方面的研究是很有必要的.值得注意的是,Blum等[41]研究了*小化后悔(regret minimization)值学习的复制动态,表明了如果所有智能体都*小化自己的外部后悔,那么在Wardmp模型路由博弈中,总体流量可以收敛到近似Nash平衡.Klos等利用多项式权重学习推导了*小化后悔值的动力学,预测了N人非合作博弈中的真实学习行为.Hansen等@研究了无后悔的概念去衡量收敛性,这是一个新的标准用来评估零和自博弈中的收敛情况.*小化后悔值的核心思想是局中人在学习过程中采取动作后获得回报,局中人可以回顾迄今为止采取的动作和回报的历史,并且局中人后悔没有采取另一个动作,即事后看来*好的动作.因此,研究一种*小化后悔值学习算法实现随机博弈的Nash平衡是很有必要的.
  为给具有连续局中人的连续时间随机博弈提供一个框架,加拿大McGill大学PeterCaines团队[44]于2006年以及菲尔兹奖得主Lasry和Lions[45]于2007年分别*立地提出了平均场博弈.平均场博弈研究的是微观个体和群体分布之间的博弈策略,主要特点是群体分布由大量微观个体的决策行为所决定的,即微观个体的决策影响着群体分布,而个体的决策又受到群体分布的影响.平均场博弈作为连续局中人之间的博弈,通常被建立为一个*优控制问题,局中人代表对测度流作出反映,从而使得局中人在*优状态下的群体分布与测度流一致.Gueant通过使用Hermite多项式研究了一类平均场博弈的初始和终端条件的扰动,证明了基于扩散模型的稳定性结论.Adlakha和Light等研究了当转移概率和回报单调时,平均场博弈模型参数丨例如在局中人引入激励措施)扰动下的稳定性.近年来,Neumann[491利用Fort定理证明了在Baire分类意义下,有限状态和有限动作空间平均场博弈平稳平均场均衡的存在性,并研究了大多数平稳平均场均衡是本质的.众所周知,良定性是优化领域相关问题研究的一个重要课题,它主要被分为Hadamard良定性和Tikhonov[51]良定性两种类型.Hadamard良定性考虑了解对问题参数的连续依赖性,而Tikhonov良定性意味着任何近似解序列必须有一个收敛到唯一精确解的子序列,其中Levitin和Polyak^针对渐近序列不一定在可行域内的优化问题提出了Levitin-Polyak良定性的概念.关于良定性的问题,俞建等在文献[53-56]中从有限理性的角度为非线性问题的良定性提供了一种统一的方法,获得了一些新的良定性结果.因此,本书利用俞建给出的良定性研究方法继续研究平稳平均场均衡的良定性,另外,除平均场博弈均衡点集的稳定性研究外,基于学习机制的平均场博弈均衡实现也是一个备受关注的热点问题.NemnaimM介绍了有限状态和有限动作空间平均场博弈的一种自然学习规则,即短视调整过程学习.假设在给定当前群体分布的情况下,局中人在选择*优策略时群体分布是恒定的.在这种情况下,对于所考虑的优化问题,总存在一个*优的稳定策略,并自然地假设局中人选择了这样的稳定策略[58LMouzounil59!介绍了一种短视调整的学习过程,当哈密顿量函数和Licms-Lasry条件单调时,如果初始分布足够接近平均场博弈的均衡,则群体能自发地呈指数快速收敛到平均场博弈平稳平均场均衡,进而设计短视调整进程算法实现平均场博弈平稳平均场均衡及其轨迹路径具有重要的研究意义.
  1.2 Nash平衡的算法概述
  1951年,Nash证明了N人非合作有限博弈Nash平衡的存在性,但令人遗憾的是,Nash并没有给出求解博弈问题Nash平衡的算法.围绕Nash平衡的算法,许多学者做了大量的工作,提出了许多卓有成效的算法,参见.然而Nash平衡的计算是一个NP难问题,随着博弈规模的越来越大,传统的方法面临着计算复杂度高和计算时间长的问题.近年来随着智能算法研究的不断深入和发展,智能算法在解决NP难问题上体现出了强大的优越性,人们纷纷尝试利用模拟退火、禁忌搜索、遗传、免疫、粒子群等智能算法来求解博弈的Nash平衡点,产生了大量的研究成果,见[29,60~66].因此,借鉴生物进化理论和生物行为规律的智能算法来计算和模拟博弈均衡解的动态实现过程已成为研究博弈问题均衡解的一种新的途径和方法.
  博弈论自产生以来已经被广泛应用于计算机科学和人工智能领域,比如围棋、得州扑克、区块链技术、数字经济、无线通信中资源分配、机器人编队控制,包括问题分析、建立模型、算法编程与设计等项目,其中尤为重要的是设计学习机制算法.近年来,人工智能和计算机科学的发展为博弈模型的研究提供了技术支持,从“深蓝”到AlphaGo,再到
展开
目录
目录
《运筹与管理科学丛书》序
前言
第1章 预备知识 1
1.1 引言 1
1.2 Nash平衡的算法概述 4
1.3 群智能与仿生算法 6
1.3.1 粒子群优化算法 6
1.3.2 黏菌算法 9
1.3.3 差分进化算法 12
1.3.4 模拟退火算法 14
1.4 几类学习机制概述 15
第2章 N人非合作有限博弈Nash平衡实现算法 21
2.1 引言 21
2.1.1 N人非合作有限博弈 21
2.1.2 一般N人非合作博弈 23
2.2 免疫粒子群算法求解双矩阵博弈的Nash平衡 24
2.2.1 免疫粒子群算法的思想及其实现步骤 24
2.2.2 算法性能评价 26
2.2.3 数值实验结果 26
2.3 自适应小生境粒子群算法求解双矩阵博弈多重Nash平衡 29
2.3.1 自适应小生境粒子群算法基本思想及其实现步骤 29
2.3.2 数值实验结果 32
2.4 本章小结 34
第3章 广义博弈Nash平衡实现算法 35
3.1 引言 35
3.2 广义博弈模型和转化 36
3.3 协同免疫量子粒子群算法求解广义博弈Nash平衡 38
3.3.1 协同免疫量子粒子群算法思想和实现步骤 38
3.3.2 协同免疫量子粒子群算法性能评价和收敛性证明 40
3.3.3 数值实验结果 43
3.4 混沌鲸鱼黏菌算法求解广义博弈Nash平衡 46
3.4.1 鲸鱼优化算法思想和实现步骤 46
3.4.2 混沌鲸鱼黏菌算法思想和实现步骤 47
3.4.3 收敛性分析及性能评价 49
3.4.4 数值实验结果 53
3.5 本章小结 56
第4章 主从博弈Nash平衡实现算法 58
4.1 引言 58
4.2 主从博弈模型 59
4.3 双层免疫粒子群算法求解主从博弈Nash平衡 62
4.3.1 双层免疫粒子群算法的实现步骤.62
4.3.2 主从博弈双层免疫粒子群算法性能评价 64
4.3.3 数值实验结果 64
4.4 本章小结 69
第5章 多目标博弈Pareto-Nash平衡实现算法 70
5.1 引言 70
5.2 多目标博弈模型 71
5.2.1 多目标集结博弈模型 72
5.2.2 基于熵权法的集结博弈模型 73
5.3 SNSGA-II求解多目标博弈Pareto-Nash平衡 75
5.3.1 SNSGA-II的设计 75
5.3.2 性能指标 78
5.3.3 数值实验结果 79
5.4 改进差分进化算法求解多目标博弈Pareto-Nash平衡 88
5.4.1 ADEP算法求解单目标博弈的Pareto-Nash平衡 88
5.4.2 改进差分进化算法求解多目标多冲突博弈的Pareto-Nash平衡 95
5.5 本章小结 100
第6章 随机博弈Nash平衡实现算法 102
6.1 引言 102
6.2 随机博弈模型 103
6.3 *小化后悔值学习算法实现随机博弈Nash平衡 107
6.4 本章小结 118
第7章 平均场博弈均衡实现算法 120
7.1 引言.120
7.2 平均场博弈模型及其良定性分析 121
7.3 平均场博弈的良定性 125
7.3.1 有限理性模型与良定性 125
7.3.2 平均场博弈的有限理性模型 127
7.3.3 平均场博弈强良定的特征刻画 131
7.4 短视调整过程学习实现平均场博弈平稳平均场均衡 134
7.5 本章小结 138
参考文献 140
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证