目录
前言
第1章 动态规划 1
1.1 动态规划的基本方法 1
1.1.1 多级决策过程 1
1.1.2 *优性原理 4
1.1.3 动态规划的基本递推方程 5
1.2 离散系统的动态规划 10
1.2.1 离散*优问题的动态规划解 10
1.2.2 动态规划的数值计算法 14
1.2.3 离散系统动态规划的特点 17
1.3 连续动态规划 17
1.3.1 连续时间系统的*优控制问题 18
1.3.2 哈密顿雅可比贝尔曼方程 18
1.3.3 连续动态规划的基本方程 20
参考文献 25
第2章 强化学习 26
2.1 强化学习的基本概念 26
2.2 强化学习的形成和发展 28
2.2.1 强化学习的学科基础 28
2.2.2 强化学习的形成阶段 30
2.2.3 强化学习的发展阶段 30
2.3 强化学习的主要算法 32
2.3.1 蒙特卡罗算法 32
2.3.2 时序差分算法 37
2.3.3 自适应启发评价算法 44
2.3.4 Q-学习算法 51
参考文献 56
第3章 自适应动态规划 60
3.1 自适应动态规划的研究概况 60
3.2 大脑智能与优化 64
3.2.1 神经系统 64
3.2.2 大脑的分区功能与统一协调 65
3.2.3 大脑是智能控制器 65
3.2.4 大脑的渐进学习 67
3.2.5 强化学习与*优化 69
3.2.6 大脑优化的两个问题 70
3.2.7 仿脑智能优化控制的实现 70
3.3 自适应动态规划的基本原理 71
3.3.1 自适应动态规划的基本思想 71
3.3.2 动态规划的前向、后向算法 72
3.3.3 自适应动态规划迭代算法 74
3.3.4 函数近似结构 76
3.3.5 自适应动态规划的优点 77
3.4 自适应动态规划的基本结构与分类 77
3.4.1 启发式动态规划 77
3.4.2 双启发式动态规划 79
3.4.3 执行依赖启发式动态规划 80
3.4.4 执行依赖双启发式动态规划 81
3.5 自适应动态规划的发展趋势 81
3.5.1 三代大脑智能ADP模型 81
3.5.2 自适应动态规划的研究动态 85
参考文献 89
第4章 基于BP网络的自适应动态规划算法及实现 96
4.1 基于BP网络的HDP算法及实现 96
4.1.1 HDP的结构和基本原理 96
4.1.2 模型网络 97
4.1.3 评价网络 99
4.1.4 执行网络 100
4.1.5 相关参数的选择 105
4.2 基于BP网络的DHP算法及实现 105
4.2.1 DHP的结构和基本原理 105
4.2.2 模型网络 106
4.2.3 评价网络 107
4.2.4 执行网络 114
4.3 基于BP网络的ADHDP算法及实现 118
4.3.1 ADHDP结构和基本原理 118
4.3.2 评价网络 120
4.3.3 执行网络 121
参考文献 124
第5章 自适应动态规划的应用 126
5.1 水泥预分解窑系统的HDP控制 126
5.1.1 水泥预分解窑系统 126
5.1.2 水泥预分解窑的神经网络建模 130
5.1.3 水泥预分解窑HDP算法 134
5.1.4 HDP训练策略及控制系统仿真 138
5.1.5 小结 141
5.2 糖厂澄清过程pH值的DHP控制 141
5.2.1 糖厂澄清过程工艺流程 141
5.2.2 制糖澄清过程系统建模 145
5.2.3 制糖澄清过程DHP算法 148
5.2.4 DHP算法控制清汁pH值 151
5.2.5 小结 154
5.3 同步发电机励磁系统的ADP控制 155
5.3.1 同步发电机及其励磁系统 155
5.3.2 基于ADHDP的励磁控制 157
5.3.3 基于多目标ADHDP的励磁控制 164
5.4 基于DHP方法的发电商竞价策略模型 173
5.4.1 竞价策略研究 173
5.4.2 发电商市场竟价策略模型 175
5.4.3 仿真试验及分析 179
5.4.4 小结 182
5.5 ADHDP在高压直流输电整流控制中的应用 182
5.5.1 高压直流输电系统 182
5.5.2 ADHDP整流控制器设计 189
5.5.3 整流侧定电流、逆变侧定电压控制模型仿真 193
5.5.4 小结 201
5.6 三容液位系统的ADHDP控制 201
5.6.1 三容液位系统简介及其模型 201
5.6.2 三容液位系统ADHDP控制器设计 204
5.6.3 控制仿真及分析 206
5.6.4 实时控制 209
5.6.5 小结 213
参考文献 213
展开