第1章强化学习概论
1.1引言
1.2强化学习的发展历程
1.3强化学习的研究现状
1.4本书内容架构
参考文献
第2章马尔可夫决策过程
2.1马尔可夫决策过程
2.2策略与代价函数
2.3最优策略与最优代价函数
参考文献
第3章动态规划
3.1动态规划的兴起
3.2动态规划基本思想: 多级决策过程
3.3最优性原理与递推方程
3.4离散时间动态规划
3.5连续时间动态规划
3.6动态规划的挑战
参考文献
第4章蒙特卡洛学习方法
4.1蒙特卡洛方法背景
4.1.1蒙特卡洛方法的由来
4.1.2基于模型的算法与无模型算法比较
4.1.3蒙特卡洛模拟的思路
4.2蒙特卡洛预测
4.2.1初次访问蒙特卡洛预测
4.2.2历次访问蒙特卡洛预测
4.2.3增量计算技巧
4.3蒙特卡洛控制
4.3.1初始探索问题
4.3.2在策方法: ε贪心算法
4.3.3脱策算法: 重要性采样
4.4蒙特卡洛强化学习算法总结
参考文献
第5章时序差分学习
5.1时序差分学习基本概念
5.2时序差分学习算法
5.3n步回报
5.4TD(λ)算法
参考文献
第6章神经网络
6.1神经网络的发展历史
6.2MP神经元模型
6.3前馈神经网络
6.3.1感知机
6.3.2误差反向传播算法
6.3.3径向基网络
6.4其他常见的神经网络
6.4.1ART网络
6.4.2Hopfield网络
6.4.3Boltzmann机
参考文献
第7章自适应动态规划
7.1问题描述
7.2自适应动态规划的原理
7.3自适应动态规划的分类
7.3.1启发式动态规划
7.3.2二次启发式规划
7.3.3执行依赖启发式动态规划
7.3.4执行依赖二次启发式规划
7.4基于执行依赖的自适应动态规划方法
7.4.1问题描述
7.4.2基于执行依赖的自适应动态规划方法
参考文献
第8章策略迭代学习方法
8.1启发式学习原理
8.2离散时间策略迭代自适应动态规划
8.2.1策略迭代算法的推导
8.2.2策略迭代算法的性质
8.2.3初始容许控制律的获得
8.2.4仿真实验
8.3连续时间策略迭代自适应动态规划
8.3.1连续时间策略迭代算法
8.3.2连续时间策略迭代自适应动态规划的性能分析
参考文献
第9章值迭代学习方法
9.1值迭代学习原理
9.2离散时间值迭代自适应动态规划
9.2.1离散时间非线性系统的Bellman方程解
9.2.2广义值迭代自适应动态规划
9.3连续时间值迭代自适应动态规划
9.3.1问题描述
9.3.2主要结果
参考文献
第10章Q学习方法
10.1无模型强化学习
10.2Q学习原理
10.3离散时间确定性Q学习
10.3.1问题描述
10.3.2离散时间确定性Q学习算法的性质
10.3.3离散时间确定性Q学习算法的神经网络实现
10.3.4仿真实验
10.4Q学习进展
参考文献
第11章脱策学习
11.1脱策学习的兴盛
11.2脱策学习的基本思想
11.2.1问题描述
11.2.2相关研究工作
11.3脱策学习过程
11.3.1脱策强化学习
11.3.2基于神经网络的实现
11.4脱策学习收敛性分析
11.5基于脱策强化学习的线性H∞控制
11.6仿真实验
参考文献
第12章深度强化学习
12.1深度学习基本概念
12.1.1深度学习的起源
12.1.2深度学习与传统机器学习
12.1.3深度学习的运用环境
12.2深度神经网络
12.2.1深度神经网络溯源
12.2.2梯度下降法
12.2.3反向传播
12.2.4动量模型
12.2.5学习律
12.3卷积神经网络
12.3.1卷积神经网络介绍
12.3.2卷积层
12.3.3采样层
12.3.4分类层
12.3.5经典卷积神经网络结构
12.4循环神经网络
12.4.1循环神经网络介绍
12.4.2长短期记忆模型
12.5生成对抗网络
12.6深度强化学习基本理论
12.6.1Q函数
12.6.2策略
12.6.3效用值
12.6.4模型
12.6.5规划
12.7深度强化学习实际应用
12.7.1游戏
12.7.2机器人与控制
12.7.3自然语言处理
12.7.4计算机视觉
12.8未来待解决的问题
12.8.1采样效率低下
12.8.2难以寻找合适的效用函数
12.8.3局部最优陷阱
12.8.4过拟合问题
12.8.5复现难题
12.8.6适用场景与未来思考
参考文献
第13章强化学习展望: 平行强化学习
13.1自适应动态规划与深度强化学习
13.2平行控制理论的基本思想
13.3平行动态规划方法
参考文献