信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书详细介绍了强化学习的理论推导、算法细节。全书共12章，包括强化学习概述、马尔可夫决策过程。退化的强化学习问题、环境已知的强化学习问题、基于价值的强化学习算法、基于策略的强化学习算法、AC型算法、基于模型的强化学习算法等相关知识。本书系统性强、概念清晰，内容简明通俗。除了侧重于理论推导，本书还提供了许多便于读者理解的例子，以及大量被实践证明有效的算法技巧，旨在帮助读者进一步了解强化学习领域的相关知识，提升其现实中的工程能力。本书可作为高等院校数学、计算机、人工智能等相关专业的强化学习教材，但需要有机器学习、深度学习等前置课程作为基础。

展开

精彩书评

展开

精彩书摘

展开

第1章绪论
1.1 强化学习是什么
1.2 强化学习的基本思想
1.2.1 从环境中产生数据
1.2.2 求解优策略
1.3 强化学习为什么重要
1.4 本书内容介绍
参考文献
第2章马尔可夫决策过程
2.1 马尔可夫过程
2.2 马尔可夫决策过程的定义
2.3 马尔可夫过程与马尔可夫决策过程的对比
2.4 马尔可夫决策过程的分类
2.4.1 马尔可夫决策过程是否发生退化
2.4.2 环境是否已知
2.4.3 环境的确定性与随机性
2.4.4 马尔可夫决策过程的时齐性
2.4.5 状态与动作的连续性
*2.4.6 时间的连续性
2.4.7 小结
2.5 马尔可夫决策过程的奖励函数
思考题
参考文献
第3章退化的强化学习问题
3.1 盲盒售货机问题
3.2 探索-利用困境
3.3 各种不同的探索策略
3.3.1 贪心策略
3.3.2 玻尔兹曼探索策略
3.3.3 上置信界策略
3.4 总结
思考题
参考文献
第4章优控制
4.1 基于价值的思想
4.1.1 三连棋游戏策略
4.1.2 价值的定义
4.1.3 基于价值和基于策略
4.1.4 小结
思考题
4.2 动态规划
4.2.1 策略迭代法
4.2.2 雅可比迭代法
4.2.3 值迭代法
4.2.4 软提升
4.2.5 小结
思考题
4.3 LQR控制
4.3.1 基本LQR控制问题
4.3.2 LQR控制器
*4.3.3 环境随机的LQR控制问题
4.3.4 iLQR控制器
4.3.5 实时规划
4.3.6 小结
思考题
4.4 总结
参考文献
第5章基于价值的强化学习
5.1 Q-Learning
5.1.1 Q表格
5.1.2 产生数据集的方式：探索与利用
5.1.3 探索策略
5.1.4 使用训练数据的方法：经验回放
思考题
5.2 Sarsa
5.2.1 基本Sarsa算法
5.2.2 同策略与异策略
5.2.3 n步Sarsa
5.2.4 -return算法
*5.2.5 n步Q-Learning
思考题
5.3 DQN及其变体
5.3.1 固定Q目标结构
5.3.2 双重DQN
5.3.3 优先回放机制
5.3.4 优势函数
5.3.5 DuelingDQN
*5.3.6 Rainbow
思考题
*5.4 NAF
*5.4.1 标准化优势函数
*5.4.2 NAF的训练
5.5 总结：基于价值的强化学习算法
参考文献
第6章策略函数与策略梯度
6.1 策略函数与期望回报
6.2 无梯度方法
6.2.1 随机搜索
6.2.2 交叉熵算法
6.2.3 进化算法
6.3 策略梯度
6.3.1 策略网络的构造
6.3.2 策略梯度的计算
6.3.3 基本策略梯度算法
*6.3.4 动作连续的策略梯度
6.4 策略梯度的训练技巧
6.4.1 基准法
6.4.2 经验回放
6.4.3 探索策略
6.5 总结
思考题
参考文献
第7章 AC算法
7.1 基本AC算法
7.1.1 AC算法的出发点
7.1.2 化简策略梯度公式
7.1.3 AC算法的基本思想
7.1.4 单步更新与回合更新
思考题
7.2 AC算法的训练技巧
7.2.1 广义优势函数估计
7.2.2 控制训练两个网络的步调
7.2.3 ACER
思考题
7.3 A3C与A2C
7.3.1 并行训练
7.3.2 A3C
7.3.3 A2C
思考题
参考文献
第8章 AC型算法
8.1 自然梯度法
8.1.1 牛顿法
8.1.2 信赖域方法
8.1.3 近似点法
*8.1.4 自然策略梯度
8.2 TRPO与PPO算法
8.2.1 策略提升
8.2.2 TRPO算法
8.2.3 PPO算法
8.2.4 TRPO与PPO算法的训练技巧
8.2.5 小结
思考题
8.3 DDPG
8.3.1 动作连续问题的网络结构
8.3.2 从基于价值的角度理解DDPG算法
8.3.3 DDPG算法及训练技巧
8.3.4 确定策略下的策略梯度
8.3.5 从基于策略的角度理解DDPG算法
思考题
*8.4 SoftAC
8.5 总结：基于策略的算法
8.5.1 基于价值和基于策略
8.5.2 偏差-方差取舍
8.5.3 策略的空间
8.5.4 训练数据的产生与使用
8.5.5 小结
参考文献
第9章基于模型的基本思想
9.1 MBRL概述
9.2 模型是什么
9.2.1 各种模型及其基本用法
9.2.2 更多的模型变体
9.2.3 模型的一些特点
*9.2.4 对模型的理解
思考题
9.3 如何使用黑盒模型
9.3.1 用黑盒模型增广数据
9.3.2 权衡数据成本与准确性
9.3.3 黑盒模型的其他用途
9.3.4 小结
思考题
9.4 如何使用白盒模型
9.4.1 用白盒模型辅助进行策略优化
9.4.2 用白盒模型解优控制
9.4.3 小结
思考题
参考文献
第10章基于模型的强化学习进阶
10.1 如何学习模型
10.1.1 让学习更符合目标
10.1.2 让学习本身成为目标
10.1.3 以学习作为目标
10.1.4 小结
思考题
10.2 世界模型

展开