信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书从原理和实战两个方面介绍了强化学习。原理方面，深入介绍了主流强化学习理论和算法，覆盖资格迹等经典算法和MuZero等深度强化学习算法；实战方面，每章都配套了编程案例，以方便读者学习。全书从逻辑上分为三部分。第1章：从零开始介绍强化学习的背景知识，介绍环境库Gym的使用。第2～15章：基于折扣奖励离散时间Markov决策过程模型，介绍强化学习的主干理论和常见算法。采用数学语言推导强化学习的基础理论，进而在理论的基础上讲解算法，并为算法提供配套代码实现。基础理论的讲解突出主干部分，算法讲解全面覆盖主流的强化学习算法，包括经典的非深度强化学习算法和近年流行的强化学习算法。Python实现和算法讲解一一对应，还给出了深度强化学习算法的TensorFlow和PyTorch对照实现。第16章：介绍其他强化学习模型，包括平均奖励模型、连续时间模型、非齐次模型、半Markov模型、部分可观测模型等，以便更好地了解强化学习研究的全貌。

展开

精彩书评

展开

精彩书摘

展开

数学符号表
前言
第1章初识强化学习
1.1 强化学习及其关键元素
1.2 强化学习的应用
1.3 智能体/环境接口
1.4 强化学习的分类
1.4.1 按任务分类
1.4.2 按算法分类
1.5 强化学习算法的性能指标
1.6 案例：基于Gym库的智能体/环境接口
1.6.1 安装Gym库
1.6.2 使用Gym库
1.6.3 小车上山
1.7 本章小结
1.8 练习与模拟面试
第2章 Markov决策过程
2.1 Markov决策过程模型
2.1.1 离散时间Markov决策过程
2.1.2 环境与动力
2.1.3 策略
2.1.4 带折扣的回报
2.2 价值
2.2.1 价值的定义
2.2.2 价值的性质
2.2.3 策略的偏序和改进
2.3 带折扣的分布
2.3.1 带折扣的分布的定义
2.3.2 带折扣的分布的性质
2.3.3 带折扣的分布和策略的等价性
2.3.4 带折扣的分布下的期望
2.4 最优策略与最优价值
2.4.1 从最优策略到最优价值
2.4.2 最优策略的存在性
2.4.3 最优价值的性质与Bellman最优方程
2.4.4 用线性规划法求解最优价值
2.4.5 用最优价值求解最优策略
2.5 案例：悬崖寻路
2.5.1 使用环境
2.5.2 求解策略价值
……
第3章有模型数值迭代
第4章回合更新价值迭代
第5章时序差分价值迭代
第6章函数近似方法
第7章回合更新策略梯度方法
第8章执行者/评论者
第9章连续动作空间的确定性策略
第10章最大熵强化学习
第11章基于策略的无梯度算法
第12章值分布强化学习
第13章最小化遗憾
第14章树搜索
第15章模仿学习和人类反馈强化学习
第16章更多智能体/环境接口模型

展开