前言
第1章 老虎机问题
1.1 机器学习的分类与强化学习
1.1.1 监督学习
1.1.2 无监督学习
1.1.3 强化学习
1.2 老虎机问题
1.2.1 什么是老虎机问题
1.2.2 什么是好的老虎机
1.2.3 使用数学式表示
1.3 老虎机算法
1.3.1 价值的估计方法
1.3.2 求平均值的实现
1.3.3 玩家的策略
1.4 老虎机算法的实现
1.4.1 老虎机的实现
1.4.2 智能代理的实现
1.4.3 尝试运行
1.4.4 算法平均的特性
1.5 非稳态问题
1.5.1 解决非稳态问题前的准备工作
1.5.2 解决非稳态问题
1.6 小结
第2章 马尔可夫决策过程
2.1 什么是MDP
2.1.1 MDP的具体例子
2.1.2 智能代理与环境的互动
2.2 环境和智能代理的数学表示
2.2.1 状态迁移
2.2.2 奖励函数
2.2.3 智能代理的策略
2.3 MDP的目标
2.3.1 回合制任务和连续性任务
2.3.2 收益
2.3.3 状态价值函数
2.3.4 最优策略和最优价值函数
2.4 MDP的例子
2.4.1 回溯线形图
2.4.2 找出最优策略
2.5 小结
第3章 贝尔曼方程
3.1 贝尔曼方程的推导
3.1.1 概率和期望值(推导贝尔曼方程的准备)
3.1.2 贝尔曼方程的推导
3.2 贝尔曼方程的例子
3.2.1 有两个方格的网格世界
3.2.2 贝尔曼方程的意义
3.3 行动价值函数与贝尔曼方程
3.3.1 行动价值函数
3.3.2 使用行动价值函数的贝尔曼方程
3.4 贝尔曼最优方程
3.4.1 状态价值函数的贝尔曼最优方程
3.4.2 Q函数的贝尔曼最优方程
3.5 贝尔曼最优方程的示例
3.5.1 应用贝尔曼最优方程
3.5.2 得到最优策略
3.6 小结
第4章 动态规划法
4.1 动态规划法和策略评估
4.1.1 动态规划法简介
4.1.2 尝试迭代策略评估
4.1.3 迭代策略评估的其他实现方式
4.2 解决更大的问题
4.2.1 GridWorld类的实现
4.2.2 defaultdict的用法
4.2.3 迭代策略评估的实现
4.3 策略迭代法
4.3.1 策略的改进
4.3.2 重复评估和改进
4.4 实施策略迭代法
4.4.1 改进策略
4.4.2 重复评估和改进
4.5 价值迭代法
4.5.1 价值迭代法的推导
4.5.2 价值迭代法的实现
4.6 小结
第5章 蒙特卡洛方法
5.1 蒙特卡洛方法的基础知识
5.1.1 骰子的点数和
5.1.2 分布模型和样本模型
5.1.3 蒙特卡洛方法的实现
5.2 使用蒙特卡洛方法评估策略
5.2.1 使用蒙特卡洛方法计算价值函数
5.2.2 求所有状态的价值函数
5.2.3 蒙特卡洛方法的高效实现
5.3 蒙特卡洛方法的实现
5.3.1 step方法
5.3.2 智能代理类的实现
5.3.3 运行蒙特卡洛方法
5.4 使用蒙特卡洛方法的策略控制
5.4.1 评估和改进
5.4.2 使用蒙特卡洛方法实现策略控制
5.4.3 ε-greedy算法(第1个修改)
5.4.4 修改为固定值α的方式(第2个修改)
5.4.5 [修改版]使用蒙特卡洛方法实现策略迭代法
5.5 异策略型和重要性采样
5.5.1 同策略型和异策略型
5.5.2 重要性采样
5.5.3 如何减小方差
5.6 小结
第6章 TD方法
6.1 使用TD方法评估策略
6.1.1 TD方法的推导
6.1.2 MC方法和TD方法的比较
6.1.3 TD方法的实现
6.2 SARSA
6.2.1 同策略型的SARSA
6.2.2 SARSA的实现
6.3 异策略型的SARSA
6.3.1 异策略型和重要性采样
6.3.2 异策略型的SARSA的实现
6.4 Q学习
6.4.1 贝尔曼方程与SARSA
6.4.2 贝尔曼最优方程与Q学习
6.4.3 Q学习的实现
6.5 分布模型与样本模型
6.5.1 分布模型与样本模型
6.5.2 样本模型版的Q学习
6.6 小结
第7章 神经网络和Q学习
7.1 DeZero简介
7.1.1 使用DeZero
7.1.2 多维数组(张量)和函数
7.1.3 最优化
7.2 线性回归
7.2.1 玩具数据集
7.2.2 线性回归的理论知识
7.2.3 线性回归的实现
7.3 神经网络
7.3.1 非线性数据集
7.3.2 线性变换和激活函数
7.3.3 神经网络的实现
7.3.4 层与模型
7.3.5 优化器(最优化方法)
7.4 Q学习与神经网络
7.4.1 神经网络的预处理
7.4.2 表示Q函数的神经网络
7.4.3 神经网络和Q学习
7.5 小结
第8章 DQN
8.1 OpenAIGym
8.1.1 OpenAIGym的基础知识
8.1.2 随机智能代理
8.2 DQN的核心技术
8.2.1 经验回放
8.2.2 经验回放的实现
8.2.3 目标网络
8.2.4 目标网络的实现
8.2.5 运行DQN
8.3 DQN与Atari
8.3.1 Atari的游戏环境
8.3.2 预处理
8.3.3 CNN
8.3.4 其他
展开