信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

自AlphaGo在2016年击败职业棋手以来，人工智能技术中的强化学习和深度强化学习也引起了各个领域的关注。然而，强化学习与机器学习、深度学习相比，其相关的书籍相对来说比较少，而且很多书籍中还使用了大量晦涩的专业术语和数学公式，初学者往往面临很高的门槛。本书的目的就是为了消除这种高门槛，并通过使用初级数学中的“平均值”等概念，对强化学习中的“价值”“探索”和“马尔可夫性”等基本概念进行浅显易懂的解释。对于每个算法，本书将使用“多臂老虎机问题”或“网格世界问题”中的一个，以易于比较的状态进行解释，这样，可以让读者更直观地理解各算法的特点和差异。此外，对于核心算法，本书提供了使用Python和MATLAB编写的两种类型的代码，通过运行这些代码，可以让读者直观地理解“原理→公式→程序”的一系列流程。

展开

精彩书评

展开

精彩书摘

展开

第1章基于“平均”的强化学习的基本概念
1.0 简介
1.1 平均值与期望值
1.1.1 平均值
1.1.2 期望值
1.1.3 期望值与平均值的关系
1.2 平均值和价值
总结
1.3 平均值和马尔可夫性
1.3.1 平均值的计算公式及其变形
1.3.2 逐次平均值表达和MP
1.4 用平均值推导贝尔曼方程
1.4.1 平均值表达和价值函数的引入
1.4.2 决策型贝尔曼方程式的推导
1.4.3 概率型贝尔曼方程式的推导
1.5 蒙特卡罗方法的平均值推导
1.5.1 总奖励函数G(St)的引入
1.5.2 总奖励函数G(St)与价值函数V(St)的比较
1.5.3 总奖励函数G(St)平均值的价值函数v(St)
1.6 用平均值推导TD方法
1.6.1 TD(0) 方法的计算公式的推导
1.6.2 TD(n)方法的计算公式的推导
总结
第2章强化学习中算法的特点及应用
2.0 简介
2.1 强化学习中的策略(alS)
2.1.1 多臂老虎机问题
2.1.2 E-Greedy策略
2.1.3 UCB-1策略
2.1.4 Bayes sampling 策略
2.2 动态规划法
2.2.1 E-Greedy (ε=1)策略迭代法
2.2.2 E-Greedy (ε=0)策略迭代法(On-Policy)
2.2.3 E -Greedy (ε=0)价值迭代法(Off-Policy)
2.3 蒙特卡罗方法
2.4 TD(0)方法
2.4.1 从策略迭代法推导SARSA方法
2.4.2 TD(0)-SARSA方法
2.4.3 由价值迭代法推导TD(0)-Q方法
2.4.4 完全Off-Policy的TD(0)-Q方法
2.4.5 局部 Off-Policy的TD(0)-Q方法
2.4.6 TD(0)-0方法与TD(0)-SARSA方法的比较
总结
第3章函数近似方法
3.0 简介
3.1 函数近似的基本概念
3.2 使用函数近似模型的V(St)表达方式
3.3 机器学习的价值函数回归
3.3.1 从误差函数得出的回归和分类
3.3.2 误差函数的设计与概率梯度下降法
3.3.3 强化学习中的回归分析机制
3.4 使用蒙特卡罗方法进行价值函数回归
3.5 使用TD(0)-SARSA方法进行行动状态价值函数回归
3.6 使用TD(0)-Q方法进行行动状态价值函数回归
总结
第4章深度强化学习的原理和方法
4.0 简介
4.1 TD-Q方法中基于NN的行动价值函数回归
4.2 基于DQN方法的行动状态价值函数的近似
4.3 概率策略梯度法
4.3.1 蒙特卡罗离散策略梯度法
4.3.2 基线蒙特卡罗离散策略梯度法
4.3.3 离散型Actor-Critic法
4.3.4 连续型Actor-Critic法
4.4 决策型策略梯度法
4.4.1 DDPG方法
4.4.2 混合DDPG方法
4.5 TRPO/PPO方法有Code
4.5.1 EM算法
4.5.2 信赖域和自然梯度
4.5.3 信赖域策略梯度法
4.6 AlphaGo Zero学习法有Code
4.6.1 AlphaGo Zero的学习误差函数
4.6.2 AlphaGo的学习策略π
4.7 总结与展望
总结
参考文献

展开