强化学习(RL)是用于创建自学习自主智能体的人工智能方法。本书基于强大的理论基础,采用实用的方法来研究强化学习,并使用受现实世界中商业和行业问题启发的实际示例来教授先进的强化学习知识。
本书首先介绍老虎机问题、马尔可夫决策过程和动态规划,带你深入了解经典强化学习技术,包括蒙特卡罗方法和时间差分学习方法。然后,你将了解深度Q-学习、策略梯度方法、Actor-Critic算法、基于模型的方法以及多智能体强化学习。接下来,本书将介绍一些最成功的强化学习实现背后的关键方法,例如,域随机化和好奇心驱动的强化学习。
随着学习的深入,你将使用现代Python库(例如,TensorFlow和Ray的RLlib包)探索许多具有高级实现的新颖算法。你还将了解如何在机器人、供应链管理、市场营销、金融、智慧城市与网络安全等领域应用强化学习技术,同时评估不同方法的利弊并避免常见的陷阱。
学完本书,你将掌握如何训练和部署自己的强化学习智能体来解决强化学习问题。
通过阅读本书,你将:
? 使用强化学习建模并解决复杂的序贯决策问题。
? 深入了解最先进的强化学习方法的工作原理。
? 使用Python和TensorFlow从头开始编写强化学习算法。
? 使用Ray的RLlib包并行化强化学习实现,以及扩展强化学习实现。
? 深入了解各种强化学习主题。
? 了解不同强化学习方法之间的利弊。
? 发现并解决在现实世界中实现强化学习的挑战。
展开