信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

近年来，深度强化学习成为关注的热点。在自动驾驶、棋牌游戏、分子重排和机器人等领域，计算机程序能够通过强化学习，理解以前被视为超级困难的问题，取得了令人瞩目的成果。在围棋比赛中，AlphaGo接连战胜樊麾、李世石和柯洁等人类冠军。深度强化学习从生物学和心理学领域的研究中受到启发。生物学激发了人工神经网络和深度学习的出现，而心理学研究人和动物如何学习，如何通过正负刺激来强化目标行为。了解了强化学习如何指导机器人行走时，我们不禁联想到儿童如何在玩中学习。动物行为和大脑结构可作为新的科学和工程蓝图。计算机似乎真正具备了人类的某些行为特征，深度强化学习技术成为实现AI梦想的核心。教育界也十分重视深度强化学习的研究进展。许多大学开设了深度强化学习课程。本书怡到好处地介绍了深度强化学习领域的技术细节，可作为AI研究生课程的教材。本书讲解全面，涵盖深度Q-learning的基本算法，乃至多智能体强化学习和元学习等高级主题。

展开

精彩书评

展开

精彩书摘

展开

第1章简介
1.1 什么是深度强化学习
1.1.1 深度学习
1.1.2 强化学习
1.1.3 深度强化学习
1.1.4 应用
1.1.5 四个相关领域
1.2 三种机器学习范式
1.2.1 监督学习
1.2.2 无监督学习
1.2.3 强化学习
1.3 本书概述
1.3.1 预备知识
1.3.2 本书结构
第2章表格值为基础的强化学习
2.1 序贯决策问题
2.1.1 网格世界
2.1.2 迷宫和盒子谜题
2.2 基于表格值的智能体
2.2.1 智能体和环境
2.2.2 马尔可夫决策过程
2.2.3 MDP目标
2.2.4 MDP问题的解决方法
2.3 经典的Gym环境
2.3.1 Mountain car和Cartpole
2.3.2 路径规划与棋盘游戏
2.4 本章小结
2.5 扩展阅读
2.6 练习
2.6.1 复习题
2.6.2 练习题
第3章基于值的深度强化学习
3.1 大规模、高维度问题
3.1.1 Atari街机游戏
3.1.2 实时战略游戏和视频游戏
3.2 深度值函数智能体
3.2.1 利用深度学习对大规模问题进行泛化
3.2.2 三个挑战
3.2.3 稳定的基于值的深度学习
3.2.4 提升探索能力
3.3 Atari 2600环境
3.3.1 网络结构
3.3.2 评估Atari游戏表现
3.4 本章小结
3.5 扩展阅读
3.6 习题
3.6.1 复习题
3.6.2 练习题
第4章基于策略的强化学习
4.1 连续问题
4.1.1 连续策略
4.1.2 随机策略
4.1.3 环境：Gym和MuJoCo
4.2 基于策略的智能体
4.2.1 基于策略的算法：REINFORCE
4.2.2 基于策略的方法中的偏差-方差权衡
4.2.3 演员-评论家“自举”方法
4.2.4 基线减法与优势函数
4.2.5 信任域优化
4.2.6 熵和探索
4.2.7 确定性策略梯度
4.2.8 实际操作：MuJoCo中的PPO和DDPG示例
4.3 运动与视觉-运动环境
4.3.1 机器人运动
4.3.2 视觉-运动交互
4.3.3 基准测试
4.4 本章小结
4.5 扩展阅读
4.6 习题
4.6.1 复习题
4.6.2 练习题
第5章基于模型的强化学习
5.1 高维问题的动态模型
5.2 学习与规划智能体
5.2.1 学习模型
5.2.2 使用模型进行规划
5.3 高维度环境
5.3.1 基于模型的实验概览
5.3.2 小型导航任务
5.3.3 机器人应用
5.3.4 Atari游戏应用
5.3.5 实际操作：PlaNet示例
5.4 本章小结
5.5 扩展阅读
5.6 习题
5.6.1 复习题
5.6.2 练习题
第6章双智能体自对弈
6.1 双智能体的“零和问题”
6.1.1 困难的围棋游戏
6.1.2 AlphaGo的成就
6.2 空白板自我对弈智能体
6.2.1 棋步级别的自我对弈
6.2.2 示例级别的自我对弈
6.2.3 锦标赛级别的自我对弈
6.3 自我对弈环境
6.3.1 如何设计世界级围棋程序
6.3.2 AlphaGo Zero的性能表现
6.3.3 AlphaZero
6.3.4 自我对弈开放框架
6.3.5 在PolyGames中实例化Hex游戏
6.4 本章小结
6.5 扩展阅读
6.6 习题
6.6.1 复习题
6.6.2 练习题
第7章多智能体强化学习
7.1 多智能体问题
7.1.1 竞争行为
7.1.2 合作行为
7.1.3 混合行为
7.1.4 挑战
7.2 多智能体强化学习智能体
7.2.1 竞争性行为
7.2.2 合作行为
7.2.3 混合行为
7.3 多智能体环境
7.3.1 竞争行为：扑克
7.3.2 合作行为：捉迷藏
7.3.3 混合行为：夺旗比赛和星际争霸
7.3.4 实际操作：体育馆中的捉迷藏示例
7.4 本章小结
7.5 扩展阅读
7.6 习题
7.6.1 复习题
7.6.2 练习题
第8章分层强化学习
8.1 问题结构的粒度
8.1.1 优点
8.1.2 缺点
8.2 智能体的分而治之
8.2.1 选项框架
8.2.2 寻找子目标
8.2.3 分层算法概述
8.3 分层环境
8.3.1 四个房间和机器人任务
8.3.2 蒙特祖玛的复仇
8.3.3 多智能体环境
8.3.4 实际操作示例：分层演员-评论家
8.4 本章小结
8.5 扩展阅读
8.6 习题
8.6.1 复习题
8.6.2 练习题
第9章元学习
9.1 学会与学习相关的问题
9.2 迁移学习与元学习智能体
9.2.1 迁移学习
9.2.2 元学习
9.3 元学习环境
9.3.1 图像处理
9.3.2 自然语言处理
9.3.3 元数据集
9.3.4 元世界
9.3.5 Alchemy
9.3.6 实际操作：Meta-World示例
9.4 本章小结
9.5 扩展阅读
9.6 习题
9.6.1 复习题
9.6.2 练习题
第10章未来发展
10.1 深度强化学习的发展
10.1.1 表格方法
10.1.2 无模型深度学习
10.1.3 多智能体方法
10.1.4 强化学习的演化历程
10.2 主要挑战
10.2.

展开