搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
强化学习
0.00     定价 ¥ 119.00
图书来源: 浙江图书馆(由JD配书)
此书还可采购23本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787111600220
  • 作      者:
    [荷] 马可·威宁(Marco Wiering)马丁·范·奥特罗(Martijn van Otter
  • 译      者:
    赵地
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2018-07-01
收藏
编辑推荐

1.本书由17位不同领域的专家对强化学习进行了深入而完整的描述,涉及基础理论到高效解决方案框架的各个方面,反映了强化学习主要子领域的研究进展。

2.本书涵盖经典强化学习的完整内容,甚至包括作为深度强化学习萌芽的重要成果DFQ。对于想在强化学习领域进行创新研究的学者而言,本书有助于了解强化学习的发展历史和重要成果,进而找到更有价值的研究课题。

3.本书组织精巧,内容安排呈递增性,同时又保持各部分的相对独立,方便读者根据自己的兴趣研读相关章节。

4.本书坚持围绕前沿性和开放性问题,作者在大胆发表自己的真知灼见的同时,不忘客观地反思当前的不足,便于读者辩证地了解领域的发展,跟上领域发展的脚步。


展开
作者简介

马可 威宁(Marco Wiering)在荷兰格罗宁根大学人工智能系工作,他发表过各种强化学习主题的文章,研究领域包括强化学习、机器学习、深度学习、目标识别、文本学习,进化计算、机器人等。

马丁 范 奥特罗(Martijn van Otterlo)是荷兰奈梅亨大学认知人工智能小组的一员。主要研究领域是强化学习在环境中的知识表示。


展开
内容介绍

   本书共有19章,分为六大部分,详细介绍了强化学习中各领域的基本理论和新进展,内容包括:MDP、动态规划、蒙特卡罗方法、批处理强化学习、TD学习、Q学习、策略迭代的小二乘法、迁移学习、贝叶斯强化学习、一阶逻辑MDP、层次式强化学习、演化计算、预测性定义状态表示、去中心化的部分可观察MDP、博弈论和多学习器强化学习等内容,并阐述强化学习与心理和神经科学、游戏领域、机器人领域的关系和应用,后提出未来发展趋势及研究热点问题,有助于年轻的研究者了解整个强化学习领域,发现新的研究方向。本书适合作为高等院校机器学习相关课程的参考书,也可作为人工智能领域从业技术人员的参考用书。

   强化学习领域经典的方法及高效的解决方案框架,包括TD学习、Q学习、批处理强化学习、策略迭代的zui小二乘法、模型的运用以及知识迁移,还分析了更优探索方法的理论优势以获取更好的经验。
   强化学习中各种表示方式的不同用途,包括基于向量的表示、使用一阶逻辑的表示、有效地运用分层表示以及使用进化算法时用到的无偏表示。
   强化学习相关的概率框架和算法,包括贝叶斯强化学习框架、部分可观察的马尔可夫决策过程、可预测的状态表示、多学习器的扩展与博弈论的概念、去中心化的部分可观察的马尔可夫决策过程框架及规划算法。
   强化学习相关领域知识,包括强化学习与人类学习的关系,强化学习在游戏领域的应用以及强化学习在机器人控制中的应用等。

展开
目录

目  录


Reinforcement Learning: State-of-the-Art

译者序

序言

前言

作者清单


第一部分 绪论

第1章 强化学习和马尔可夫决策过程  2

1.1 简介  2

1.2 时序决策  3

1.2.1 接近时序决策  4

1.2.2 在线学习与离线学习  4

1.2.3 贡献分配  5

1.2.4 探索–运用的平衡  5

1.2.5 反馈、目标和性能  5

1.2.6 表达  6

1.3 正式的框架  6

1.3.1 马尔可夫决策过程  7

1.3.2 策略  9

1.3.3 最优准则和减量  9

1.4 价值函数和贝尔曼方程  10

1.5 求解马尔可夫决策过程  12

1.6 动态规划:基于模型的解决方案  13

1.6.1 基本的动态规划算法  13

1.6.2 高效的动态规划算法  17

1.7 强化学习:无模型的解决方案  19

1.7.1 时序差分学习  20

1.7.2 蒙特卡罗方法  23

1.7.3 高效的探索和价值更新  24

1.8 总结  27

参考文献  27

第二部分 高效的解决方案框架

第2章 批处理强化学习  32

2.1 简介  32

2.2 批处理强化学习问题  33

2.2.1 批处理学习问题  33

2.2.2 增长批处理学习问题  34

2.3 批处理强化学习算法的基础  34

2.4 批处理强化学习算法  37

2.4.1 基于核的近似动态规划  37

2.4.2 拟合Q迭代  39

2.4.3 基于最小二乘的策略迭代  40

2.4.4 识别批处理算法  41

2.5 批处理强化学习理论  42

2.6 批处理强化学习的实现  43

2.6.1 神经拟合Q迭代  44

2.6.2 控制应用中的神经拟合Q迭代算法  45

2.6.3 面向多学习器的批处理强化学习  46

2.6.4 深度拟合Q迭代  48

2.6.5 应用/发展趋势  49

2.7 总结  50

参考文献  50

第3章 策略迭代的最小二乘法  53

3.1 简介  53

3.2 预备知识:经典策略迭代算法  54

3.3 近似策略评估的最小二乘法  55

3.3.1 主要原则和分类  55

3.3.2 线性情况下和矩阵形式的方程  57

3.3.3 无模型算法的实现  60

3.3.4 参考文献  62

3.4 策略迭代的在线最小二乘法  63

3.5 例子:car-on-the-hill  64

3.6 性能保障  66

3.6.1 渐近收敛性和保证  66

3.6.2 有限样本的保证  68

3.7 延伸阅读  73

参考文献  74

第4章 学习和使用模型  78

4.1 简介  78

4.2 什么是模型  79

4.3 规划  80

4.4 联合模型和规划  82

4.5 样本复杂度  84

4.6 分解域  86

4.7 探索  88

4.8 连续域  91

4.9 实证比较  93

4.10 扩展  95

4.11 总结  96

参考文献  97

第5章 强化学习中的迁移:框架和概观  101

5.1 简介  101

5.2 强化学习迁移的框架和分类  102

5.2.1 迁移框架  102

5.2.2 分类  104

5.3 固定状态–动作空间中从源到目标迁移的方法  108

5.3.1 问题形式化  108

5.3.2 表示迁移  109

5.3.3 参数迁移  110

5.4 固定状态–动作空间中跨多任务迁移的方法  111

5.4.1 问题形式化  111

5.4.2 实例迁移  111

5.4.3 表示迁移  112

5.4.4 参数迁移  113

5.5 不同状态–动作空间中从源到目标任务迁移的方法  114

5.5.1 问题形式化  114

5.5.2 实例迁移  115

5.5.3 表示迁移  115

5.5.4 参数迁移  116

5.6 总结和开放性问题  116

参考文献  117

第6章 探索的样本复杂度边界  122

6.1 简介  122

6.2 预备知识  123

6.3 形式化探索效率  124

6.3.1 探索的样本复杂度和PAC-MDP  124

6.3.2 遗憾最小化  125

6.3.3 平均损失  127

6.3.4 贝叶斯框架  127

6.4 通用PAC-MDP定理  128

6.5 基于模型的方法  130

6.5.1 Rmax  130

6.5.2 Rmax的泛化  132

6.6 无模型方法  138

6.7 总结  141

参考文献  141

第三部分 建设性的表征方向

第7章 连续状态和动作空间中的强化学习  146

7.1 简介  146

7.1.1 连续域中的马尔可夫决策过程  147

7.1.2 求解连续MDP的方法  148

7.2 函数逼近  149

7.2.1 线性函数逼近  150

7.2.2 非线性函数逼近  153

7.2.3 更新参数  154

7.3 近似强化学习  157

7.3.1 数值逼近  157

7.3.2 策略逼近  162

7.4 双极车杆实验  168

7.5 总结  171

参考文献  171

第8章 综述:求解一阶逻辑马尔可夫决策过程  179

8.1 关系世界中的顺序决策简介  179

8.1.1 马尔可夫决策过程:代表性和可扩展性  180

8.1.2 简短的历史和与其他领域的联系  181

8.2 用面向对象和关系扩展马尔可夫决策过程  183

8.2.1 关系表示与逻辑归纳  183

8.2.2 关系型马尔可夫决策过程  184

8.2.3 抽象问题和求解  184

8.3 基于模型的解决方案  186

8.3.1 贝尔曼备份的结构  186

8.3.2 确切的基于模型的算法  187

8.3.3 基于近似模型的算法  190

8.4 无模型的解决方案  192

8.4.1 固定泛化的价值函数学习  192

8.4.2 带自适应泛化的价值函数  193

8.4.3 基于策略的求解技巧  196

8.5 模型、层级、偏置  198

8.6 现在的发展  201

8.7 总结和展望  203

参考文献  204

第9章 层次式技术  213

9.1 简介  213

9.2 背景  215

9.2.1 抽象动作  215

9.2.2 半马尔可夫决策问题  216

9.2.3 结构  217

9.2.4 状态抽象  218

9.2.5 价值函数分解  219

9.2.6 优化  220

9.3 层次式强化学习技术  220

9.3.1 选项  221

9.3.2 HAMQ学习  222

9.3.3 MAXQ  223

9.4 学习结构  226

9.5 相关工作和当前研究  228

9.6 总结  230

参考文献  230

第10章 针对强化学习的演化计算  235

10.1 简介  235

10.2 神经演化  237

10.3 TWEANN  239

10.3.1 挑战  239

10.3.2 NEAT  240

10.4 混合方法  241

10.4.1 演化函数近似  242

10.4.2 XCS  243

10.5 协同演化  245

10.5.1 合作式协同演化  245

10.5.2 竞争式协同演化  246

10.6 生成和发展系统  247

10.7 在线方法  249

10.7.1 基于模型的技术  249

10.7.2 在线演化计算  250

10.8 总结  251

参考文献  251

第四部分 概率模型

第11章 贝叶斯强化学习  260

11.1 简介  260

11.2 无模型贝叶斯强化学习  261

11.2.1 基于价值函数的算法  261

11.2.2 策略梯度算法  264

11.2.3 演员–评论家算法  266

11.3 基于模型的贝叶斯强化学习  268

11.3.1 由POMDP表述的贝叶斯强化学习  268

11.3.2 通过动态规划的贝叶斯强化学习  269

11.3.3 近似在线算法  271

11.3.4 贝叶斯多任务强化学习  272

11.3.5 集成先验知识  273

11.4 有限样本分析和复杂度问题  274

11.5 总结和讨论  275

参考文献  275

第12章 部分可观察的马尔可夫决策过程  279

12.1 简介  279

12.2 部分可观察环境中的决策  280

12.2.1 POMDP模型  280

12.2.2 连续和结构化的表达  281

12.2.3 优化决策记忆  282

12.2.4 策略和价值函数  284

12.3 基于模型的技术  285

12.3.1 基于MDP的启发式解决方案  285

12.3.2 POMDP的值迭代  286

12.3.3 确切的值迭代  288

12.3.4 基于点的值迭代方法  290

12.3.5 其他近似求解方法  291

12.4 无先验模型的决策  292

12.4.1 无记忆技术  292

12.4.2 学习内部记忆  292

12.5 近期研究趋势  294

参考文献  295

第13章 预测性定义状态表示  300

13.1 简介  300

13.1.1 状态是什么  301

13.1.2 哪一个状态表示  301

13.1.3 为什么使用预测性定义模型  302

......


展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证