第1章 马尔可夫决策理论简介
1.1 序列决策问题
1.2 马尔可夫过程定义
1.3 马尔可夫决策理论表示方法
1.4 马尔可夫决策过程问题分类
第2章 有限阶段问题
2.1 有限阶段问题概述与逆推归纳法
2.2 动态规划理论
2.3 相关例题与讲解
第 3章 折扣成本问题
3.1 折扣成本问题的引入
3.2 贝尔曼方程与动态规划算子
3.3 数值迭代算法与解的存在性
3.4 贝尔曼方程解的唯一性
3.5 策略迭代算法
3.6 平稳策略最优化
第4章 平均成本问题
4.1 问题描述与问题转化
4.2 平均成本问题的最优策略
4.3 与折扣成本问题的关系
第5章 Q学习
5.1 异步数值迭代与实时数值迭代
5.2 探索-利用权衡
5.3 Q函数与Q学习算法
5.4 Q学习算法的收敛性分析
5.5 Q学习的应用实例
第6章 线性规划方法
6.1 贝尔曼方程求解的线性规划表述
6.2 线性规划问题的对偶形式
6.3 近似线性规划
6.4 应用实例
第7章 隐马尔可夫模型
7.1 隐马尔可夫模型简介
7.2 隐马尔可夫模型动力学
7.3 前向算法
7.4 后向算法
7.5 维特比算法
第8章 部分可观测马尔可夫决策过程
8.1 HMM滤波
8.2 有限阶段POMDP问题
8.3 POMDP的信念空间表述
8.4 机器更换的POMDP示例
8.5 有限观测状态的有限阶段POMDP求解方法介绍
8.5.1 精确算法:逐步剪枝
8.5.2 Lovejoy次优算法
第9章 应用案例介绍
9.1 灾难中的人员疏散问题
9.2 基于马尔可夫过程和SEIR模型的传染病预测
9.2.1 模型分析
9.2.2 数据来源及参数
9.2.3 结果分析
9.2.4 不足与改进
9.3 贫困县精准扶贫资源分配优化
9.3.1 精准扶贫解析
9.3.2 模型假设
9.3.3 模型构建
9.3.4 算例验证
9.4 基于马尔可夫决策过程的国家撤侨方案设计
9.4.1 撇侨模型的建立步骤
9.4.2 利比亚撤侨问题的MATLAB仿真
9.4.3 结论与总结
第10章 其他常用算法介绍
10.1 贪婪算法
10.2 分治算法
10.3 回溯法
10.4 分支限界法
10.5 大数据决策方法概述
附录 数学基础补充内容
参考文献
展开