《运筹与管理科学丛书(22):马尔可夫决策过程理论与应用》:
第1章 引 论
做决策是人们在日常生活和生产实践中经常遇到的问题。 人们也总希望做出的决策能够达到最优的效果。 事实上, 人们在做决策的时候需要考虑很多影响决策效果的因素, 如当前决策立即显现出的效果?当前决策行为对长远利益的影响等等。因此, 做决策不是孤立的, 也就是说今天的决策会影响到明天, 而明天的决策会影响到将来。 如果不顾及对将来的影响而只考虑当前的利益做决策 (即采用近视眼策略), 从长远的角度来看, 通常效果不会很好。 比如说长跑运动员, 要根据需要跑的距离而合理分配自己的体力, 以避免尚未跑完全程就筋疲力尽。
本书描述和研究了在不确定环境下的一类序列决策模型, 决策者不仅要考虑决策结果的即时效应, 还要考虑到为将来做决策创造机会。 看上去这个模型比较直观且不复杂, 但是它的应用极其广泛, 而且产生了丰富的数学理论。 这一章主要通过一些例子来说明做决策过程中的关键因素?这些因素之间的关系以及决策过程的动态表现, 然后给出马氏决策过程的一般记号与定义, 最后叙述了马氏决策过程的 发展简史和一些比较有影响的相关书籍。
1。1 序列决策模型
我们用图 1。1。1 描述多阶段决策过程的一个完整步骤。 在时刻 t, 控制系统的决 策者观察到系统当前所处的状态, 并根据这个状态从可行的决策行为集合中选取一 个决策行为 (我们称选择一个行动)。 之后, 该行动会对系统的后续运行产生两方面 的影响:一方面是产生了一个既得的报酬或费用, 而另一方面是系统的状态会按照 与这个行动有关的一个概率规律在下个阶段即在 t + 1 时刻转移到一个新的状态。 这时决策者面临着与开始时 (即时刻 t) 相同的问题, 也就是选取 t + 1 时刻的决策 行为。 依此循环下去, 不同的只是在不同时刻系统的状态可能是不同的, 而且可采 用的行动集合随着状态的变化也会发生相应的变化。
……
展开