“博士后文库”序言
前言
第1章 绪论
1.1 引言
1.1.1 多臂机
1.1.2 无休多臂机
1.2 技术难点
参考文献
第2章 同构两态完美观测多臂机:短视策略及性能
2.1 引言
2.2 系统模型和优化问题
2.3 正则收益函数
2.3.1 正则收益函数定义
2.3.2 值函数的性质
2.4 贪婪策略的优化性
2.5 最优性条件应用
2.5.1 应用
2.5.2 应用
2.5.3 应用
2.6 引理证明
2.6.1 引理2.9的证明
2.6.2 引理2.5~引理2.7的证明
2.7 本章小结
参考文献
第3章 同构两态完美观测多臂机:第二高策略及性能
3.1 引言
3.2 系统模型和优化问题
3.2.1 系统模型
3.2.2 决策问题及策略
3.2.3 动机
3.3 伪值函数
3.4 优化性分析
3.4.1 正相关信道(λ≥0)
3.4.2 奇数K的负相关信道(λ<0)
3.4.3 偶数K的负相关信道(λ<0)
3.5 优化性扩展
3.5.1 探测多个信道
3.5.2 探测两个信道访问其中一个信道
3.6 仿真实验
3.6.1 正相关信道(λ≥0)
3.6.2 负相关信道(λ<0)
3.7 引理证明
3.7.1 引理3.2的证明
3.7.2 引理3.3的证明
3.7.3 引理3.4的证明
3.8 本章小结
参考文献
第4章 同构两态非完美观测多臂机:短视策略及性能
4.1 引言
4.1.1 机会谱访问
4.1.2 无休多臂机及短视策略
4.2 系统模型和优化问题
4.2.1 系统模型
4.2.2 无休多臂机模型
4.2.3 短视策略和正则收益
4.3 短视策略优化性分析
4.3.1 符号说明
4.3.2 辅助值函数及属性
4.3.3 短视策略优化性
4.4 分析讨论
4.5 引理证明
4.5.1 引理4.5的证明
4.5.2 引理4.6的证明
4.5.3 引理4.7的证明
4.5.4 引理4.8~引理4.10的证明
4.6 本章小结
参考文献
第5章 同构两态非完美观测多臂机:第二高策略及性能
5.1 引言
5.2 系统模型和优化问题
5.2.1 系统模型
5.2.2 混合尺度决策问题
5.3 小尺度与大尺度问题
5.3.1 小尺度决策
5.3.2 大尺度决策
5.3.3 启发式策略
5.4 优化性分析:信道正相关(p11≥p01)
5.4.1 伪值函数
5.4.2 场景ζ+∈<1
5.4.3 场景ζ+∈≥1
5.5 引理5.3 (∈+ζ<1,λ≥0)的证明
5.6 本章小结
参考文献
第6章 异构两态非完美观测多臂机:因子策略及性能
6.1 引言
6.1.1 背景简介
6.1.2 主要结果和贡献
6.2 相关工作
6.3 系统模型和优化问题
6.4 怀特因子及可行性简介
6.5 怀特因子和调度策略
6.5.1 怀特因子
6.5.2 调度策略
6.5.3 技术挑战
6.6 线性化分析:基于不动点理论
6.7 门限策略和伴随动态系统
6.7.1 门限策略
6.7.2 伴随动态系统
6.8 值函数线性化:信道负相关
6.8.1 区间1[p11,ω0)和区间2[ω0,Γ(p11))
6.8.2 区间3
6.8.3 区间4
6.9 值函数线性化:信道正相关
6.9.1 区间n.1:[Γn(φ(p11)),Γn+1(φ(p01)))
6.9.2 区间n.2:[ˉωn0,Γn(φ(p11)))
6.9.3 区间n.4:[Γn(φ(p01)),ωn0)
6.9.4 区间n.3:[ωn0,ˉωn0)
6.9.5 区间5:[ω0,p11)
6.10 因子计算:信道负相关
6.10.1 区间1
6.10.2 区间2
6.10.3 区间3
6.10.4 区间4
6.11 因子计算:信道正相关
6.11.1 区间1
6.11.2 区间2
6.11.3 区间3
6.11.4 区间4
6.11.5 区间5
6.11.6 区间6
6.12 仿真实验
6.12.1 怀特因子策略和优化策略
6.12.2 怀特因子策略和短视策略
6.13 本章小结
参考文献
第7章 异构两态非完美观测多臂机:前看策略及性能
7.1 引言
7.1.1 背景简介
7.1.2 主要贡献
7.2 系统模型和优化问题
7.2.1 系统模型
7.2.2 优化探测序和停止问题
7.2.3 停止探测决策
7.3 ν步前看策略
7.3.1 上下界
7.3.2 ν步前看策略的结构
7.3.3 ν步前看策略实现
7.3.4 低复杂性实现:一步前看策略
7.4 仿真实验
7.4.1 同构信道
7.4.2 异构信道
7.5 本章小结
参考文献
第8章 同构多态完美观测多臂机:短视策略及性能
8.1 引言
8.1.1 研究简介
8.1.2 技术贡献
8.2 系统模型和优化问题
8.2.1 系统模型
8.2.2 信息态
8.2.3 优化问题
8.2.4 短视策略和部分序
8.3 短视策略优化性分析
8.3.1 值函数及其解耦性
8.3.2 状态转换矩阵结构属性
8.3.3 短视策略优化性
8.4 短视策略优化性:扩展情况
8.5 案例分析
8.6 引理和命题证明
8.6.1 引
展开