丛书序
推荐序Ⅰ
推荐序Ⅱ
导师序
摘要
ABSTRACT
插图索引
表格索引
第1章 引言
1.1 研究背景
1.2 研究现状
1.2.1 指称语理解
1.2.2 视觉对话
1.2.3 视觉问答
1.3 研究内容与贡献
1.4 组织结构
第2章 单轮交互情形下的指称语理解
2.1 研究概述
2.2 相关工作
2.3 变分背景框架
2.3.1 问题表述
2.3.2 指称语理解
2.3.3 指称语生成
2.3.4 模型实现
2.4 实验结果
2.4.1 实验设置
2.4.2 指称语理解实验结果
2.4.3 指称语生成实验结果
2.5 小结
第3章 多轮交互情形下的视觉对话
3.1 研究概述
3.2 相关工作
3.3 预备知识
3.4 递归视觉注意力模型
3.4.1 判别模块
3.4.2 匹配模块
3.4.3 注意力模块
3.5 其他模块
3.5.1 语言特征表示
3.5.2 视觉特征表示
3.5.3 特征优化与融合
3.5.4 非线性映射
3.5.5 Gumbel离散采样
3.6 实验结果
3.6.1 实验设置
3.6.2 实现细节
3.6.3 对比方法
3.6.4 实验结果分析
3.7 小结
第4章 知识偏差情形下的视觉问答
4.1 研究概述
4.2 相关工作
4.3 预备知识
4.3.1 因果图
4.3.2 反事实表示
4.3.3 因果效应
4.4 基于简化因果图的反事实视觉问答
4.4.1 反事实视觉问答框架
4.4.2 技术实现
4.5 基于完全因果图的反事实视觉问答
4.5.1 反事实视觉问答框架
4.5.2 技术实现
4.6 实现细节
4.7 实验结果
4.7.1 实验设置
4.7.2 简化因果图实验结果
4.7.3 完全因果图实验结果
4.8 小结
第5章 总结与展望
5.1 创新总结
5.2 未来工作展望
5.2.1 视觉推理任务
5.2.2 知识建模
5.2.3 知识偏差
参考文献
丛书跋
展开