第1章 场景文字视觉问答的探索之旅
1.1 场景文字视觉问答的缘起
1.2 场景文字视觉问答技术的发展现状
1.3 语义鸿沟:场景文字理解的挑战
小结
第2章 自然场景文本分析与视觉问答任务:方法、挑战与数据综述
2.1 文字检测识别综述
2.1.1 了解文字检测识别
2.1.2 文字检测识别的背景
2.1.3 基于深度学习的自然场景文本检测方法
2.1.4 基于深度学习的自然场景文本识别方法
2.1.5 基于深度学习的端到端的自然场景文本识别方法
2.2 视觉问答综述
2.2.1 视觉问答任务概述
2.2.2 视觉问答的挑战
2.2.3 视觉问答的关键方法
2.2.4 数据集介绍
小结
第3章 场景文字问答技术概述
3.1 场景文字视觉问答技术相关深度学习模型
3.1.1 视觉特征提取模型
3.1.2 语义特征提取模型
3.1.3 多模态融合模型
3.2 场景文字视觉问答技术的发展
3.2.1 基于编码器和解码器框架的场景文字视觉问答模型
3.2.2 基于图神经网络的场景文字视觉问答模型
3.2.3 针对预训练任务的场景文字视觉问答模型
3.2.4 基于数据增强的场景文字视觉问答方法
3.3 场景文字视觉问答技术的数据集和评测指标
3.3.1 主要数据集
3.3.2 评测指标
小结
第4章 以场景文本语义为中心的场景文字视觉问答模型
4.1 场景文本语义理解的挑战与机遇
4.2 场景文字视觉问答的模型结构创新
4.2.1 场景文字模型结构设计相关工作
4.2.2 证据引导的答案生成模块相关工作
4.3 以场景文本语义为中心的模型
4.3.1 多模态特征提取模块
4.3.2 以语义为中心的Transformer模块
4.3.3 实例级别的语义对比学习预测模块
4.3.4 训练损失
4.4 实验结果与分析
4.4.1 实验设置
4.4.2 消融实验
4.4.3 对比实验
4.4.4 可视化分析
小结
第5章 基于文本语义上下文学习及空间表示的场景文字视觉问答方法
5.1 场景文本视觉问答的语义与空间挑战
5.2 场景文本关系建模与空间编码进展
5.2.1 场景文字关系建模相关工作
5.2.2 空间位置编码相关工作
5.3 文本语义与空间表示结合的场景文字视觉问答方法
5.3.1 多模态特征提取模块
5.3.2 文本语义分割模块
5.3.3 空间圆位置模块
5.3.4 训练损失
5.4 实验结果与分析
5.4.1 实验设置
5.4.2 对比实验
5.4.3 消融实验
5.4.4 可视化分析
小结
第6章 基于图像分割和匹配的场景文字视觉问答方法
6.1 图像分割与匹配在场景文字视觉问答中的应用
6.2 技术背景与方法论
6.2.1 基于文本聚类技术的场景文字视觉问答方法
6.2.2 基于SAM的视觉语言模型
6.3 基于图像分割和匹配的场景文字视觉问答方法
6.3.1 多模态特征提取模块
6.3.2 场景文字载体分割和匹配模块
6.3.3 分层视觉特征融合模块
6.3.4 训练损失
6.4 实验结果与分析
6.4.1 实验设置
6.4.2 对比实验
6.4.3 消融实验
小结
第7章 面向场景文本的视觉问答技术展望
7.1 场景文本视觉问答技术总结
7.2 未来工作展望
小结
参考文献
展开