信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书从实际应用的角度出发，首先论述场景文字视觉问答的全新进展和技术方向，之后分别针对当前场景文字视觉问答模型缺乏场景文字语义含义和语义差异的理解能力、缺乏场景文字间的上下文语义关系建模能力以及缺乏将自然场景中强关联场景文字的聚类划分能力等问题，进行理论分析并提出相应方法，最后对未来的工作进行了展望。本书技术内容前沿，条理清晰，适合作为计算机与人工智能相关行业专业技术人员的参考书。

展开

精彩书评

展开

精彩书摘

展开

第1章场景文字视觉问答的探索之旅
1.1 场景文字视觉问答的缘起
1.2 场景文字视觉问答技术的发展现状
1.3 语义鸿沟：场景文字理解的挑战
小结
第2章自然场景文本分析与视觉问答任务：方法、挑战与数据综述
2.1 文字检测识别综述
2.1.1 了解文字检测识别
2.1.2 文字检测识别的背景
2.1.3 基于深度学习的自然场景文本检测方法
2.1.4 基于深度学习的自然场景文本识别方法
2.1.5 基于深度学习的端到端的自然场景文本识别方法
2.2 视觉问答综述
2.2.1 视觉问答任务概述
2.2.2 视觉问答的挑战
2.2.3 视觉问答的关键方法
2.2.4 数据集介绍
小结
第3章场景文字问答技术概述
3.1 场景文字视觉问答技术相关深度学习模型
3.1.1 视觉特征提取模型
3.1.2 语义特征提取模型
3.1.3 多模态融合模型
3.2 场景文字视觉问答技术的发展
3.2.1 基于编码器和解码器框架的场景文字视觉问答模型
3.2.2 基于图神经网络的场景文字视觉问答模型
3.2.3 针对预训练任务的场景文字视觉问答模型
3.2.4 基于数据增强的场景文字视觉问答方法
3.3 场景文字视觉问答技术的数据集和评测指标
3.3.1 主要数据集
3.3.2 评测指标
小结
第4章以场景文本语义为中心的场景文字视觉问答模型
4.1 场景文本语义理解的挑战与机遇
4.2 场景文字视觉问答的模型结构创新
4.2.1 场景文字模型结构设计相关工作
4.2.2 证据引导的答案生成模块相关工作
4.3 以场景文本语义为中心的模型
4.3.1 多模态特征提取模块
4.3.2 以语义为中心的Transformer模块
4.3.3 实例级别的语义对比学习预测模块
4.3.4 训练损失
4.4 实验结果与分析
4.4.1 实验设置
4.4.2 消融实验
4.4.3 对比实验
4.4.4 可视化分析
小结
第5章基于文本语义上下文学习及空间表示的场景文字视觉问答方法
5.1 场景文本视觉问答的语义与空间挑战
5.2 场景文本关系建模与空间编码进展
5.2.1 场景文字关系建模相关工作
5.2.2 空间位置编码相关工作
5.3 文本语义与空间表示结合的场景文字视觉问答方法
5.3.1 多模态特征提取模块
5.3.2 文本语义分割模块
5.3.3 空间圆位置模块
5.3.4 训练损失
5.4 实验结果与分析
5.4.1 实验设置
5.4.2 对比实验
5.4.3 消融实验
5.4.4 可视化分析
小结
第6章基于图像分割和匹配的场景文字视觉问答方法
6.1 图像分割与匹配在场景文字视觉问答中的应用
6.2 技术背景与方法论
6.2.1 基于文本聚类技术的场景文字视觉问答方法
6.2.2 基于SAM的视觉语言模型
6.3 基于图像分割和匹配的场景文字视觉问答方法
6.3.1 多模态特征提取模块
6.3.2 场景文字载体分割和匹配模块
6.3.3 分层视觉特征融合模块
6.3.4 训练损失
6.4 实验结果与分析
6.4.1 实验设置
6.4.2 对比实验
6.4.3 消融实验
小结
第7章面向场景文本的视觉问答技术展望
7.1 场景文本视觉问答技术总结
7.2 未来工作展望
小结
参考文献

展开