搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
场景文字视觉问答技术理论与实践研究
0.00     定价 ¥ 68.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购15本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787113319915
  • 作      者:
    作者:方承炀|责编:贾星//徐盼欣
  • 出 版 社 :
    中国铁道出版社有限公司
  • 出版日期:
    2024-12-01
收藏
畅销推荐
内容介绍
本书从实际应用的角度出发,首先论述场景文字视觉问答的全新进展和技术方向,之后分别针对当前场景文字视觉问答模型缺乏场景文字语义含义和语义差异的理解能力、缺乏场景文字间的上下文语义关系建模能力以及缺乏将自然场景中强关联场景文字的聚类划分能力等问题,进行理论分析并提出相应方法,最后对未来的工作进行了展望。 本书技术内容前沿,条理清晰,适合作为计算机与人工智能相关行业专业技术人员的参考书。
展开
目录
第1章 场景文字视觉问答的探索之旅
1.1 场景文字视觉问答的缘起
1.2 场景文字视觉问答技术的发展现状
1.3 语义鸿沟:场景文字理解的挑战
小结
第2章 自然场景文本分析与视觉问答任务:方法、挑战与数据综述
2.1 文字检测识别综述
2.1.1 了解文字检测识别
2.1.2 文字检测识别的背景
2.1.3 基于深度学习的自然场景文本检测方法
2.1.4 基于深度学习的自然场景文本识别方法
2.1.5 基于深度学习的端到端的自然场景文本识别方法
2.2 视觉问答综述
2.2.1 视觉问答任务概述
2.2.2 视觉问答的挑战
2.2.3 视觉问答的关键方法
2.2.4 数据集介绍
小结
第3章 场景文字问答技术概述
3.1 场景文字视觉问答技术相关深度学习模型
3.1.1 视觉特征提取模型
3.1.2 语义特征提取模型
3.1.3 多模态融合模型
3.2 场景文字视觉问答技术的发展
3.2.1 基于编码器和解码器框架的场景文字视觉问答模型
3.2.2 基于图神经网络的场景文字视觉问答模型
3.2.3 针对预训练任务的场景文字视觉问答模型
3.2.4 基于数据增强的场景文字视觉问答方法
3.3 场景文字视觉问答技术的数据集和评测指标
3.3.1 主要数据集
3.3.2 评测指标
小结
第4章 以场景文本语义为中心的场景文字视觉问答模型
4.1 场景文本语义理解的挑战与机遇
4.2 场景文字视觉问答的模型结构创新
4.2.1 场景文字模型结构设计相关工作
4.2.2 证据引导的答案生成模块相关工作
4.3 以场景文本语义为中心的模型
4.3.1 多模态特征提取模块
4.3.2 以语义为中心的Transformer模块
4.3.3 实例级别的语义对比学习预测模块
4.3.4 训练损失
4.4 实验结果与分析
4.4.1 实验设置
4.4.2 消融实验
4.4.3 对比实验
4.4.4 可视化分析
小结
第5章 基于文本语义上下文学习及空间表示的场景文字视觉问答方法
5.1 场景文本视觉问答的语义与空间挑战
5.2 场景文本关系建模与空间编码进展
5.2.1 场景文字关系建模相关工作
5.2.2 空间位置编码相关工作
5.3 文本语义与空间表示结合的场景文字视觉问答方法
5.3.1 多模态特征提取模块
5.3.2 文本语义分割模块
5.3.3 空间圆位置模块
5.3.4 训练损失
5.4 实验结果与分析
5.4.1 实验设置
5.4.2 对比实验
5.4.3 消融实验
5.4.4 可视化分析
小结
第6章 基于图像分割和匹配的场景文字视觉问答方法
6.1 图像分割与匹配在场景文字视觉问答中的应用
6.2 技术背景与方法论
6.2.1 基于文本聚类技术的场景文字视觉问答方法
6.2.2 基于SAM的视觉语言模型
6.3 基于图像分割和匹配的场景文字视觉问答方法
6.3.1 多模态特征提取模块
6.3.2 场景文字载体分割和匹配模块
6.3.3 分层视觉特征融合模块
6.3.4 训练损失
6.4 实验结果与分析
6.4.1 实验设置
6.4.2 对比实验
6.4.3 消融实验
小结
第7章 面向场景文本的视觉问答技术展望
7.1 场景文本视觉问答技术总结
7.2 未来工作展望
小结
参考文献
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证