第1章绪论
1.1研究背景与意义
目标检测是计算机视觉中最重要和最基础的任务之一,也是众多高层视觉任务,如活动或事件检测、行为理解和分析、场景识别和解析等的重要前提。目标检测方法的进步对推动计算机视觉和人工智能的发展具有重要的意义[1-5]。视觉目标检测任务不仅要判断给定的图像中是否存在感兴趣的目标、识别该目标所属的类别,还需要以矩形框的形式确定每个感兴趣目标的具体位置。
视觉目标检测的应用场景非常广泛,包括智能辅助驾驶、智能视频监控、机器人导航、工业检测、航空航天等。视觉目标检测应用示例如图 1.1所示。目标检测在信息、控制与智能系统中的运用非常广泛,是构成智能视频监控、目标检索和机器人导航的核心技术。传统的目标检测任务主要包括目标示例检测 (object instance detection)和目标类别检测 (object class detection)[6]。目标示例检测任务要求识别并定位输入图像中已知的特定物体,例如检测图像中的某一只特定的猫。在该任务中,测试集中的目标和训练集中的目标是同一个目标在不同形态和环境下的成像,本质上是将测试图像中的目标与训练集合中的目标进行匹配。检测模型需要的成像条件包括光照与角度的变化等。目标类别检测任务更加关注检测目标的类别。该任务要求识别并定位感兴趣的目标,与目标示例检测的主要区别在于,训练样本集中的目标和待检测的目标样本不是同一个特定的目标,而是属于同一类别。相比之下,后者更具有挑战性,原因在于同一类别的目标在语义上虽然很接近,但是实际的物理特性,如颜色、纹理、形状可能会有非常大的差异。本书的研究内容属于目标类别检测这一任务,将其简称为目标检测。
在过去的几十年中,大批研究人员投身目标检测的研究中,尝试并提出多种有效目标检测算法。这些算法主要基于机器学习方法,通过学习建立目标检测框架。其中,应用最为广泛的机器学习方法是监督学习。监督学习目标检测是指利用已知类别的训练样本集合,使检测器能够准确分类和定位测试集中未知的目标样本。在监督学习过程中,算法往往依赖人工给定的样本类别标注信息,同时检测任务还需要给出目标的具体位置。在训练分类和检测模型之前,人们需要对图像数据集中所有的目标样本进行标注。为了能够涵盖多视角、多姿态、多形态的目标,增强模型的学习效率和鲁棒性,监督学习目标建模过程往往需要大量精确的人工标注信息,如目标的类别和位置等。人工标注的过程往往十分复杂,并且耗时费力。相比之下,对于其他视觉任务,如图像分类、场景分类,标注者只需要对图像中的目标类别进行标注。
近年来,人工智能中的深度学习技术,如深度卷积神经网络、长短时记忆神经网络等在计算机视觉任务 (如图像分类、物体检测等 )中取得巨大的成功,极大地促进了计算机视觉的发展。但是,现有的深度模型对训练数据有很高的要求,为保证模型的性能,需要大量人工标注好的样本训练网络参数。同时,随着社会的持续发展,海量图像视频数据、城市安全监控数据 (如 X-光安检图像 ),一直在爆炸性地增长。其中,绝大部分数据都是没有标注的,对其进行人工标注的代价非常高昂,而且人工标注往往会因为标注者的疲劳和理解不同等原因,产生标注错误。如何从理论和应用的角度出发,设计新的学习模型,实现以下目标就成为学术界和工业界研究的热点。
(1) 从海量未标注的数据中挖掘有价值的视觉目标信息。
(2) 实现(极)弱监督下的特征与模型学习。
(3) 大幅度地提升模型的通用性和场景适应性。
认知科学领域的成果表明,人类能够在非常少量的样本或者先验信息 (弱监督 )驱动下获得物体认知能力。人类视觉认知呈现弱监督与自学习特性(图 1.2)。人类视觉认知机制能够通过自主学习不断增强认知能力。本书涉及的弱监督目标建模是指,只需要给出图像在是否包含待检测目标 (图像级标注)的条件下,建立目标检测模型。
目录
前言
第1章 绪论 1
1.1 研究背景与意义 1
1.2 研究现状与存在的问题 5
1.2.1 研究现状 5
1.2.2 存在的问题 10
1.3 本书的主要研究内容 11
第2章 相关工作与技术 14
2.1 全监督目标检测 14
2.1.1 候选框提取算法 14
2.1.2 特征提取 15
2.1.3 特征学习 16
2.2 弱监督目标检测 18
2.2.1 传统方法 19
2.2.2 基于深度学习的方法 21
2.3 特征学习与建模 24
2.3.1 无监督特征预学习 24
2.3.2 不变性特征 25
2.3.3 弱监督目标建模 26
2.4 弱监督语义分割与实例分割 27
2.5 本章小结 28
第3章 *小熵隐变量模型 29
3.1 问题简介 29
3.2 *小熵隐变量模型 31
3.2.1 候选框团划分 33
3.2.2 全局*小熵隐模型 34
3.2.3 局部*小熵隐模型 36
3.3 网络结构与实现 37
3.4 模型优化 39
3.5 模型分析 41
3.6 实验结果与分析 43
3.6.1 实验设定 43
3.6.2 候选框团的影响与分析 46
3.6.3 定位随机性分析 48
3.6.4 模型拆解分析 52
3.6.5 实验结果与对比 55
3.7 本章小结 62
第4章 渐进多示例学习 63
4.1 多示例学习回顾 65
4.2 非凸分析 67
4.3 渐进多示例学习 68
4.3.1 渐进示例挖掘 69
4.3.2 渐进检测器学习 70
4.4 网络结构与实现 70
4.5 实验结果与分析 71
4.5.1 实验设定 71
4.5.2 连续优化方法评测 72
4.5.3 语义稳定极值区域 75
4.5.4 实验性能与对比 76
4.6 本章小结 79
第5章 弱监督X射线图像违禁品检测 80
5.1 问题简介 80
5.2 弱监督X射线违禁品定位网络 81
5.2.1 分层置信度传播 81
5.2.2 多尺度激活 83
5.3 实验结果与分析 84
5.3.1 实验设置与评测 84
5.3.2 数据集简介 85
5.3.3 分类与定位实验 87
5.3.4 模型验证实验 91
5.4 本章小结 92
第6章 总结与展望 93
6.1 总结 93
6.2 展望 94
参考文献 96