信阅平台

内容介绍

《基于深度学习的视频物体分割方法与技术》介绍了视频物体分割任务的理论、技术与应用。《基于深度学习的视频物体分割方法与技术》分为四大部分，**部分（第1章～第3章）介绍了视频物体分割的研究现状和理论基础，主要包含国内外相关研究、视频物体分割基础概念、两类融合算法的具体实现与实验分析；第二部分（第4，5章）介绍了视频物体分割算法在训练阶段和测试阶段的优化技巧，主要包含训练阶段针对性的样本扩充、损失函数设计与测试阶段的后处理算法对比分析；第三部分（第6章）介绍了算法的评价方式，重点针对无监督条件下如何评价算法性能进行了细致解析；第四部分（第7，8章）给出了技术的具体应用，包括视频编辑、人机交互、智能监控、智慧医疗等场景，并对视频物体分割进行总结、展望未来发展趋势。

展开

精彩书摘

第1章绪论
　　视觉信息大约占人类对外部世界的感觉信息量的80%[1]，为人类认知提供了*重要的基石。视频作为大数据和互联网时代*主要的非接触式视觉信号的交流和表达方式，为人们的生产生活提供了强大的安全保障，为人们的工作提供了极大的便利，同时也对智能算法提出了高难度的信息提取和处理的挑战。如何高效精准地处理、提取视频传达的视觉信息尤为重要，因此，智能视频处理领域涌现出诸多实用任务的研究，如视频运动片段分割[2]、视频异常检测[3]、视频物体分割[4]等。本章阐述智能视频处理中关键技术之一的视频物体分割技术的概念、应用领域、关键问题和研究现状。
　　1.1视频物体分割的概念
　　1.1.1计算机视觉处理任务的语义层级划分
　　计算机视觉处理的任务按照语义层级划分，可分为低层级、中层级和高层级三种级别。
　　在低层级视觉处理任务中，算法的处理方式大多与视频或图像的内容无关，通常算法的输入为图像，则输出也为图像，输入为视频，则输出也为视频，如图像去雾算法[5，6]、图像去模糊算法[7，8]、图像过分割算法[9]等。这些任务中的视觉处理并不需要理解图像语义，图像内容的类别、图像中目标位置等信息并不影响任务的处理结果，算法只通过统计规律或者预估参数便可完成图像处理任务。如图1.1所示的单图暗通道图像去雾算法，基于暗通道假设和大气光传输模型进行了数学建模，从带雾图像的像素值中，使用暗通道先验估计出透射系数，将大气光强度A设置为常数，然后通过转换公式直接计算，便可得出去雾图像。该处理过程对森林山谷图像、湖面天鹅图像的处理流程是一样的，不涉及对图像内容的识别和理解。
　　图1.1低层级视觉任务示例（暗通道图像去雾算法[5]）
　　中层级视觉任务要求算法能够从视频、图像中提取特征，进行解析和处理，从输入的图像、视频数据中估计出其相关关系，或预测出新类型的数据，如视频光流预测[10]、基于聚类算法的图像分割[11]、视频追踪[12]与图像匹配[13]等。算法基于数据特点对其进行一定程度的抽象和特征提取，但并未上升至人类语义级别，如图1.2所示，文献[12]所提算法根据图像中层语义特征提取待匹配图像对的局部关键点，并计算特征距离实现图像对的关键点匹配，为两张图像的对齐和拼接提供了信息。
　　高层级视觉任务蕴含的语义信息与人类认知接壤，要求算法能够理解和掌握人类认知层级的语义信息，如识别图像中的目标类别和位置[14，15]、鉴定人类面部图像表达的情感[16]等。几种常见的高层级视觉任务有图像分类、目标检测和图像分割。这几种任务的难度逐级上升：图像分类任务仅要求算法对整张图像进行归类，如分类为含狗的图像、含飞机的图像、含汽车的图像等；目标检测任务需要算法输出坐标框级别的物体类别；图像分割任务则要求算法给出图像中像素级别的类别信息。图1.3所示为图像分类、检测、分割任务的算法常见预测结果表现形式示例。其中，分类结果c表示图像分类任务的类别号，一般为整数；检测任务的预测结果中，分别代表预测出的物体检测框在图像中的左下角点坐标(x，y)，以及检测框的宽度w和高度h；分割任务中则直接给出像素级别的分类结果图掩模，掩模大小和原图一致。
　　图1.2中层级视觉任务示例（基于关键点匹配的图像配准任务[13]）
　　图1.3常见的图像分类、检测、分割任务及其预测结果
　　1.1.2视频物体分割的定义
　　视频物体分割与1.1.1节中所述的图像分割类似，都需要算法给出像素级别
　　的类别结果。在视频物体分割任务中，算法需要给出视频每帧图像中的像素级
　　别物体掩模。视频物体分割与图像分割的主要不同点在于以下几个方面。
　　（1）类别的未知性。图像分割算法仅处理已知类别的物体图像，如在算法的训练阶段使用包含“人”“车”“狗”等20类物体掩模的标注图像进行训练，则算法在处理图像时也仅能分割出这些特定类别的物体掩模；视频物体分割则大多不给出物体类别的预定义，需要算法根据运动信息等自动区分出视频中的主要物体并进行分割，或者通过在某一帧指定一个任意类别的目标物体，要求算法分割出该目标在全部视频中的掩模。
　　（2）图像的连贯性。在图像分割中，算法处理的图像数据不存在关联性，每张图均可视为*立的处理任务；在视频物体分割中，由于视频是流体结构，其每一帧图像内像素包含的空域信息与相邻帧图像直接存在时域（视频在时间上的信息）的连续性。
　　图1.4直观地给出了图像分割和视频物体分割任务的联系与区别示例。图像分割和视频物体分割均要求算法从可见光图片数据中分割出像素级别的物体掩模。图1.4（a）中的图像分割任务物体掩模用红色、绿色表示，可以看出，图像之间相互*立，不存在类别、运动等对应关系；图1.4（b）中的视频物体分割任务物体掩模用红色表示，**行彩色图为视频帧间运动信息的示意图，显示了视频帧图像之间强烈的时空联系性。
　　图1.4图像分割与视频物体分割的联系与区别示例（见彩图）
　　1.1.3视频物体分割的任务划分
　　针对不同的应用场景，视频物体分割存在多种任务划分方式。
　　1）按照监督方式划分
　　按照待分割视频的*帧是否给出了人工标注，视频物体分割可划分为“无监督视频物体分割”和“半监督视频物体分割”两类。
　　（1）无监督视频物体分割。无监督视频物体分割是指在测试视频中不给出任何指定信息，由算法自主识别到视频中的主要物体，并在所有视频帧中把这个物体分割出来。该类型的视频物体分割任务要求测试视频具有单一的主要物体，以便于算法区分和识别。
　　（2）半监督视频物体分割。在半监督视频物体分割中，待测视频在**帧中给出由人手工标注的目标物体掩模，掩模中给出需要算法分割的一个物体或多个物体。算法通过对每个待测视频*帧标注的挖掘和学习，实现对目标物体的分割掩模预测。
　　2）按照分割目标数量划分
　　按照待测视频中是否仅包含单个分割目标，视频物体分割可以分为“单目标视频物体分割”和“多目标视频物体分割”两类。
　　（1）单目标视频物体分割。单目标视频物体分割，又称视频主要物体分割，要求待测视频中包含单一的主要目标，如街舞视频中众人围观圈子中心的跳动舞者、监控视频中唯一挪动的车辆等。由于存在区别于场景内其他物体的主要目标，单目标视频分割可允许算法在无监督的情况下进行分割，通过对视频内容的理解和分析自动获取目标信息。
　　（2）多目标视频物体分割。多目标视频物体分割需要算法同时给出数个指定目标的分割掩模，如同时跳舞的数名舞者、车流中的多辆汽车等。由于目标之间可能不存在较大的区分性，多目标分割只能在半监督条件下进行，算法需要根据人工标定的目标掩模识别出不同目标之间的差异，从而进行各物体的分割。
　　3）按照人工交互划分
　　按照算法分割过程中是否允许人工交互，视频物体分割可以分为“非交互视频物体分割”和“交互式视频物体分割”两类。
　　（1）非交互视频物体分割。无监督视频物体分割的算法处理过程中不涉及人工标注和矫正，属于无交互视频物体分割。在半监督视频物体分割中，若算法仅根据人工标注的视频*帧掩模进行优化，在处理待测视频过程中无须人工干预，算法预测结果为*终输出结果，则也属于“无交互视频物体分割”。如图1.5（a）所示，半监督视频物体分割任务在*帧给出三个目标物体人工标注的像素级别掩模（分别用红色、绿色、蓝色表示），算法根据*帧标注进行训练优化，并实现对待测视频的分割（为了方便观察，图中将算法预测结果中三个目标的红、绿、蓝掩模与原始图像叠加显示）。
　　（2）交互式视频物体分割。交互式视频物体分割任务适用于对掩模精细度要求较高且允许人工互动的场景。在算法预测过程中，交互式视频物体分割允许算法与人工进行多轮互动，**轮中人工给出部分视频帧的粗略标注，算法根据**轮的标注信息调整参数，预测出**轮优化后的掩模，此时一般掩模预测性能较差，如图1.5（b）中的算法预测（**轮）所示；在得出预测掩模后，通过人工交互为算法提供校准信息（图中用红、绿、蓝、黑的线条标注，代表此处像素真值应该分别对应三个目标物体和背景）；算法基于标注进行迭代调整，获得第二轮的预测结果，从图中可看出，经校准信息重新优化训练后，第二轮的掩模预测性能有明显提升；以此类推地迭代下去，直至算法精度达到待测视频的应用需求。由于交互式视频物体分割允许多轮迭代，因此算法的处理时间、精度可控，在不计时间成本的情况下，可以达到近似真值的超高预测精度。

展开

目录
前言
第1章绪论 1
1.1 视频物体分割的概念 1
1.1.1 计算机视觉处理任务的语义层级划分 1
1.1.2 视频物体分割的定义 4
1.1.3 视频物体分割的任务划分 5
1.2 视频物体分割的应用领域 8
1.3 视频物体分割中的关键问题 10
1.4 视频物体分割的研究现状 11
1.4.1 图像分割技术的研究现状 11
1.4.2 无监督视频物体分割的研究现状 14
1.4.3 半监督视频物体分割的研究现状 15
1.4.4 交互式视频物体分割的研究现状 17
1.5 本章小结 18
第2章运动和表观特征融合的视频物体分割技术 21
2.1 引言 21
2.2 视频的运动光流预测 22
2.3 基于运动和表观特征融合的视频物体分割模型 23
2.3.1 神经网络架构 25
2.3.2 双向传播与迭代优化 27
2.4 实验结果与分析 30
2.4.1 数据集和评测指标 30
2.4.2 算法的有效性验证 31
2.4.3 算法评价 32
2.5 本章小结 38
第3章追踪和前景分割融合的视频物体分割技术 39
3.1 引言 39
3.2 视频目标追踪算法 40
3.3 基于部件追踪的快速视频物体分割技术 42
3.3.1 部件追踪 43
3.3.2 部件分割 46
3.3.3 基于相似度的掩模合成 47
3.4 实验结果与分析 49
3.4.1 数据集和评测指标 49
3.4.2 追踪器对比实验 50
3.4.3 算法有效性验证实验 51
3.4.4 算法评价 53
3.5 本章小结 57
第4章视频物体分割算法的训练优化 59
4.1 引言 59
4.2 训练样本扩增技术 60
4.2.1 视频物体分割中的掩模数据扩充 60
4.2.2 视频物体分割中的光流数据扩充 62
4.3 训练损失函数设计 64
4.3.1 联合学习 64
4.3.2 视频物体分割中的掩模边缘问题分析 65
4.3.3 视频物体分割的掩模-边缘联合损失函数设计 66
4.4 实验结果与分析 69
4.4.1 数据集和评测指标 69
4.4.2 训练样本扩增技术的有效性验证 70
4.4.3 掩模-边缘联合损失函数的参数分析 73
4.4.4 掩模-边缘联合损失函数的有效性验证 75
4.4.5 联合学习网络的性能分析 76
4.5 本章小结 78
第5章视频物体分割算法的掩模优化 79
5.1 引言 79
5.2 掩模优化技术概述 80
5.3 条件随机场掩模优化技术 82
5.3.1 基于平均场近似的 CRF 掩模优化 82
5.3.2 基于神经网络的 CRF 掩模优化 84
5.4 基于空间传播网络的掩模优化 86
5.5 基于目标连通域的掩模优化 89
5.6 实验结果与分析 92
5.6.1 CRF掩模优化效果 92
5.6.2 SPN掩模优化效果 93
5.6.3 基于连通域的掩模优化效果 94
5.7 本章小结 95
第6章视频物体分割算法的质量评估 96
6.1 引言 96
6.2 分割掩模质量评估方法 97
6.2.1 有标注条件下的掩模质量评估 97
6.2.2 无标注条件下的掩模质量评估 100
6.3 基于深度学习的视频物体分割掩模质量自动评估算法 102
6.3.1 数据准备 102
6.3.2 模型介绍 106
6.3.3 模型训练 107
6.3.4 模型应用 107
6.4 实验结果与分析 108
6.4.1 网络各模块有效性分析 108
6.4.2 网络对不同评价指标的预测能力分析 109
6.4.3 模型参数分析 110
6.4.4 模型特征组合方式分析 111
6.4.5 模型通用性验证 113
6.5 自动质量评估算法的实际应用 114
6.5.1 自动质量评估算法用于掩模筛选 114
6.5.2 自动质量评估算法用于参数搜索 114
6.5.3 自动质量评估算法用于任意视频的掩模质量评价 116
6.6 本章小结 118
第7章视频物体分割算法的应用推广 119
7.1 引言 119
7.2 视频物体分割在视频编辑中的应用实例 119
7.2.1 背景替换 119
7.2.2 实时特效 121
7.3 视频物体分割在人机交互中的应用实例 122
7.3.1 人机交互 122
7.3.2 增强现实 124
7.4 视频物体分割在智能监控中的应用实例 125
7.4.1 天网地面监控 125
7.4.2 无人机遥感监控 127
7.5 视频物体分割在智能医疗中的应用实例 128
7.5.1 医学影像分析 128
7.5.2 手术机器人 130
7.6 视频物体分割在自动驾驶中的应用实例 131
7.7 本章小结 133
第8章总结与展望 134
参考文献 135
彩图

展开