信阅平台

内容介绍

《从低层视觉到高层语义特征的图像检索技术》针对CBIR中的图像特征表达和相似性度量两个关键环节，从低层视觉到高层语义特征的图像检索技术，重点围绕如何提取和表达图像视觉特征来尽可能地体现图像高层语义、如何对深度特征进行有效的聚合表达来增强特征的表达能力和可辨别能力、如何定义准确的图像相似性度量方法以体现图像语义相似性等问题展开了深入的研究和探讨。《从低层视觉到高层语义特征的图像检索技术》注重理论方法创新研究和算法应用与实践相结合，涉及图像多特征融合、深度卷积特征聚合、图像索引及相似性度量学习、图像高层语义提取等关键技术，以及基于交互式反馈、情感语义、Web搜索引擎、跨模态等智能图像检索的前沿研究技术。

展开

精彩书摘

第1章基于内容的图像检索概述
　　1.1 图像检索技术的发展
　　随着计算机网络的快速发展和空前普及，人们每天都被来自于智能手机、2D/3D 应用程序、网站等多种可视化终端和载体的图像、音频和视频等的多媒体数据所淹没。这样的新时代见证了多媒体数据在数量、可用性、复杂性、多样性及重要性上的巨大变革。不同于文本数据，多媒体数据具有更加丰富、直观、生动的信息，在教育、医疗、天气预报、刑事调查、新闻、广告、艺术设计、网络、社交媒体和娱乐等领域中发挥着至关重要的作用。图像作为*主要的多媒体资源，针对图像的存储、检索、分析等技术的需求变得更加迫切，其中如何从大量的图像数据中快速、准确、高效地检索到人们想要的视觉信息成为*具挑战性的任务之一。
　　图像检索技术的研究始于20世纪70年代[1]，早期的研究主要集中在基于文本(关键字)的图像检索技术，由于其需要大量的、烦琐的人工标注，且具有极强的主观性和不确定性，往往使得文本和图像内容之间存在一定差异，从而导致图像检索中不可纠正的匹配错误，尤其当图像的规模剧增时，基于文本的图像检索技术在实际应用中的局限性愈加明显。为了克服这一困难，基于内容的图像检索技术应运而生，并逐渐成为图像领域的研究热点之一。基于内容的图像检索即“以图搜图”，是以图像的视觉特征作为查询条件，通过匹配图像的视觉信息来完成图像的检索。相比基于文本的图像检索方式，基于内容的图像检索不再受图像标注的限制，而是直接通过分析图像内容来实现检索，这样的过程更加符合人类的认知过程，从而更能满足用户的检索需求[2]，因此基于内容的图像检索研究具有重要的研究意义和广泛的应用前景。
　　从20世纪90年代早期到21世纪初，经过了二十多年的理论研究和实践探索，基于内容的图像检索涌现了大量的研究成果，基于内容的图像检索的相关技术不断完善并逐渐成熟[3-14]。然而目前，尽管国内外很多网络搜索引擎都提供以图像示例作为查询条件的图像检索服务功能，但其检索结果有时并不能达到人们预期的效果，其主要原因在于检索意图和检索结果之间存在的“语义鸿沟”，主要源于三个方面：①一幅图像或简单的草图、轮廓图等查询示例很难准确描述用户检索意图所带来的意图语义差异；②查询示例中抽取的视觉特征并不能准确反映检索意图所要表达的高层语义带来的特征语义差异；③查询图像特征和检索目标特征之间的相似性关系度量不准确而产生的关系语义差异。图1.1所示为基于内容的图像检索过程中产生的语义差异，其中，意图语义差异取决于查询者自身的主观因素，而如何缩小特征语义差异和关系语义差异成为基于内容的图像检索的研究热点和难点。因此，本书围绕图像特征表达和图像相似度量两个关键问题进行了深入的探讨，从图像的局部特征到全局特征，贯穿传统视觉特征的融合、深度特征的聚合、高层语义特征的表示，同时考虑了特征匹配过程中的距离优化、重排序和语义相似度量等问题，期望通过更有效的特征表达和更准确的相似性度量来缓解图像检索中由于特征语义差异和关系语义差异导致的“语义鸿沟”问题，从而达到不断提升图像检索性能的目的。
　　图1.1 基于内容的图像检索中存在的语义差异
　　1.2 基于内容的图像检索技术及其应用
　　1.2.1 基于内容的图像检索概念界定
　　在信息技术高速发展的网络时代，随着各类社交网站、移动APP、小程序等形式各异的应用软件平台的流行和普及，图像、视频、音频、文本等多媒体数据每天都在以爆炸式增长，图像已成为人们获取信息*直接、*有效、*丰富的方式。面对如此大规模且内容丰富的图像视觉信息，急需一种高效的方法能从偌大的图像库中检索出用户感兴趣的、有价值的图像资源，显然基于文本关键字的传统检索方式已不能满足人们当前的实际需求。由此，基于内容的图像检索技术应运而生，受到了越来越多的关注并逐渐成为多媒体信息检索领域的研究热点。
　　在图像检索中，用户*先需要将自己的检索意图表达为具体的视觉查询示例。查询示例是否能够准确地体现用户的意图，很大程度决定了检索结果的准确与否。一个具体的、准确的查询示例将大幅度地降低检索的难度，且能够较为容易地获得令人满意的结果。通常而言，查询示例的类型包括很多种，除图像类查询示例外，还有草图、彩色分布图等简单模式的图片，尽管这些查询方式较为简便，但通常因其缺乏较为丰富的细节信息，所以很难明确表达用户查询的意图，从而导致检索难度增大，难以得到令人满意的结果。如图1.2所示，假设用户曾经拍摄过某种不知名的紫色花朵，当他想通过互联网查找与其相似的图片时，可通过多种方式进行检索。显然，相比于其他几种查询方式，以该花朵的图像作为查询示例能更准确地检索到用户想要的结果。目前，图像示例作为查询对象的图像检索是应用*为广泛的方式，也是基于内容的图像检索中研究*多的一种，本书研究即为此范畴。
　　图1.2 基于内容的图像检索示例
　　1.2.2 基于内容的图像检索基本框架及相关技术
　　图1.3给出了基于内容的图像检索的基本框架，包括主要的检索流程和相关技术，其中*核心的问题就是如何提取图像的视觉特征并进行表达，以及如何通过图像视觉特征进行相似度匹配，其分别对应图像特征表达和图像匹配两个主要部分。下面简要介绍图像特征表达和图像匹配阶段的主要任务、方法以及其他相关技术。
　　图1.3 基于内容的图像检索基本框架
　　1．图像特征表达
　　图像检索即要从图像库中检索出与查询图像相似的多幅图像，由于图像中呈现的视觉内容比较复杂，直接通过对比高维的图像原始像素信息不仅需要巨大的计算开销，而且导致图像中的语义概念无法被理解。因此，需要一种图像特征表达方法从图像中提取和抽象出能代表图像本质的图像特征，并使其通过向量化的形式进行表示和分析，*终将图像检索的任务转化成查询图像特征与数据库图像特征之间的相似性比较。这一过程主要包括图像特征提取及特征压缩与聚合。
　　特征提取：图像特征主要包括通用的图像视觉特征和领域相关的视觉特征。通用的视觉特征包括颜色、纹理、形状、空间关系等传统视觉特征[15-18]，以及视觉词包模型BoVW特征[19]和基于卷积神经网络提取的深度卷积特征等基于学习的图像特征[20，21]。从另一个角度，这些图像的特征通常还可以被划分为基于全局的特征和基于局部的特征。全局图像特征是通过分析图像像素来描述整个图像所包含的内容信息，局部特征往往用来描述图像的某个部分或者某些关键点，比如尺度不变特征变换(Scale-Invariant Feature Transform，SIFT)等[22]，以及一些基于局部模式的图像特征描述子。此外，领域相关的视觉特征则建立在某些先验知识(或假设)的基础上，例如人脸特征或指纹特征等。
　　特征压缩与聚合：面对大规模图像提取得到的高维的全局特征或数量庞大的局部特征时，如果直接进行查询图像特征与数据库图像特征的相似度比对，则会给检索系统带来极大的存储和计算负担。因此，通常在特征提取后就需要对特征进行必要的特征压缩或聚合技术，如PCA降维、BoVW模型、局部特征聚合描述符(Vector of Locally Aggregated Descriptor，VLAD)[23]和Fisher向量(Fisher Vector，FV)等[24]，使得高维图像特征或多个局部特征描述子以一种更加紧凑、一致的向量化方式进行表达，从而提升图像特征的表征能力，同时降低图像特征匹配时的计算复杂度以提高图像检索效率。
　　2．图像匹配
　　图像匹配主要是通过相似性度量方法计算查询图像与数据集图像在视觉特征上的相似性程度，并返回与查询图像*为相似的图像序列。通常，在该过程中还可以采用距离学习、扩展查询等方法对初始检索结果进行重排序以提高检索精度。
　　(1)图像相似性度量：图像相似性度量是通过某种距离度量方法来计算图像在视觉特征上的相似程度，而所提取的图像特征结构决定了在图像匹配阶段所采用的图像相似性(距离)度量方法的类型。在实际应用中，不同的特征采用不同的距离度量函数会得到不同的检索结果，因此，图像匹配中所采用的相似度量(或距离度量)函数是否适合会直接影响检索结果的好坏。不同于基于文本检索方法所采用的精确匹配，基于内容的图像检索只能通过计算查询图像特征与数据库图像特征之间的相似度来近似完成一种非精确的匹配。
　　(2)重排序搜索：通过图像相似性度量即可得到一个初始的排序检索结果，为了进一步提升检索结果的满意度，通常有两方面的工作：一是充分利用其初始结果中的图像近邻关系来挖掘图像之间的上下文关系，达到再次优化图像相似度排序的目的。这一类工作主要包括基于距离学习的重排序、基于图结构的重排序、基于扩散过程的距离优化方法等。二是通过增强初始查询条件的鲁棒性，来达到改善检索结果的目的，*为常用的即为扩展查询。扩展查询通过初始查询结果中排名靠前的图像特征的平均特征来代替新的查询图像特征进行再次查询。由于新生成的特征可以使得查询的特征表达更为丰富，从而提高查询准确程度。
　　3．其他相关技术
　　在实际应用中，面临大规模且内容复杂的图像检索任务时，基于内容的图像检索中还会引入特征索引、相关反馈、目标分割、机器学习和跨媒体信息融合等技术，来进一步提升图像检索效率、加强检索的可交互性和提高检索系统的可靠性。
　　(1)图像特征索引技术：当基于内容的图像检索面临规模巨大的图像集时，图像特征索引就显得尤为重要，其目的是更快速地在大规模的图像特征上进行匹配和检索。倒排索引和哈希索引是针对大规模的基于内容的图像检索*常用的两种索引方法。其中，倒排索引在大数据集图像检索上应用非常广泛[25]，它更适合于较为稀疏特征矩阵的紧凑表达，可以大幅提高图像检索的时间效率。相比之下，哈希索引更适合于不具备稀疏性的图像特征表达向量，哈希索引通过建立哈希函数对图像特征进行哈希编码，在实际中也得到了广泛的应用[26-28]。
　　(2)相关反馈技术：相关反馈是信息检索在线过程的一种人工交互语义信息获取方法，用来学习用户的检索意图。基于内容的图像检索中相关反馈的引入，可以有效建立图像底层特征和高层语义之间的关联，使得系统能够根据用户的意图和实际需求，对图像的表示方法和图像检索策略进行自适应地调整[29]，进而提高检索系统的精度。基于相关反馈技术的图像检索过程中，用户通过对初始查询结果进行正例和反例的反馈，然后系统利用机器学习的方法进行对正负样本的训练和学习[30]，获知用户的实际检索目的，*终获得让用户更满意的检索结果[31，32]。
　　(3)基于区域的图像检索技术：在图像检索中，人们往往更关注于图像中的一些包含着目标级内容的感兴趣区域，为此，基于区域的图像检索(Region-based Image Retrieval，RBIR)方法开始受到更多关注[33-37]。RBIR关注于目标级的图像检索，可以更好地表示人们对图像理解的关注点，能够有效地缩减“语义鸿沟”问题，但其性能容易受图像分割的不准确性的影响，近年来，随着深度学习在图像语义分割技术上的研究[38-40]不断深入，基于区域的图像检索技术的研究也取得了一定的进展。
　　(4)跨媒体信息检索技术：不同类型媒体数据的剧增使得基于单一媒体数据类型、单一检索形式的传统检索模式逐渐不能满足用户在信息检索中的需求。跨媒体检索是近几年发展起来的一个新兴研究课题[41]，即在图像检索中，考虑综合运用多种信息渠道来获取对图像语义信息的理解[42]，可将图像传统视觉特征(如颜色、纹理和形状等)与描述高层语义信息(关键字、Web 网页文字、视频字幕、语音等)相结合，通过信息互补来提高检索精度。尤其随着图像语义自动标注技术的发展，基于文本关键字和图像视觉内容融合的检索技术成为新的研究热点之一。
　　1.2.3 图像检索性能评价准则
　　图像检索的性能评价并没有统一的标准，但在很多研究中总结出了一些用于评价图像检索性能的评价指标，*为常用

展开

目录
前言
第1章基于内容的图像检索概述1
1.1 图像检索技术的发展1
1.2 基于内容的图像检索技术及其应用2
1.2.1 基于内容的图像检索概念界定2
1.2.2 基于内容的图像检索基本框架及相关技术3
1.2.3 图像检索性能评价准则6
1.3 国内外研究现状及应用前景6
1.3.1 图像视觉特征表达方法研究现状7
1.3.2 图像相似度度量及重排序方法研究现状11
1.3.3 基于内容的图像检索系统和工具14
第2章图像特征与表达18
2.1 图像全局特征18
2.1.1 颜色特征18
2.1.2 纹理特征21
2.1.3 形状特征24
2.1.4 空域和频域特征25
2.2 局部不变性特征26
2.2.1 SIFT特征26
2.2.2 SURF特征28
2.2.3 视觉码本特征29
2.3 图像深度卷积特征30
2.3.1 卷积神经网络结构31
2.3.2 **卷积神经网络33
2.3.3 深度特征及表达36
2.4 图像特征降维37
2.4.1 主成分分析法降维37
2.4.2 深度自动编码器降维38
2.5 图像特征归一化和标准化39
2.5.1 特征归一化40
2.5.2 特征标准化40
第3章图像相似度度量与排序42
3.1 图像相似性度量42
3.1.1 直方图相交距离43
3.1.2 马氏距离/二次式距离43
3.1.3 余弦距离44
3.1.4 陆地移动距离44
3.1.5 汉明距离45
3.2 图像索引技术46
3.2.1 局部敏感哈希技术46
3.2.2 多维图像特征的索引技术46
3.2.3 近邻搜索算法47
3.2.4 查找优化48
3.2.5 倒排多索引48
3.3 图像重排序49
3.3.1 基于扩散过程的距离学习49
3.3.2 查询扩展52
第4章基于多特征融合与距离学习的图像检索54
4.1 特征提取与多特征表达55
4.1.1 颜色直方图特征提取56
4.1.2 局部方向模式特征提取56
4.1.3 视觉词包特征提取58
4.1.4 多特征的融合表达59
4.2 基于扩散过程的距离优化和重排序60
4.2.1 基于扩散过程的距离优化60
4.2.2 基于扩散过程的重排序搜索策略62
4.3 实验结果及讨论63
4.3.1 数据集介绍63
4.3.2 实验设置及说明63
4.3.3 扩散过程和特征融合对检索性能的影响分析64
4.3.4 检索性能对比实验67
4.3.5 扩散过程中的参数kn对检索性能的影响73
4.3.6 重排序搜索策略的实验分析75
第5章基于深度特征的图像检索79
5.1 深度卷积特征聚合方法80
5.1.1 特征聚合方法简介80
5.1.2 特征聚合方法比较和分析83
5.2 基于区域显著性和通道敏感性的特征聚合85
5.2.1 算法概述86
5.2.2 通道敏感性权重87
5.2.3 区域显著性权重89
5.2.4 特征聚合表达90
5.3 实验结果及讨论91
5.3.1 数据集介绍91
5.3.2 实验设置及说明92
5.3.3 相关参数对检索性能的影响分析92
5.3.4 区域权重和通道权重对检索性能的影响分析94
5.3.5 检索性能比较96
第6章基于AFS语义特征空间的图像检索101
6.1 AFS理论102
6.1.1 AFS代数102
6.1.2 AFS结构103
6.1.3 AFS一致性隶属函数104
6.1.4 AFS框架下的语义特征表达105
6.2 基于AFS的语义相似性度量106
6.2.1 AFS聚类方法中的语义度量方法106
6.2.2 基于局部近邻的语义相似度量方法107
6.2.3 基于AFS语义的图像检索算法框架108
6.3 实验结果及讨论109
6.3.1 数据集及图像特征提取109
6.3.2 实验设置及说明110
6.3.3 传统的距离度量方法对比112
6.3.4 基于AFS的距离度量方法对比116
6.3.5 检索性能对比117
6.3.6 相关参数对检索性能的影响分析121
6.3.7 扩散过程对检索性能的影响分析124
第7章智能图像检索技术126
7.1 基于交互反馈技术的图像检索126
7.1.1 交互式反馈技术126
7.1.2 基于交互反馈的图像检索系统127
7.2 基于情感语义的图像检索129
7.2.1 图像语义提取方法130
7.2.2 图像语义自动标注132
7.2.3 图像情感标注134
7.2.4 基于情感语义的图像检索系统135
7.3 基于Web搜索引擎的图像检索137
7.3.1 Web图搜索引擎技术137
7.3.2 基于Web搜索引擎的图像检索系统搭建139
7.4 基于跨模态的图像检索140
7.4.1 跨模态检索技术140
7.4.2 基于典型关联分析的跨模态检索142
7.4.3 基于深度学习的跨模态图像检索143
参考文献146

展开