第1章 绪论
1.1 多源图像融合技术的研究背景
视觉是人们接受外界信息的主要方式,约占据人类获取外界信息量的一半以上。随着计算机和信息技术的发展,数字图像逐渐成为人眼视觉信息感知的重要载体之一,并逐渐成为人们生产生活中密不可分的信息来源。如:数码相机用来记录生活场景,医学图像为医生提供人体组织信息,遥感图像用来表示地理信息;除此之外,还有显微图像、红外图像等技术为人们提供不同类型的视觉信息[1]。计算与传感等相关技术的迅速发展,让人们可以以极为廉价的成本快速获取大量数字图像;这些不同来源的图像中包含大量的互补信息,同时存在相当数量的冗余信息,如图1.1所示。如果直接对这些图像进行特征分类或模式识别等高层次处理,势必会对模型的决策结果产生较大负面影响。因此,如何更有效地获取多源图像的有价值信息,成为研究人员关注的焦点之一[2]。
图1.1 多源图像的融合示意图
目前,人们可以同时借助多种多样的电子设备和传感器获取目标场景的多种图像,这些图像表征了现实世界中的复杂信息。数字图像处理技术是处理和理解这些信息的重要方法,新技术的发展使得图像获取的成本越来越低,且手段也变得极为丰富。不同运行机制的传感器所获得的图像通常具有一定互补性,如何将这些互补信息综合起来用于目标识别或场景理解,对于数字图像处理极为重要。因此,图像融合技术应运而生,其可将多源图像的互补信息综合到一幅图像中,从而提高场景描述的完整性和准确性[3],如多聚焦图像融合技术可以拓展图像的聚焦区域,红外与可见光图像融合技术可以提高夜视装备性能,遥感图像融合可以提供更为完整的地学信息。因此,图像融合技术被广泛应用于医疗诊断[4]、遥感测绘[5]、农业自动化[6]、军事侦察[7]、生物识别[8]等多个领域,如图1.2所示。
图1.2 多源图像融合技术分类与应用领域
图像融合技术发展的驱动力主要可分为四点:一是成像设备和成像机理的制约,使得单一传感器无法同时获得目标场景的完整信息;因此,需要多个同源或异源传感器对同一目标场景进行图像采集,以获取具有互补性的多个图像,进而将其融合为一幅综合的图像。二是传感器技术的进步,使人们可以快速、廉价地采集大量多源图像;因此,如何快速、高效、准确地将其融合,对于图像识别、分类等后续处理尤为重要。三是先进计算技术的发展,使得新型图像分析理论和技术被不断提出,为图像特征提取与融合提供了更多可能和挑战;因此,如何使用这些新技术提高融合质量也是研究的驱动力之一。四是新型应用的驱动(如生物识别、安防监控、灾害监测等),使得传统图像融合技术难以满足日益发展的应用需求;因此,针对具体应用场景探索相适应的图像融合技术具有极为重要的现实意义。基于以上原因,图像融合技术得到了许多研究者的关注。
近些年,多尺度分析技术和人工神经网络在图像融合中得到广泛应用,并逐渐成为昀具代表性的两类方法。其中,多尺度分析是一种广泛应用的图像分析技术,它可通过不同方向、不同尺度的滤波器,实现图像多尺度特征的提取与表示[9]。这类方法与人类视觉的多尺度特点较为相似,在图像处理中具有较为明显的优势[10]。许多先进的多尺度分析技术被不断提出,为图像特征提取与融合带来了新的挑战和机遇。近些年,深度学习技术在图像处理领域取得了众多突破,由于其强大的特征提取和学习能力,学者们也将其引入到图像融合领域。自深度神经网络技术被引入图像融合领域以来,就受到学者们的广泛关注。深度学习模型可以从大量数据集中学习到与任务相关的知识,从而获得针对性的图像特征提取与表示能力,在图像融合中的性能逐步赶超了多数传统融合方法,正逐渐成为图像融合领域的研究热点。
1.2 多源图像融合技术的发展阶段
1979年,Daily等人[11]*次利用图像融合技术实现雷达图像与多谱段扫描图像的综合。此后,图像融合技术的多源信息综合能力使其逐渐得到重视和发展。从早期的加权融合[11],到后来的子空间分析技术应用[12],再到多尺度分析技术的引入[13],以及近期深度学习技术的加入,使得图像融合的质量逐渐提高,并从遥感图像融合逐渐延伸到各个领域。结合已有研究,图像融合可定义为将两幅或多幅来自同一场景的多源图像互补综合为一幅完整图像的技术。因此图像融合技术需要解决两个问题:
(1)如何有效地提取多源图像中的特征信息;
(2)如何通过融合策略融合图像的互补特征。
为了解决这两个问题,图像融合技术应该具有以下三个基本能力:
(1)特征提取方法应该能够有效表示不同图像的互补信息;
(2)融合策略应该准确地将这些互补信息融合进结果图像;
(3)在融合过程中不能产生或引入任何误差[9]。
在拉普拉斯金字塔变换 (Laplacian pyramid transformation,LPT)被提出后[13], Burt等人较早开始探索变换域多尺度分析技术在图像融合领域中的应用,并分别于 1989年与 1992年发表了基于金字塔变换 (pyramid transform,PT)的图像融合方法 [13]。小波变换 (wavelet transform,WT)由Morlet*次提出[14],再由Meyer和Mallat等人进一步发展[15,16],并逐渐成熟。由于WT在图像处理中较强的多尺度与多分辨率分析能力,使其被广泛应用于图像融合领域[17]。随后,众多基于WT或类小波的新型多尺度分析技术被提出。1998年,Candes提出脊波变换方法 (ridgelet transform,RT)[18],随后 Candes与 Donoho基于 RT,又提出*波变换 (curvelet transform,CVT)[19]。2002年,Do和 Vetterli提出了轮廓波变换 (contourlet transform, CNT)[20]。Cunha和 Easley分别于 2006年和 2008年提出了非下采样的轮廓波变换 (non-subsampled contourlet transform, NSCT)与非下采样的剪切波变换 (non-subsampled shearlet transform,NSST)方法[21]。这些新型方法都先后被应用于图像融合领域,并取得了良好的融合效果[22]。此外,Huang等人[23]于 1998年提出了经验模态分解 (empirical mode decomposition,EMD)算法,该方法是依据数据自身的时间或空间尺度特征来进行信号分解。在2003年,Nunes等人提出了EMD的二维版本[24],Tian等人基于此提出了一种采用EMD的图像融合方法[25],Gilles[26]于2013年构造了一种类EMD的信号分析方法,称为经验小波变换 (empirical wavelet transform,EWT),Jin等人[27]基于该方法提出了医学图像融合技术,取得了具有竞争力的结果。
深度学习于2015年前后被应用到图像融合领域。早期的研究是由Huang等人[28]在遥感图像融合领域开展的。随后,Liu等人[29]将基于卷积神经网络(convolutional neural networks,CNN)的稀疏表示(sparse representation,SR)模型用于多聚焦图像融合方面。此后,众多深度学习模型被提出,并逐渐从遥感与多聚焦图像融合,延伸至高动态范围成像、多模态医学图像融合、红外与可见光图像融合等领域[30]。Goodfellow等人[31]于2014年提出生成对抗网络 (generative adversarial network,GAN)模型,该模型基于零和博弈理论,利用生成器网络与判别器网络之间的对抗学习实现模型训练。GAN在图像生成领域取得了前所未有的优异效果,逐渐成为近年研究的热点。2019年,Ma等人[32]*先将GAN用于红外与可见光图像融合;后来,Guo等人[33]将GAN应用于多聚焦图像融合。随后GAN逐步进入医学图像融合、遥感图像融合、多曝光图像融合等领域[34]。近些年,在图像融合中有两个较为显著的趋势:**,基于变换域分析的图像分解方法依旧是研究的热点;第二,基于深度学习的图像融合技术不断被探索。
1.3 多源图像融合技术的分类
根据应用领域,图像融合技术可分为:多聚焦图像融合、遥感图像融合、红外与可见光图像融合、多模态医学图像融合等;此外,还有一些研究相对较少的领域,如:水下图像融合、显微图像融合、多模态红外图像融合[35]。这些应用领域涉及的融合方法又可按照图像融合的特征层次分为决策级、特征级、像素级三个层次[8]。决策级融合方法一般通过从源图像中获取的决策变量或结论信息实现图像高层信息的融合,可直接用于图像识别或分类。特征级图像融合方法一般在图像提取的基础上进行融合操作,如图像的区域、轮廓边缘等特征信息。像素级图像融合方法主要在空域或变换域对图像的像素或子图像系数进行融合操作。在这三个层次中,像素级融合方法在图像数据的昀低物理层级实施,因此对配准精度要求较高,但可以获得原始的源图像信息和特征,是图像融合领域中昀基础也昀为丰富的研究方向。
根据算法的实施方式,图像融合技术又可分为两大类:空域算法和变换域算法。空域融合算法可采用特定方法在空间域对多源图像像素进行融合操作。如加权平均法、主成分分析法(principal component analysis,PCA)[36]、*立成分分析法(independent component analysis,ICA)[37]、基于分块的图像融合算法[38]、基于感兴趣区域的图像融合算法[39]、基于深度学习的融合决策方法[40]等。变换域图像融合方法是昀为流行的技术,此类方法一般利用多尺度分析技术实现源图像的分解,然后采用融合策略实现相应子图像的融合,昀后通过逆变换实现融合图像的重建。**的变换域算法有:PT[13]、WT[41]、CNT[42]、剪切波变换(shearlet transform,ST)[21]、NSCT[10],NSST[22]等;此外,还有许多新型变换域算法被应用于图像融合,如SR[29]、EMD[25]、基于滤波的二尺度分析[43]。需要指出的是,在图像融合领域中多种图像分析技术的结合成为一种趋势,技术类别之间的界限也越来越模糊[44]。
在传统图像融合技术中,多数方法利用决策图的方式实现多源图像的融合。随着深度神经网络技术的迅速发展与成熟,学者们利用相关技术并基于图像生成思想开展了图像融合方法的研究,取得了许多有意义的进展。因此,按照融合图像的生成方式可分为:基于图像生成的方法和非图像生成的方法。图像生成的方法一般利用深度神经网络提取图像潜在特征,而后根据这些特征进行图像生成或重建,因此昀终的融合图像是由模型根据图像特征生成的。非图像生成的方法则是利用模型提取的图像特征,产生用于标记源图像像素保留或舍去的决策,因此该决策图可以在像素级对图像进行融合。
从图像的色彩方面又可分为:灰度与灰度图像融合、彩色与彩色图像融合,以及灰度与彩色图像融合。由于人眼对彩色信息的分辨能力远高于灰度图像,且彩色图像所体现的场景信息也远比灰度图像丰富[45]。因此,彩色图像融合是图像融合中昀具有应用价值的研究领域之一。不同彩色空间往往具有其相应的特点,各个通道一般具有一定差异性和不同视觉重要性,结合应用场景分析利用符合人眼特性的彩色空间进行图像融合,是提高彩色图像融合质量的研究方向之一。在灰度图像与彩色图像的融合方面,所处理的图像通道数不同,如何将其进行有效融合是一项极具挑战的研究内容,如全色图像与多光谱图像融合、红外图像与彩色可见光图像融合等[45]。灰度与彩色图像融合的关键问题是彩色图像中色彩信息的有效提取和融合,以及两种图像中细节特征的提取与融合,且在融合图像中不能出现明显的色彩失真和细节丢失现象。目前,
展开