第1章矩不变量导论
1.1研究图像矩不变量的目的、动机
日常生活中,我们经常会接收、分析、处理大量各种类型的信息,95%以上的信息是基于光学的图像信息。图像能够表示复杂场景,并且能够进行紧凑而有效的处理。因此,图像不仅用于获取信息,也可以用于人际交流以及人机对话。
普通的数字图像包含着大量信息。一幅图像中所包含的信息,要用十几甚至几十页文本来描述。人们对图像分析有巨大需求。
在机器人视觉、遥感、天文和医学等许多实际应用领域,对成像系统获取的图像进行分析和解释,是一个关键问题。成像系统和成像条件通常并不完美,因此所获得的图像实际上是真实场景的退化版本。各种因素造成图像质量的退化(几何的、灰度的、颜色的等等),比如在成像过程中的几何畸变(图1.1)、透镜像差(图1.2)、场景的运动、系统的和随机的传感器的误差等等。
一般来说,理想图像f(x,y)和实际获取的图像g(x,y)之间可以描述成g=D(f),D是退化操作符。D可以分解为辐射操作符R和几何操作符G。在实际成像系统中,R能够模化成空变和空不变附加噪声系统,而G一般是空间坐标变换(比如透视投影)。实际上,两个操作符都是未知的,或带有未知参数的模型。我们的目的是通过分析感知的图像和预知的退化信息,获得理想图像。
图像处理通常由三个阶段组成:第一,图像预处理,分割重要的感兴趣的物体;第二,识别分割出来的物体,即用数学模型来描述物体,从数据库中识别出某一类特定的物体;第三,分析各个物体之间的空间关系。在这三个阶段,获取图像的某种不变特征并由这些特征描述图像,无疑是十分重要的。
1.2什么是不变量
物体识别有三种方法:原始方法、图像归一化方法、图像不变量特征方法。原始方法搜索退化图像的各种可能的参数空间,不仅包括各类图像训练集本身,还要包括畸变图像,如旋转、比例和模糊等版本的图像参数空间,这是非常费时的,实际上是不可能的。
图像归一化方法,需要在图像分类前,先将它们转换成一个标准状态。这是一个很有效的方法,但归一化方法需要求解所谓病态条件或病态问题,比如模糊图像的归一化意味着盲解卷积问题,而畸变图像的归一化需要图像登录到一些参考模型。
不变量特征方法似乎是*有前途、应用*广泛的方法。基本想法是应用一套叫做不变量的可测物理量来描述物体。不变量对物体的畸变不敏感,对不同类型的物体具有足够的识别能力。从数学观点来看,不变量I是一个图像的空间的函数,它的值在图像所有畸变中保持不变,即I(f)=I(D(f)),这个条件叫不变性。实际上,为了适应图像分割的不完美、类内变化和噪声,我们通常把这个条件弱化,只要I(D(f))不显著不同于I(f)即可。不变量I的另外一个重要性质是它的识别能力,属于不同类的物体I的值应该显著不同。显然,这两个要求是相互矛盾的。不变性越广,则识别力越弱,反之亦然。在不变性和识别力之间选择一个适当的折中,是基于不变量的图像识别的重要任务(见图1.3)。
1.3不变量分类
可以以不同观点对不变量进行分类。*直接的方法是按照不变量的类型进行分类,区分为平移、旋转、比例、仿射、投影、弹性几何不变量以及线性对比度拉伸、非线性密度畸变和卷积的辐射不变量。
按照所使用的数学工具不同,不变量有以下类型。
简单的形状描述符:紧缩的、凸的、拉升的等。
变换系数特征:由图像的各种变换产生的特征,傅里叶变换描述符、阿达玛(Hadamard)描述符、拉东(Radon)变换系数、小波基特征等等。
点集不变量:使用主点位置。
微分不变量:采用物体边缘的微分。
矩不变量:图像矩的特殊函数。
按照物体的哪一部分用于计算不变量,可以分为以下类型:
全局不变量:由图像整体生成(包括未进行图像分割的背景)。这种不变量包括图像在某种基函数上的投影,由积分计算。与局域不变量比较,全局不变量对噪声以及不精确的边缘检测等更加稳定。全局不变量的重要缺点是图像的局部变化影响整个不变量的值,只有少数分量是非局域化的。当被研究的物体被另外的物体部分遮挡,或者物体有一部分不在视场时,不能使用全局不变量。矩不变量就是这种不变量。
局域不变量:与全局不变量不同,局域不变量是由某个主点的一定邻域计算的,微分不变量是这种不变量的典型形式。首先检测物体的边界,然后计算边界的微分,获得不变量。这种不变量只由边界的形状决定,如果物体的其他部分发生了变化,局域不变量是不变的。全局不变量对于离散误差、分割精度和噪声是特别敏感的,当物体被部分遮挡,采用局域不变量进行识别,是很优越的。实际上,使用局域不变量是有困难的。
半局域不变量:希望保持以上两种不变量的优点而避免其缺点。将物体分成一些稳定的部分(经常是基于突变点或者边界的凸点),然后用某种全局不变量分别描述不同的部分。整个物体由不变量组成的向量串表征,识别物体被遮挡部分由*大的匹配串决定[17-23]。
本书聚焦于图像矩和矩不变量。在19世纪,第一台计算机出现很多年之前,在群论和代数中就提出了不变量的框架。代数不变量由著名的德国数学家D。Hilbert[24]进行了彻底的研究,20世纪,其他学者进一步发展了不变量理论[25,26]。
1962年,M.K.Hu首先将矩不变量引入模式识别和图像处理中,在文献[27]中,他采用代数不变量理论,推导出了7个二维图像旋转不变量。自此以后,成百上千的论文对图像不变量进行了改进、扩展和推广,并且应用于许多实际领域。矩不变量成为*重要的和*经常使用的图像描述子。虽然它们受到一些本质的限制(*重要的是由于全局性,妨碍它应用于遮挡物体的识别)。它经常被当作首选的描述符,用于评价其他描述符(也称描述子)的性能。尽管研究者们发表了大量的论文,但仍有许多问题需要解决。
1.4什么是矩
矩是标量,用于表征函数并获取它的重要特征,已经使用过几百年,在统计学中描述概率密度,在固体力学中描述物体的质量分布。从数学的观点看,矩是函数在多项式基上的投影(类似地,傅里叶变换是函数在圆谐函数系上的投影)。为清楚起见,引入一些基本术语和命题,以后会在全书中使用。在以后的所有论述中,各种不变量都是由几何矩和复数矩组成的,我们在这里先给出几何矩和复数矩的定义。
定义1.1紧致实空间内定义分段连续二元函数f(x,y)为图像函数(图像)。f(x,y)是有限的、非零可积的。
图像的矩定义为
(1.1)
此处是在D内定义的基函数,Pkj(x,y)可以是任意函数,比如指数函数、多项式函数等,p,q是非零整数,r=p+q为矩的阶。
1.4.1几何矩
如果选择指数函数作为基函数,则图像的几何矩(geometricmoment)mpq定义为
(1.2)
低阶几何矩有确定的意义:是图像质量(对二值图像是图像面积),定义重心或图像中心。二阶矩和描述图像对于坐标轴的质量分布,在力学中称为惯性矩。在力学术语中可以用以下符号和表示回转半径。
如果图像被当作概率密度函数(图像值被归一化为),那么和就是平均值。在零平均情况下,和是水平方差和垂直方差,是它们之间的协方差。这样,二阶矩确定图像的方向。后面将会看到二阶矩可用作图像的归一化位置。在统计学方面,两个高阶矩特征一般作为偏斜和峰值。定义为水平投影的偏斜,为垂直投影的偏斜。用偏斜测量投影相对于对称位置的偏离程度。如果对于平均位置投影是对称的,则相应偏斜等于。峰值确定概率密度函数的峰值,分别由水平投影峰值和垂直投影峰值决定。在下列意义下由几何矩表征的图像特征是正交的:对于任意图像函数,各阶几何矩存在并且有限,图像可以由它的矩精确重建(这就是唯一性定理)。
矩在统计学中反映随机变量的分布情况,在力学中被用来表示物体的质量,如果将图像函数看作是密度分布函数,那么图像矩就可以作为图像特征应用于图像分析中。常用零阶矩表示图像的“质量”:一阶矩用于表示图像的质心:
若将图像的坐标原点移至质心处,就得到对于图像的位移不变的中心几何矩。
1.4.2中心矩及归一化的中心矩
将函数f(x,y)的坐标原点移至质心处,就得到了图像函数f(x,y)的中心矩(centralmoment)μpq:
(1.3)
归一化的中心矩由ηpq表示:
(1.4)
其中
(1.5)
1.4.3Hu的七个矩不变量
由1.4.2节的二阶和三阶归一化的中心矩可以得出Hu的七个矩不变量:
(1.6)
Hu将这七个矩不变量用于字母图像的识别中,这七个矩不变量对于图像的平移、缩放和旋转具有不变性。
1.4.4复数矩
函数f(x,y)的(p+q)阶复数矩(complexmoment)的定义为
(1.7)
(1.8)
(1.9)
几何矩和复数矩具有同样的信息量。每个复数矩都能够表示成几项同阶的几何矩
的和,即
(1.10)
反过来有
(1.11)
引入复数矩是因为它在图像旋转时性状很好。当构造旋转不变量时能够很好地采用这一性质。
展开