第1章 绪论
1.1 引言
自20世纪90年代出现大数据(big data)一词,特别是2012年《纽约时报》专栏文章中所写的“大数据时代已经降临”,人们为数据时代所带来的技术革命欢欣鼓舞,也在为所涌现的五花八门的海量数据感到无所适从。大数据不是字面意义上的“大”,而是被赋予更多的技术内涵。一般而言,除了大体量(volume),大数据还包括多样性(variety)、可信度(精度)高(veracity)、价值大(value)、快速(velocity)等特征,称为大数据“5V”特征[1]。多样性是互联网时代所产生数据的典型特征,我们不仅仅遇到传统的数据库中的“结构化的数据”,还遇到大量类似于声音、文本、图像、视频和多媒体等“半结构化”甚至“非结构化的数据”;同时,随着信息技术的不断进步、传感器的日新月异和存储技术迅速升级等,各个环节的数据都能够被如实地记录,其数据获取的精度不断提高。这些数据不仅蕴藏着大量的信息,同时蕴含大量的知识。例如,以深度学习(deep learning)为里程碑的“机器学习”系统,也可认为是大数据时代的技术延伸。当今人工智能(artificial intelligence,AI)在工业界一度认为是大数据与深度学习的邂逅。业内将人工智能、大数据和云计算(cloud computing)三种技术的首字母缩写形成“ ABC”的通俗概念,表明深度学习和大数据复合推动了人工智能的进步。
我们回到一类视觉信息数据(如图像、视频等),具体表现为多维度信号,例如,彩色图像、多光谱和高光谱图像,不仅具有空间维度,还有光谱维度;在视频图像中,包含空间维和时间维。如果从“张量”的角度看(具体概念见第5章),那么对于一维数组(向量结构)表示的一维信号是一阶张量,二维数组(矩阵结构)表示的二维信号是二阶张量,三维或更高维数组表示的信号是三阶或更高阶张量。
“工欲善其事,必先利其器”,是我们常常引用的名言,出自《论语》这本书。大多数多维信号处理算法和机器学习算法在很大程度上依赖于数据的高效表示。在工程与科学领域的大量现代应用中,海量、多样性和结构丰富的多维数据与日俱增,特别是近期随着以语音、图像和视频为信息载体的多媒体、多通道生物医学信号、高光谱遥感图像等大数据分析需要,研究者致力于探索更强表达张力的数据表示方法。
在数据表示和调和分析研究的历史长河中,傅里叶(Fourier)变换曾经长时间占据信号处理的统治地位,但由于局部模式分析的不足,人们逐步研究出小波分析、多尺度几何分析(如脊波(Ridgelet)、曲波(Curvelet))等不同形式的固定基函数系统,提供人工解析形式的数据表示或者变换,其典型构造思想在于采取各向异性基提升信号的特征表达、几何奇异性捕获和逼近能力[2,3]。以稀疏性度量为基础的冗余与稀疏表示[4]方法曾风靡一时,延续至今并热力不减。然而,人们也注意到经典的“稀疏表示”方法通常以度量向量的一阶稀疏性为主要手段,对图像等结构数据的紧致表示能力有限。以矩阵“秩(rank)”为度量的低秩表示已经证实结构化表示数据的冗余性,并不会因为向量拉伸方式破坏二维结构,由此形成矩阵填补、矩阵回归、鲁棒主成分分析(robust principal component analysis,RPCA)等方法,并在计算机视觉等领域获得巨大成功[5]。从多线性代数为基础的张量分析的视角看,向量是一阶的张量,矩阵是二阶的张量,针对三维数组或更高阶的数据,高阶张量表示具有更为丰富的多路分量分析和数据多视角内在结构的捕获和表达能力[6]。而线性到非线性的拓展,浅层到深层感知机的拓展,深度学习方法成为里程碑式的机器学习方法,并由此引起人工智能的伟大变革。借助于强大算力、大数据和深度神经网络表示,深度学习方法在学术界和工业界得到广泛关注。然而,大数据驱动的深度表示方式因为“过拟合现象”、“小样本学习能力不足”、“黑盒导致的不可解释性”,以及“大规模参数难调”等问题,常常引起研究者反思。设计轻量化、低功耗和可解释的深度学习方法是科技界日益关注的问题。此外,标准机器学习算法面临“维数灾难”问题,数据量和跨模态耦合导致算法复杂性呈指数级增长。而这正是分析大规模、多模态和多关联数据集所应当避免的,需要解决的关键科学问题包括:①寻找低维鲁棒特征,因此“维数约简”方法至关重要;②大规模数据优化问题的线性和次线性可伸缩算法。
1.2 多维信号表示与建模概论
在信号处理中,我们经常遇到这么几类信号:标量x∈R,一维信号(向量)x∈RN,二维信号(矩阵)X∈RN×M,以及多维信号(张量)。文献[7]通过图示方法给出了多路数组(张量)数据复杂性不断增加时,单个样本和一组样本的图形表示,分别反映了标量、向量、矩阵和高阶张量形式(图1.1)。多维信号处理与分析的关键之一就是捕获信号的本征结构,形成有效的数据表示(变换)和先验建模。而在模式分析与机器学习中,需要从原始数据中提取有效的特征。在经典的机器学习中,特征处理和抽取往往通过人工设计完成,由此转化为“特征工程”问题,即机器学习系统的瓶颈在于设计有效的人工特征。因此,人们热衷于通过学习的方法自动得到有效的特征,并提高机器学习模型的性能,这称为表示学习(representation learning)。
图1.1 多路数组(张量)数据复杂性不断增加时单个样本和一组样本的图形表示
1.2.1 稀疏表示与压缩感知
首先,我们以*为经典的一维信号恢复问题作为讨论的对象,简要回顾信号建模与表示的历史脉络(图1.2)。在此讨论中,不妨假设类似于图像等矩阵和张量结构的多维信号通过向量化的方式转化为一维信号(向量表示)。
图1.2 信号处理变换、建模与表示学习的历史演化路径
考察观测一维信号y∈RN,其是潜在源信号x∈RN经过线性退化算子A作用和加性高斯随机噪声所污染生成:
(1.1)
其中,I为单位矩阵,σ2为方差。我们的任务是从污染信号y中恢复源信号x。通常,尽管知道噪声的高斯特性,但很难将噪声污染信号y分离成两部分:x和n。因此,需要科学合理地对源信号进行表示和刻画。
对源信号x的表示模型,本质上是信号的数学刻画。一种可能的方式是我们认为潜在信号是由低维空间的“结构”生成,不妨形式化记作:
其中,表示数据生成模型;α属于低维空间,其维数表示需要学习或者构造的模型。
对广义恢复问题:
(1.2)
当时可以建立去噪模型:
(1.3)
(1)主成分分析(principal component analysis,PCA)模型。如果我们知道x落在一个维度为的子空间,并由矩阵的列向量张成,则按照上述模型,不难推出,其中Q表示广义逆。换言之,计算y到由Q所张成的k维空间的投影即为估计的解。这样,将导出PCA的去噪方法,可以由m组样本学习得到模型参数Q。
(2)稀疏域模型。过去的十多年里,稀疏表示已成为信号分析中广泛应用的数学工具,包括复原、特征抽取、盲源分离、压缩、子空间分类等。稀疏性(sparsity)往往也是刻画信号本质结构的另一个有效途径。通常,假设信号在一个过完备字典下具有较少的非零元素,即
(1.4)
在稀疏表示框架中,需要构造或者学习的模型为字典Θ={D}。字典D中的列向量称为波形原子(wave atom);α称为稀疏表示系数(或稀疏编码),其稀疏性度量如图1.3所示。直观上,如果将源信号理解为一个复杂波形的话,则式(1.4)可以理解为该复杂波形由一组简单的波形原子线性组合生成,其原子波形的贡献权重由α中的元素决定。
图1.3 稀疏性度量的几何曲线示意图
我们知道,波的叠加原理是物理学的基本原理之一。无独有偶,在傅里叶分析中,即一个非正弦波可以分解为无数个谐波的正弦波叠加(傅里叶分析级数);但由于傅里叶基函数不具备局部性,其表示系数不具备稀疏性,适合于处理平稳信号;而在小波分析(Wavelet)中,往往采取具有局部支撑性或快速衰减的小波基的线性组合形成良好的局部时频分析,对点奇异性结构具有良好的表示能力;且其小波系数具有一定的稀疏性和能量聚集性,因此在图像压缩编码应用甚广。
在式(1.4)中,由于,字典D是过完备的,有时称为过完备字典或者过完备原子库;在合适的稀疏性度量下,我们可以建立稀疏表示模型(或稀疏编码),例如:
(1.5)
关于字典D,可以通过固定的母函数的伸缩、旋转、平移,或者常见的基函数去人工构造;同样可以由 m组样本.去学习得到稀疏表示字典D。通过样本学习字典,在稀疏表示中称为字典学习(dictionary learning)。
(3)压缩感知。稀疏表示理论的兴起也归根于压缩感知(compressive sensing,CS)或压缩传感,或称为压缩采样(compressive sampling)[8]的巨大推动。这种新的采样理论打破了经典的香农采样以“频率带宽有限”为基础的信号获取与重建的桎梏。通过以稀疏性为信号先验,并建立稀疏表示与采样之间的直接联系,在图像压缩、信号与图像获取与处理、计算成像、融合、遥感数据处理等有广泛的应用[9]。
压缩感知强调信号稀疏性的重要性,其他正则化方法,如Tikhonov正则化,全变差(total variation,TV)、分数阶正则化(fractional regularization)等都可以与稀疏性联合,建立更为优异的压缩感知重建模型。但是,在丰富的压缩感知理论中,信号的稀疏性才是压缩感知重建的强有力基石,是寻找一定条件下精确稀疏解的保证,其他正则化方法很难得到类似的结论。虽然源信号在直接空间(如图像,则为像素空间)不一定是稀疏的,但是在变换空间(如 Wavelet、Ridgelet、Curvelet等)或字典下具有特定的稀疏性。
(4)正则化模型。谈到正则化,这是欠定或者病态反问题求解中惯用的数学方法。典型的图像处理中的图像去噪、恢复、修补、图像超分辨和融合等,都可归结为数学上的不适定反问题。若一个数学物理定解问题的解存在、**并且稳定,则称为该问题是适定的;若不满足适定性概念中的上述判据中的一条或者几条,则称该问题是不适定的。正则化方法,有助于克服不适定性,缩小候选解的搜索范围。
以去噪问题式(1.3)为例,可以为源信号 x引入合适的正则化模型或者先验知识,以促进问题的求解。
(1.6)
其中,是正则化模型,λ为正则化参数。沿着这一个主线,研究者对于先验模型的构造经历了一个不断改进和认识逐步深化的过程[10]:从*小能量x2、光滑性模型Lx2(如L表示梯度算子)、加权光滑性模型Lx2、鲁棒统计ρ(Lx)(其中表示鲁棒范数)、全变差,小波稀疏性 (W表W示小波变换),到稀疏性模型Tx1(T表示框架、冗余分析字典等)或者(D表示合成字典)等。
很多正则化模型也可以在贝叶斯框架下得到相互印证和解释。由贝叶斯公式,后验概率包括数据的似然概率与数据先验概率两部分,x采取*小化负对数准则,可转化为如式(1.6)形式的*优化问题。
1.2.2 矩阵低秩与张量表示
从前面所述,传统的稀疏表示模型是以“向量”稀疏性为基础的。当我们处理图像或者多通道图像数据时,这种稀疏性度量容易破坏矩阵结构。随着成像硬件的发展,所获取的多维数据更表现为大体量、多样化的多模多通道矩阵信号。以高光谱遥感数据、多媒体数据(语音、视频)、医学数据和生物数据为例,通常以巨大的分块矩阵或多路数组(multi-way array)的形式表示,我们称之为张量(tensor)。这些多路数据往往需要进行模式转换才能在特定容许时间内高效处理(快速性)。这促使人们开始重新关注适用于超大数据集的矩阵和张量算法。基于向量、矩阵和张量的信号处理模型如表1
展开