第1章非线性非平稳数据分析方法概述
1.1数据分析中的常见概念及其局限性
21世纪也被称为数据的世纪。所谓数据,是指人们从观察、实验、测量和建模中获得的、所有可被量化的信息。事实上,人类尝试通过测量、分析和存储一切事物来探究和征服世界。的确,一切数据皆由测量产生。事实上,数据承载了人们与现实之间的联系。然而,在大数据时代,很多时候我们所面临的问题不再是数据的缺乏,而是数据的泛滥。而事实上,只要我们勤奋收集,数据总是能源源不断地产生。尽管我们依旧渴求从数据中获取知识,但未经分析的数据本身是无用的。正如庞加莱的名言:
“科学是由事实构成的,就像一栋房屋是用石头建造的。但是,一堆事实的简单堆砌并不是科学,就像一堆未经摆放的石头并不等于一座房屋。”
换而言之,冷冰冰的事实就算再多也都是无用的。数据就像石头,数据背后的物理意义就像构架。如果在搭建科学大厦时只有石头而没有构架,那么,即便在搭建时使用再多的石头,那也仅仅是一堆乱石,依旧无法建造起科学的摩天大厦。因此,在面对海量的数据时,只进行数据处理是远远不够的,人们还需要数据分析,需要利用它来揭示数据背后的物理本质。
本书的主题是数据分析(data analysis),而不是常规意义上的数据处理(data processing)。更确切地说,本书的侧重点在于以数据驱动为核心的自适应数据分析。
在开始正式介绍前,让我们先明确“数据处理”和“数据分析”之间的本质的差异。正如序言中所述,相比于“处理”,“分析”一词的含义更为深刻,它可以表述为:将整体分解成各个组成部分,对各个组成部分进行剖析从而了解其性质、成分、功能、以及相互关系等。而数据处理,顾名思义,是执行一系列(若干)事先定义和设计的算法。值得指出的是,处理产生的结果仅是一组数学参数,而这组参数并不一定具有确切的物理意义。相比而言,数据分析由于包含有更为详细的检验环节,因此更有可能给最终结果一个合理的物理解释。
广义地说,数据处理包含数据质量控制、降噪、过滤等;而数据分析则是对数据进行分解剖析,即将数据分解为各个组成成分,之后分别对各个组成成分和整体进行研究,用以检测它们之间的相互作用和关系,最终归纳总结成可检验的假说、理论和规律。分析的结果既有利于研究者加深对数据所反映的系统的理解,从而做出适当的决策;同时也有利于研究者对系统背后潜在的物理机理进行数学建模,预测系统的未来演化。而且,数据分析产生的数学模型和预测模型还需利用新数据和新分析方法来进行进一步的检验。科学的探索和进步正是依赖于这种由探究、检验和改进所组成的不断的迭代和循环。事实上,科学研究的核心行为就是先收集和分析数据,再对分析结果进行综合和抽象、进而理论化和拓展应用。由此可见,数据分析是科学进步的关键。
如此来看,数据分析的目的是揭示和理解数据所体现的潜在物理规律,并不是简单地描述数据的数学属性。数据分析就是要让数据说话,让数据告知我们一切,而其中每一步都应该根据物理现象或实验而不是数学定理来检验结果。因此,数据分析是一项复杂的工作,每一步都应该包含评估和判断。做出判断需要依据专业领域的知识,绝非凭空想象。
数据分析既是科学和工程学的组成部分,也是数学的一部分。但它并不是纯粹的数学,原因是当纯粹的数学分析被结合进数据分析时,不得不假定数据符合一些特定理想状态下才合理的数学定义,而淡化数据所反映的客观存在。而在物理学中,数据反映的是独立于人为定义和假设的既有事实。要想深入地从事数据分析,必然离不开学科的交叉,这是一个显而易见的道理。
虽然科学家已经逐渐认识到数据分析和数据处理之间的本质区别,但传统的数学观念在实践中仍然处于主导地位。纵观历史,那些被广泛应用的数据处理方法几乎都是数学家基于严格的数学定义设计的;建立算法时为了追求严谨,我们不得不将真实的物理条件理想化为数学假设。但遗憾的是,物理条件从来都不是理想的,现实问题也往往没有那么简单。所以爱因斯坦感叹道:
“当数学定律涉及现实的时候,它们不是确定的;而确定的数学定律并不反映现实(As far as the laws of mathematics refer to reality,they are not certain;and as far as they are certain,they do not refer to reality)。”
于是,在追求数学严谨性的同时,研究人员被迫陷入一个“伪现实”的理想世界中。这个“伪现实”的世界中所有的处理过程都被理想化了,以符合数学家提出的限制性条件和要求。因此,任何数据处理结果都不可避免地夹杂着所使用数学方法的烙印。
真实世界与理想世界之间的不一致性经常性地被看似有用却不符合实际情况的假设所掩盖,例如线性(linearity)和平稳性(stationarity)假设。在科学研究或工程研究中,绝大多数物理过程都是非线性和非平稳的。随着测量和研究的日益复杂,基于线性和平稳性假设的传统数据分析方法的不足愈加明显,那些算法在实际运用时也远远无法胜任。为了更好地阐明这一问题,让我们一起探究几个具体的例子。
1.1数据分析中的常见概念及其局限性
(1)线性假设
在数据分析中,很多时候需要对数据进行分解,其中最为常见的是加性分解,即将数据分解成多个(甚至无穷多个)分量的和。不同的分解方法,可能会引起对结果完全不同的检释。例如,在傅里叶分析(Fourier analysis)中,一个时间序列被分解为很多不同频率和振幅的周期性分量(用三角函数表示):
(1.1.1)
其中R为展开式中的实部。上面的加性分解里每个分量的幅值aj与频率厶均为常数,且所有成分之间是加性关系。可以发现,每个分量都是周期性的,因此它们的和也是周期性的,这意味着数据的统计特征不会随时间变化。因此,傅里叶分析只对线性平稳过程有物理意义。而事实上,非线性耦合广泛存在;为了真正理解不同成分之间非线性耦合作用,我们必须突破加性框架,同时挖掘数据内在的加性过程和乘性过程。我们把这方面的内容留到后面的章节。
传统上,所谓的“线性”是通过系统的视角来定义的:如果对于任意实数a,/3和输入Xi⑷,x2⑷都能满足:
(1-1-2)
则系统L为线性的。这种“线性”的定义要求封闭系统有着明确定义的输入和输出。然而,对于大多数复杂的物理现象,基于定义的方法来测试系统是否满足线性假设是十分困难的,且过于苛刻。
(2)平稳性假设
在公式(1.1.1)中,数据分解后每个分量的幅值和频率为常数即意味着平稳性。对平稳性的要求并非傅里叶分析所独有,而是普遍存在于现有的数据分析方法中。因此,我们有必要重新回顾一下平稳性的数学定义。
如果对任意i,都满足
(1.1.3)
则称时间序列x(t)具有广义平稳性,其中五是期望值,而C( )是协方差函数。
广义平稳性也被称为弱平稳性(weakstationarity)、协方差平稳性(covariance stationarity)或二阶平稳性(second-order stationarity)(如参见Brockwell和Davis,1991)。
如果任取,对于任意的正整数,都有
(1.1.4)
其中F为联合分布,则称时间序列⑷具有严格平稳性。
从定义中可得出,二阶矩有限的严格平稳过程也是弱平稳过程,反之则不成立。以上两种平稳性定义都很严格,且过于理想化。此外,有研究者更加弱化了某些前提条件,提出若干较为宽松的平稳性定义,例如:随机信号的分段平稳性(piecewise stationarity)、渐进平稳性(asymptotically stationary)。前者只要求在有限的时间段内满足平稳;而后者则要求t趋于无穷大时趋于平稳。
然而,实际采集到的数据总是有限长的。即便只为了检验数据是否满足这些弱化的平稳性,人们也必须引入一些额外的假设。其中,最经典的假设是严格周期性,即拿到的数据是整个时间序列的一个周期,但无论是自然存在抑或是人为创造的数据都几乎不可能满足这一假设。值得指出的是,检验平稳性及遍历性的困难并非是其原理有多复杂,而是难以在实践中获取足够多的数据来填满相空间。在大多数情形下能获取到的数据都是有限的,而这正是我们必须去面对的现实。
(3)概率分布
概率分布是研究随机现象中最强有力的工具。对于所有非确定、可度量的物理量的研究,概率分布的概念十分常见且基础;在量子力学里,人们甚至认为电子只能用概率分布来描述。因此,在某种意义上,宇宙的存在本身也可以被认为是基于概率意义的。对于宏观尺度的物理现象,概率分布是研究一切非确定性事物的主要工具。
概率研究中有一个极其重要的定理-中心极限定理(central limit theo-rem)。该定理指出,如果随机变量是独立同分布的,且具有确定的算术平均值和方差,那么当样本足够大时,无论随机变量服从什么分布,其均值最终都会趋向于高斯分布。中心极限定理无比强大,即使前提假设很弱,但结果仍然趋向高斯分布。因此,高斯分布能覆盖我们观察和测量的大多数现象,故亦被称为正态分布(normal distribution)。中心极限定理给我们研究概率分布提供了一种全局的视角,但却又引入了新的问题:概率分布本身能为数据提供的信息有限,如果只关注概率分布的话,数据分析者不可避免地会忽略数据里隐藏的物理信息,也难以找出概率分布背后潜在的驱动机制,也几无可能区分内在概率结构的细微差别。
此外,中心极限定理成立的一个关键条件是随机变量具有有限的算术平均值和方差,这使得它的有效性天然受限——显然它只适用于同质对象。如果可测量物理量用时间序列来表示,那么概率只对平稳过程有效。然而,许多自然现象以及人类活动都不是平稳的。即使是平稳过程,测量时间也可能不够大,不足以覆盖全局平稳所要求的时间尺度,从而导致被测量的样本呈现为局部非稳态。因此,
1.2自适应数据分析的理念和优势
经典的概率分布观点不适用于非平稳过程。那么,值得考虑的是,是否存在一种对内在概率结构有意义的度量,来揭示这些非平稳或局部非平稳过程的统计特性?又或者说,对于平稳过程,是否有一些重要的细节被全局视角所掩盖了?
(4)线性和平稳性度量
除了上述的诸多困难,我们还不得不面对另一大难题——线性和平稳性程度和差别的度量问题。事实上,现有的非平稳和非线性的检验都只能定性地给出“是”和“否”的答案------个过程要么是线性的,要么是非线性的;要么是平稳的,要么是非平稳的,但非线性和非平稳性的程度却无法被进一步量化。科学研究往往需要更精确的量化,而定性区分在实际应用中往往远不能满足需求。解决上述一系列问题也就成为数据分析的新目标。
由于缺乏量化线性和平稳性程度的定义,因此大多数研究者都只能采用模糊的假设。虽然许多“无穷小”幅度的自然现象可以用线性系统来近似,但它们也有非线性的趋势。即使大多数自然现象的变化幅度有限,它们仍旧很可能是非线性过程。平稳性亦是如此,尽管一些过程看似是局部平稳的,或在统计上、渐进上是平稳的,但他们并不是严格平稳的,反之亦然。
(5)先验基函数(a priori basis)和积分变换(integral transformation)现有的数学范式往往将数据用基函数来表示,而且这些基函数大多是先验确定的,并具有完备性、唯一性、收敛性和正交性。这些良好的数学性质为数据分解提供了坚实的数学基础。很多时候,这类数据分解方法依赖于积分变换,如(1.1.1)中给出的傅里叶变换以及各种小波分析。比如傅里叶变换的幅值就由如下的公式给出
(1.1.5)
这些积分变换是信号分解和频谱分析中的标准操作。不幸的是,用了积分变换,便会导致频谱的分辨率受到不确定性原理(uncertainty principle)的制约,同时频谱中还会出现杂乱的谐波。事实上,这些谐波都只是毫无物理意义的“数学伪迹”(mathematical artifacts)而已。
1.2自适应数