第1章 什么是数据同化?
1.1 利用一个简单例子认识数据同化
让我们从一个简单的例子认识数据同化。酷暑,当人们从炎热的室外进入冷气十足的室内,或许会说“呀,真冷,这空调估计开到18°C了?”,那这个18°C是什么呢?自然是人类这一“生物智能”(对应目前火热的“人工智能”)对当前室内平均气温的一种猜测,在本书“数据同化”这一主题中,一般称其为“背景场”、“预报场”或者“初猜场”等。为后续方便,用数学符号xf表示对室内气温的预报场,即xf=18?C。这样的预报或猜测一定存在(较大的)误差,假如长期的经验告诉我们这个猜测误差pf在?2~2?C波动,因其对应着“背景场”,故称其为“背景误差”,于是应该有
(1.1)
式中,xt为永远无法真正得到的真实值。
另外,室内恰好放有一支气温计,其温度显示为19.8°C,这一数值自然是对室内温度的一种测量或者观测,可用数学符号yo来表示,也就是yo=19.8?C。这样的测量误差虽然小,但肯定存在,如为?0.2~0.2?C,同样地,再用数学符号ε对这个误差进行表示,并称其为观测误差:
(1.2)
现在呢,我们有了两个对室内温度的度量:一个是背景场xf=18?C,其背景误差pf为?2~2?C;另一个是观测场yo=19.8?C,其观测误差ε为?0.2~0.2?C。我们觉得应该兼听则明,寻求将两者融合,从而得到对当前室内温度的估计或预报①。
我们做一些必要的假设:假设背景/模拟误差pf与观测误差ε均符合高斯分布①,也就是满足:
(1.3)
(1.4)
(1.5)
式中,上划线表示均值或者数学期望且Bf与R已知[相关数学知识参阅工具书(邹晓蕾,2009)等]。我们进一步假设xf为随机变量,它的概率密度函数为f(x),依据贝叶斯理论[请参阅邹晓蕾(2009)2.5节了解这一伟大的理论],观测变量yo的似然函数f(yo|x)满足[作为一个对数学基础有所要求的领域,我们默认读者熟悉这些数学知识,如果想进一步了解请参阅邹晓蕾(2009)2.5节等]:
(1.6)
式中,符号“∝”表示“与 成正比例”。式(1.6)表明,基于观测变量yo的后验估计f(x|yo)与先验估计f(x)和观测变量似然估计f(yo|x)之积成正比。
基于高斯分布的假设以及式(1.1)和式(1.2),可以定义如下先验估计f(x)与似然估计函数f(yo|x):
(1.7)
及
(1.8)
结合式(1.6),后验估计f(x|yo)可以表示为
(1.9)
其中
(1.10)
进一步地,令x′=x?xf,将式(1.10)改写为
(1.11)
这里。
自然地,我们希望*终求得x的*优结果(称为分析场),可使得后验估计f(x|yo)达到*大值,亦即式(1.11)对应达到*小值。对于目前这个简单的情形,只需求得代价函数式(1.11)如下的*小二乘解x′即可。
(1.12)
(1.13)
我们把上述变量对应的取值代进去,则有xa=18+22(22+0.22)?1(19.8?18)≈19.78°C。下一步再结合式(1.1)就可以很有信心地预测房间内的平均气温大约是19.78°C了。
以上过程相对简单,却给出了一个比较完整的数据同化过程。这里略加归纳与总结:*先,数据同化需要一个简单或者复杂的数值预报模式[如式(1.1)本质上就是一个基于恒等算子的简单预报模式]对状态变量(这里仅有一个室内平均气温T,实际情形当然要复杂得多)进行预报;其次,需要对与预报模式状态变量密切相关的变量(这个很容易理解,有关系才可能有影响)进行观测,这里更为简单,状态变量与观测变量都是室内平均气温T,两者是一对一的关系(当然现实一般都比较骨感,远非如此简单);*后,需要利用*优化的理论与算法(上面的例子采用的是简单的*小二乘算法)实现预报与观测的融合,从而得到分析结果,并结合预报模式进行下一步的预报。
严肃起来,我们向大家认真介绍数据同化。上面的讨论表明数值预报模式的重要性,那么就先从它开始:所谓数值预报模式,可以简单地理解为一套求解描绘天气、气候变化过程的数学物理方程组[实际复杂的数值预报模式当然还包括其他诸如物理参数化过程等(托马斯等,2017)]的软件系统,利用这样的软件系统便可以进行天气预报或气候预测。显然,作为一套求解数学物理方程组的软件系统,其预报精度会在很大程度上依赖于所给定的初/边值条件是否准确。近年来,数值预报模式的结构设计和物理方案不断完善,可以相当准确地描述实际天气过程的发展演变。随着模式的不断发展,对初始条件的确定性要求日趋提高,初始条件的准确程度将直接影响着数值天气预报的成败。借助观测资料是提高初始物理变量场精度的自然选择,而数据同化(BouttierandCourtier,2002)正是将观测资料与模式模拟进行充分融合以获取准确初始变量场的有效手段。另外,随着观测技术的发展,全球天气观测系统不断完善,特别是各国多种气象观测卫星接连升空,人类已经构建了一个星、天、地一体的观测系统,观测资料获取越加丰富,时空分布不断扩大,类型和数目不断增多(Kalnay,2005;托马斯等,2017)。数据同化作为一种资料分析方法,能够将数值预报模式与观测资料紧密联系起来,其重要性日益凸显。
总结来说,数据同化,又称为资料同化,是指利用*优化的理论与方法将各种有效观测信息与数值模拟结果充分融合以获取物理变量*优分析场的科学,在大气与海洋科学研究领域内应用甚广(Evensen,1994;Rabier et al.,2000;Lorenc,2003a,2003b;Houtekamer et al.,2014)。一个完整的数据同化系统包括数值预报模式、观测算子(含观测资料质量控制)模块、观测数据以及数据同化方法。数据同化方法作为融合模式模拟结果与观测资料的联系纽带,一直是提高数值预报精度的核心所在。近年来,数据同化方法得以快速发展,主要有逐步订正法、*优插值(OI)法、变分同化方法、滤波方法与集合变分同化方法(也称混合资料同化方法)等。随着对数值预报精度要求的不断提高,对数据同化方法的同化精度、计算效率及易实现性都提出更加严苛的要求。
1.2 由简单到复杂一路走来的同化方法
早在1904年,挪威物理学家Bjerknes提出求解控制流体发展的基本方程式,即可预测天气。1922年,英国科学家Richardson发表了一篇《用数值程序预报天气》的论文,设计出*早的数值天气预报模式,他把观测资料手工插值到网格点上作为数值预报的初始场(联想到上面气温同化的简单例子,类似于将气温计处温度观测值插值到室内x、y、z三维的空间气温场)。这种方式被称为主观分析,耗时6周、预报6h,然而他在预报过程中所采用的原始方程并没进行滤波处理(如果不清楚滤波处理可暂时忽略),导致*后的预报失败。随着计算机的发展,人们逐渐发展了客观分析方法,客观分析的结果是可重复的。1950年,Charney等采用客观分析方法确定初值,并在普林斯顿用**代数位电脑产生了**个数值天气预报,使得先前的预报方式全然改观。1949年Panofsky发展了基于二维多项式的插值方案。Gilchrist和Cressman在1954年针对位势高度发展了一种局地多项式插值方案。在实际应用中,由于模式维数远远大于观测资料的维数[如果上面的室内气温同化考虑空间三维的情形,模式维数则变为nm=nx×ny×nz,其中nx、ny与nz分别为整个房间在水平(平面上又分为x、y两个方向)和垂直方向上划分的格点数],利用空间插值将观测资料插值到规则网格点上是远远不够的。因此,人们引入短期预报的结果作为模式格点的**猜测场(或者背景场)(申思,2015;张洪芹,2019;张璐,2020;张珊,2022;金哲,2022)。
1.2.1 逐步订正法
逐步订正法(successivecorrectionmethod,SCM)(Bergth?rssonandD??s,1955;Cressman,1959)是引入**猜测场的**种方法。其基本原理是*先确定一个观测资料的影响半径,然后利用在影响半径内的全部观测资料减去**猜测场(背景场)的值得到观测增量,通过进一步处理观测增量得到分析增量,然后将分析增量与背景场相加得到分析场。每一个分析格点上的分析增量是影响半径内所有观测增量的线性组合。该方法的分析公式如下:
(1.14)
式中,xa,i、xb,i分别为第i个分析格点的分析值和背景值;ni为第i个分析格点的影响半径内观测资料数;yo,k为影响半径内的第k个观测;K(i,k)为第k个观测对第i个分析格点的经验权重函数值。在逐步订正法中常用的经验权重函数主要有以下两种。
1)Cressman函数
(1.15)
2)Barnes函数
(1.16)
式中,di,k为两点i、k之间的距离;r为给定的影响半径;权重函数K(i,k)随着距离增加而递减。当di,k>r(观测资料不在影响半径区域)时,权重系数的值为0,即该观测对分析格点不产生影响;当di,k=0(观测点与分析格点重合)时,权重系数的值为1;当di,k 逐步订正法的特点有:引入**初猜场(背景场);分析增量是观测增量的加权平均;权重函数是经验给定的;采用单点分析方案,只有在单点影响半径内的观测资料才对分析场起作用。
1.2.2 *优插值法
*优插值(optimalinterpolation,OI)法*早由Wiener在1949年提出,是*个具有严谨数学意义的数据同化方法。Gandin在1963年撰写了关于*优插值分析的专著《气象场的客观分析》。该资料同化方法应用观测资料和背景场提供的先验信息(包括误差的统计特征),通过*小方差估计确定*优权重函数,对背景场进行修订得到统计意义上的*优解。*优插值的一般分析公式为
(1.17)
式中,xa、xb分别为分析值和背景值。在背景场误差和观测误差符合高斯分布且不相关的假设下,权重函数(或增益矩阵)的表达式为
(1.18)
式中,H为插值(观测)矩阵;B和R分别为背景和观测误差协方差矩阵。
*优插值法*次引入了背景误差协方差和观测误差协方差矩阵的概念,通过背景误差协方差的构造,对分析变量实现了附加模式动力学约束的多变量分析,所用到的假定与近似条件包括:背景场误差是无偏、无相关且各向均匀的;观测误差无偏和无相关;观测误差与背景误差无相关。该方法对比以前的其他方法(多项式插值、逐步订正法)具有明显的优点,分析精度显著提高。但是,在该方法中,观测变量与分析变量之间必须满足线性关系的限制条件(即观测算子H是线性的、不能同化非模式变量及采用复杂的物理约束关系),直接影响了该方法对大量新型遥感观测资料的同化能力。
1.2.3 变分同化方法
变分方法源于非线性*优化理论,*早由Sasaki(1958)提出并将其应用于客观分析,变分方法将资料同化问题归纳为一个目标函数的极小化问题,这个目标函数被定义为以背景误差协方差矩阵的逆为权重的背景场与分析场的距离,加上以观测误差协方差矩阵的逆为权重的观测场与分析场的距离。变分法的优点是进一步摆脱了观测变量和分析变量之间是线性关系的限制,使得直接同化非常规观测资料成为可能,同时也可以把模式作为一个强约束进行求解,进而得到物理和动力上与模式协调的初始场。常用的变分同化主要包括三维变分数据同化(three- dimensional va
展开