第1章 绪论
1.1 时空场数据分析的发展需求
时空场数据可以有效表达大范围连续和离散的地理现象及其演化过程,从而精细、全面、多样、实时地刻画涵盖自然与人文地理要素的地球表层系统,具有广阔的应用前景。空间及对地观测体系、物联网技术及全球变化模拟等领域的快速发展,极大地拓展了地理数据的外延与内涵,形成了跨越大时空尺度、涵盖高维度变量、拥有复杂的结构边界与形态模式的非规则地理时空数据集,如属性各异的高维、非结构化、持续更新的传感器序列、遥感影像等。高维地理时空场数据所具有的海量性、多维性、复杂性和面向分析等特点,使得管理和分析上述数据成为现有地理信息系统(GIS)的重要瓶颈。
长期以来,GIS 在面向“场”的相关应用中,通常采用二维、三维、时态离散格网等方式组织与管理数据,导致了对地理时空场数据的运算、分析、表达效率不高。伴随着信息技术和对地观测网络等的发展,地理时空场数据正经历从低维到高维、从静态到动态、从小数据到大数据、从结构化向非结构化的转变,以泛在网络、全球时空信息和时空大数据为表征的新型 GIS 已初见端倪,不仅体现在数据量和数据复杂度的激增上,更表现为海量化、动态化、持续更新、非结构化、异质化等一系列的数据特性及其需求的技术体系的转变。这就要求地理时空场数据的表达模型、组织管理、数据存储和检索查询也应适应时空场数据的这种转变,需要能够有效支撑高维数据的时空一体化表达、海量时空数据的压缩存储与高维数据的按需组织、动态更新和快速检索。
对海量、动态、非结构化的多源时空数据的时空分析是 GIS 的核心功能。对时空场数据进行时空分析,旨在借助计算机与数学手段量化分析地理数据的空间关系与模式,从时空数据中发现规律和异常、分析关联和探究机理,并进行预警和预测。目前,主要的时空过程统计分析方法包括经验正交函数(empirical orthogonalfunction, EOF)(Zhang et al.,2020)、奇异值分解(singular value decomposition,SVD)(Alter et al.,2000)、典型相关分析(canonical correlation analysis,CCA)(Jia et al.,2018)等,该类方法已在海洋、气象、测绘等研究领域得到广泛应用。然而, EOF 等分析方法主要基于矩阵计算来实现对高维时空数据的降维处理,容易给出没有物理意义或物理意义不明晰的模态,在时空型局部特性揭示上也显得能力不足。同时,矩阵的二维特性也使上述方法无法整体解决具有时间–空间和属性结构,或具有不规则边界和坐标系统的时空数据的特征解析及过程重构问题。鲜见从底层数学基础上对多维数据特征解析与动态表达的直接支撑,导致在数据分析上容易面临多维运算的不统一、时空维度的非对称和时空特征不一致等问题。
对海量时空场的分析需要兼顾均质和异质、单尺度和多尺度、强特征和弱特征的综合集成分析。近年来,随着信号分析方法的成熟,神经网络、核平滑、流形学习等非线性算法与传统时空过程分析方法的逐步结合演化出诸如 NLPCA/KPCA(Geng and Zhu,2005)、NLSSA(Broschat,1997)和 NLCCA/KCCA(Zheng et al.,2006)等部分非线性、非参数的时空过程分析方法。基于气候–海洋耦合模式的要素场及环流的非线性结构解析与重构也得到了长足的发展(Guo et al.,2009)。上述方法促进了时空过程特征解析的精确性与有效性,并在特定领域的研究中表现出一定的优势。然而,各类信号处理方法主要基于均质假设,对数据高维且不对称、强时空异质性等非规则特点的地理时空场数据,如属性各异的高维、非结构化、持续更新的传感器序列、不规则多边形/多面体格网场等的支撑能力相对薄弱,一般也只能提取数据整体的宏观结构特征,对于局部变异较强的时空场数据的特征提取与模态识别能力较弱。而对于地理学机理模型而言,其多是基于微分方程、有限元等连续解析模型加以构建,使得大量非规则时空场数据无法直接服务于模型的运行与分析,往往需要通过复杂的数据同化等操作进行参数估计和分析运算后才可支撑模型运算,在增加时空场数据运算复杂度的同时加大了地学分析的误差和不确定性。
时空分析和计算需要大量计算资源,数据维度的急升所导致的“维度爆炸”和“空空间”问题不仅大幅增加了数据量与处理难度,更导致现有的 GIS 时空分析与计算技术的低效化和无效化(熊李艳等,2018)。现有主要分析方法多基于矩阵代数,在数据分析时往往需要将多维数据映射至低维空间,进而基于矩阵数据进行数据遍历,导致其可支撑的数据规模相对较低,效率也难以提升。多数已有的统计分析方法难以直接支撑并行计算,不仅其计算过程容易受到内存等存储容量的限制,而且复杂的参数估计过程也进一步增加了算法的复杂度。
现代数学具有高度抽象的表达与运算空间,可以有效利用数学结构所内蕴的对复杂结构的表达能力实现对数据模型、特征分析和高效计算的原生支持,并可为海量时空场数据的计算提供分析算子与计算工具。张量是高维数据表达和计算的理想结构,为高维地理表达和复杂地理计算提供了有效支撑。已有学者将张量用于地学分析,包括时空场的数据组织和信息挖掘(Lee,2012),并有望为结构复杂的非规则数据特征分析方法的构建提供新的思路。然而,传统的张量分析一般要求不同维度相对对等,较难处理具有不规则边界及有缺失值的情况,也难以处理具有异质性和维度非对称特性的非规则时空场的特征解析与高效计算问题,难以在统一的高维数学空间中实现地理场景、时空关系和时空特征的融合表达与高效分析。从多维综合分析的视角,利用多模式张量分解的多维耦合分析能力,有效整合稀疏张量、张量卷积、张量子空间等新型张量分析方法,建立不同类型的非规则时空场数据统一张量分析框架,进而对现有多维时空场数据分析进行非规则拓展与扩充,发展以张量为基础,数据模型、分析模型和计算模型有机融合的新型张量时空场数据分析方法是解决上述问题的重要途径。
本书从张量分析的数学理论基础出发,从数据模型、分析方法、计算模型等方面系统构建新型张量时空场数据分析方法。在数据模型层面,通过以张量结构为基础,利用其自身的多维支撑与维度拓展特性,实现了对多维规则和非规则时空场数据集的一体化建模、压缩存储、操作更新与检索查询。分析方法上,在对传统多维数据特征解析方法系统进行梳理的基础上,对常规张量分析进行拓展,构建面向规则及诸如稀疏、维度非对称和结构异质性等非规则时空场数据的特征解析方法。在计算层面,充分借鉴从向量分析、矩阵分析到张量分析的发展实现从关系数据模型向以多维数据立方体为主的多维数据集的表达与计算进行转变,建立相应的算子算法集,构造面向不同应用目标的多维时空场计算模板,从而突破基于张量的多维地理时空场数据组织管理、特征分析和高效计算的关键技术,提升地理时空场数据的管理和分析能力。
1.2 张量及其应用
1.2.1 张量分解与张量计算
张量是矩阵的高维扩展,是具有明确数学含义并可直接支撑数学计算的高维数组结构,也是高维数据组织与存储的主要形式之一。以张量结构为基础,利用其自身的高维表达与坐标不变性(俞肇元等,2011),可以很好地实现对多维数据集的概念建模。张量积、外积、内积、张量缩并(contraction)等张量的基本运算,为多维数据集的操作提供了简洁优美的代数原型。而张量分解和基于张量的函数逼近、微分方程求解等方法则为多维海量数据集的快速分析与计算提供了数学工具。
随着多线性代数、张量代数等数学理论的发展,以及诸如交替*小二乘法(alternatingleast squares,ALS)、高阶奇异值分解(high order singular value decomposition,HOSVD)等方法的提出,两类典型的张量分解模型 PARAFAC 和Tucker N 模型得到了广泛应用。PARAFAC 模型类似传统的主成分分析的高维扩展,其分解结果表现为对原始数据的近似逼近(Harshman,1972),而 Tucker N 模型则利用给定阶数的低阶核矩阵(core matrix)及其对应的系数序列来表达不同维度间的配置特性和相互作用关系。在上述两类模型的基础上,针对不同分析需求发展了一批高维扩展模型,其典型扩展包括 cPARAFAC(M.rup and Schmidt,2006)、PARALIND(Chen et al.,2013)、Shifted Tucker 3(Harshman et al.,2003)、HOSVD(De Lathauwer et al.,2000b)等。与此同时,更多新兴的模型被引入高维阵列数据分析中,如多线性引擎模型(Paatero,1999)、STATIS 模型(Stanimirovaet al.,2004)及多块多路模型(Stamatopoulos and Di,2015)等。由于张量分解可直接实现对高维数据的低维表达,有效降低高维数据处理与分析的复杂度。以主张量分解为代表的张量表达、逼近与分析方法,具有更好的结构保形性,有助于揭示多维时空数据不同维度间的耦合作用关系,有效降低数据量,以有效支撑海量数据的特征解析与提取。
传统的张量计算多通过定义张量的双线性或多线性映射和线性展开加以实现,进而在此基础上构建优化函数,利用迭代优化加以求解[如 slice projection(Wang and Ahuja,2008a)、multislice projection(Ding et al.,2014)、PMF3、Levenberg-Marquadt algorithm(Gourvénec et al.,2005)]。由于迭代优化方法容易存在局部*优,且计算的时空复杂度均相对较高,上述方法在算法速度、模型拟合、参数敏感性和模型的可预测性方面仍存在较大的提升空间。面向海量时空场数据的分析与计算效率问题也逐渐引入了诸如 matrix product states (MPS)(Benguaet al.,2017)、张量流分解(Yuan et al.,2019),以及大规模输入秩情况下函数相关张量的 CP-Tucker(C2T)、Tucker-CP(T2C)分解和多重网格 Tucker 近似等算法(Khoromskij and Khoromskaia,2009),并在大数据分析方面得到了很好的应用。但张量自身结构的抽象性、运算的复杂性及现实世界数据的复杂性,导致缺乏从数据组织、特征解析和可视化表达整体分析流程上基于张量分析的综合应用系统。尤其缺乏有限存储下对数据的张量组织与压缩存储及利用有限的运算资源实现海量数据的快速计算与分析。因此,仍需在基于张量的数据表达与运算方面展开进一步研究。
1.2.2 张量在多维数据分析中的应用
张量是高维数据阵列组织与存储的主要形式。在实际应用中,许多信号因具有多线性而呈现出高维张量的形式,并可通过张量分解提取不同维度间的耦合嵌套结构。近年来发展了一系列的张量分析模型,并得到了广泛的领域应用。从领域应用上看,张量分析现阶段主要集中在化学(Khoromskaia et al.,2012)、神经科学(Listed,2005)和数据挖掘(Kolda and Bader,2009)等领域。Andersen和 Bro(2003)综述了 PARAFAC 模型对质谱数据的建模,指出 PARAFAC 模型具有二阶优势,从而使得对于具有非矫正因子的计量化学分析成为可能。在神经科学方面,多维阵列数据分析方法可以对 EEG(electroencephalographic)及FMRI(functional magnetic resonance imaging)对时间采样、频率组分和不同通道信息进行综合,从而获得神经活动的时间、空间及频率特征。例如,Andersen和 Bro(2003)利用多维数据阵列
展开