第1章绪论
1.1研究背景和意义
随着传感器网络、移动定位技术的不断普及和发展,数据采集与计算单元的外延不断扩展,地球科学经历了一场从数据贫乏领域到数据丰富领域的重大革命(李德仁和邵振峰,2009;周成虎等,2011)。这些数据在时间和空间维度不断增长,从而产生了海量的时空数据。这些不断泛化的时空数据蕴含着丰富的信息,对时空知识发现提出了迫切的需求,从而催生了时空数据挖掘技术的不断普及和发展(王劲峰等,2014;陆锋和张恒才,2014;刘瑜等,2014;李清泉和李德仁,2014;Shekhar et al.,2015;李德仁,2016;Atluri et al.,2018;Karpatne et al.,2019;Liu and Biljecki,2022)。
时空数据挖掘旨在从海量的时空数据中发现之前未知,但潜在有用的知识、结构、关系或模式(吉根林和赵斌,2014;李德仁等,2014),为决策和预测提供支持。时空数据挖掘通常可以粗略地分为三个类别:空间数据挖掘、时间数据挖掘和时空数据挖掘(Atluri et al.,2018)。空间数据挖掘和时间数据挖掘是指分别对空间相关性(如空间自相关)和时间相关性(如时间自相关)进行量化,来学习和发现未知的知识或模式。而时空数据挖掘通常在建模过程中同时考虑空间和时间信息,还经常考虑时空数据的其他属性,如空间异质性、时间非平稳性等。根据研究问题的不同,时空数据挖掘可以分为6类:时空聚类(Caiado and Crato,2007;Feng et al.,2015)、时空预测(Pace et al.,1998;Ginsberg et al.,2009;Yu et al.,2016a)、变化检测(Grundmann et al.,2010;Zhou et al.,2011,2014;Chen et al.,2013)、频繁模式挖掘(Zhang et al.,2003;Angulo et al.,2008;Kawale et al.,2012)、异常检测(Lu et al.,2003;Shekhar et al.,2003;Liu et al.,2014;McGuire et al.,2014)、关系挖掘(Handwerker et al.,2012;Yang and DelSole,2012;Eichler,2013;Lu et al.,2016)。完整的时空数据挖掘过程如图1-1所示,给定一个时空数据集,*先需要进行数据的预处理工作,包括去除噪声、填补缺失数据以及针对稀疏性进行建模(Shekhar et al.,2015)。在此基础上,选用合适的时空数据挖掘算法来挖掘预处理后的时空数据并输出时空模式,输出的时空模式由领域科学家进行解释,发现新的知识并进一步改进时空数据挖掘算法。*后,利用时空数据挖掘过程中建立的若干个方法以及输出的模式,服务于实际应用。时空数据挖掘算法通常采用时空统计模型和机器学习方法来实现。输出的时空模式根据研究问题的不同可分为时空聚类、时空预测、时空异常检测、频繁模式挖掘等(赵彬彬等,2010;刘大有等,2013;裴韬等,2019)。
图1-1时空数据的挖掘过程
时空数据的缺失和稀疏分布是普遍存在的现象(Yao and Huang,2023)。模型的插值和重构精度以及易用性对后续的时空挖掘过程具有重要的影响。时空数据插值是偶发性缺失数据的推断过程。现有的时空插值方法考虑了时空异质性(Deng et al.,2016),然而由于未考虑时空数据的缺失模式、插值样本的高效选择、时间和空间的非线性交互关系,影响了时空插值算法精度。时空数据的稀疏重构是系统性的数据加密或重采样过程,当前存在多种解决方案解决数据的稀疏性问题(Thiagarajan et al.,2009;Asif et al.,2016;Chen et al.,2017)。现有复杂的统计和机器学习方法通过考虑时空依赖性提高了稀疏重构精度,但模型求解复杂,通常难以部署。轻量级的模型易于构建,但无法捕获地理空间数据的时空依赖性,重构精度有限。时空数据挖掘算法通常具有统计基础,受到时空自相关性和时空异质性的统计约束(邓敏等,2020),现有的统计和机器学习方法通常难以全面地描述时空自相关性和时空异质性,导致难以获取细粒度的时间非平稳性变化特征及复杂地理过程的周期性和趋势性。此外,时空异质性导致的局部模型结构无法描述预测任务之间的全局时空相关性,并且使得预测模型丧失了全局预测能力。预测模型的参数优化同样也存在问题,从而极大地限制了时空数据建模能力。
可以看到,在时空数据挖掘过程的几个关键环节,现有方法均存在一些不足。因此有必要探索新的建模方法,以提升现有时空数据模型的学习能力、预测精度以及应用价值。鉴于此,本书以时空统计作为切入点,以异质稀疏分布地理空间数据建模方法作为研究主题,通过时空统计与机器学习方法的融合,提出了四个不同的模型,解决了现有时空建模方法存在的多个问题,并综合利用真实的区域与城市地理空间大数据,对所提出的模型方法进行了有效验证,提升了时空数据建模的质量与应用价值。
1.2国内外研究现状
1.2.1时空数据的统计基础
时空统计提供了一个对时空数据进行探索性分析和推断的理论框架,是时空数据建模的基础。与**的数据挖掘中研究的数据不同(Larose,2005),时空数据具有时空自相关和时空异质性的本质特性(Shekhar et al.,2015;Atluri et al.,2018;Ermagun and Levinson,2018)。正是时空数据存在的这两种复杂的时空特性以及它们之间的交互,导致现有的时空数据挖掘存在诸多挑战(Karpatne et al.,2019)。
1.时空自相关性
由于地理现象发生在时空范围,无论在时间上还是在空间上,邻近的事物通常比遥远的事物更相关(Tobler,1979)。以交通数据为例,在空间维度,路段的交通状况受其上下游路段交通状况的影响(Chandra and Al-Deek,2009);在时间维度,路段的交通状况和邻近历史时刻的交通状况更相似,这种现象称为时空依赖性或时空自相关性(刘康,2018)。时空数据的这种固有属性使得传统的基于样本的*立同分布假设的数据挖掘方法难以直接应用于时空数据,可能产生不精确和不可解释的预测结果(Jiang et al.,2015;Mueller et al.,2017)。例如,当对空间数据直接采用传统的线性回归模型时,残差通常是相关而不是*立同分布的。因此,在分析时空数据时,需要考虑观测数据之间的自相关结构(Jiang et al.,2015)。
在统计学中,对时空依赖性的度量通常采用自相关分析,其度量指标大多是基于皮尔逊相关系数的扩展(Cheng et al.,2012)。在空间维度,Moran指数(Moran,1950)和Geary指数(Geary,1954)应用广泛。然而,这两个指数没有考虑时间维度的信息,无法抓取相关性的动态属性。在时间维度,可以简单地修改皮尔逊相关系数,度量一个变量与其自身的滞后变量的相关性,但无法确定空间自相关的聚集特性。因此,业界提出了多个指标来度量时空自相关性。例如,时空变异函数(Griffith and Heuvelink,2012)、时空特征向量滤波(Griffith,2010)、时空自相关函数(Pfeifer et al.,1980)、互相关函数(Yue and Yeh,2008)等。其中,时空自相关函数主要用于度量全局自相关性,而互相关函数用于度量局部自相关性。
2.时空异质性
由于地理现象在不同地理位置存在显著差异且随时间动态变化,因此,除了时空自相关性,时空数据的另一个重要特性是时空异质性,即时空数据的统计特征(均值、方差和协方差)在整个空间和整个时间范围内并不遵循相同的分布,表现出明显的空间异质性和时间非平稳性(王佳璆,2008;Shekhar et al.,2015;Atluri et al.,2018)。
空间异质性主要反映在两个方面,包括空间非平稳性和空间各向异性。空间非平稳性意味着样本的分布在不同的局部区域是变化的(吴森森,2018)。例如,在道路网络中,不同城市甚至不同类型的路段的交通模式存在显著的差异(邹海翔等,2015;张希瑞等,2015)。空间各向异性意味着样本位置之间的空间依赖性在不同方向上不均匀。例如,相同路段的不同方向的交通模式表现出*特的模式(刘康等,2014,2017)。从不同的观测尺度上,空间异质性可划分为全局异质性、分层异质性和局域异质性,不同类型的空间异质性需要以不同的方式应对(Ge et al.,2019)。传统的统计和机器学习模型在处理时空数据时通常假定空间依赖是平稳性以及各向同性的,使得样本的统计属性不随位置变化以及在任意两个位置的统计属性(例如协方差)只依赖于它们之间的相对距离而与方向无关,如时空自相关整合移动平均模型(STARIMA)(Duan et al.,2016)和时空K近邻模型(STKNN)(Cai et al.,2016)。这些假设可以极大地简化模型的结构,但可能导致从整个研究区域学习的模型在某些局部区域表现不佳。
时间非平稳性表明在整个研究区域样本的分布是随时间动态变化的。例如,卫星影像对地面某一地点的植被进行观测,由于季节循环的存在,在时间上存在周期模式。因此,冬季的观测与夏季的观测分布明显不同(Atluri et al.,2018)。
在道路网络,交通状况在时间上具有非线性和非平稳性变化特征(Stathopoulos and Karlaftis,2003;Armstrong,2006;Vlahogianni et al.,2006,2007)。时间非平稳性主要体现在两个方面:一方面,在不同的时间区间,即便是相同的地理单元也具有不同的变化模式(Asif et al.,2014),以道路交通为例,在峰值区间路段的相关性强度要高于平峰区间;在拥堵条件下,时空邻居的影响范围比自由流条件下小(Cheng et al.,2012)。另一方面,由于时空自相关的影响,路段当前时刻的交通状况和邻近历史时间间隔的交通状况相似。同时,路段的交通状况存在多种变化模式,某些路段的交通状况会日复一日重复,使得道路网络的交通状况存在明显的周期性。另外,路段的交通状况受到外界条件如天气变化、交通管控等因素的影响,呈现趋势性的上扬和下降过程。这种复杂的时空交互过程难以用简单的时间序列或时空邻近矩阵来刻画(Zhang et al.,2016,2018)。因此,这对传统的时空建模方法带来了挑战,因为不能对所有时间步都采用统一的模型。解决这一挑战往往需要设计时空动态模型。
综上分析可以看到,时空异质性的存在使得在整个时间和空间范围内构建数据挖掘模型很困难。因此,需要构建对位置或时间敏感的局部或区域模型的组合,来代替单个全局模型,以适应时空变化的演化过程。
1.2.2缺失时空数据插值
在现实世界中,时空数据缺失的现象极其普遍,如设备故障导致空气质量监测传感器读数的缺失等。如果无法精确地填补这些缺失数据,会给后续的时空分析与建模带来很多不利的影响,甚至会引发人们做出不合理的推断和假设(Deng et al.,2016)。如果只是删除含有缺失数据的记录,将会导致原始数据的信息丢失,造成数据资源的浪费(Gao et al.,2015)。因此,如何对缺失数据进行精确插值,是时空数据分析领域亟须解决的问题。
在过去几十年,业界提出了大量插值方法来解决时空数据缺失的问题(Yue and Wang,2010;Londhe et al.,2015;Duran-Rosal et al.,2016;Tak et al.,2016;Tonini et al.,2016;Ordó.e
展开