第1章绪论
1.1地理空间数据挖掘与地理关联模式挖掘
1.1.1地理空间数据挖掘的主要任务
城市化的发展是促进人类进步和社会经济发展的重要驱动力。中国的城市化被诺贝尔经济学奖得主——约瑟夫 斯蒂格利茨(Joseph Eugene Stiglitz)认为是除美国高科技之外影响21世纪人类社会发展进程的另一件大事。中科院发布《中国新型城市化报告2012》指出:2011年中国城市化率首次突破50%,意味着中国城镇人口首次超过农村人口,中国城市化已经进入快速发展的关键阶段,这必将引起深刻的社会变革。城市化进程涉及人口分布迁移、土地利用变化、产业结构调整、经济形态变迁等一系列复杂的演化与转型过程(刘海猛等,2019)。然而,在城市化进程不断推进的同时,交通拥堵、环境恶化、生态失调、秩序混乱等诸多“城市病”问题亦日益凸显。中共中央、国务院印发《国家新型城镇化规划(2014-2020年)》指出:我国“城市病”问题的重要原因在于城镇空间分布和规模结构不合理,与资源环境承载能力不匹配。城市化进程中人-地关联关系的不协调已然成为构建可持续发展的新型智慧城市的“卡脖子”问题。为深入整治“城市病”、实现人与自然协同共进的美好愿景,近十年来国际上“未来地球计划”“恢复力联盟(Resilience Alliance)”“人与自然耦合系统项目(Coupled Human and Nature System)(Liu et al.,2007)”以及国家自然科学基金重大项目(傅伯杰,2014;方创琳等,2016)、国家重点基础研究发展计划项目(邬建国等,2014)等重大科学研究项目均致力于推进城市化进程中人与自然关联机理的研究。可见,探究城市化进程中人文与自然地理要素间的关联与协调机制既是地球科学的前沿研究热点(傅伯杰等,2015),亦是国家战略对可持续城市化健康发展提出的迫切需求。
当前虽已累积了大量的地理空间数据,但数据中蕴含的深层次规律和知识却难以被感知(马荣华等,2007)。早在20世纪80年代末,国内外学者们就意识到数据中隐藏着大量的知识,并提出从数据库中发现知识。随后,数据库被形象地比喻为矿床,从中发现知识的过程被称为数据挖掘。数据挖掘技术是融合数据库、数理统计、模式识别、机器学习等众多领域的相关理论和方法的综合性技术,旨在从海量的数据中发现“潜在的、未知的、深层次的、有应用指导价值”的知识(Miller et al.,2009;Han et al.,2011;刘大有等,2013;李德仁,2016),从而解决“数据丰富而知识匮乏”的困境。通常认为,数据挖掘是知识发现中通过特定算法在可接受的计算效率限制内生成特定模式的一个步骤,因此数据挖掘和知识发现的概念常被一起使用(李德仁等,2013)。
通过现有研究可以发现,在计算机领域已提出了众多数据挖掘模型和方法,但这些模型和方法难以直接移植应用于地理空间数据,主要因为地理空间数据具有诸多特性,如空间/时空相关性、异质性、尺度依赖性。这些独特性使得地理空间数据挖掘仍然是当前地理信息科学领域的热点和难点问题。首先,地理空间数据的采集和获取速度远非传统事务型数据所能比拟。例如,对地观测技术已成为当前人类获取资源环境动态信息的重要手段,对地观测系统已形成一个多层次、多角度、全方位、全天候的全球立体观测网,高、中、低轨道结合,大、中、小卫星协同,粗、细、精分辨率互补,从而使得数据获取呈爆炸式增长,数据量需以TB、PB级(甚至更大)计算。以Landsat为例,每两周就可以获取一套覆盖全球的卫星影像数据,目前已经积累了全球几十年的数据(李德仁等,2000)。其次,地理空间数据来源多种多样,可能来自不同的部门,使用不同的传感器,导致数据的结构、标准、分辨率等也各不相同,数据的多源性、异构性同样给数据分析带来困难(Zheng,2015)。最后,由于地理空间数据的不确定性、时空依赖性、分布异质性及多尺度特性(裴韬等,2001),导致经典数理统计分析模型及已有数据挖掘模型不能适用于地理空间数据。考虑到地理空间数据独特性以及蕴含的丰富知识,李德仁院士于1994年在加拿大GIS国际学术会议上率先提出了从GIS空间数据库中发现知识的概念,并系统阐述了空间知识发现的特点和方法(Li et al.,1994)。随后,李德仁院士进一步提出空间数据挖掘和知识发现,并创新性地研究了空间数据挖掘与知识发现的理论、技术及方法(李德仁等,2001,2002)。
最初,空间数据挖掘主要侧重于发现数据在空间的分布模式和规律。随着数据获取速度的提升,空间数据的时效性越来越强,从而使得空间数据挖掘不再局限于只发现空间维度的规律,而是综合考虑数据在空间、时间维度的分布特征和规律,即时空数据挖掘,亦称作地理空间数据挖掘(李连发等,2014)。当前,地理空间数据挖掘已开展了大量的研究,主要内容大致可分为:空间/时空聚集模式挖掘、空间/时空异常模式挖掘、空间/时空关联模式挖掘和时空演化模式挖掘(Miller et al.,2009;Shekhar et al.,2011),旨在探索时空分布模式、推理时空关系、建模时空行为并预测时空演化趋势。随着大数据时代的到来,地理空间数据挖掘需要融合不同领域、不同来源、不同类型的地理空间数据,对地理空间数据中隐藏的时空模式进行多视角、全方位的描述,发现其中蕴含的深层次关联关系,以更好地服务于地理现象的解释与预测。
1.1.2地理空间关联模式挖掘的研究意义
由于地理空间数据中同时蕴含有空间、时间信息,地理空间关联模式不仅体现在地理现象间属性的关联,同时体现在地理现象在空间位置和时间次序上的依赖关系,从而使得地理空间关联模式的形式更为多变,应用也更为广泛。地理空间关联模式挖掘不仅可单独作为一种时空关联知识的诊断性分析工具(朱庆等,2017),亦可为其他地理空间数据挖掘方法(如聚类分析、异常探测和预测建模)提供重要的知识补充(邓敏等,2020),其研究意义可主要归纳为:
(1)地理空间关联模式对于深入理解不同地理要素间的时空交互作用机制具有重要的科学价值。地理空间关联模式是对不同地理要素在邻近空间位置和时间上依赖关系的空间认知与抽象表达,是时空关联关系在时空域内最为直接的表现形式。例如,在经济学领域中,具有资源共享、供需合作等关联关系的企业会在空间上邻近,进而产生聚集经济效应(吴学花,2010),发现该类空间关联模式是解释企业间交互机制的重要依据,且对产业结构的调整与规划具有重要指导意义(田晶等,2015)。
(2)地理空间关联模式可以作为多类别地理要素聚集模式的关键指示性特征,服务于地理要素分布格局的动态监测。由于不同要素间存在时空依赖性,每类地理要素的自相关结构亦可能受到其他相关要素的影响,形成诱导性聚集模式(Fortin et al.,2005),地理要素的时空关联对该类聚集模式具有重要的指示作用(Leibovici et al.,2011)。例如,在海洋科学领域中,基于多类海上活动(如海运、冲浪、划艇等)交互事件的时空关联信息可以及时发现海上冲突的聚集趋势,为海上突发事件提供早期预警信号(Leibovici et al.,2014)。
(3)地理空间关联模式能够作为多元时空异常探测的评判标准,丰富时空异常模式在多要素视角下的地理内涵。时空异常模式挖掘的首要任务是确定其对立面(即正常模式),当存在多类地理要素时,可以参考研究区域或邻近域内要素间频繁发生的关联规律,将时空异常模式理解为显著偏离规律性关联模式的地理现象(Shi et al.,2018)。例如,在公共安全领域中,通过比较邻近范围内ATM机与抢劫事件间的同现频率,可以有效定位具有异常同现行为的高风险基础设施,从而为监控与巡逻任务的部署提供技术支持(杨学习等,2018)。
(4)地理空间关联模式可以辅助时空预测模型中协变量的选择,助力地理要素演变过程的精确模拟与预测。地理要素的未来发展状态不仅与其自身(即预测变量)的历史状态有关,还可能受其他相关要素(即协变量)时空分布的影响,为此,地理相关要素的识别是进行准确预测的前提(杨文涛,2016)。例如,在大气环境领域中,通过在PM2.5浓度时空预测模型中同时纳入温度、湿度、风力、降水等关联地理要素的影响,可以更加有效地建模PM2.5浓度的变化趋势,为空气质量的预报预警提供可靠的决策信息(Yang et al.,2018)。
1.2地理空间关联模式挖掘的研究进展
地理空间关联模式的早期雏形是事务型数据库(如顾客购物记录)中的关联规则(Agrawal et al.,1994)。随后,Kopersk等(1995)定义了空间谓词和空间事务表,将关联规则挖掘的概念拓展至空间数据集。Shekhar等(2001)定义了空间关联模式在空间点数据集中的表现形式,称为空间同位模式(Spatial Co-location Pattern),该挖掘任务旨在发现频繁出现在邻近空间域的点事件类型集合,以理解不同地理要素或地理现象在空间域的相互依赖关系,对揭示地理现象或要素间的伴生、共存关系具有重要意义。在此基础上,学者们陆续提出时空同现模式(Spatio-temporal Co-occurrence Pattern(Wang et al.,2005))和局部同位模式(Regional Co-location Pattern(Celik et al.,2007))等概念,分别实现了同位模式由空间维度向时空维度、由全局尺度向局部尺度的重要拓展(后文统称为空间同现模式)。在此过程中,大多数研究针对计算效率问题开展了改进工作。随着空间异质性等地理学问题的提出,局部同现模式挖掘逐渐受到关注。近年来,通过引入空间统计学思想,针对同现模式的显著性检验问题亦开展了初步工作(Barua et al.,2011)。图1.1给出了地理空间关联模式挖掘方法的发展脉络、代表性工作以及不同学科所关注的研究问题。需要注意的是,国内外学者亦发展了一些定量分析多类地理要素空间交互作用的经典方法,如地理加权回归(Fotheringham et al.,2003)、地理时空加权回归(Huang et al.,2010)、地理探测器(Wang et al.,2010;王劲峰等,2017)等,因其内涵与本书所关注的地理空间关联模式存在显著差异,在此不做重点阐述。
地理空间关联模式挖掘的分类存在多种标准。根据地理数据的时空维度,可以分为空间关联模式和时空关联模式;按照研究范围,可分为全局关联模式和局部关联模式;依据度量空间,又可将其分为欧氏空间关联模式和网络空间关联模式,如图1.2所示。下面对当前地理空间关联模式挖掘的相关研究工作进行全面系统地回顾与总结,首先介绍事务型关联规则基本概念,阐述全局空间关联模式挖掘的主要方法,归纳全局时空关联模式挖掘的代表性工作,并总结全局关联模式挖掘方法在局部层次的主要拓展研究。
1.2.1事务型关联规则挖掘
事务型关联规则是指频繁出现于同一事务的数据项集合所组成的规则,旨在描述事务型数据库中数据项之间的相互联系,为相关决策提供科学指导。如图1.3所示,一个经典的应用案例是商城的购物篮分析,主要是通过分析大量顾客的商品购物记录,发现数据背后隐藏的顾客频繁性购买行为,帮助商家调整货物摆放次序或制定其他市场营销策略,实现商场收益的提升。
关联规则挖掘的关键在于频繁项集的产生。事务型数据库中不同项组成的所有可能组合数目是项数的幂次函数,若采用枚举策略对所有可能项集进行逐一测试,则需要巨大的计算开销。为突破海量数据中事务型频繁项集和关联规则挖掘的计算瓶颈,Agrawal等(1994)开创性地提出了Apriori算法。该算法在大幅提升计算效率的同时,能够保证挖掘结果的完整性和正确性,且具有良好的可扩展性和可移植性,在诸多科学和应用领域中被广泛使用,并在2006年数据挖掘领域顶级国际会议ICDM(IEEE International Conference on Data Mining)上被