第1章空间分析基础
本章主要包含两个方面的基础内容,一是对空间分析(spatial analysis或者spatial statistics)的概念、学科特点和相关的数据基础以及特有的可变面积单元问题(modifiable areal unit problem,MAUP)进行综合讲解;二是对空间统计分析方法中所涉及的概率(probability)和统计的基本概念结合R语言操作进行介绍,为后续具体分析方法的学习提供基础知识。
1.1空间分析简述
1.1.1空间分析
空间分析是个相对宽泛的概念,目前为止并没有公认的确切定义,并且其研究的内容、使用的方法以及解决应用问题的类型也是十分多样的,这充分体现了交叉应用学科的特点。从经验概括的角度来看,空间分析主要包含了一系列用来分析和处理空间对象的几何、拓扑和属性数据的方法,可以为发现地理现象和过程的规律性提供定量的数值分析、操作计算与统计证据支持。Charles Picquet在1832年绘制的关于巴黎48个街区霍乱暴发情况的地图和John Snow在1854年绘制的霍乱病例点位图被看作空间分析*早的应用实例。从现在的空间分析角度来看,Charles Picquet绘制的是典型的区域分级设色地图,而John Snow绘制的是点空间分布模式图。当时这两种地图主要是用于可视化的定性分析,用来发现霍乱病例的空间分布规律,而现在已经有更好的统计方法对其进行定量的解读和判断。
从非严格的一般性分类角度来看,空间分析主要由三大类方法组成,分别是基于经典统计方法的分析(如空间回归建模)、基于计算几何的分析(如叠置和缓冲区分析)以及其他数值分析方法(如数字地形计算)。本书的主要内容是面向统计推断类的系列方法的原理和实践操作,因此更侧重于空间统计类型分析方法的讲解和实践。
基于统计的空间分析方法通常是经典统计方法在分析空间(地理)问题上的扩展。空间现象通常具有显式或隐式的位置和相对位置关系(也就是拓扑)特征,这就需要对空间位置和关系信息进行处理,而分析结果通常也是与位置和位置之间的关系相关联。总体来看,空间统计分析的处理过程与其他统计方法是一致的,主要包括研究问题的提出、相关数据的收集与处理、定性的探索性分析、根据研究目标和数据特点选择合适的统计模型、进行统计分析与结果呈现等。
基于统计的空间分析方法不是单独发展的,通常是在经典统计分析方法上针对空间信息的扩展处理。实际上,完全针对空间问题的统计分析方法是很少的,而大部分的经典统计分析方法在空间问题的研究中却可以直接使用,或者针对空间对象的特点进行适当的分析处理,如可以将区域作为类别型的解释变量或者随机效应量(random effect)等。利用统计的方法来分析空间问题,主要可以归纳为四个类别:①假设检验,用于比较相似性和异质性;②相关分析(correlation analysis),用于定量联系的强度;③格局分析,用以挖掘时空分布的规律性;④回归分析(regression analysis),用以解释变化趋势与作用因素。本书在后面的章节中将对这四个类别的系列常用分析方法进行详细的介绍。
1.1.2数据类型
针对具体研究问题的不同特点,通常会使用不同的调查、测量、观测和采样方法与技术手段,由此便会产生不同类型的样本数据。在执行具体的统计分析之前,首先必须对样本数据的类型有精确的判断,这是因为不同数据类型所适用的统计分析方法往往是不同的,并且不同的统计分析方法会产生差异性的分析结果,进而就会导致研究结果和结论的差异性,有时甚至会出现无明确意义的结果。实际问题研究中常见的样本数据类型如表1-1所示。
采样数据的空间表现形式主要包括区域属性类型(areal,如分省的人口数据)、站点观测类型(site,如气象观测数据)、位置记录类型(occurrences,如地震观测数据)和栅格属性类型(gridded,如各种类型的遥感产品数据)等。每一种形式的数据结构以及在空间变量处理方法上可能有所不同。此外,有时为了顾及随机变量(random variable)的量纲、取值范围、分布形式以及趋势的影响,需要在分析之前进行数据变换(transformation)处理。常用的变换方法包括中心化、标准化、归一化、对数变换、box-cox变换等,并且每一种变换方法适应的条件也有差异,需要根据具体数据的特点、分析模型的要求以及分析目的来选择处理。
1.1.3MAUP
MAUP是地理或空间相关研究中一个典型的现象。虽然词组里面有“问题”这样的描述,并且也有研究认为这是统计推断偏差的主要来源,但其本质还是研究视角差异性的结果,并不是需要解决的真正的问题,更不可能有解决的办法。对MAUP表达的基本含义,可以有这样的理解:同一研究对象或者问题,由于研究的尺度(scale)和分区(zonation)的不同,可能产生不同的分析结果和结论。其中,尺度是指*小测量单元或观测粒度的大小,称为尺度效应(scale effects),典型的例子就是海岸线有多长取决于尺子的*小刻度;分区是指给定尺度上空间的划分(partition)或者聚合(aggregation)方式,称为分区或者聚合效应(zonation or aggregation effects),典型的例子就是区划的方式不同可能带来不同的统计结论。MAUP既然是一个不可避免的现象,那么在分析具体问题的时候就需要特别注意采样数据的观测尺度以及空间化的方式,并且需要注意分析的结果和结论可能存在尺度与分区依赖性(dependence),甚至有些时候,适用的分析方法也可能存在差异性。
此外需要指出的是,与空间有关的数据通常都会涉及坐标基准(datum)和投影(projection)变换的问题,这是地图学的基础内容。众所周知,任何投影都不能同时避免角度、长度和面积变形。因此,在统计分析中凡是涉及空间量算时,要同时考虑数据源和计算目标的坐标基准与投影方式的差异性,以减少分析结果中可能由此带来的误差。在没有特别针对性处理方法的情况下,采用合适的投影方式也可以辅助性地解决计算误差的问题,如涉及面积计算时采用等面积投影,涉及距离计算时采用等距投影等。
1.2概率统计基础
1.2.1概率与概率密度函数
在概率和统计中,一个随机变量可以取一系列不同的值,取不同值可能性的相对大小采用概率来衡量。概率的取值范围在0~1,0表示绝对不可能发生,而1表示一定会发生。随机变量的类型可以分为离散的(discrete)和连续的(continuous)两大类。其中,离散的随机变量只能取有限的数值或者是可计数的值,而连续的随机变量可以取一个区间或者区间集合内的任意数值。对于离散的随机变量,使用概率质量函数(probability mass function)来刻画取值的相对可能性大小;对于连续的随机变量,使用概率密度函数(probability density function)来描述取某个给定值的概率。概率质量函数和概率密度函数给出了随机变量每一个可能结果的相对可能大小,构成了概率分布(probability distribution)。
概率分布有着严格的理论基础和数学表达,图1-1展示了三种常见的连续型概率密度函数(具体操作见代码1-1)。其中,横坐标为随机变量的取值,纵坐标为取值的相对可能性大小。对于连续型的概率密度函数来说,其曲线下的积分面积为1;对于离散型的概率密度函数来说,概率密度与取值的乘积之和为1。此外,在本书所有的演示代码中,如果没有特别说明,“##”后面表示注释,“>”后面表示输入的代码,“+”后面表示输入代码换行,library函数后面表示载入需要的功能包,无特殊符号的部分表示计算结果的输出内容。
图1-1三种常见的概率密度函数
左表示正态分布(normal distribution),中表示t分布,右表示F分布
代码1-1概率密度函数
展开