第1章 大数据和地理大数据
1.1 大数据
大数据(big data)时代的到来,与信息技术的发展密不可分。由于能够感知多元信息且成本低廉的移动设备和物联网设备、遥感、软件日志、照相机、麦克风、射频识别读取器和无线传感网等的广泛应用,人类社会可以使用的数据类型和数据飞速增长。自20世纪80年代以来,世界人均存储数据的量级大约每40个月翻一番;截至2012年,每天产生2.5EB(1018)的数据。根据美国国际数据集团(International Data Group)的报告,2013~2020年,全球数据量从4.4ZB(1021)指数增长到47ZB;到2025年将有175ZB数据。
大数据一词自20世纪90年代开始出现,Mashey推广了该词Mashey J R.1998.Big Data and the Next Wave of Infra-Stress.Computer Science Division Seminar,University of California,Berkeley.http://static.usenix.org/event/usenix99/invited_talks/ mashey.pdf。目前,关于大数据并没有一个标准的定义。通常,大数据包含的数据集的大小超出了常用软件工具在可容忍的时间内捕获、整理、管理和处理的能力。而在处理中,大数据不用随机分析法(抽样调查)这样的捷径,而采用近乎全量的数据进行分析。
IBM总结了大数据的5V特点:volume(数据量)、velocity(速度)、variety(多样)、value(价值)、veracity(真实性)“The 5 Vs of big data”.Watson Health Perspectives.https://www.ibm.com/blogs/watson-health/the-5-vs-of-big-data/。其含义如下:
Volume(数据量):数据的大小决定了价值和潜在的洞察力,以及是否可以将其视为大数据,大数据的大小通常大于TB(1012)甚至PB(1015)量级。
Velocity(速度):与小数据相比,大数据的产生过程更加连续,并且通常是实时可用的。一个典型的例子是社交媒体数据,由于海量用户每天都通过社交媒体平台(如Twitter、微博)发布文本、图像、视频等内容,数据生产速率很快。与此同时,大数据的数据量和生产速率,对于处理效率也提出了更高的要求。
Variety(多样):大数据的形式包括文本、图像、音频和视频等,既有结构化数据,也有非结构化数据。对象/关系数据库等早期技术能够高效地处理结构化数据,但是,从结构化到半结构化或非结构化的类型和性质的变化对现有工具与技术提出了挑战。
Value(价值):通过处理和分析大数据集可以获得的信息价值。然而,大数据价值密度却相对较低,这使得随着数据量的增长,数据中有意义的信息却没有成相应比例增长。
Veracity(真实性):数据的真实性或可靠性指的是数据质量和数据价值。大数据不仅数据量很大,而且还必须可靠才能在分析中获得价值。由于大数据的获取方式不同,数据质量可能会有很大差异,从而影响分析的准确性。
大数据推动了数据科学的发展,因此,图灵奖获得者Jim Gray将数据科学列为科学的“第四范式”(the fourth paradigm)(四个范式分别是经验、理论、计算,以及现在的数据驱动),并断言“由于信息技术的影响,科学的一切都在改变”(Hey et al.,2009)。所谓第四范式,即基于大数据技术的科学知识生产方式,将科学研究对象的范围拓展至各种终端设备实时采集的海量数据,再利用计算机进行集中管理和统计分析,进而挖掘事物内部的相关关系,形成了数据密集型科学研究。
1.2 地理大数据及类型
大数据时代的到来,使得学者们认识到了大数据对于地理学以及相关学科研究的机遇和挑战(Batty,2013;Goodchild,2013;Kitchin,2013;Miller and Goodchild,2015)。考虑到大数据这一概念的出现与传感网、移动互联网等信息技术的发展密切相关,通常把如下途径获取的数据归于大数据的范畴:直接的(如监控设备采集的视频影像)、自动的(如手机、公交卡获取的数据)、志愿的(如社交媒体数据)(Kitchin,2013)。其中第二、三类数据近年来在地理研究中受到了广泛关注,其共同特点是每条记录具有时空标记并且可以关联到个体,因而一个数据库中包含了大量个体的行为信息。目前,地理大数据一般特指这两类数据,主要包括手机数据、社交媒体数据、公交卡数据、出租车轨迹等。
1.2.1 基于位置的手机数据
移动通信设备可通过多种方式获取使用者的位置信息,如通过塔台基站(cellular tower)、内置的全球定位系统(global positioning system,GPS)模块(或者其他全球导航卫星系统模块,如北斗),或者二者结合(assisted global positioning system,AGPS)。定位方式不同,手机定位数据的完整性及精确度也有所差异,但绝大多数此类数据涵盖以下三类信息:①定位信息;②服务使用信息;③使用者的个人信息,但此类信息通常受隐私保护条例限制,或需要参考外部人口统计学数据库获得(Reades et al.,2007;Yuan and Raubal,2010;Dashdorj et al.,2013;Liu et al.,2013)。目前研究中采用的手机数据,主要包括以下三种定位技术,但分别具有不同的数据质量问题。
(1)基站定位。基站定位作为应用*广泛的手机定位技术之一,通常依靠移动设备所连接的基站塔台来确定设备的即时位置。此类定位数据的精度与基站的分布密度密切相关。在城市中心等繁华地区,定位精度可达200~500m;而在基站分布稀少的郊区,往往降低至5~10km(Yuan et al.,2012)。工业中也常采用三角定位(cell tower triangulation)和差分法(timing advance,TA)来提高基站定位精度(Calabrese et al.,2015)。但是,通过基站定位的手机数据也可能存在采样率的问题。如果使用基于事件触发的数据如呼叫详细记录(call detail records,CDR),系统只有在用户发出或接收到呼叫信号时才会记录相应塔台位置,所以采样精度与用户对手机的使用频率直接相关。图1-1展示了利用基站定位获取的个体轨迹。
(2)GPS定位。内置GPS模块的智能手机可提供更加精确的定位信息。而AGPS与传统GPS的主要差别在于,AGPS*先与基站内部的定位服务器进行连接,获取由服务器解析的GPS位置数据,可快速得到更加精确的定位信息(精度可达5~10m),且不需要依赖客户端的计算性能。这些位置信息也为手机应用研发者提供了极大的便利。
(3)其他定位技术。除基站定位和GPS定位外,其他相关移动通信技术(如无线局域网络定位、蓝牙定位等)也在手机定位中起到了重要作用。对于无线局域网络定位,移动设备可以通过连接的无线网络的互联网协议地址进行地理位置反解码。此外,蓝牙定位或惯性导航系统等新技术也为获取手机定位数据提供了全新的思路,如可以通过蓝牙连接来推断设备之间的相对位置。
图1-1 基于手机基站定位获取的个体轨迹
(a)利用基站位置近似用户位置,当用户通话通过某基站路由时,可以认为其真实位置在该基站对应的Voronoi多边形内,图中圆圈大小及数字表示了用户在该基站区域内出现的频率。(b)对一个用户,利用手机数据可以追踪较长时间(如1周)的轨迹,从而形成一个时空路径手机数据尽管空间定位精度较低,时间采样(尤其是对于通话记录数据而言)频率不高,并且缺乏具体的活动信息,但是其优势在于:①手机的市场渗透率较高,如根据工信部2019年发布的数据,到当年4月,全国手机用户总数达15.9亿户,即人均拥有手机号码超过一个。②基于手机定位数据获取的轨迹信息与特定个体相关联,因此可以得到较长时段内(如一年)海量个体的移动轨迹,从而研究个体移动模式。③手机话单数据同时记录了个体间的通信信息,从而可以支持个体间社交关系以及其与空间移动模式之间关系的研究。
1.2.2 社交媒体数据
Web 2.0以及移动互联网的发展,使得用户能够通过手机APP等各类在线社交媒体平台感知城市地理环境,随时随地分享观点、情感及知识。这些可以从社交媒体平台中挖掘出来的志愿地理信息数据往往含有空间位置信息、时间信息和情感语义信息等丰富的内容。早在2014年,全球*早提供位置签到应用的服务商Foursquare就已拥有约4500万注册用户、50亿条签到数据。随着传统的社交网络服务商如Facebook、Twitter、新浪微博、大众点评等加入位置分享服务之后,社交媒体数据(social media data,SMD)呈现出指数级增长的趋势。
社交媒体数据除了含有精确的用户签到位置信息之外,还包括了用户的活动信息,如餐馆、商场、机场等兴趣点(points of interest,POI)信息。虽然这些数据在样本量和数据代表性上相比移动手机数据有所欠缺,也存在个体轨迹采样频率较低等问题,但由于其丰富的语义信息,研究者可以通过文本挖掘、自然语言处理、图像识别等技术获取到个体层面的属性信息,如偏好、情感、动机、满意度以及社交网络等。社交媒体数据对城市热点区域和事件较为敏感,研究尺度多样,是对社会经济环境、特殊事件以及生活状态的有效记录,被广泛应用于区域结构分析(Liu et al.,2014)、城市规划与评估(Shen and Karimi,2016)、紧急事件响应(Earle et al.,2010;Vieweg et al.,2010;Crooks et al.,2013)等领域。图1-2展示了利用含有地理位置的Twitter数据进行地震应急响应监测的可行性(Earle et al.,2010)。左上角为USGS DYFI提供的地震强度图,其余五个面板展示的是通过实时监测Twitter文本数量在不同时间节点推测的地震强度的空间分布。
图1-2 利用Twitter数量监测地震强度(Earle et al.,2010)
1.2.3 出租车轨迹数据
为了获取城市交通的实时状况并进而支持城市交通管理和优化,有关部门往往通过内置全球定位系统设备记录出租车的运行轨迹。这些出租车扮演了浮动车(floating car)的角色,而海量的出租车轨迹数据也成为分析理解居民出行行为和城市功能结构的重要数据源。
出租车轨迹数据中的空间位置通过全球定位系统模块确定,这种方式具有空间定位精度高、采样间隔规则等特点(表1-1和图1-3)。但是,全球定位系统容易在遮挡环境下丢失定位信号,从而在出租车轨迹采集过程中造成不规则的采样间隔,甚至产生数据缺失。