探讨了移动性数据的各个方面,从时空数据建模到数据聚合存储,再到数据分析,其中尤为关注对人类,甚至野生动物运动
的监测。
**篇 移动性数据建模与表达
第1章 移动轨迹及其表达
Stefano Spaccapietra、Christine Parent和Laura Spinsanti
1.1引言
长期以来,各类应用都在使用其关注目标的位置数据。例如,在城市规划中的交通和运输管理领域,一直都通过观察和监控交通流量来捕获其特征(即重要性和本地化),以期建立更好的交通调控模型,找到针对现有道路网络的未来发展方案。社会学家也一直在研究配备GPS车辆的运动信息,不过其关注的不是交通流量,而是个别车辆,目的是了解司机的驾驶习惯。在物流领域,企业通过监控货物从源位置到目的地期间的位置信息,既可实现对货物的实时定位,又可实现货物运输和配送策略的优化。同样地,跟踪飞机乘客及其行李,也可以实现类似的管理功能。生态学家通过卫星和信号发射器实时观察动物,以掌握动物的个体和群体行为。目前许多企业都期望从人们使用智能手机、电子书写板等设备时记录的跟踪信息,或者使用诸如Flicker和Foursquare等社交网络软件时记录的用户地理位置信息,来寻找其潜在的客户。
传统的移动数据获取通常采用静态设备,例如,用于交通流量测量和动物观察的各种传感器。随着嵌入式定位装置(如GPS)的普及,移动性数据采集设备发生了巨大的变化。例如,现在的交通数据可以通过行驶中车辆配备的GPS发送的定位信号的序列数据来获取。
这些序列数据可能非常长,远超实际应用使用的理想处理单元。通常处理单元只是物体移动的某些数据段,而非全部。例如,对于动物研究,数据段只包括白天时段;对于企业员工,其数据段只包括工作时间,通常是上午8点到下午6点;对于自然公园的徒步旅行者,其数据段包括从一个营地到另外一个营地的时间。这些移动的数据段现在称为“轨迹”。轨迹是应用程序处理移动数据时真正感兴趣的数据单元,这是本章研究的重点。
移动本质上是连续的,但是通常不能在计算机中实现连续的表达,因为计算机对于数据的存储都采用离散的方式。移动轨迹包括离散的空间位置和时间信息(由设备采集或人为输入)的序列。移动轨迹与应用程序无关,其精确的格式和内容依赖于具体的采集设备。移动轨迹经过分析和变换生成具体应用所需要的表达形式。不同的应用需要不同轨迹表达形式(包括结构和内容),本章定义了我们认为*为重要和常用的三种表达形式:连续、离散、分段。
然而,轨迹并不是表达移动的唯一方式。有的应用需要以全局的视角,对移
动的表达方式进行设计,这需要对个体的移动数据进行聚合。例如,移动可以表达为给定连续场空间中的一个矢量场。矢量通过对个体的移动数据聚合可以表达指定时刻的空间中每个位置的移动特征(通常为速度和方向)。类似地,对于一些期望全局地分析移动对象在离散点集(城市中知名地点等)中运动的应用,需要将个体的移动轨迹聚合成节点之间的边。这些节点和边构成流向网络,第15章中的网络系统(如基于人类移动性的社交网络)将对其进行介绍。将移动轨迹聚合到连续场空间的各种表达方式将在第8章详细介绍。本章只针对移动轨迹进行分析。
此外,移动性数据本质上具有不准确性。主要是因为数据感知和数据传输设备具有不精确性,或者人工处理的误差,以及定位数据录入时产生的错误等。本章不解决这些问题,第5章将讨论不确定性问题及具体的处理方法。
移动数据的使用者很少了解位置的地理坐标表示,通常“我在埃菲尔铁塔”比“我在北纬48°51' 29'',东经2°17'40''”更容易被理解。为了更加容易和多样化地使用移动数据,*近研究的重点是移动数据的重定义和多样化的方法,以期更好地满足应用需求和应用场景。具体的实现方法是为移动性数据增加场景数据。场景数据用于描述目标移动的位置(如走过的道路、停靠的地点等)、时间(如哪个时段、哪个事件发生期间等)、方式(如使用的交通方式等)、目的(如停下后从事的活动等)。目前这种多样化的移动轨迹被定义为“语义轨迹”。本书的第6、7章将介绍语义轨迹的构建和使用方法。
本章*先向读者介绍轨迹领域内容的概览,涵盖原始数据的采集、数据传输、语义丰富,以及为满足应用需求的数据分析。本章内容涵盖了轨迹域的静态表达(轨迹是什么、如何进行表达)和行为表达(如何从“移动的原因”“移动时做了哪些事情”“哪些是有意义的移动序列”等方面,对移动性进行理解和特征刻画)。针对应用的多样性需求,使用了多种轨迹表达方式。基本概念和术语则使用具体的例子进行定义、解释和证明。
1.2轨迹:定义和应用场景
移动性的研究是一个新兴的领域,人们使用各种术语和概念对其进行描述,但目前并没有一致性的定义。为了避免混淆和误解,本节定义了一系列概念和词汇,建立一个统一的框架,以便对本书中有关轨迹及分析的理解。
移动数据处理的起点是移动对象,其空间位置(空间坐标)随着时间变化而改变。本书不考虑移动对象的变形问题(如飓风和石油泄漏,其面积和体积会发生改变),只考虑点状的移动对象。对移动对象的移动数据的记录包括连续的历史位置,也就是记录对象的过去、现在甚至是将来的位置,以及关联的时间。本节不讨论将来的位置信息,并将这样的移动记录称为移动踪迹。此外,记录的序列可以无限长,且两个连续位置信息之间的时间间隔也不一定是等间隔的。
定义1.1运动踪迹,一个移动对象的运动踪迹是时空位置信息的时间序列,时空位置信息由定位设备在移动对象的生命周期内产生。每条记录(时间、位置、特征)包含产生的时间、对象的二维或三维位置及设备可能捕获的其他特征(如瞬时速度、加速度、方向及角度等)。这里,同一时刻不能产生两条记录。
在对轨迹是什么及如何将轨迹转换为对特定应用有用的信息等这些具体的细节进行分析之前,先介绍一个应用场景实例——巴黎旅游者的移动轨迹。
1.2.1游客应用场景
旅游业是许多国家、地区和城市财政收入的重要来源。旅游宣传推广是一个非常重要的商业活动。获取游客的习惯、偏好以及可能吸引大量旅游者的当地特色,可以大大提高旅游宣传推广的效果。这些信息可以通过对游客现场活动的分析来获取。现场活动信息可以通过其配备GPS的智能手机及接入的社交网络平台进行收集。
从推广者的角度来看,游客的目的地是一个可以使其参观更多景点(如博物馆、公园、古迹等景点),并享受更多服务设施(如餐馆、酒店、商店及旅游公司等)的地理区域。而这些景点和服务设施,从游客的角度统称为兴趣点(points of interest, POI)。游客的日程就是从一个POI移动到另一个POI,并在每个到访的POI停留一段时间,以便于吃饭、休息、购物、参观、睡觉、观看表演或与他人会面等,如图1.1所示。
图1.1中的方向线给出了一位游客在巴黎一天的游览轨迹的空间路线。通常,应用只使用基于背景地图的移动空间表达。这种形式非常直观,但提供的时间信息非常少。时间信息只能通过事实隐含表达,即构成方向线的序列点是按照时间的先后顺序进行组合的。换句话说,沿着这条线走得越远(从它的起点到终点)对应的时间越晚。在图1.2中,轨迹的一些片段被立体化(x, y, t)展示。其中,轨迹使用图中上方的粗线表示,其在(x, y)平面上的投影显示出空间路线。时间不会停止,没有两个位置点有相同的时间值,因此三维粗线将会沿时间轴一直向前延伸。当一个移动对象停止时,它在(x, y)平面上的位置不发生变化。在立体化(x, y, t)中,一个对象的停止将产生一个垂直的线段,线段的长度对应于停止的时间。图1.2中的三条垂直线段对应三个停留点——协和广场、卢浮宫、巴比伦咖啡馆。
图1.1游客在巴黎一天参观多个旅游景点的行程(本书插图系原文插图,下同)
图1.2图1.1中旅客一天中部分路线的立体化
通过收集游客日常行程信息可以实现知识的抽取:游客*喜欢的景点、景点游览的顺序、在每个景点花费的时间等。这些知识可用于调整配套设施以更好地满足游客需求,控制游客流量以避免较长时间的排队等候。