第1章绪论
随着我国推进“一带一路”空间信息走廊建设,以及加强“军民资源共享和协同创新”政策的提出,综合利用卫星和航拍影像、地面跨时空视频、网络数据和地理信息等多源观测数据,以多领域紧密协同合作的形式,提升我国公共安全事件响应与处理能力已成为国家重大需求。
公共安全管理引入大数据,*早可追溯到 1996 年,当时美国构建了交通事故在线分析系统,通过大数据分析快速掌握交通状态并进行交通预警。时至今日,大数据已成为公共安全领域实现科学管理的重要支撑,大到反恐维稳、国家安全预警,小到嫌犯抓捕、日常出行,数据信息不断发展、技术不断探索,应用大数据挖掘分析技术能逐步提升公共安全管理水平。
公共安全大数据平台是云计算、大数据、物联网等信息技术融合发展的高级形态,具有全面透彻的感知、宽带泛在的互联、智能融合的应用等特征。针对公共安全大数据威胁分析需求,国内外相关的软件公司、研究组织和机构纷纷推出自己的解决方案。如Palantir 公司推出Palantir Gotham 平台,主要用于国防安全领域,在美国政府追捕本 拉登行动中起到了至关重要的情报分析作用。国际标准化组织(International Organization for Standardization,ISO)、国际电工委员会(International Electrotechnical Commission,IEC)、国际电信联盟(International Telecommunication Union,ITU)等,也正在制订参考标准和规范,支持大数据一体化、业务智能感知和互操作。国内某些公司也基于云计算和大数据技术推出了自己的数据一体化解决方案。国外大学如斯坦福大学、伊利诺伊州立大学、日本大阪大学,以及国内的香港中文大学、清华大学、复旦大学、西安交通大学、南京大学等成立了专门的大数据技术研究机构,以支持利用云计算和大数据等技术来解决公共安全、政务等领域的问题。
然而,大数据在公共安全领域要实现高效、可信的预测预警任重道远。由于事物本身的复杂性、不确定性及认知模型的限制,大数据分析出错的事例屡见不鲜。美国禁飞系统在2003~2006年超过5000次将无辜者识别为恐怖分子。我国通过金盾工程、公安大数据分析、高分公安遥感应用各自取得了显著的成果,但总体上还处于探索阶段,真正发挥大数据强大功能的实际应用案例并不多。智能感知和理解系统是实现人与公共安全平台互联的中介面,在公共安全体系中具有重要的作用。但由于公共安全相关业务系统还是以业务分割的形式进行建设,涉及公安、边防、网安等多个业务层面,条块分割严重,系统间数据难以共享,形成了事实上相互孤立的信息孤岛群。遥感影像和视频数据的关注目标检测、跟踪、识别和行为分析的方法存在多源异构数据理解浅、数据关联弱和利用率低的问题,往往导致无法获得令人满意的结果。生态缺失、业务系统建设缓慢,也限制了公共安全领域应用进一步朝向智能化发展。
公共安全预警需要综合利用卫星和航拍影像、地面跨时空视频、网络数据和地理信息等多源异构大数据,这些数据具有来源众多、规模庞大、类型多样、维度复杂、随机性强、数据量大等特点。由于数据分布在不同的在线系统,又具有精度差异大、实时性高、完整性差等特点,考虑数据本身的抽象性、非直观性和多维度关联的复杂性和时变性等问题,无法直接支撑面向公共安全应用的判断、推断和预测。在数据汇聚管理方面,面临的主要挑战有:①如何准确获取隐藏在多源分布式数据库中的有价值数据;②数据结构松散、关联关系缺失等条件下信息自动提取;③数据分散于众多既有在线系统,难以实现跨系统数据的高效协同管理和集约服务;④不同领域跨系统数据还存在跨不同安全等级网络交互的管理问题,数据安全和高协同性能面临挑战。
因此,本书主要面向公共安全应用的“数据孤岛”问题,结合公共安全事件主题,探讨解决数据规模大、类型多、维度丰富带来的数据自主组织问题,数据结构松散、关联关系不完整带来的关联融合问题,以及分散数据跨多个在线系统、跨不同安全等级网络带来的协同管理和集约服务问题。
第2章公共安全事件处置所需数据
天空地海量多源异构数据汇聚与协同是整个项目研究的基础,需要综合利用卫星和航拍影像、地面视频、网络数据、电磁信息、地理信息、业务信息等多源观测数据,建立公共安全事件处置需要的天空地海量多源异构大数据体系,并建立天空地海量多源异构数据汇聚管理平台,为整个项目提供数据支撑。
本章主要围绕公共安全事件智能感知与理解需要,针对天空地多源公共安全事件处置所需的数据内容、特点、所处系统及网络等进行分析研究,根据研究结果将这些数据分为卫星遥感数据、航拍遥感数据及地网视频数据三大类,并开展天空地、军警民多源异构在线数据的特点分析和研究,为后续数据汇聚、处理、平台建设等相关研究的开展提供支撑。图2.1所示为公共安全事件处置所需数据。
2.1 数据内容
2.1.1卫星遥感数据
卫星遥感数据包括空间编目数据和产品实体数据。空间编目数据包括编目浏览图、编目拇指图和编目元数据文件,一般用于数据信息的发布与更新;产品实体数据包括产品图像、产品浏览图、产品拇指图和产品元数据文件。这些数据主要按照基于时空记录体系的标准景方式进行组织,采用基于文件和数据库的混合存储管理方式,通过提取元数据的属性值建立关系型数据库来关联文件系统。其中,图像属于非结构化数据,元数据属于结构化数据。
卫星遥感数据一般向用户提供2级产品,即系统级几何校正产品。数据产品的组织方式是若干以景为单位组织的目录,每一景目录中又包含对应的图像产品、浏览图、拇指图、元数据文件。
(1)图像产品是遥感卫星非压缩(或无损压缩)的产品图像数据,可以是单个波段,也可以是多个波段。一般以GeoTIFF的形式存储,GeoTIFF数据中包含数据基本的属性参数:数据接收空间范围(四角经纬度)、数据空间分辨率、数据投影方式等信息。视频图像一般以avi格式存储,是多帧时间序列图像经过位置对准后的叠加。标准景数据量根据载荷和产品类型的不同,从几百兆字节到几十吉字节不等,数据量较大时,也会根据用户需求提供img格式数据。随着景数的增加,数据量也会急剧增加。
(2)浏览图和拇指图也称快视图,是为了快速浏览遥感影像数据,对图像产品进行重采样并压缩处理的图像数据,一般以jpeg 格式存储。该类型数据可用于快速展示与信息发布。jpeg数据的采样比例主要根据相关协议确定,快视数据的波段组合根据相关标准实现。
(3)元数据文件是描述图像产品的文件,以xml 文件形式存储。相比而言,浏览图和拇指图及元数据文件数据量较小。
2.1.2航拍遥感数据
航拍遥感数据主要通过无人机飞行获取,包括可见光、红外、合成孔径雷达(SAR) 类型的航空遥感影像数据,可见光、红外类型的视频数据及目标航迹、飞行航迹、文字报文等遥测数据。
无人机飞行过程中获取的所有航空遥感影像数据都通过相机的安全数码(secure digital,SD)卡进行存储,不进行网络传输处理,飞行任务完成后需从SD卡导出数据进行整理,并根据需要处理成数字正射影像图(digital orthophoto map,DOM)、数字表面模型(digital surface model,DSM)、数字高程模型(digital elevation model,DEM)(殷年,2006),格式为GeoTIFF。无人机获取的视频数据在飞行中可以实时传输至服务器端,服务器端对视频数据进行视频压缩、编目和分发处理,视频格式为H.264 。飞行中的遥测数据都通过航空数据链进行实时传输,传输至服务器后进行航迹加载、经纬高提取等数据处理操作,遥测数据多为格式化报文。
2.1.3地网视频数据
地网视频数据主要包括地面视频数据、网络信息数据、地理信息数据和业务信息数据。
1.地面视频数据
地面视频数据主要为视频监控数据,包括人员、车辆等通行、核验等数据。
卡口车辆身份、通行数据是电子警察与部分专用车辆管控卡口对违法违规车辆进行监控拍照及车辆通行监控拍照获得的监控视频。对上述数据二次处理后,能够获得车辆的类型、驾乘人员的信息。
闸机行人身份核验数据是对闸机过往行人进行身份核验检查时获得的视频数据。
重点场所人脸数据是对地铁、网吧、车站等重点场所监控所获得的人脸识别视频。
社会面监控、治安卡口、车辆卡口和治安检查站视频监控数据来自行业部门信息网的信息系统,其所处网络的安全等级为中等,数据类型包括离线视频监测数据和在线视频流监控数据,离线视频监控数据格式包括avi、mp4、rm、wmv、rmvb等,在线视频流监测数据符合《公共安全视频监控联网系统信息传输、交换、控制技术要求》(GB/T28181—2016)中相关压缩编解码协议和视频流获取协议,主要为H.264格式。
2.网络信息数据
网络信息数据包括文本、视频、语音、图片等。数据包括txt、html、swf、json、mp4、wmv、gif、xml等结构化、半结构化及非结构化的海量数据。由于网络上存在各种各样的设备、协议和服务,网络连接方式多种多样,这就必然会导致网络信息数据的内容和格式是千差万别的,需要按照相关协议标准对网络数据进行采集和处理。标准协议的数据格式主要有简单网络管理协议(simple network management protocol,SNMP)、Telnet 协议、安全外壳(secure shell,SSH)协议等。网络数据可以通过网络爬虫、网站公开应用程序接口(application program interface,API)、导入等方式从不同网络或系统中获取,其中获取的非结构化数据、半结构化数据都需要以结构化的方式存储为统一的本地数据文件。对网络流量的采集则可使用深度包检测(deep packet inspection,DPI)或深度/动态流检测(deep/dynamic flow inspection,DFI)等带宽管理技术进行处理。
数据量大小按照互联网日志实时收集和实时计算,一天总流量:每个页面20kB×100万个页面/1024≈19531MB≈19GB。 目前网络信息数据在公开网络系统、互联网上,安全等级较低,需要布设安全防范和防入侵策略。
3.地理信息数据
地理信息数据包括基础支撑数据和城市交通数据。其中基础支撑数据包括全国5m、关注区域0.8m分辨率影像数据和全国30mDEM高程数据,数据格式为GeoTIFF或img;城市交通数据来自行业部门信息网的警用地理信息系统(police geographic information system,PGIS),包括监控视频、交通控制信号、交通事故接处警、警车全球定位系统(global positioning system,GPS)定位、交通违章检测、警力分布、交通标志、停车场位置、路况监控、交通路径等数据,数据格式为shp。
PGIS数据文件格式按照Shapefile 文件方式存储地理信息系统(geographic information system,GIS)数据,至少由shp、dbf、shx三个文件组成,分别存储空间、属性和前两者的关系。相关的执行标准有《城市警用地理信息分类与代码》(GA/T491—2004)、《城市警用地理信息图形符号》(GA/T492—2004)、《城市警用地理信息系统建设规范》(GA/T493—2004)、《城市警用地理信息属性数据结构》(GA/T529—2005)。
PGIS 数据量估计:主要针对地图应用获取坐标数据,每条坐标数据大概0.5KB,具体的坐标数据量根据实际应用计算。
PGIS数据一般存储于部、省、市三级公安系统的公共安全信息网
展开