第1章 生态大数据概述
本章导读
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中获取新知识、创造新价值、提升新能力的新一代信息技术和服务业态。随着人类命运共同体、可持续发展、生态安全等全球生态环境问题成为新时期人类社会发展面临的现实问题,生态文明建设成为中华民族永续发展的千年大计,这对大数据时代生态学研究提出了新的要求。综合应用云计算、物联网、人工智能、数值模拟等信息处理技术,已成为区域、国家乃至全球尺度生态环境监测、保护与治理现代化的重要手段。以天-空-地立体生态环境监测网络为基础,建立生态大数据管理中心,加强生态大数据综合应用和集成分析,打造智慧决策的“环境大脑”,为生态环境保护科学决策提供全面支撑。
1.1 生态大数据的概念
随着全球经济的快速发展和人类活动的不断加剧,生态环境问题日益严重。目前全球性生态环境问题主要表现在环境污染、土地退化、森林锐减、生物多样性丧失、水资源枯竭以及气候变暖等方面[1,2]。中国的生态环境问题突出表现在水土流失严重、湿地面积减少、水资源短缺加剧、生物多样性减少、草原退化和土地沙化尚未得到有效遏制等方面。此外,气候变化导致中国内陆冰川冻土加剧融化、局部沙漠化、海平面上升和海水倒灌、旱涝灾害增加、农业生产受损等[3]。这些问题往往涉及尺度大、过程复杂、驱动因素众多,需要面对海量的多源异构生态环境数据,给全球生态环境问题的监测、评估和应对带来了巨大的挑战。
大数据是继物联网和云计算之后信息技术产业又一次重要的技术变革,该技术对于处理超出传统数据库系统存储管理和分析处理能力的多源海量数据集群,具有很大的技术优势。近年来,大数据已经在农业、经济、气象、交通、医疗、通信等领域得到了有效应用。生态学领域也逐渐认识到了大数据的优势,并开展了全球气候变化预测、生态网络观测与模拟、环境污染防控、生态环境评估等研究[3]。2016年,环境保护部发布了《生态环境大数据建设总体方案》,该方案将生态环境大数据的构建作为推动生态文明建设的重要保障措施。在大数据时代,如何基于生态大数据实现生态学理论的发展和突破,服务于新时期生态文明建设等重大问题的解决,具有重要意义[4]。
目前关于大数据的定义并没有达成完全的统一,一般泛指用传统方法或工作所不能处理或分析的数据信息。参考前人研究[5-7],本书中的生态大数据是指运用大数据理念、技术和方法,解决生态环境领域数据的采集、存储、计算与应用等一系列问题,是大数据理论和技术在生态环境领域的具体应用和实践,是为生态环保决策问题提供服务的大数据集、大数据技术和大数据应用的总称。生态大数据包含了一般大数据的基本属性,同时比一般大数据表现得更为特殊,内容更为庞杂,服务需求更为专业化和多样化等。近年来,随着信息技术、网络技术和“3S”技术等相关技术的发展,生态大数据呈现出猛烈增长的势头,积累了几十年甚至上百年的数据,使得这些海量数据从存储管理到分析挖掘都面临着巨大的挑战。
1.2 生态大数据的特征
大数据是以“6V”为主要特征的数据集合,具体包括:海量规模(volume)、类型多样(variety)、高速率(velocity)、应用价值大(value)、真实性低(veracity)和易受攻击性(vulnerable)[8]。第一,数据量大。通过各种设备产生的海量数据,规模庞大,数据量从TB级别跃升到PB级别。第二,数据种类繁多。数据来源种类多样化,不仅包括传统结构化数据,还包括各种非结构化数据和半结构化数据,而且非结构化数据所占比例越来越高。第三,大数据的“快”,包括数据产生快和具备快速实时的数据处理能力两个层面。第一层面是数据产生得快。目前有的数据是爆发式产生,例如欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生PB级的数据,而有的数据是涓涓细流式产生。但是由于用户众多,短时间内产生的数据量依然非常庞大,例如点击流、日志、射频识别数据、GPS位置信息等。第二层面是对数据快速、实时处理的能力强。大数据技术通过发展不同于传统的快速处理的算法,对海量动态数据进行处理分析,将它们转换为可用的有价值数据。因此,大数据对实时处理有着较高的要求,数据的处理效率决定着获得信息的能力。第四,数据价值密度低、应用价值高。众多不同数据集组成大数据集,这些数据集价值密度的高低与数据集总量的大小成反比。在大数据应用中,数据量大的数据并不一定有很大的价值,不能被及时有效处理分析的数据也没有很大的应用价值。第五,真实性低。随着社交数据、企业内容、交易与应用数据等新数据源的兴起,我们能获得的数据源爆炸式增长,这使得获得的数据具有模糊性。真实性将促使人们利用数据融合和先进的数学方法进一步提升数据的质量,从而创造更高价值。例如社交网络中的视频、语音、日志等获得的原始数据真实性差,需要我们对其进行过滤和处理才能提取出有用的信息。第六,易受攻击性。大数据的安全主要包括大数据自身安全和大数据技术安全。大数据自身安全指在数据采集、存储、挖掘、分析和应用过程中的安全,在这些过程中由于外部网络攻击和人为操作不当造成数据信息泄露,外部攻击包括对静态数据和动态数据的数据传输攻击、数据内容攻击、数据管理和网络物理攻击。大数据技术在解决生态环境问题时形成了生态大数据独一无二的特征[9]。
1. 生态大数据具有天-空-地立体化观测的巨大数据量
从数据规模来看,生态大数据体量大,数据量已从TB级别跃升到PB级别。随着各类传感器、射频识别技术(radio frequency identification,RFID)、卫星遥感、雷达和视频感知等技术的发展,数据不仅来源于传统人工观测数据,还包括航空、航天和地面自动观测数据,它们一起产生了海量生态环境数据。目前全球范围内与生态环境相关的各种观测和实验数据已累计超过百万亿兆,且数据量还在快速增加[10]。例如,2011年世界气象中心就已经积累了229 TB数据,我国林业、交通、气象和环保等的数据量级也都达到了PB级别,而且还在以每年数百TB的速度增加。
2. 生态大数据的类型、来源和格式具有复杂多样性
从数据种类来看,生态大数据类型多,数据来源渠道广,结构复杂。首先,生态环境数据来自气象、水利、国土、环保、农业、林业、交通、社会经济等不同部门的各种数据。其次,大数据技术的发展使得生态环境领域的研究不再局限于传统结构化数据类型,使得各种半结构化和非结构化数据(文本、项目报告、照片、影像、声音、视频等)的应用与分析成为可能。例如一段历史电影视频中关于气候的描述、公众手机拍摄的关于植物类别的图片等。再次,来源于不同部门的同一种数据其格式多样,目前无统一的标准规范,使得难以整合不同部门之间的同类数据。
3. 生态大数据需要动态新数据和历史数据相结合处理
从数据处理速度来看,由于生态系统结构与功能的动态变化而引起的生态环境数据具有强烈的时空异质性,生态环境数据多表现为流式数据特征,实时连续观测尤为重要。只有实时处理分析这些动态新数据,并与已有历史数据结合起来分析,才能挖掘出有用信息,为解决有关生态环境问题提供科学决策。
4. 生态大数据具有很高的应用价值
从数据价值来看,生态大数据无疑具有巨大的潜在应用价值,利用大数据技术从海量数据中挖掘出*有用的信息,把低价值数据转换为高价值数据,*终,高价值大数据为解决各种生态环境问题提供科学依据,从而改善人类生存环境和提高人们生活质量。
5. 生态大数据具有很高的不确定性
从数据真实性来看,虽然应用于生态环境领域的各种传感器监测精度都很高,但正是因为这一点,仪器往往会顺带记录大量的周边环境数据,而我们感兴趣的数据可能会埋没在大量数据中。因此,为了确保数据的精准度,需要利用大数据技术从海量数据中去伪存真,获取真实数据。
6. 生态大数据面临严重的安全隐患
很多野外观测数据需要网络传输,这就加大了被网络攻击的风险,如果涉及一些军用的生态环境数据,就可能推测到我国军方的敏感信息,后果不堪设想。随着云计算技术的发展,数据在云端的存储存在严重的安全隐患。例如美国“棱镜门”事件,就是通过云计算和大数据技术收集大量数据,其中也涵盖了各国的生态环境数据等。
1.3 生态大数据的主要来源
21世纪以来,随着网络和信息技术的快速发展,生态观测技术有了长足的进步,已逐渐从人工采集生态数据的1.0时代、由仪器设备采集并长期存储数据的2.0时代逐渐过渡到今天结合“互联网”概念的实时传输云存储的3.0时代。同时,新技术和新方法如稳定同位素、核磁共振、生物标记物、高通量基因组测序、基因芯片、涡动相关、遥感等技术的发展,极大地提升了生态环境观测从微观到宏观尺度的数据获取能力。借助物联网、云计算、大数据和人工智能等新一代信息技术,融合卫星、无人机和地面观测的天-空-地一体化生态环境观测体系逐渐形成,实现了多尺度、多要素、多过程海量生态数据的集成获取,为生态大数据的多学科应用奠定了坚实的基础。
1.3.1 主要来源
生态大数据的来源主要包括地面观测、遥感影像、遥感监测指标产品、遥感监测业务产品、遥感监测综合服务产品以及基础背景资料6大类数据及产品(表1-1)[11]。
表1-1 生态大数据的主要来源分析
1.3.2 全球生态观测网络
一系列全球研究计划的兴起支撑和推动了大尺度生态环境研究的快速发展[10],如国际生物圈计划(International Biology Plans,IBP)催生了长期生态学研究网络(Long Term Ecosystem Research,LTER);与此同时,区域/全球尺度的联网观测与实验蓬勃发展,如亚洲通量观测系统(AsiaFlux)、欧洲集成碳观测系统(Integrated Carbon Observation System,ICOS)、欧洲物候网(PEP725)、泛美全球变化研究网络(Inter-American Institute for Global Change Research,IAI)和欧洲全球变化研究网络(European Network for Research in Climate Change,EN-RICH)以及全球通量观测研究网络(FLUXNET)、国际干旱实验网络(Drought Network)等。这些联网观测和实验的目的是探索大尺度的生态环境问题,其根本目标之一是揭示单个站点所无法回答的科学问题。近年来,基于物联网、自动观测、融合地面和遥感观测形成的美国国家生态观测网络(National Ecological Observatory Network,NEON)与澳大利亚生态观测研究网络(Terrestrial Ecosystem Research Network,TERN)成为新一代大陆尺度生态观测网络的代表,使用了大量生态观测传感器,涵盖多种观测指标。这些区域/全球尺度观测、实验网络的建立为生态大数据的不断增加提供了重要平台。
1.3.3 对地观测大数据
通过飞行器搭载的传感器对地球进行观测可以获得地球全面而系统的信息。随着空间信息技术的高速发展,对地观测步入了大数据时代[12]。遥感数据的产生,弥补了传统地面调查空间尺度有限的缺点,已逐渐成为生态大数据必不可少的来源。遥感平台按观测高度可分为低空遥感和高空遥感。低空遥感主要通过无人机完成,具有机动、灵活、高效的特点。高空遥感主要通过卫星与航空完成,具有观测范围大、时间序列长、数据获取成本低等优点。经过几十年的发展,不同卫星遥感的分辨率已从公里级(MODIS)进入米级(IKONOS/OrbView)、亚米级(QuickBird/WorldView/高分2号),且实现了不同波段的全覆盖。
展开