本书分为三个部分。首先从宏观角度开始,涵盖了大数据分析架构。该部分首先从多种视角出发讨论地理空间方面的地球大数据。接着讨论了规模化数据带来的数据管理挑战,特别是在使数据可用于分析的背景下。这是通过一个讨论分析数据本身扩展的挑战的章节来描述的。后续章节涵盖了大型计划或项目,如 NASA 的地球交换项目,它在超级计算环境中实现了大规模数据分析,以及NOAA大数据项目,它通过几个云提供商使数据集可供最终用户使用。第一部分还包括关于架构和完全实现的系统的章节,如Data Cube、NEXUS和Apache Science Data Analytics Platform,以及一个探索和分析原位数据的基于NoSQL的平台。
本书的第二部分是地球大数据的分析方法,讨论了一些从大数据中提取信息和/或派生见解的特定技术,强调了地球观测的独特方面。第二部分以两章关于使用地理空间统计学进行分析的内容开头,接着是一章将机器学习与地球物理约束相结合的内容,最后一章是对时空分析的不同分析方法的基准测试。
本书的第三部分是地球大数据的应用,描述了一些特定的大数据分析技术和平台应用实例:天气和气候模型分析、大气河流模式、南极地表温度极值、卫星海洋学数据的原位匹配以及船只追踪。这显然只是现有应用中的一小部分示例;然而,这些示例展示了一些如何在地球科学中找到多样化应用的不同方法。
展开