第1章
大数据时代的古生物学与地层学
1.1大数据的发展
随着计算机技术的飞速发展以及互联网中数据量的急剧增长,大数据(Wgdata)—词越来越多被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。“大数据”*早只是用来表述互联网行业的一种现象,即互联网公司在日常运营中生成、累积的用户网络行为数据。然而,生活在当今时代,每个人都能觉察到,随着数据采集设备的激增,数据获取成本越发降低,数据获取渠道越发多样,数据数量的递增越发快速,数据规模也显著增加,这些数据的规模到底多大?
如今,全球的数据量早已从太字节(TB)级别跃升到拍字节(PB)、艾字节(EB)乃至泽字节(ZB)级别。根据国际数据公司(International Data Corporation)2017年发布的调查报告内容,2008年,全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量为1.82ZB,2020年全球产生的数据量大约是64ZB,相当于全球每人产生超过7TB的数据。这还不包括书刊、报纸等印刷品文件上的数据内容,预计到2025年底,全世界将产生175ZB的数据(Reinsel et al.,2017),人类生产的所有印刷材料的数据量大约是200PB,全人类历史上说过的所有话的数据量大约是5EB。整个人类文明所获得的全部数据中,有90%是过去两年内产生的。数据正在以指数级方式增长,即每隔不到两年时间,数据量就翻倍。
信息学领域中所使用数据单位参见表1.1,需要注意的是,计算机的计数与日常生活中的计数是不同的,对字节的记数参照了日常生活中普遍接受的十进制表示法。计算机运算时采用的是二进制,相应地,用1024这个数字来定义二进制的“千”,因为它是2的10次方,也恰好是2的乘方倍数中*接近十进制1000的数。有人专门参照十进制的定义,对计算机领域的计数提出了相应的二进制单位(binaryprefix),并采用一套专门的结尾都带有“r”的单位来与十进制单位进行区分(表1.1)。
数据科学和数字存储发展至今,已经用到国际单位制现有*大计数单位,有必要引入新的数据单位名词,以满足今后一段时间内新增的计数需求。2022年11月15~18日,第27届国际计量大会(General Conference on Weights and Measures)在法国凡尔赛召开,扩展了国际单位制的词头范围,国际单位制增加了ronna和quetta,它们分别表示1027和103。,也相应地增加了它们的倒数ronto和quecto,分别表示10-27和。这是1991年以来,国际单位制*次新增内容。
大数据已成为全球热门研究领域。相较于网络起步初期的文字、数字类结构化数据,网络日志、图片、音频等非结构化数据也随着社交网络平台的出现快速积累。在这个充满数字化数据的世界,如何存储、处理和分析这些数据,从大数据中获取其隐藏的巨大价值,为社会各领域带来新的机遇,便成为各国竞争的研究课题。
2012年3月,美国宣布了大数据研究与发展计划,旨在利用大数据提取知识和见解,以加速科学和工程领域的发现,改变教育现状。为改善用于评估、组织和总结大量数字化数据的工具和技术,美国各联邦部门投入了大量资金,同时联合了工业、科研院校和非营利组织的力量一起攻克难关。同年,联合国也发布了《大数据促发展:挑战与机遇》白皮书,明确提出大数据时代已然到来,对于这一历史性的机遇,政府应考虑利用大数据来响应社会需求。日本政府在2012年发布了《创建*尖端IT国家宣言》,全面阐述了以发展开放公共数据和大数据为核心的国家战略,强调了大数据对于提升国力具有不可或缺的作用。早在2011年,我国工业和信息化部发布了物联网的“十二五”规划,其中提及了对海量数据运用信息处理技术的创新工程。2015年10月,我国提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,旨在全面推进大数据发展,抓住大数据产业发展机遇,提升政府治理能力、民生公共服务质量,促进经济转型和创新发展。大数据已然成为国家的核心资产,引发了各国对大数据领域技术的积极创新和战略规划。
近年来,各领域对大数据的存储、处理和分析进行了不断探索。同时,算法的不断革新进一步促进了数据驱动的新发现,帮助各领域解决更多复杂问题。在Google公司的探索下,分布式处理大数据的程序框架Hadoop被开发,网页和文档数据可以被快速访问,这大大提高了大数据的处理效率。而大数据的价值,需要从大数据分析结果中提取。传统分析数据的方法多采用统计学方法,如因子分析、聚类分析、相关性分析、回归分析、统计分析等。事实上,大数据分析技术中也会采用统计学方法,只是大数据的理论分析核心是数据挖掘算法,较为**的数据挖掘算法有神经网络法、决策树法、遗传算法、粗糙集法、模糊集法和关联法则法等。一些**算法又被进一步开发和革新,如在20世纪80年代*具代表的是人工神经网络,到20世纪80~90年代开始出现卷积神经网络。至21世纪后,随着深度学习理论和计算机性能的提升,卷积神经网络技术得到快速发展。卷积神经网络迅速被应用到商业、医学和科研中,进一步挖掘了大数据的隐藏价值。例如,1998年成立的京东公司,已经在利用卷积神经网络技术对海量图片数据进行识别和个性化商品描述,然后再基于算法开展智能推送。对于企业来说,大数据的价值更体现在对商业决策的支持和指导上,企业通过对大数据的分析来对市场进行评估和行为的预测。一些从大数据中挖掘的价值被快速变为实际的盈利模式,帮助用户解决复杂问题(黄颖,2014;吴军,2016)。例如,2011年成立的SumAll公司可以为客户提供数据服务、实时数据分析和可视化,为客户提供挖掘税收、发货和出售量的服务。2012年成立的NGDATA公司提供企业与消费者实现互动的数据解决方案。
大量的实例证明,大数据应用的普及给各行业带来革新。例如,在医疗方面,人们利用大数据分析如何降低感染率和再入院率,以找到减少医疗卫生领域开销的解决方案。传媒行业中,由于大数据分析的介入,为用户个性化推送感兴趣的新闻的媒体对传统新闻媒体的地位发起挑战,改变了企业的传统交流方式,甚至改变了行业标准。航空公司通过人工智能分析卫星传递的实时数据,远程诊断雷击对飞行中的飞机的损坏程度,帮助航空公司决定飞机是否因需要维修而返航,以节约飞行成本(Friedman,2005)。至于商业方面,大型百货公司会通过大数据分析了解客户动态和购买偏好,向用户定向发放商品**广告和优惠券,以提高销量;电子商务公司亚马逊利用大数据挖掘技术,分析用户购买行为,进行商品**和商品组合捆绑销售,提高销量。
大数据分析带来的变革极大地提高了各领域的行业发展和创新速度,因此,科学家们也很期待大数据对科研领域的革新。Guo(2017)认为,大数据在科学研究方面具有巨大潜能,它将为科学研究引入更多的新方法,提供全新研究角度,激发创新科学发现。
庞大的数据集可以支持对与重要的科学问题有关的现有理论的调整和验证,从而产生新的发现。大量的数据集本身能够提供无穷无尽的新知识来源,而不需要为科学现象建模。这种数据驱动的科学发现就是所谓的“第四范式科学研究”,是数据密集型科学发现。
如今,大数据已应用在粒子物理学、地球科学、生态学等领域的前沿研究中。例如,在粒子物理学领域,欧洲核子研究中心的科学家们在寻找希格斯粒子的过程中,分析了800万亿个粒子碰撞的记录(Guo,2017)。在地球科学领域,随着地球系统观测数据的日渐增加,结合快速提升的计算能力,机器学习方法越来越多地被用来提取其中的模式和内涵信息。例如,机器学习方法被用于分类和异常检测(寻找极端天气模式、土地使用和变化检测)、回归分析(根据大气条件预测通量和植被特性)和状态预测(降水临近预报、季节性预报)。标志性成果是通过高分辨率卫星数据和神经网络成功进行了土地覆盖和云层的分类(Reichstein et al.,2019)。在生态学领域,贝叶斯统计方法的进步为生态学家提供了解决生态多样性和准确性的方法,这些方法可以处理生态演变的动态过程,观测生态变化过程中的不确定性,并对其中的复杂性开展立体式分析(Farley et al.,2018;Clark,2005)。
大数据并不是一个确切的概念。大数据*初是指需要处理的信息量过大,已经超出了一般电脑的处理能力。由于数据量庞大,工程师们必须要改进处理数据的工具,进而促进了各种新技术、平台与算法等的诞生。这些新技术、平台与算法使人们可以处理的数据量大大增加。随之而引起的变革是,人们发现很多事物在小规模数据的基础上无法完成,而在大规模数据的基础上才得以实现。大数据改变了人们认识世界的方式,是人们获得新知、创造新价值的源泉,大数据创造了时代变革,改变了社会组织机构、生产以及生活,也显著改变了人类社会对自然的认知,改变了科学研究的方式和认知规律。
1.2科研范式变革
*早关于科研范式的概念来自于科学史家、科学哲学家托马斯 库恩(Thomas S.Kuhn,1922~1996年)于1962年出版的《科学革命的结构》(库恩等,1980)。该著作自出版以来就在学术界甚至社会公众领域引起了热烈讨论,被奉为科学史研究领域的**著作,甚至引发了科学哲学界的认识革命。这部著作创造了很多耳熟能详的术语,如科学革命、结构、常规科学、范式、范式转换、反常等。其中,范式和范式转换在科学界有很多沿用。其实,对于科学范式,并没有非常明确的定义,学术界普遍所接受的看法是,科学范式是指科学共同体所共同接受的理论体系,是一个约束我们思维、视野、概念与方向的框架,也是一种思潮与流行基调。而科学研究范式指的是科学研究工作有序运转所依赖或普遍采用的一套规则体系,包括建制环境、研究路径、评价体系、研究方法、研究工具、技术路线与研究模式等。随着人类社会的变革,科学研究的路径、评价体系与方法等一直在发生变化,这些变化往往随着经济与社会的变革而发生显著的改变,这就是科学研究的范式变革。
科研范式变革的发生往往是潜移默化的,具体的时间界限并不容易区分。研究路径与研究模式的改变是*常见的科学研究范式变革。第二次世界大战以后,科学的存在形态经历并完成了从小科学向大科学的转变,科学研究的路径与模式也发生了根本性变化。在小科学时代,科学研究奉行个人英雄主义,并由此成就了无数科学传奇,如爱因斯坦、居里夫人等,他们凭借个人努力,取得了举世瞩目的科学成就,成为科学历史上耳熟能详的传奇。而到了大科学时代,要想取得重大科学成就,远非一己之力所能完成,如美国曼哈顿工程、阿波罗登月计划、引力波探测、中国神舟飞船等,这些耗资巨大的科学项目,都是由庞大的科研团队,通过复杂的现代管理技术,经过有机整合与广泛合作才能完成的,任何单*的个人都是无力完成或实现的。研究模式和研究团队方面发生的变化会进一步导致一系列相关变化,如科学问题的探索模式和认知方式等,这种转变就是一种典型的研究范式变革。
目前对于科学研究范式变革还有一种非常流行的说法,是来自科学史的简要归纳,大致按照时间顺序总结出四种科学研究范式(图1.1)。
**范式:以观察与实验作为主要的研究方式,以观察、描述并记录自然现象,开展实验为主,在方法上以基于实验或经验的归纳为主,是经验主义的科学研究方式,也是*古老的科学研究方式。
图1.1四种科学研究范式内涵概要简图
第二范式:强调理论与模型,在观察自然现象的基础上进行抽象简化,使用模型或归纳总结理论开展科学研究。这种强调理论与模型的研究范式有多个**案例,如相对论、牛顿定律等。
第三范式:强调通过计算与模拟开展科学研究,主要对复杂的现象开展尽可能接近真实的计算与模拟,相关的典型案例包括天气预报、模拟核试验、流体力学分析模拟等。
第
展开