概论篇
第1章面向领域知识发现的学科信息学发展与展望
数据密集型科学新范式时代,科学创新呈现出“大数据”加“大计算”促进“大发现”的科学发展新趋势,学科信息学(Subject Informatics)在数据密集型科学新范式时代应运而生、迅猛发展。学科信息学是一门基于学科领域大数据体系分析而开展学科领域知识发现的科学创新的前沿交叉性学科,对其理论方法体系的构建完善与知识发现应用研究是发展和促进学科领域知识发现的学科要务。
本章旨在对学科信息学的内涵、领域知识发现全流程、数据驱动的领域知识新规律和新特点进行系统归纳和梳理。首先,在介绍大数据概念的兴起与发展演进的基础上,阐述面向学科领域大数据分析与知识发现的学科信息学的发展,分析学科信息学的研究背景、概念内涵、研究对象、研究方法与研究目标;其次,阐述基于学科大数据的学科领域知识发现全流程,解读专门学科数据库、关键技术与方法等;最后,对近年来普遍性和工具性学科信息学以及典型专门领域学科信息学的新发展进行梳理,并对其应用前景进行再展望,以洞察学科信息学在领域知识发现与科技创新中的重要作用和未来发展趋势。
1.1引言
大数据学科的产生和发展已经成为21世纪的鲜明时代特征,科技领域更是进入基于大数据知识发现的新时代。21世纪大数据时代的到来已经催生和正在不断催生着科技发展和经济社会进步的新纪元。就科学发展而言,20世纪末科学界提出e-Science概念,预示着信息技术必然在21世纪的科技合作和跨学科研究中扮演重要角色。无疑,e-Science的产生与发展,是伴生于数字信息技术的快速迭代发展和颠覆性应用,这为数据密集型科学研究新范式的兴起和确立提供了坚实的技术支撑发展环境条件,以及科学研究必须的不断膨胀的数据分析对象。进入21世纪后,随着数字信息技术的突破性发展和在众多科技领域的深度广泛地应用,众多科技领域发展的一个鲜明特征是大数据化——科技数据成爆发式增长。科技领域发展的大数据化,导致科技创新的研究模式发生深度变革,科学研究的“数据密集型”范式或者“数据驱动型”范式日益确立。各学科领域在数字信息技术的引领和支撑下,不断建成新型的大科学装置、专门数据库、数据分析平台等,进一步催生学科领域多源异构数据的高速产生并累积,导致对科技领域大数据体系的科学数据知识管理和知识分析成为重要趋势并产生战略需求,全面催生科学研究领域科研模式的数字化知识发现重大变革。科技发展全面进入大数据分析催生科学创新发现的新时代。
科学数据分析和知识发现需要大力发展聚焦学科大数据分析与知识发现的学科信息学。20多年来,科技专业领域的专门学科信息学快速发展,不仅生物医学信息学、化学信息学等提出较早的典型代表性学科信息学快速发展,一系列新兴专门领域学科信息学还在不断被提出和发展,全面助力各学科领域的科研创新和知识发现。进一步地,学术界陆续明确提出文献信息学、网络信息学、专利信息学、政策信息学、奖项信息学、传播信息学等具有代表意义的普遍性和工具性学科信息学,成为支撑专门领域学科信息学和学科领域科技创新研究及知识发现的基础性学科和一般方法论工具。一方面,各个学科领域都有其数据全生命周期管理、数据分析与知识发现的学科依赖性,以及与学科依赖性相关的学科信息学研究方向,故学科信息学的家族逐渐演化为一个不断增加的庞大学科体系。另一方面,在学科领域大数据体系迅猛发展、学科领域数据信息分析与知识发现需求不断增长等背景下,学科领域的大数据分析与知识发现研究工作需要不断规范化、学术化、学科化和科学化,亟待以学科信息学的理论方法来建构有关学科领域的大数据分析和知识发现研究的学科概念、理念方法等框架体系。基于此,张志强和范少萍(2015)提出“学科信息学”(Subject Informatics)这一全新概念,并系统梳理了学科信息学的缘起、内涵、研究内容等,对于完善学科信息学理论体系,促进发展学科领域知识发现研究等具有重大意义。
随着大科学装置和数据信息技术等的快速迭代发展,科技领域的大数据体量持续膨胀并呈现巨量化特征,数据处理方法和技术手段也必须先进和必然先进,特别是随着机器学习技术方法和工具的深入发展,深度神经网络学习模型快速兴起,赋予大数据分析新的活力和新的可能。这预示着基于数据密集型研究范式的学科领域数据分析和知识发现有着广阔发展和应用前景。近十多年来,随着各种学科信息学方面的科技论文发表、新科技期刊创刊出版、科技著作出版、学科领域数据库建设和知识发现平台及工具研发等呈井喷式发展就是最好的证明。因此,聚焦学科领域大数据体系分析和新知识发现的不断发展的学科信息学将成为科技研究创新和知识发现的利器。聚焦已有相关研究,学术界主要对学科信息学的下位概念如生物医学信息学、化学信息学的研究现状与未来趋势等进行梳理与总结,对学科信息学这一概念内涵与外延的界定尚不清晰,对学科信息学研究进展和发展前瞻尚未系统归纳。本书以2015年《论学科信息学的兴起与发展》为研究基础,鉴于该概念提出至今7年有余,学科信息学本身已取得认可和显著发展,而且各种专门领域学科信息学也正处于蓬勃发展之际,如材料信息学、化学信息学等发展势头正猛,有大量高价值科研成果产出。在此之际,对学科信息学发展与趋向进行再展望是有必要且有价值的。本书研究的创新之处在于:从专门领域学科信息学、普遍性和工具性学科信息学两个视角对学科信息学的概念进行进一步界定;对基于学科大数据的学科知识发现全流程进行总结,重点对各专门学科领域经典数据库进行梳理;分别对普遍性和工具性学科信息学、典型专门领域学科信息学研究进展进行归纳;基于上述分析,对学科信息学未来发展进行再展望。
1.2学科信息学研究范畴
1.2.1从大数据到学科信息学
大数据浪潮是人类进入数字智能时代的必然产物和根本趋势。“大数据”一词,最早可以追溯到未来学家阿尔文 托夫勒于1980年出版的《第三次浪潮》一书,在该书中他指出,以计算机为基础的数据处理有可能成为第三次浪潮的支柱产业,并盛赞“大数据”为“第三次浪潮的华彩乐章”(Toffler,1980)。为应对正在生成的海量数据的挑战,2008年Nature杂志出版“大数据”(Big Data)专刊,2011年Science杂志出版“数据处理”(Dealing with Data)专刊,均对大数据发展前景及所面临挑战进行探讨。世界领先的管理咨询公司麦肯锡全球研究院(McKinsey Global Institute,MGI)作为最早注意到大数据发展前景的科技机构,于2011年发布《大数据:创新、竞争和生产力的下一个前沿》(Big data:The next frontier for innovation,competition,and productivity)报告(Manyika et al.,2011),其在报告中指出只要有正确的政策和推动因素赋能,大数据将成为竞争的关键基础,并将支持新一轮的生产力增长、创新及消费者剩余浪潮。根据国际数据公司(International Data Corporation,IDC)的报告显示,2013~2020年,全球数据量从4.4ZB呈指数增长至44ZB,预计至2025年数据体量将达到163ZB(Reinsel et al.,2017)。近年来全球数据的增加趋势表明,全球大数据量的增加速度将超过人类的预期。
与大数据膨胀浪潮相伴,围绕大数据领域国家战略权益争夺的国际战略竞争快速演进。自2012年美国联邦政府出台《大数据研究与发展倡议》以来(Obama White House,2012),世界科技强国纷纷出台一系列数据战略。如,美国2016年2月发布《陆军数据战略》(DoD,2016),2016年5月发布《联邦大数据研究与发展战略计划》(NITRD,2016),2019年12月发布《联邦数据战略及2020年行动计划》(Federal Data Strategy,2019),2020年10月发布《国防部数据战略》(DoD,2020)。英国于2020年分别发布《国家数据战略》(Department for Digital,Culture,Media & Sport,2020),《2020年科技战略》(Ministry of Defense,2020)。德国于2020年6月确定自主云基础设施发展路线图(GAIA-X,2020)。欧盟2018年5月出台《通用数据保护条例》(GDPR,2018),2018年11月出台《非个人数据自由流动条例》(European Commission,2018),2020年2月发布《欧洲数据战略》(European Commission,2020)。日本于2017年发布《官民数据活用推进基本计划》,以及2020年的《创建尖端数字化国家宣言》等。可以看到,各国(国际组织)着眼于将数据作为国家战略资产,着力发展数字经济,利用数据驱动科研创新,从而强化国家竞争优势。
数据成为发展与创新的“永动机”。美国《外交》杂志2021年5~6月合刊上题为《数据就是力量》(Matthew and David,2021)的文章称,数据现在处于全球贸易的中心,在2008年全球金融和经济危机之后,国际商品和服务贸易的增长进入平稳期,取而代之的是跨境数据流动呈现爆炸式增长,以带宽来衡量,2008~2020年,跨境数据流动增长了约112倍。全球经济变成了一台数据永动机:它消耗数据、处理数据并产生越来越多的数据。数据成为创新的一个越来越必要的投入,成为国际贸易的一个急剧扩展的要素,成为企业成功的一个重要组成部分,成为国家安全的一个重要方面,谁掌握了数据,谁就占据了令人难以置信的优势。而在全球数据持续扩张膨胀、国际数据战略竞争日益激烈的大趋势下,目前国际社会却缺乏有关数据治理的全球框架和规则,未来有关全球数据治理体系的竞争将成为国际竞争的关键领域之一。
数据密集型科学研究能力成为科学创新的核心能力。科学大数据时代,数据驱动的科学发现成为科学创新的新范式。在大数据浪潮汹涌的时代,开展科学研究的科学大数据也在蓬勃发展,在科学大数据的驱动下,科学研究在经历了实验归纳、模型推演、仿真模拟等三大传统科学范式之后,已进入到以数据密集型科学发现为主要特征的科学研究第四范式时代,即科学研究从以计算为中心转向以数据为中心,科学大数据的分析能力成为新的科学研究与科学发现能力,催生了广泛领域学科信息学的兴起和快速发展,决定着科学知识发现与知识创造的走向,决定着科学技术的未来发展。
学科信息学是大数据时代学科发展的必然结果。自20世纪90年代以来,各学科领域借助先进的传感器和观测技术生成大量数据,或从大规模数据库中快速搜索和发现知识,以数据分析为导向的专门学科知识发现快速发展,使得每个学科均出现二元发展态势,被称为“X-信息学”(X-Informatics)。其中X指任何学科领域,如生物、天文、物理;信息学指为实现学科知识发现而组织、描述、访问、整合、挖掘和分析多源异质数据的学科(Borne,2010)。