第1章 开放科学数据政策研究的相关概念、理论与进展
1.1 相关概念
1.1.1 科学数据
科学数据(scientific data),也称科研数据(research data),与科学论文一样也被视为重要的科研产出,既是科学研究不可或缺的重要组成部分,也是数字化科研时代的重要战略资源。英国皇家学会(The Royal Society)将“科学数据”界定为“事实的定性或定量陈述或数字;可以是直接来自测量的原始数据(raw data),也可以是原始数据的派生数据(derived data),但并不是除计算以外的分析或解释的结果”(The Royal Society,2012)。国务院办公厅发布的《科学数据管理办法》将“科学数据”界定为“主要包括在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据”。美国国立卫生研究院(National Institutes of Health,NIH)将“科学数据”界定为“科学界为验证用于支持学术出版物的研究结果(包括数据集)而被普遍接受的记录事实的材料,但不包括实验室笔记、初步分析、科学论文草稿、发明披露或专利申请、未来研究计划、同行评议报告、与同事的个人通信以及实物对象(如实验室标本、细菌菌株和小鼠等实验动物)”(NIH,2015)。司莉和邢文明(2013)将“科学数据”定义为“在科技活动(实验、观测、探测、调查等)或通过其他方式所获取的反映客观世界的本质、特征、变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集”。英国科学与技术设施理事会(Science and Technology Facilities Council,STFC)将“科学数据”划分为三种类型:①由实验、测量、观测直接产生的原始数据;②经过某种形式的标准或自动数据简化程序(如减少数据量或转换为有实际意义的坐标系)产生的派生数据;③在科学出版物中显示或以其他方式提及并据此得出科学结论的已发布数据(published data)(STFC,2016)。
应用科学数据的主要目的是提供必要的信息,以支持或验证研究项目的观察、发现或结果。英国研究理事会[Research Councils UK,RCUK,现已更名为英国国家科研与创新署(UK Research and Innovation,UKRI)]、英国大学联盟(Universities UK,UUK)和英国惠康基金会(Wellcome Trust,WT)等共同发布的《开放科学数据协议》将“科学数据”界定为“支持研究问题的答案的证据,并且可用于验证研究结果,无论其形式如何(如数字、符号、文本、图像、声音或实物)。其可以是科研人员在研究过程中通过实验、观察、建模、访谈或其他方法收集的定量信息或定性陈述,也可以是从现有证据中得出的信息;可以是原始或初始数据(如直接来自测量或收集),也可以是从原始数据派生出的以用于后续分析或解释,或者派生自他人可能拥有权利的现有数据。科学数据包括统计数据、数字图像、录音、访谈记录、调查数据,以及带有适当注释的实地观察、解释、艺术品、档案、文物、出版的文本或手稿”(HEFCE et al.,2016)。瑞典研究理事会(Swedish Research Council)认为与自然科学和考古学有关的收藏品、实物艺术作品或生物样本等实物对象本身不应被视为科学数据,但关于此类实物对象的数字信息应被视为科学数据(Swedish Research Council,2015)。阿德莱德大学认为根据学科的不同,原始资料(primary materials)也可被视为科学数据并可能需要保留,如果需要验证研究结果并保护其免受质疑。原始资料是指通过科学研究过程获得的实物对象,从原始资料中可以获取科学数据,既可以包括矿石、土壤样品或生物材料等原始实物材料,也可以包括人工制品、调查问卷、录音或录像等实物或数字对象。科学数据和原始资料还包括支持在文本研究等领域提出假设和发现的证据,也包括原创文学和音乐作品的草稿,以及音乐表演等创意作品(University of Adelaide,2021)。
1.1.2 开放科学数据
开放科学数据(open scientific data)能够支持科研人员发布、发现、访问和重用科学数据,对验证已有研究、开展后续研究、推动科学进步具有重要意义,并且科学数据作为未来研究和教学的潜在资源具有长期价值。瑞典研究理事会将“开放科学数据”界定为:可以通过互联网自由、轻松地访问科学数据以及相关元数据,因此,科学数据应以机器可读的数字标准格式提供,然后可以免费或在其他限制条件下重复利用。对科学数据的开放获取应遵守法律框架,这尤其会影响包含个人信息的科学数据(Swedish Research Council,2015)。英国研究理事会、英国大学联盟和英国惠康基金会等共同发布的《开放科学数据协议》将“开放科学数据”界定为:可以自由访问、利用、修改和共享的科学数据,但在必要时必须获得适当的确认。并非所有的科学数据都可以公开,有些科学数据可能需要控制访问,以便保持机密性、防范不合理成本、保护个人隐私、遵守同意条款以及管理安全或其他风险(HEFCE et al.,2016)。经济合作与发展组织在《公共资助科学数据获取原则与指南》中指出,国际研究界应以尽可能低的成本,*好不超过传播的边际成本,在平等条件下开放获取科学数据。对科学数据的开放获取应当是容易、及时和方便用户利用的,*好以互联网为基础。对科学数据的访问或重用在某些情况下可能会受到限制,以便保护个人隐私、保持机密性、专有结果或国家安全(OECD,2007)。
科学数据作为一种宝贵的资源,其价值可能超出其初始用途。英国医学研究理事会(Medical Research Council,MRC)将开放共享科学数据带来的好处概括为七个方面:①使新的研究问题在现有数据中得到解答;②促进不同研究团队和不同学科之间的合作;③分享关于数据收集、链接和分析的*佳方法的知识;④确保收集的数据是已清洗的、有详细记录的、可增值的;⑤*立验证已有的研究成果;⑥开发和测试新的研究方法;⑦利用研究参与者提供的数据以达到*佳效果。因此,数据开放共享意味着公共资金的有效利用,并支持加速科学发现(MRC,2017)。伍伦贡大学指出开放共享科学数据通过如下方式显著支持研究社群:①支持和验证研究结论;②避免重复研究工作;③促进学术发现;④鼓励开放和建设性的学术讨论;⑤合并数据集以创建新数据;⑥重新利用数据,以便探索初始研究人员未设想的新问题。开放共享科学数据可以通过如下方式使科研人员受益:①增加出版物的引用;②降低收集数据的相关成本;③更具竞争力的晋升和任期申请;④与业界同行进一步合作的机会;⑤成功的研究资助申请;⑥合并数据集产生的新发现和出版物;⑦履行对资助机构的义务(University of Wulungong,2019)。美国科学公共图书馆(Public Library of Science,PLoS)认为,共享数据可以促进科学进步,数据可用性(data availability)允许并促进:①验证、复制、再分析、新分析、重新解释或纳入元分析;②研究的可重复性(reproducibility);③努力确保数据存档,提高科研投入的价值;④减轻作者在保存和查找旧数据以及管理数据访问请求方面的负担;⑤在引用和链接科学数据及其关联文献方面提高了可见度,确保作者、数据生产者和管理者得到认可 。
1.1.3 开放科学
开放科学(open science)通常被定义为一个总括性术语,涉及旨在消除在研究过程中的任何阶段共享任何类型的产出、资源、方法或工具的障碍的各种运动 。联合国教育、科学及文化组织(United Nations Educational Scientific and Cultural Organization,UNESCO)将“开放科学”界定为“使科学研究和数据对所有人开放的运动,包括出版开放的科学研究、倡导开放获取的运动以及使科学知识更容易出版和传播的实践等,还包括在研究过程中使科学更加透明和容易获取的其他实践,如开放笔记本(open notebooks)、公民科学(citizen science)、开源软件(open source software,OSS)和众筹研究项目等”。美国红帽公司(Red Hat)将“开放科学”界定为“日益增长的使科学开放的运动,包括开放获取、开放数据(open data)、开放资源(open source)、开放标准、开放同行评议(open peer review)、开放笔记本等许多方面”(Red Hat,2019)。因此,开放获取出版物、开放科学数据、开源软件、开放协作(open collaboration)、开放同行评议、开放笔记本、开放教育资源(open education resources,OER)、开放专著(open monographs)、公民科学和研究众筹(research crowdfunding)都属于开放科学的范畴 。经济合作与发展组织指出,扩大对科学出版物和科学数据的获取是开放科学的核心,以使尽可能多的人掌握研究成果并尽可能广泛地传播潜在利益。
开放科学是将开放原则扩展到整个研究周期,尽早促进分享与协作,从而对科学和研究的方式进行系统性的改变。开放科学将使科学更高效、更可靠、更能应对社会挑战(Burgelman et al.,2019)。欧洲大学协会(European University Association,EUA)指出:开放科学正在改变研究的产生、获取和利用方式,新的、多样化的科学交流与合作方式正在出现。开放科学运动正在为加强跨学科研究活动的交叉融合铺平道路,这对于解决复杂的研究问题和社会挑战至关重要 。联合国教育、科学及文化组织认为开放科学运动的诸多优势包括:①提高公共资助的科学研究成果的可得性(accessibility)和可用性(availability);②建立严格的同行评议程序的可能性;③提高科学作品的可重复性和透明度(transparency);④扩大科学研究的影响。经济合作与发展组织将开放科学带来的好处概括为五个方面:①开放科学促进对科学结果更准确地验证;②开放科学减少了收集、创建、转让和重用科学材料的重复;③在预算紧张的时代,开放科学提高了生产力;④开放科学产生巨大的创新潜力,并增加公共研究的消费者选择;⑤开放科学促进公众对科学的信任。更多的公众参与将促进其积极参与科学实验和数据收集 。在新型冠状病毒大流行等全球紧急情况下,开放科学政策可以消除科学数据和思想自由流动的障碍,从而加快对防治此类疾病至关重要的研究步伐(OECD,2020)。
1.1.4 个人数据
个人数据是指与一个已识别或可识别的活着的自然人(数据主体)有关的任何信息,包括个人的姓名、性别、年龄、人种、身高、血型、身体状况、地址、职业、头衔、学位、生日、特征等可以直接或间接识别该自然人的一切数据(谢永志,2013)。欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR)将“个人数据”界定为“与已识别或可识别的自然人(数据主体)有关的任何信息;可识别的自然人是指可以直接或间接识别的个人,特别是通过标识符(identifier)可以识别的,如姓名、标识号、位置数据和在线标识符,或特定于该自然人的身体、生理、遗传、心理、经济、文化或社会认同的一个或多个要素”(Council of the European Union,2016)。欧盟《通用数据保护条例》将个人数据划分为一般数据(general data)和敏感数据(sensitive data),并将个人敏感数据界定为涉及数据主体九个方
展开