1 数据加工基础
农业科学数据资源的建设为农业科技创新提供了有力支撑,农业科学数据是国家农业发展的基础性战略资源,决定了一个国家农业发展的水平和高度。数据的质量是影响科学数据重用的关键性因素之一,而农业科学数据由于其内容的广阔性、结构的复杂性,往往要经过数据加工后才能使用。
1.1 农业科学数据
1.1.1 农业科学数据概念
农业科学数据是农业领域的科学数据,可将其定义为:从事农业科技活动产生的原始性、基础性数据以及按照不同需求系统加工后的数据集合等相关信息,既包括农业及相关部门大规模观测、探测、调查及实验所获得长期积累和整编的海量科学数据,也包括广大农业科技工作者长年累月的研究工作所产生的大量科学数据(胡林,2021)。
农业科学数据既服务于农业科研活动,也可以用于支持农业生产、政府决策、生产经营等。农业科学数据具有学科领域广泛、实验周期长、数据类型复杂多样等特点,随着农业科研的持续深化与拓展以及新兴学科和交叉学科的不断涌现,农业科学数据量呈指数发展态势的增长。农业科学数据源自各大学科领域,不仅包括农业,还包括林业、环境、工业制造等。不同的类别与结构使元数据标准不同,在海量的数据集基础之上增添了农业科学数据的异构性特征。
农业科学数据是农业科学研究的基石。从20世纪60年代中期以来,世界农业产量增长80%以上。其中,玉米、水稻、小麦的产量几乎翻了一番,有效地提高了生产率,加强了粮食安全,减轻了贫困状况,对于整个经济、社会、政治、文化进步起到了基础支撑作用。全球和中国的农业发展经验表明,农业科技进步对于农业的发展起到了重要的推动作用。目前发达国家的农业科技进步贡献率一般达到70%以上。中国的农业科技进步贡献率也由20世纪80年代初期的23%上升到21世纪初期的46%左右,至2020年已超过了60%。农业科学数据的大量积累与广泛应用是农业科技进步与培育重大农业科技成果的前提。以往科研工作者要花大量时间去从事科学数据搜集工作,现在处于万物互联时代,数据检索工作变得快捷、方便,从而使科研工作者有更多的时间去从事创造性工作,发挥农业科学数据的作用。
农业科学数据是农业农村经济发展的宝贵资源。随着农业现代化发展进程的推进,数据资源作为对其他物质资源和能量资源进行有效管理的工具,具有重要的意义。农业科学数据作为具有显著的科技推动力、投资引向价值、应用增值潜力和决策支撑作用的一种极富价值的数据资源,具有特殊的内涵和特殊的配置形式,是合理开发农业资源的重要科学依据,在促进农村经济发展,促进人类社会进步等方面发挥着日益重要的作用。
1.1.2 农业科学数据的特征
1.1.2.1 农业科学数据维度
按照《科学数据管理办法》,可将数据资源划分为科学研究活动数据、基础研究数据、应用研究数据、试验活动数据4类。将这4类数据参照国家统计局和杨立新(2016)等对原生数据和衍生数据的定义,从数据类型出发,对数据来源、数据载体进行对比分析(表1-1)。数据来源机构主要是科研院所、高等院校、图书情报机构、政府管理部门及企业。数据载体主要有数据集、科技论文和专著、发明专利、新产品、新工艺、项目、报告、政策、规划、战略、获奖成果等(柴苗岭等,2020)。
1.1.2.2 农业科学数据尺度
农业科学数据学科领域广泛,具有多时间、空间尺度的特点。尺度是指研究某一物体或现象时所采用的空间或时间单位,又指某一现象或过程在空间和时间上所涉及的范围和发生的频率,还可指人们观察事物对象、模式或过程时所采用的窗口。简单地说,尺度就是客体在其“容器”中规模相对大小的描述(李志林,2005;邬建国,2000;QI and WU,1996;苏理宏等,2004;刘贤赵,2004)。空间尺度和时间尺度常以粒度(grain/granularity)和幅度(extent)来表达。空间粒度指*小的可辨识单元所代表的特征长度、面积或体积(如采样样方、像元);时间粒度指某事件、现象或过程发生(或取样)的频率或时间间隔;幅度指研究对象的空间范围或持续的时间(邬建国,2000;刘贤赵,2004)。研究区域的面积决定空间幅度,研究项目持续的时间决定时间幅度(孙庆先等,2007)。农业科学数据基于不同的研究需求采用不同时间、空间的尺度。例如,农作物育种数据根据研究目的不同,空间尺度有分子到细胞、组织、器官、个体、群体等;时间尺度上可以按生长周期划分时间尺度,或按年月划分时间尺度。农业生态数据针对研究区域,如全球、全国、全市的改变,往往采用不同的空间尺度。
表1-1 农业科学数据资源类型特征数据类型定义农业科学数据资源
1.1.2.3 农业科学数据格式
所有的数字化数据都以一个特定的文件格式存在,该文件格式可以对信息进行编码,以便软件程序读取并编译这些数据。数据格式及产生研究数据的软件的选择,通常依赖于研究人员如何收集和分析数据,以及使用的硬件或软件可获得性。这些格式和软件的选择也取决于学科专有的标准和习惯。例如,图像、音频和视频数据格式取决于所使用相机或录音设备的类型。采集的数据只可能会被降级处理或压缩尺寸,但无法对已经采集的数据进行升级。因此,在数据采集规划时就应该考虑好数据的用途,选择获取哪种格式*合适。例如,数值型数据通常存储在数据表格或数据库中,可在这种数据库中安装变量或可度量的指标来标记数据记录或案例的位置。社会科学调查的标准文档格式往往是SPSS(Statistical Package for Social Science),因为SPSS具有统计分析功能。在生态研究中,CSV或Excel则被更广泛地使用,成为许多分析程序包的标准输入格式。而质性研究数据,如访谈等,*开始会用WAV或MP3格式以音频录音的形式收集,然后转录成文本,再将文本导入到计算机辅助定性数据分析软件的数据库中,经常使用NVivo等软件来进行分析。
文件格式可以是专有的,也可以是开放的。专有格式通常与特定的软件程序联系在一起,一般由商业公司开发,拥有独立的知识产权,需要得到授权或许可才能使用它们。开放文件格式的示例有PDF/A、CSV、TIFF、开放文件格式(ODF)、ASCII码、TAB制表符分隔的表格和XML。文件格式可以是有损的或无损的。有损的格式通过清除那些判定为不重要的详细信息文件来节省空间。例如,有损的JEPG格式文件会清除图片的详细信息,对比起来,无损的TIFF格式文件就会保留所有的详细信息。当然,在一个无损格式的文件中进行重复的编辑和保存操作会导致大量的信息丢失。在科学研究中,研究人员会结合研究计划来进行数据格式和软件的选择。
从柴苗岭等(2020)的调研情况来看,农业科学数据形式以文本、数值、图像、视频、语音为主,常见的数据和数据集格式参见表1-2列举的数据形式和格式。
表1-2 重要的农业科学数据资源组织方法、学科范围、数据形式及格式
展开