在第三级范畴内,2011年“知识库支持项目”调查收到了75所大学的反馈,结果表明大学知识库项目平均雇佣1。36名全职工作人员(FTE),匹配一般的管理、行政和技术人员的支持性工作。目前,仅有40%这类知识库项目接受研究数据。如果大学等研究机构按需求开展相关工作,则需要投入更多预算和高技能的员工。较大型的大学知识库项目,例如南安普敦电子印刷知识库(3。2FTE)和牛津研究档案(2。5FTE,并且存增加),提供了开展不同层次服务的思路。附录三的DSpace@MIT项目也展示了类似模式的更成熟的方案,其曾为独立项目,目前成为J-麻省理工学院图书馆运营的公司的一部分,公司主要开展集成数字内容管理和传送系统运行的工作。本书认为数据存储和利用的成本应作为研究预算的一部分,但也应考虑寻求当地或区域性资助者以实现规模效应。
一个高效有用的数据库应包括以下功能:数据提供平台、维护与开发、多格式多版本支持(如PDF、html、postscript和latex)、网络访问页面、注册和账户管理系统(视需要而定)、录入质量控制(与格式标准的一致性,适当的技术标准)、动态数据提供与管理工具(细节参见附录二),提供相关分析工具或链接(如可视化工具、统计工具),根据下载量测算并记录影响,数据引用相关服务等。以上每一项服务都为综合处理数据实现了增值,但同时也都是劳动密集且成本高昂的工作。由于这份报告认为数字综合处理(digitalcuration)是研究过程的一部分,判断投资功效不以绝对成本作基础,而把强化“科学生产力”看作投资回报①。
最近《自然》杂志有篇文章对通过传统模式生成学术出版物的成本和以知识库数据为材料生成学术出版物的成本进行了比较。文章分析了学术出版物作者(而非相关数据集的原始作者)使用基因表达数据库(GEO)数据集的情况。研究显示2000年上传的超过2700条基因表达数据库数据集,使没有介入原始数据工作的科学家完成了1150篇论文。根据财务理论核算,大约投入40万美元可以增加1000篇论文,而同样金额投资到原始研究上仅能产生16篇论文,差异巨大②。与此相似,英国经济与社会研究理事会制定政策资助“英国数据档案”项目,并且要求研究人员在申请收集新数据的资助之前需要确定数据库中没有适用的现存数据,以此最大限度地增加数据的重复利用③。
英国联合信息系统委员会支持第三和第四级的数据综合处理,它对16岁以上学生学习和研究工作中使用信息与计算机技术提供指导。该委员会2010~2011年核心预算为8920万英镑,资本性资金为2760万英镑。英格兰高教拨款委员会(HEFCE)和系统委员会联合设立了1000万英镑的“共享服务与云计划”项目,通过共享云基础设施为高等教育机构的数据管理和存储提供优惠服务④。
……
展开