国家图书馆网络资源采集综合了全采集与选择性采集两种策略,相互补充,扬长辟短,以达到资源采集的最优化。采集内容的选择是按照国家图书馆的采访方针,收集关系我国政治、经济、文化、科技、体育等方面的重要网络信息资源。同时从用户需求出发,对保存资源进行深度开发,本着边建设边服务边总结的原则,为未来全国性数字文化遗产的保存保护工作提供实践借鉴。
在实践中,全采集对象主要针记录了我国政府工作重要信息的政府网站。通过政府公开信息整合平台,利用网络爬虫对2万余个政府网站中的政府公开信息频道内容进行采集,目前已经采集整合了近170万条政府公开信息;同时,通过网络资源采集与存档项目,对以gov.cn结尾的中国政府机构网站进行存档,目前已经建设了23TB的政府网站存档资源。
选择性采集主要针对反映我国社会、政治、经济情况的网络资源,主要采集对象是以电子方式出版的报纸和门户网站中的网络新闻。以电子报纸典藏项目为例,通过爬虫采集、报社呈缴等方式,将报社在互联网上发布的PDF格式电子报纸采集到本地存储,与国家图书馆报纸数字化项目的资源进行合并,形成了国家图书馆独特的电子报纸资源,现已经积累240多种报纸一总数据量达到了8TB。目前,该项目还在不断地扩展采集种类,研发新的服务方式,此外,还对围绕关于中国的、具有较大影响力的重特大事件的网络新闻进行专题采集存档,目前已经围绕2005年至2013年共86个新闻专题进行了网络资源存档,专题资源存档量达到了8TB。
2.2采集资源的整合与利用
在资源建设的基础之上,开发了政府公开信息整合服务平台、在线读报系统和中国事典等网络资源服务网站,作为网络资源服务试点。
中国事典以中国发生的重大历史事件为线索,通过选择性的对我国年度重大历史事件的跟踪、采集、标引、存储、发布和保存,实现对这些珍贵的中华历史文化遗产的传承。目前已完成3年(2006、2007、2008)间发生的重大历史事件数据的采集、整理与发布,包含了从自然、社会灾害到灾后重建,从经济危机到文化繁荣,从社会万象到国家规划的数十个主题、数千条目,并在持续增加中。为读者提供按题名、摘要、主题词以及年份等检索方式,检索结果可显示名称、责任者、摘要、时间等详细信息,可显示网页被保存时的原始面貌。
……
展开