第1章 绪论
1.1 研究背景
1.1.1 海量在线科技论文的背景下的信息过载问题
科技论文在情报学中又称为原始论文或一次文献,它是科学技术人员或其他研究人员在科学实验(或试验)的基础上,对自然科学、工程技术科学,以及人文艺术研究领域的现象(或问题)进行科学分析、综合的研究和阐述,并进一步地进行一些现象和问题的研究,总结和创新另外一些结果和结论,并按照各个科技期刊的要求进行书面表达。自2003年以来,全球的科研投入呈现迅猛增长态势(Board,2016),与科研投入同步增长的还有研究人员发表的数量庞大的科技论文。
在互联网出现以前,科技论文主要通过纸质学术期刊公开发表,存在于各学术期刊中。但分散的科技文献不利于科学研究和工程技术人员创新和应用能力的发挥。随着现代信息技术的进步,国内外分散的科技文献资源不断地被整合、汇聚、开放和利用(张晓林,2005),大大小小的基于互联网的科技文献服务平台涌现而出。国外著名的科技文献服务平台如Web of Science,美国国家航空航天局(National Aeronautics and Space Administration,NASA)天体物理学数据系统,arXiv.org等。国内代表性的平台包括:中国科学院国家科学数字图书馆(Chinese Science Digital Library,CSDL)、国家科技文献图书中心(National Science and Technology Library,NSTL)、中国高等教育文献资源保障体系(Chinese Academic Library and Information System,CALIS)等。此外,一些由企业运行的大型学术资源数据库也得到了广泛的应用,如Google学术、百度学术、万方数据库、维普数据库、CNKI期刊全文数据库、德国的施普林格集团的SpringerLink数据库、荷兰的爱思唯尔集团的ScienceDirect数据库、美国的约翰威立国际出版公司的Wiley Online Library、Scopus数据库等。
这些数据库中整合汇聚了海量的在线科技文献资源,截至2018年7月31日,CNKI期刊全文数据库能检索到9659537篇地理学相关的学术论文,SpringerLink能检索到约68万篇地理学相关的学术论文,Web of Science能检索到约10192999篇地理学相关的论文。此外,各个学术期刊和学术团体也积极适应数字化出版的趋势,通过互联网提供在线论文库,如由中国地理学会主办的《地理学报》通过因特网(Internet)提供包含其出版的所有学术论文的数据库;中国工程科技知识中心地理资源与生态专业知识服务分中心提供地理、资源与生态学领域相关科技论文的下载服务。虽然科技文献共享平台上不断汇聚和增长的科技文献资源增加了其对工程科教人员的暴露度,但是海量科技文献资源反而使得用户越来越难查找到所需的文献,用户在进行科学研究之前的文献查找阶段花费的时间越来越长,面临着“信息过载”的问题(Eppler and Mengis,2004)。譬如,在Web of Science论文检索平台上输入“land use,China”关键词进行检索,平台返回约20000个检索结果,这20000个检索结果中只有很小一部分才是用户需要的文献,用户需花费相当长时间才能把他们甄别出来。
当前也有较多的科技文献服务平台通过论文的作者、机构、关键词等对论文进行了初步的关联以解决信息过载问题(Alexander and Adomavicius,2005)。譬如百度学术搜索系统对所有的论文进行了相似文献的关联和推荐,然而这种关联的准确性和全面性都较差,例如百度学术搜索系统对《基于高分一号影像的雄安新区土地利用分析》一文关联了大量标题中包含“高分一号”“影像”的相似学术论文,而关于“雄安新区”和“土地利用”的论文却被忽略。如何针对科技论文建立更加精准有效的关联是工程科教人员乃至社会大众在信息过载形式下的迫切需求。
1.1.2 定量化关联数据是地理科技论文精准推荐和语义共享的有效方法
海量的在线科技论文存储在不同的文献数据库中。文献数据库只记录某一论文自身的信息,如论文的标题、作者、摘要、关键词、基金项目、正文文本、参考文献等内容,并不记录此论文与其他论文的内在关系。而实际上,科技论文特别是地理科技论文之间存在着丰富的语义关系。譬如,在对雄安新区的地下水资源状况进行研究时,在研究前的文献查找阶段,如果直接以“雄安新区,地下水资源”为关键词在中国知网(http://www.cnki.net/)中进行搜索,只能找到非常少量的文献,而大量在空间上包含雄安新区的文献,如有关保定市、河北平原、河北省、京津冀地区的文献;在研究内容上与地下水资源高度相关的文献,如有关地表水资源、水资源、地下水资源、河流、湖泊、湿地、水库的文献,却不能被检索到。由此可以发现,在海量在线论文背景下,地理科技论文的语义共享是研究机构和个人及时、便利地从大量信息中获取相关论文的保障,是充分利用大量地理科技论文资源的关键。
关联数据是指利用互联网创建不同数据源之间的具型链接。它旨在将异构数据进行跨网域的整合,打破数据之间的壁垒,关联、发现和利用海量数据。关联数据采用RDF(resource description framework,资源描述框架)数据模型(即用“主体、谓词、客体”三元组描述资源),利用URI(uniform resource identifier,统一资源标识符)命名数据实体,在网络上发布和部署实例数据和类数据,从而可以通过HTTP(hyper text transfer protocol,超文本传输协议)揭示并获取这些数据,使得分散异构的数据孤岛实现语义关联,被认为是多源异构数据集成和发现一种*好的方法(Bizer et al.,2009)。关联数据所采用的概念原则、URI复用与发布机制增强了结构化数据的语义性、开放性与关联性,在此之上的RDF链接机制更是将数据内部蕴含的客观实体与抽象概念关联在一起,从而赋予关联数据以强大的网络构建能力,并能够为数据资源的语义整合与开放共享提供新的可能。
关联数据概念自2006年提出以来,已经广泛应用于地理信息、科学数据、百科词条、科技论文等资源的关联(欧石燕,2012)。与此同时,关联数据自身的模式也在不断完善。当前,关联数据模式改进的方向主要有两个:①关联关系(即关联谓词)的扩展。关联数据的关联关系从*初的无明确关系(Vilches-Blázquez et al.,2010),到sameAs等概略性的描述(Stadler et al.,2012),再到当前基于数据各种特征(如地理空间范围、主题内容、数据类别、时间范围、空间精度、数据类型、数据格式、数据来源等)内在语义关系的详细描述(Zhu et al.,2017a),其关联关系的数量和描述的精细程度在不断地增加。当前关联数据不仅仅建立了数据单个特征上关联关系,还建立了基于多个特征的综合性关联关系。丰富的语义关系为实现数据资源语义层次的充分共享提供了重要的保障。②关联的定量化。为了解决相同关联关系下数据的排序问题,关联数据由传统的语义关联模式发展为定量化语义关联模式,即由传统的“主体、谓词、客体”关联模式转变为“主体、(谓词、相关度)、客体”的关联模式(Zhu et al.,2017b)。这种定量化的语义关联模式,一方面要求明确数据之间的语义关系,譬如两空间数据的地理范围之间存在包含、被包含关系,另一方面要求给出这种关联关系强度的大小,譬如,“京津冀地区”和“北京市”与“海淀区”都存在空间上的包含关系,但是,定量化的关联数据模式要求进一步给出相关的程度,譬如“京津冀地区”和“北京市”相关度为0.77,“京津冀地区”和“海淀区”相关度为0.68。
关联关系的精细化和定量化为开展数据资源精准关联和推荐提供新的方法。这是因为,任一数据资源都可以由其若干特征进行表征,定量化关联数据模式在明确关于数据资源用户关心的一个或者多个特征间的关联关系条件下,同时要求给出关联强度,进而能把相关的数据资源按相关度大小排序并提供给用户,实现数据资源的精准推荐。例如,在地理科技论文查找时,用户通常需要主题内容、研究地理空间范围和研究时间范围都高度相关的论文。定量化关联数据模式在明确地理科技论文在单个特征上的关联关系、计算特征的相关度的基础上,形成这三个特征综合性的关联关系和相关度,那么可以根据这个综合性的相关度,为目标科技论文找到在三个特征上都高度相关的文献,并按相关度大小进行排序,从而实现地理科技论文准确、全面的查找与推荐。
由此可以发现,定量化关联数据模式是地理科技论文开展语义共享和精准推荐的有效方法,是解决当前海量在线科技论文背景下信息过载问题极具前景的方案,其研究的核心内容在于明确地理科技论文特征的内在语义关系和计算这些特征的相关度。
地理科技论文通常有明确的研究主题内容、研究地理空间范围和时间范围,即基本的“what,where,when”三元组。这些特征是揭示地球表层各圈层相互作用关系、空间差异与变化过程的知识表征,也是用户在进行论文查找时较为关注的信息。本书中将这三个特征称为地理科技论文的时空内容特征。由于这三个特征隐含在地理科技论文的标题、关键词、摘要或正文中,本书拟基于现有的信息抽取技术,从地理科技论文中抽取时空内容特征(主题内容、空间和时间范围特征),研究时空内容之间内在的关系,提出时空内容特征的语义相关度算法,以时空内容特征的内在关系为潜在关联谓词,以时空内容特征的相关度来表达关联的强度,建立地理科技论文的定量化的语义关联网络,从而为地理科技文献的准确、全面查找与推荐,以及基于地理科技论文的知识发现和知识服务提供新的技术和思路。
1.2 研究意义
1.2.1 促进海量地理科技论文的精准推荐与语义共享
科技文献反映了人们在一定社会历史阶段的知识水平,蕴含着重要的科技创新与科学发现,是人们获取知识的重要媒介(钱旭等,2017)。随着信息技术的发展,科研工作者可以方便地获取大量的数字科技文献。然而,目前面临的问题不是访问不到相关文献,而是如何从海量的科技文献中快速、准确、全面地找到自己所需的内容同时发现新的知识。随着信息抽取、关联数据技术的发展,挖掘科技论文内在特征和知识,并利用定量化关联数据模式建立科技论文的精准关联网络将是提高科技论文的检索与推荐精度,实现基于文献的知识服务和知识发现的重要手段。
地理科技论文包含反映地球表层各圈层相互作用关系及其空间差异与变化过程的大量信息,其通常具有明确的时空内容特征。地理科技论文的时空内容特征之间存在丰富的语义关系,如《青藏高原关键区域土地覆被变化及生态建设反思》一文和《基于优度评价法的西藏土地利用生态安全评价研究》一文,二者研究的主题内容分别为“土地覆被变化及生态建设”和“基于优度评价法的土地利用生态安全评价”,二者研究的地理空间范围分别为“青藏高原关键区域”和“西藏”,二者研究的时间范围分别为“1982~2009年”和“2007年”。它们的主题内容间存在高度相关的关系,地理空间范围间存在叠加关系,时间范围存在包含被包含关系。自动化的抽取地理科技论文的时空内容特征,计算这些特征间的相关度以及描绘这些特征间的语义关系,进而构建地理科技论文间的定量化语义关联网络,是实现地理科技论文语义共享的有效方法,也是解决海量在线地理科技论文的信息过载问题的新的途径。
本书致力于自动化的抽取地理科技论文的研究主题内容、研究的空间范围和时间范围信息,并建立地理科技论文这些特征之间的语义相关度算法和关联关系,进而构建地理科技论文间定量化语义关联网络。本书提出的定量化语义关联网络技术能应用于地理科技论文的检索和自动化推荐,能提高检索和推荐的准确率,从而满足研究机构和个人准确、全面地从
展开