第1章 绪论
1.1 研究背景及意义
1.1.1 研究背景
随着新兴技术的不断突破,不管是区块链还是AI(artificial intelligence,人工智能),抑或是大数据,当前正处于科技和产业变革的关键节点。随着技术的进步和社会需求的改变,每一天、每一小时甚至每一秒都在不断产生海量支撑AI发展的科技数据。尽管数据庞杂,但其中记载着详细学科知识、相关真理及验证过程、某学科的实验过程和结论等,这些对推动技术发展起到关键作用的核心科技情报知识线索,是现代各尖端领域用于科技创新发现的算法模型实现的核心数据根基和重要知识基础[1]。
在数据快速增长的信息爆炸时代,亟待解决的问题就是对大数据的数据质量的甄别及分析。解决信息孤岛和数据疏散等问题,冲破现行的各类行政壁垒,推进科技资本的合理布局、统筹规划及整合,从而满足同享同用的需求;解决数据时效性差、多头来源,数据指标不统一、口径不一致的问题,从而实现资源规范标准、利用快捷高效;解决数据开发潜力不足的难题,从而实现多形式展示、深层次挖掘、定制式推送、个性化服务等。对复杂构成的科技大数据进行基于语义的计算分析,已经成为Google、Microsoft等企业抢占未来大数据AI服务的重要部署[2]。
一系列文件指出,应该建立健全鼓励原始创新、集成创新、引进消化吸收再创新的体制机制,健全技术创新市场导向机制,建立产学研协同创新机制,加强知识产权运用和保护,健全技术创新激励机制,整合科技规划和资源,完善政府对基础性、战略性、前沿性科学研究和共性技术研究的支持机制[3, 4]。我国现阶段在科技平台建设方面,不管是模式、内容还是机制都面临着巨大的挑战,而矢志不渝地进行科技平台建设是推动知识服务的供给侧结构性改革的重要部分。
尽管我国于2003年全面启动国家科技基础条件平台建设,并产出了很多重要的成果,但目前仍存在不少亟待突破的问题,如平台信息滞后、各平台间联结度与信息共享度低,无法满足客户动态需求等,解决这些问题将会使我国的科技平台建设飞跃到一个新的高度。开放共享经济环境下,借助云技术的精准定位与信息挖掘,探索科技大数据服务平台的功能与运作,有利于实时追踪技术交易,提供个性化信息推送、专利技术需求智能关联等服务,进而促进科技向生产力的快速转化。
数据作为目前最有价值、最重要的资本之一,得到了研究人员的广泛关注。企业管理者能否做出正确决策与其承载数据量的大小有关,所以,对历史数据的采集和处理一直都是研究人员关注的重点内容,大型企业、中小型企业及政府部门都在对构建大数据平台进行探索、整合各部门数据,进而形成关联,最终将其有效用于决策支持。大数据有别于常见的数据,通常使用一些常规软件就可以实现常见的数据的抓取、分析和处理等操作,但大数据具有数据量大、数据价值密度相对较低、数据类型多、处理速度快、时效性要求高等特征,人们无法使用常规处理数据的方式去处理大数据。而针对大数据的分析与处理,往往不是使用随机分析、抽样调查等方法对局部数据进行操作,而是对所有数据进行分析,从而得到数据整体的分析结果与处理方案。这就要求在大数据处理过程中,采用技术上具有可操作性、便捷高效的处理模式。因此,对大数据进行分析处理,要求具备从大量数据中抽丝剥茧地提取出有效的数据信息,对大批量数据从不同维度同时进行分析处理,并快速得到目标数据集的能力。
大数据涉及很多领域,其中具备科技及知识属性的大数据资源,被认为是科技大数据。科技大数据依托于信息技术的高速发展,加速了与经济社会的交汇融合,科技大数据因对社会生产、物流、消费等日常活动及经济运行机制、社会生活方式和国家治理能力产生越来越大的影响而成为国家基础性战略资源,所以构建针对大数据的工具,从而合理、高效地使用科技知识领域的大数据资源,就十分具有战略意义。
科技大数据有别于传统的数据资源领域,也并不是常见的网络及行业大数据。科技大数据主要是指包括科技成果数据、科技活动数据及互联网自媒体科技资讯数据在内的数据内容。其中,科技成果数据是指各学科内记录形成的数据、资料、文献、报告、网络科技报道等承载知识的数据。科技活动数据包括两类,一类是科技实体数据,科技实体数据包括科技项目、学术会议、科技团队、科技组织、科技人才、科技机构、科技奖项、科技主题、科技概念、研究设备、研究模型、研究方法等;另一类就是知识关系数据,知识关系数据包括语义关系及计量关系等。互联网自媒体科技资讯数据是指常见自媒体产生的数据,如微信数据或微博数据,其特征是及时、权威、互动性较好。
科技大数据理论与技术研究是一项顺应目前科技行业信息化技术水平发展、服务政府职能改革的科学研究工作,主要目标是强化科技与经济运行监测分析,并将分析结果提供给科技管理者、科研机构、企业和个人,从而有效推动科技创新的一站式的云管理和服务平台建设,推进科技数据共享和业务协同,以信息化提升数据化管理与服务能力,准确掌握科技发展在宏观和微观等多种维度的动态,及时并快速地响应科技政策的更新,并为其制定提供依据。
1.1.2 研究意义
本书针对科技服务对科技资源数据汇聚融合的需求,研究多源科技大数据资源融合的云计算系统平台分布式管理方法,形成协调统一的科技大数据分布式存储与处理模式。本书基于神经网络学习模型和特征表示学习的科技大数据融合处理方法,实现跨领域跨学科的科技大数据自动监测与采集。利用在线知识图谱中所蕴含的丰富结构化文本与链接信息,建立多源异构、碎片化数据之间的语义关联和多粒度层次之间的语义映射,完成科技大数据的实体识别和匹配;设计以多粒度知识服务为核心的大数据处理架构与引擎,实现从元数据记录层、知识实体层以及知识关系层的智能数据融合与演化分析;研究跨平台跨系统跨业务跨场景的大数据共享交换机制技术,构建支持数据交换、可信确权与追踪保护的科技大数据资源融合系统平台,实现科技大数据的生命周期管理,以期在跨媒体跨领域科技大数据的实体识别、汇聚融合与演化分析等一系列关键技术上取得进展。
1.2 国内外研究现状
1.2.1 多源异构数据融合研究现状
多源异构大数据融合的研究开始于美国,早在20世纪中期,美国军队就已经可以对多源传感器所获得的相关信息进行多源数据融合,进一步提高了决策的精确度。数据融合是一个针对多源异构数据信息的加工过程,该过程还包括自动化检测、相关互联以及多级组合等[5, 6]。Greif在1998年将数据融合技术定义成一种通过融合算法以及相关工具方式对多源异构数据信息进行关联分析的形式框架[7]。该框架的意义不仅在于可以获得更加多源优质的数据信息资源,还在于可以有效改善决策的鲁棒性以及可靠性。在应用领域上,数据融合在工业控制领域、医疗识别领域、天气预测领域等相关领域有所应用,并逐渐向更多更广的交叉领域扩展。
为解决多源异构数据中存在的诸多问题,有一些研究成果通过给多源异构数据添加相应的规则,实现多源数据的融合。例如,“线性加权融合”运算、“最大值”运算、“最小值”运算、“求和”运算、“求或”运算以及“投票机制”。相关核心工作成果有如下几个。文献[8]通过 正则化项与铰链损失函数相结合对多模态数据进行特征选择,利用 正则化项引入不同的和函数学习不同来源数据中的互补信息。文献[9]提出了一种联合判别特征融合框架,该框架通过约束函数,最大化样本间的距离和最小化样本内的距离,实现特征融合。文献[10]提出了一种判别分析方法,主要通过学习多源异构数据之间、数据对之间的线性变化,引入约束条件加强多个线性变换视图的一致性。文献[11]利用线性组合技术对多源异构数据进行特征融合,从得到的融合特征中筛选出贡献率最大的特征,利用遗传算法进行特征加权。文献[12]提出了一种新的特征提取方法,即正态分布的贝叶斯误差和贝叶斯相结合的方法,能够实现特征融合和特征选择。文献[13]提出了一种基于相位一致性和能量加权的融合方法,通过NSCT(non subsampled contourlet transform,非下采样轮廓波变换)滤波获得不同模态数据中不同频率的特征,其中高频特征通过相位一致性规则进行融合,低频特征通过能量加权进行融合。有的学者利用深度多项式网络[14]给多源异构数据添加线性约束,实现多源异构数据的融合。还有学者提出了一种新的深度学习结构[15],通过不断加权特征信息来实现特征融合。
除了基于规则的方法之外,还可以通过表征学习的方法,将多源异构数据投影到一个公共的子空间中。代表性工作有如下几个。文献[16]通过对多项式网络进行叠加完成数据的融合:第一层多项式网络提取多源异构数据的高层语义特征,第二层多项式用于学习多源异构数据间的相互联系。文献[17]提出在统一的框架下识别和选择出各个模态中有用的特征,通过子空间学习的方法学习数据的内部结构特征。这是一种特征选择和子空间学习相结合的方法。文献[18]提出了一种新的多类型诊断框架,该框架由自动编码器和softmax层组成,通过自动编码器网络学习多源异构数据空间共享表示。Huddar等在双向LSTM(long-short term memory,长短期记忆)神经网络中加入多个注意力机制,对多源异构数据进行多次融合得到融合信息[19]。一部分学者利用深度学习在高维空间中表示多源异构数据之间的关系,获得多源异构数据的在高维空间中的融合表示,完成分类任务[20, 21]。还有一部分学者通过稀疏表示将多源异构数据映射到统一表示空间[22, 23]。另外有研究者提出了一种基于联合训练框架的方法,并证明了该方法的成功性和适用性[24, 25]。最近,有研究者提出了一种基于典型相关分析的共享隐空间学习方法[26],也存在一些表征学习的框架旨在充分利用多模态不完全异构数据[27, 28]。
虽然我国很重视这方面的发展,但与国际水平相比还有一些差距,为了缩小数据融合在运算精度以及速度方面的差距,还需要再接再厉,促进科技发展与进步。
1.2.2 科技大数据知识图谱的应用
知识图谱(knowledge graph)[29]的主要目的是针对其搜索引擎,通过分析描述真实世界中存在的各种实体以及概念,找到并以图的形式描述这些实体、概念之间的关联关系,从而改善搜索结果,将知识系统化地呈现给用户,提高用户目标搜索结果的命中率。
知识图谱可以显示知识发展进程与结构关系的一系列各种不同的图形,利用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。应用知识图谱时,通常是将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法和计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构,达到多学科融合目的。基于上述原因,知识图谱适用于科技大数据的分析研究,其可以实现对知识持续增量的自动获取,具备概念识别、实体发现、属性预测、知识演化建模和关系挖掘能力,可以形成涵盖数十亿实体规模的多源、多学科和多数据类型的跨媒体知识图谱[30]。刘峤等指出科技大数据与传统的数据信息有很大区别,主要原因在于科技大数据内容包括各学科内的记录数据、资料、文献、报告、网络科技报道等科技成果数据,除以上成果类内容之外,还常常包含科技领域中涉及的项目、学术会议、人才、机构、奖项、主题、概念等特色数据,以及研究领域相关的设备、模型、方法等实体及其语义关系的活动数据[31]。
知识图谱被广泛用于语义搜索,即用户搜索次数越多,范围越广,搜索引擎越能获得更多的信息和内容;知识图谱被广泛用于智能问答,运用知识图谱可以融合所有学科,以保证用户搜索时具有连贯性,从而实现智能问答;知识图谱被广泛用于数据挖掘,运用知识图谱可以从整个互联网汲取有用的信息让用户获得更多相关的数据资源;知识图谱被广泛应用于推荐系统,知识图谱可以综合用户特征,把与关键字相关的知识化体系系统化地展示给用户。
在数字图书馆领域,一些大型出版商也已开始以科技文献数据为基础构建知识图谱。