第一部分 科技大数据的建模理论
第1章 科技大数据的张量表示模型
科技大数据依托知识发明与发现过程中的推导过程、实验验证、研究结论、网络交流等科技情报知识线索,通过表示模型应用和自然语言处理技术,将科技大数据语义化、数据化以及标准化,使之转化为“自然人—机器—物”三元计算的数据结构基础,是一种核心知识资源。在人工智能蓬勃发展的今天,丰富的、高质量的、可操作的数据资源,有助于机器更好地理解知识结构和知识生成过程。同时,语义化、数据化和标准化的科技大数据也有助于人工智能算法更好地优化和泛化。
1.1 引言
从宏观角度来说,科技大数据是一种非数值型数据,包含科学发明和发现过程中长期累积形成的与研发全过程相关的各种非数值型科技信息,涵盖了基础研究阶段的科技创新决策过程和科技创新发现过程的各类科技信息。*常见的科技大数据是科技文献数据,它是一种较为规范化的科研产出和技术产出,主要包括期刊论文、学位论文、专利发明、实验数据以及科技报告等,这类科技大数据的基本特征为数据结构化程度高、数据集中度高以及数据规范性优良。另一种科技大数据是较为离散的事实性科技数据,主要包括政府、科研机构和企业发布的行业标准、政策法规、时事新闻、各类科研主体的个人网页,以及社交平台发布的交互式的、动态的、实时的科技信息等,这类科技大数据的基本特征为数据集中度低、数据非结构化以及数据规范程度不高等。从微观角度来说,科技大数据既不等同于论文数据,也不是传统意义上的网络及行业大数据。科技大数据是一种集成科技活动发生数据、科技成果实现数据以及自媒体生成数据的数据集合。科技活动发生数据是由科技行为主体产生的科技实体数据,包括科研概念、科研主题、科研项目、科研人才、科研团队、科研设备、科研组织、科研机构、学术会议、研究模型、研究方法、科研奖项等;科技成果实现数据包括各科技领域内累积形成的科研数据、科研资料、科研文献、科研报告、科技报道等承载着科技信息的数据以及知识生成过程中的语义关系、计量关系等;自媒体生成数据是互联网自媒体每天发布的权威的、互动性较好的科技信息,包括文本类型的科技信息以及新媒体类型的科技信息。
在科技大数据的关系建模中,知识图谱框架已经成为一种经典的组织结构化知识,并在自然语言处理和计算机视觉信息提取方面发挥着核心作用。以知识图谱为代表的领域知识在机器学习等技术中可以得到更好的预测结果。在向量表示模型中,数据之间的关系采用有向标记图来刻画,其中我们将特定领域的含义与节点和边相关联。任何事物都可以充当节点,如作者、研究机构、论文等;边标签捕获节点之间的潜在关系,例如,作者之间的合作关系、作者与科研机构的隶属关系,以及论文之间的关联性等。知识图谱用作应用程序存储信息的数据结构,可以通过人工输入、自动化和半自动化方法的组合将信息添加到知识图谱中,无论采用何种知识录入方式,都希望记录的信息能够被人类轻松理解和验证。虽然知识图谱可以很好地表征结构化数据,但数据本身的符号化表示使其很难进一步分析。为了解决这个问题,知识图谱嵌入的方法被提出并得到了学术界的广泛关注。具体来说,将知识图谱中的节点和关系嵌入一个连续的向量空间,可以简化操作并且保留相应的结构信息。该方法已经在知识图谱填充、关系抽取、节点检测等问题中得到了广泛的应用。
对于一个包含*个实体和*个关系的知识图谱,知识以*三元组的形式表示与存储。我们用*来表示一个事实单元,其中*分别表示头部实体和尾部实体,*代表两个实体之间的关系,实体间通过关系相互联结,构成网状知识结构。这里*代表全体实体集合,*代表全体关系集合。这种三元组知识表示形式得到了广泛的应用,然而,它在处理大数据问题时面临计算效率低等问题。随着机器学习、深度学习等表示学习技术的蓬勃发展,实体中所蕴含的信息可以表示为稠密低维的实数值向量,从而将实体和关系中的复杂语义关联置于低维空间进行计算,这种知识库的构建方式将对实际应用产生重大影响。经典的知识图谱嵌入包含三个步骤:①表示实体和关系;②定义评分函数;③学习实体和关系。下面介绍两大类常见的向量嵌入技术:距离平移模型(translational distance model)和语义匹配模型(semantic matching model)。
1.1.1 距离平移模型
距离平移模型利用基于距离的评分函数衡量一个事实作为两个实体之间距离的合理性。下面主要介绍嵌入空间的转移(translation on embeddings,TransE)[1]模型及与之相关的拓展模型。
1)TransE
TransE 是*具代表性的距离平移模型,它将实体和关系表示为同一空间中的向量。对于一个给定的事实*,关系向量r可以看作头部实体向量h到尾部实体向量t的翻译,并满足关系:评分函数被定义为和之间的关系,即
当是事实时,我们希望评分函数尽可能大。尽管该模型十分简洁和高效,但在建模一对多、多对一和多对多等关系时性能较差。例如,在考虑多对一的事实时,如果不同教授隶属于同一科研机构,那么不同教授实体在连续向量空间中的嵌入必须相距很近,但考虑到不同教授之间的差异性,这种处理方式存在显而易见的缺点。为了克服这样的缺点,一个有效的策略是让一个实体在参与时有不同的表示关系。这样一来,即使嵌入的实体或许非常相似,我们也可以在不同的表示关系下将其区分开来。
2)TransH
超平面的转移(translation on hyperplanes,TransH)[2]通过引入特定关系的超平面,从而以投影的方式区分不同的实体。对于一个给定的事实*,首先将*和*投影到超平面上:
式中,*、*分别表示h、t的投影;wr为投影矩阵。
如果事实*成立,我们假设在超平面上由r连接的投影具有较低的误差,即*,评分函数可被定义为
由上所述,TransH通过引入映射到特定关系超平面的机制,允许实体在不同关系中扮演不同的角色。
3)TransR
关系空间的转移(translation on relation space,TransR)[3]则认为不同的关系应该具有不同的语义空间。因此,TransR将实体和关系投影到不同的向量空间中,然后建模头部实体到尾部实体的翻译关系。注意到TransR与TransH有非常类似的想法,但TransR引入的是特定关系的空间,而不是超平面。在TransR中,实体被表示为实体空间*中的向量;每个关系都与一个特定的空间*相关联,并被建模为该空间中的平移向量。给定一个事实*,TransR首先将实体表示形式*和*投影到特定于关系r的空间中,即
式中,*为投影矩阵。因此评分函数可以被定义为
1.1.2 语义匹配模型
1)RESCAL
RESCAL[4]将每个实体与一个向量联系起来,以捕获其潜在的语义。每个关系都表示为一个矩阵,该矩阵模拟了潜在因素之间的成对相互作用。事实*的评分由双线性函数定义:
式中,*为这些实体的向量表示;*为关系相关的矩阵。该评分捕获了所有h和t之间成对的交互关系,每一对关系需要*个参数。进一步假设所有*被分解到一个秩1矩阵的公共集合上,即*,其中*代表第i个奇异值,ui和vi分别代表对应的左奇异向量和右奇异向量。TATEC(two and three-way embeddings combination)不仅建模了三元交互*,而且建模了双向交互,例如,实体和关系之间的交互。评分函数为*,其中*是所有不同关系共享的对角矩阵。
2)DistMult
DistMult[5]通过限制*为对角矩阵来简化RESCAL。对于每个关系*,它引入了一个向量嵌入*,并要求*。因此评分函数被定义为
该评分只捕获了*和*在同一维度上的组件之间的成对交互,并将每个关系的参数数量减少到*。然而,由于*对于任意的*和*都成立,该过度简化的模型只能处理对称关系,这对于一般的应用来说显然是不够强大的。
3)HolE
全息嵌入(holographic embeddings,HolE)[6]将RESCAL的表现性能与DistMult的效率和简单性相结合,它将实体和关系表示为*中的向量。给定一个事实*,通过使用循环关联操作,首先将实体表示组合为*,即
式中,“*”表示循环相关性。
然后将复合向量与关系表示进行匹配,以对该事实进行评分,即
展开