搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
科技大数据的建模与分析技术(精)/科技大数据理论与技术丛书
0.00     定价 ¥ 128.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787030713865
  • 作      者:
    作者:周向东//刘德兵//王元卓|责编:马跃//李嘉
  • 出 版 社 :
    科学出版社
  • 出版日期:
    2022-06-01
收藏
内容介绍
科技大数据的建模理论与分析方法是科技大数据相关技术研究与服务平台建设的重要理论基础和应用方法论。科技大数据主要由非结构化和复杂结构数据组成,涉及广泛而丰富的建模理论和方法。本书内容侧重面向科技大数据应用的基于张量的非结构数据建模、知识图谱及迁移学习等的基本概念及理论,同时介绍相关理论在认知图谱、跨域图像分类以及学者研究兴趣及机构合作关系挖掘等方面的应用。 本书适合作为科技大数据及非结构化数据分析与挖掘相关研究领域的研究生或科研人员的参考资料。
展开
精彩书摘
第一部分 科技大数据的建模理论
  第1章 科技大数据的张量表示模型
  科技大数据依托知识发明与发现过程中的推导过程、实验验证、研究结论、网络交流等科技情报知识线索,通过表示模型应用和自然语言处理技术,将科技大数据语义化、数据化以及标准化,使之转化为“自然人—机器—物”三元计算的数据结构基础,是一种核心知识资源。在人工智能蓬勃发展的今天,丰富的、高质量的、可操作的数据资源,有助于机器更好地理解知识结构和知识生成过程。同时,语义化、数据化和标准化的科技大数据也有助于人工智能算法更好地优化和泛化。
  1.1 引言
  从宏观角度来说,科技大数据是一种非数值型数据,包含科学发明和发现过程中长期累积形成的与研发全过程相关的各种非数值型科技信息,涵盖了基础研究阶段的科技创新决策过程和科技创新发现过程的各类科技信息。*常见的科技大数据是科技文献数据,它是一种较为规范化的科研产出和技术产出,主要包括期刊论文、学位论文、专利发明、实验数据以及科技报告等,这类科技大数据的基本特征为数据结构化程度高、数据集中度高以及数据规范性优良。另一种科技大数据是较为离散的事实性科技数据,主要包括政府、科研机构和企业发布的行业标准、政策法规、时事新闻、各类科研主体的个人网页,以及社交平台发布的交互式的、动态的、实时的科技信息等,这类科技大数据的基本特征为数据集中度低、数据非结构化以及数据规范程度不高等。从微观角度来说,科技大数据既不等同于论文数据,也不是传统意义上的网络及行业大数据。科技大数据是一种集成科技活动发生数据、科技成果实现数据以及自媒体生成数据的数据集合。科技活动发生数据是由科技行为主体产生的科技实体数据,包括科研概念、科研主题、科研项目、科研人才、科研团队、科研设备、科研组织、科研机构、学术会议、研究模型、研究方法、科研奖项等;科技成果实现数据包括各科技领域内累积形成的科研数据、科研资料、科研文献、科研报告、科技报道等承载着科技信息的数据以及知识生成过程中的语义关系、计量关系等;自媒体生成数据是互联网自媒体每天发布的权威的、互动性较好的科技信息,包括文本类型的科技信息以及新媒体类型的科技信息。
  在科技大数据的关系建模中,知识图谱框架已经成为一种经典的组织结构化知识,并在自然语言处理和计算机视觉信息提取方面发挥着核心作用。以知识图谱为代表的领域知识在机器学习等技术中可以得到更好的预测结果。在向量表示模型中,数据之间的关系采用有向标记图来刻画,其中我们将特定领域的含义与节点和边相关联。任何事物都可以充当节点,如作者、研究机构、论文等;边标签捕获节点之间的潜在关系,例如,作者之间的合作关系、作者与科研机构的隶属关系,以及论文之间的关联性等。知识图谱用作应用程序存储信息的数据结构,可以通过人工输入、自动化和半自动化方法的组合将信息添加到知识图谱中,无论采用何种知识录入方式,都希望记录的信息能够被人类轻松理解和验证。虽然知识图谱可以很好地表征结构化数据,但数据本身的符号化表示使其很难进一步分析。为了解决这个问题,知识图谱嵌入的方法被提出并得到了学术界的广泛关注。具体来说,将知识图谱中的节点和关系嵌入一个连续的向量空间,可以简化操作并且保留相应的结构信息。该方法已经在知识图谱填充、关系抽取、节点检测等问题中得到了广泛的应用。
  对于一个包含*个实体和*个关系的知识图谱,知识以*三元组的形式表示与存储。我们用*来表示一个事实单元,其中*分别表示头部实体和尾部实体,*代表两个实体之间的关系,实体间通过关系相互联结,构成网状知识结构。这里*代表全体实体集合,*代表全体关系集合。这种三元组知识表示形式得到了广泛的应用,然而,它在处理大数据问题时面临计算效率低等问题。随着机器学习、深度学习等表示学习技术的蓬勃发展,实体中所蕴含的信息可以表示为稠密低维的实数值向量,从而将实体和关系中的复杂语义关联置于低维空间进行计算,这种知识库的构建方式将对实际应用产生重大影响。经典的知识图谱嵌入包含三个步骤:①表示实体和关系;②定义评分函数;③学习实体和关系。下面介绍两大类常见的向量嵌入技术:距离平移模型(translational distance model)和语义匹配模型(semantic matching model)。
  1.1.1 距离平移模型
  距离平移模型利用基于距离的评分函数衡量一个事实作为两个实体之间距离的合理性。下面主要介绍嵌入空间的转移(translation on embeddings,TransE)[1]模型及与之相关的拓展模型。
  1)TransE
  TransE 是*具代表性的距离平移模型,它将实体和关系表示为同一空间中的向量。对于一个给定的事实*,关系向量r可以看作头部实体向量h到尾部实体向量t的翻译,并满足关系:评分函数被定义为和之间的关系,即
  当是事实时,我们希望评分函数尽可能大。尽管该模型十分简洁和高效,但在建模一对多、多对一和多对多等关系时性能较差。例如,在考虑多对一的事实时,如果不同教授隶属于同一科研机构,那么不同教授实体在连续向量空间中的嵌入必须相距很近,但考虑到不同教授之间的差异性,这种处理方式存在显而易见的缺点。为了克服这样的缺点,一个有效的策略是让一个实体在参与时有不同的表示关系。这样一来,即使嵌入的实体或许非常相似,我们也可以在不同的表示关系下将其区分开来。
  2)TransH
  超平面的转移(translation on hyperplanes,TransH)[2]通过引入特定关系的超平面,从而以投影的方式区分不同的实体。对于一个给定的事实*,首先将*和*投影到超平面上:
  式中,*、*分别表示h、t的投影;wr为投影矩阵。
  如果事实*成立,我们假设在超平面上由r连接的投影具有较低的误差,即*,评分函数可被定义为
  由上所述,TransH通过引入映射到特定关系超平面的机制,允许实体在不同关系中扮演不同的角色。
  3)TransR
  关系空间的转移(translation on relation space,TransR)[3]则认为不同的关系应该具有不同的语义空间。因此,TransR将实体和关系投影到不同的向量空间中,然后建模头部实体到尾部实体的翻译关系。注意到TransR与TransH有非常类似的想法,但TransR引入的是特定关系的空间,而不是超平面。在TransR中,实体被表示为实体空间*中的向量;每个关系都与一个特定的空间*相关联,并被建模为该空间中的平移向量。给定一个事实*,TransR首先将实体表示形式*和*投影到特定于关系r的空间中,即
  式中,*为投影矩阵。因此评分函数可以被定义为
  1.1.2 语义匹配模型
  1)RESCAL
  RESCAL[4]将每个实体与一个向量联系起来,以捕获其潜在的语义。每个关系都表示为一个矩阵,该矩阵模拟了潜在因素之间的成对相互作用。事实*的评分由双线性函数定义:
  式中,*为这些实体的向量表示;*为关系相关的矩阵。该评分捕获了所有h和t之间成对的交互关系,每一对关系需要*个参数。进一步假设所有*被分解到一个秩1矩阵的公共集合上,即*,其中*代表第i个奇异值,ui和vi分别代表对应的左奇异向量和右奇异向量。TATEC(two and three-way embeddings combination)不仅建模了三元交互*,而且建模了双向交互,例如,实体和关系之间的交互。评分函数为*,其中*是所有不同关系共享的对角矩阵。
  2)DistMult
  DistMult[5]通过限制*为对角矩阵来简化RESCAL。对于每个关系*,它引入了一个向量嵌入*,并要求*。因此评分函数被定义为
  该评分只捕获了*和*在同一维度上的组件之间的成对交互,并将每个关系的参数数量减少到*。然而,由于*对于任意的*和*都成立,该过度简化的模型只能处理对称关系,这对于一般的应用来说显然是不够强大的。
  3)HolE
  全息嵌入(holographic embeddings,HolE)[6]将RESCAL的表现性能与DistMult的效率和简单性相结合,它将实体和关系表示为*中的向量。给定一个事实*,通过使用循环关联操作,首先将实体表示组合为*,即
  式中,“*”表示循环相关性。
  然后将复合向量与关系表示进行匹配,以对该事实进行评分,即
展开
目录
目录
第一部分 科技大数据的建模理论
第1章 科技大数据的张量表示模型 3
1.1 引言 3
1.2 基于张量分解的表示模型 7
1.3 t-FD算法 15
1.4 理论误差界的证明 19
1.5 实验分析 26
1.6 小结 32
参考文献 32
第2章 科技大数据知识图谱 35
2.1 知识图谱概念及发展 35
2.2 面向科技大数据的知识图谱 38
2.3 知识图谱关键技术 40
2.4 知识图谱技术分析 52
参考文献 55
第3章 科技大数据迁移学习 57
3.1 迁移学习的概念及发展 57
3.2 科技大数据迁移学习的驱动因素 59
3.3 迁移学习相关研究 61
参考文献 77
第二部分 科技大数据的数据分析技术
第4章 科技情报认知图谱 87
4.1 科技情报认知图谱的概念 87
4.2 认知推理 92
4.3 逻辑表达 97
参考文献 99
第5章 基于深度迁移学习的图像语义分类 100
5.1 引言 100
5.2 算法介绍 104
5.3 实验 113
5.4 小结 118
参考文献 118
第6章 基于柔性标签迁移学习的图像分类 121
6.1 引言 121
6.2 预备知识 123
6.3 MSLT算法介绍 126
6.4 实验 135
6.5 小结 139
参考文献 140
第7章 科技大数据中的学者研究兴趣预测 143
7.1 引言 143
7.2 研究兴趣预测 146
7.3 自适应属性选择的学者研究兴趣预测方法 147
7.4 实验 153
7.5 小结 155
参考文献 155
第8章 科技大数据中的学者间合著关系预测方法 157
8.1 引言 157
8.2 融合语义与结构信息的学者间合著关系预测方法 158
8.3 实验 162
8.4 小结 164
参考文献 164
第9章 科技大数据中的机构间合作关系预测方法 166
9.1 问题介绍 166
9.2 个体性实体与群体性实体 167
9.3 基于表示学习的机构间合作关系预测算法 169
9.4 实验 173
9.5 小结 175
参考文献 175
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证