应对大数据分析的智能信息处理模型。本书提出的这些模型和方法为网络信息资源的重组与再利用提供了良好的基础。研究成果可以供计算机应用技术、大数据与人工智能和管理科学与工程学科专业的研究人员、学生和工程技术人员学习参考。
本书以网络信息资源管理的重要工具--社会化标签系统为研究对象,在对国内外研究现状全面评述的基础上,从原始的标注信息入手,逐步融合社会化标注系统中蕴含的其它有用信息,研究并提出了:(1)基于共同共现群体相似度的标签谱聚类方法;(2)基于LDA (Latent Dirichlet Allocation)模型的标签综合聚类方法;(3)融合内容与链接分析的标签聚类方法等;系统地解决了社会化标注系统中存在的稀疏、歧义、语义模等问题,完善了标签聚类的方法体系。研究成果不仅为标签聚类知识的获取提供了有效的手段,也为网络信息资源的重组与应用提供良好的基础。
本书可供科研单位、互联网和大数据企业、高校及其他相关部门参考使用。
第1章绪论1
1.1研究背景及意义1
1.2标签聚类方法中存在的问题分析3
1.3主要内容与本书的组织结构5
1.3.1主要内容5
1.3.2本书组织结构6
1.4本章小结8
第2章社会化标注及相关研究综述9
2.1社会化标注系统及其模型9
2.2社会化标注的相关研究综述11
2.2.1用户的标注动机与标签的分类12
2.2.2社会化标注的动态演化规律13
2.2.3标签的语义识别14
2.2.4标签的推荐15
2.2.5标签的可视化16
2.2.6标签在信息检索中的应用17
2.2.7标签聚类对相关研究的作用18
2.3本章小结18
第3章基于相似度的社会化标签聚类方法研究19
3.1引言19
3.2相关工作20
3.3传统的标签相似度测量方法21
3.3.1基于向量空间模型的方法21
3.3.2基于共现的方法25
3.3.3传统标签相似度测量方法的分析与总结26
3.4经典的聚类算法26
3.4.1K-means算法26
3.4.2凝聚式层次聚类算法27
3.4.3经典聚类算法的分析与比较27
3.5基于共同共现群体相似度的标签谱聚类方法27
3.5.1标签的共现关系分析28
3.5.2标签的共同共现群体相似度29
3.5.3谱聚类算法32
3.5.4标签共现谱聚类算法33
3.6实验与分析34
3.6.1实验数据集34
3.6.2评价指标35
3.6.3实验结果分析36
3.7本章小结47
第4章基于主题模型的社会化标签聚类方法研究48
4.1引言48
4.2相关工作49
4.2.1LDA主题模型49
4.2.2LDA吉布斯采样(Gibbs Sampling)公式的推导50
4.2.3LDA在社会化标注中的应用53
4.3基于LDA的标签综合聚类方法54
4.3.1三元标注关系中标签的语义分析54
4.3.2基于LDA的标签综合聚类方法的建模55
4.3.3聚类步骤58
4.4实验与分析59
4.4.1LDA主题模型的评价59
4.4.2基于LDA的标签综合聚类结果的评价60
4.5本章小结70
第5章融合内容与链接分析的社会化标签聚类方法研究71
5.1引言71
5.2相关工作72
5.2.1对社会化标注系统中用户社会关系的利用72
5.2.2对社会化标注系统中资源内容和资源引用关系的利用73
5.3融合用户社会关系的标签LDA模型及其标签聚类方法74
5.3.1用户社会关系建模及其链接分析74
5.3.2融合社会关系的用户加权标签LDA模型77
5.3.3实验与分析78
5.4融合引用关系的资源内容与标签的联合LDA模型及其标签聚类方法82
5.4.1资源引用关系建模及其链接分析83
5.4.2资源内容的表示84
5.4.3基于资源加权的词与标签的联合LDA模型84
5.4.4实验与分析87
5.5融合内容与关系的标签综合LDA模型及其聚类方法91
5.5.1融合内容与关系的标签综合LDA聚类方法91
5.5.2实验与分析93
5.6本章小结96
附录 主要符号说明97
参考文献98
后记105