第 1章社会计算与社会舆情分析概述 1
1.1 社会计算的概念与关键技术 1
1.1.1 Web2.0与社会化软件的特征 1
1.1.2 社会计算的概念 3
1.1.3 社会计算与社会智能研究的核心内容 6
1.2 社会舆情的特征与分析方法 10
1.2.1 社会舆情的概念与特征 10
1.2.2 网络舆情的形成和演化过程 11
1.2.3 网络舆情的关键技术与方法 13
1.3 本书的知识结构 15
参考文献 17
实验室相关工作文献 17
第 2章社会网络分析理论与相关技术基础 18
2.1 社会网络分析方法 18
2.1.1 社会网络分析方法的发展与研究的问题域 18
2.1.2 社会网络分析方法的主要理论与概念体系 24
2.1.3 社会网络分析的主要研究方法与分析工具 28
2.2 自然语言处理 31
2.2.1 自然语言处理的基本问题 31
2.2.2 中文分词 32
2.2.3 命名实体识别 33
2.2.4 共指消解 34
2.2.5 实体关系的抽取 34
2.2.6 事件探测与追踪 35
2.3 数据挖掘与机器学习方法概述 35
2.3.1 数据挖掘与机器学习方法 35
2.3.2 基于 Web的文本挖掘 39
2.4 本章小结 41
参考文献 42
第 3章中文文本特征与词分析技术 43
3.1 中文文本的基本特征 43
3.1.1 中文文本的基本特征 43
3.1.2 中文文本分析的任务与数据结构特征 45
3.1.3 中文文本句法结构分析 50
3.1.4 基于统计的句法分析方法 54
3.2 中文分词技术 55
3.2.1 中文分词的核心问题 55
3.2.2 基于规则的中文分词的关键技术与算法 58
3.2.3 基于统计的中文分词的关键技术与算法 60
3.2.4 基于理解的分词方法 65
3.2.5 主要中文分词工具 65
3.3 主题词库的构建 67
3.3.1 主题词基本概念 67
3.3.2 主题词间的关系定义 69
3.3.3 主题词的抽取方法 71
3.3.4 主题词库的构建 73
3.4 本章小结 79
参考文献 80
实验室相关工作 80
第 4章社会网络环境下的文本数据预处理技术 81
4.1 文本数据的词义冲突与数据消歧 81
4.1.1 文本数据存在的词义冲突与消歧 81
4.1.2 基于知识的词义消歧方法 83
4.1.3 无监督的词义消歧技术 86
4.1.4 有监督的词义消歧技术 89
4.2 文本数据的稀疏性与降维 90
4.2.1 数据稀疏问题及解决 91
4.2.2 数据平滑技术 92
4.2.3 数据降维方法 93
4.3 数据融合 97
4.3.1 数据融合的概念与方法 98
4.3.2 实体的识别与统一表示 99
4.3.3 数据冲突处理 102
4.3.4 数据关联 103
4.4 本章小结 104
参考文献 104
实验室相关工作 106
第 5章文本聚类方法分析 107
5.1 聚类基础概念 107
5.1.1 聚类算法的定义 107
5.1.2 聚类算法的目标与基本数据结构 108
5.1.3 数据对象距离及相似度度量 109
5.1.4 其他数据类型与相似度度量 111
5.2 常用的文本聚类算法 113
5.2.1 文本聚类的基本需求 113
5.2.2 文本聚类方法 114
5.2.3 文本聚类结果的评价方法 120
5.3 基于文本数据流的聚类方法121
5.3.1 数据流问题的背景 121
5.3.2 数据流基本概念与模型 122
5.3.3 数据流聚类方法 124
5.3.4 演化分析技术 129
5.4 本章小结 131
参考文献 131
实验室相关工作 133
第 6章文本分类方法134
6.1 分类基础概念 134
6.1.1 分类问题的定义 134
6.1.2 文本分类与目标 135
6.1.3 分类算法的评价 136
6.2 基于概率的贝叶斯分类方法137
6.2.1 贝叶斯概率公式 138
6.2.2 朴素贝叶斯分类原理 138
6.2.3 基于朴素贝叶斯分类算法的文本分类器设计 139
6.2.4 贝叶斯网络模型 141
6.3 基于核的分类算法 143
6.3.1 支持向量机算法 143
6.3.2 核函数的定义 145
6.3.3 多类问题的求解算法 147
6.4 其他分类器的常用构造算法149
6.4.1 Rocchio分类算法 149
6.4.2 KNN算法 149
6.4.3 Boosting算法 151
6.5 本章小结 152
参考文献 153
第 7章信息抽取与摘要自动生成技术 154
7.1 命名实体的识别与抽取技术154
7.1.1 命名实体识别的基本任务 154
7.1.2 人名实体抽取 156
7.1.3 地名实体抽取方法 160
7.1.4 机构名实体抽取方法 163
7.2 网络文本数据中的实体间关系的抽取165
7.2.1 实体关系的定义与基本分类 165
7.2.2 存在关系的实体对抽取方法 166
7.2.3 基于核函数的实体关系抽取方法 168
7.3 话题识别与追踪技术(TDT)171
7.3.1 话题识别与追踪需要解决的问题与目标 171
7.3.2 话题识别与追踪的经典方法 173
7.3.3 话题识别与追踪的评价方法 175
7.4 自动摘要生成技术 176
7.4.1 自动文档摘要生成所需要解决的问题与目标 176
7.4.2 单文档自动摘要生成技术 178
7.4.3 多文档自动文摘生成的关键技术 181
7.4.4 自动摘要系统的评价标准 183
7.5 本章小结 185
参考文献 185
第 8章社会网络中社区识别与信息传播188
8.1 网络社区的识别 188
8.1.1 网络社区的概念 189
8.1.2 网络社区的特征与关键问题 191
8.1.3 基于非重叠社区的发现算法 195
8.1.4 基于重叠的网络社区发现与识别算法 198
8.1.5 社区发现算法评价方法 201
8.2 网络信息的传播模型 203
8.2.1 网络信息传播中的基本问题 203
8.2.2 行动者影响力分析 204
8.2.3 信息传播动力学模型 207
8.3 链接预测模型与方法 211
8.3.1 链接预测的概念与主要目标 212
8.3.2 链接预测存在的主要算法分类与指标 212
8.3.3 链接预测存在的经典算法 215
8.4 本章小结 218
参考文献 218
第 9章社会网络下的情感分析221
9.1 情感计算的基本概念与问题挑战221
9.1.1 情感分析的概念与研究目标 221
9.1.2 情感词的识别与标注 223
9.1.3 情感词典的构建 225
9.2 文本的主/客观分析与观点挖掘分析方法228
9.2.1 文本的主/客观分析方法 228
9.2.2 观点挖掘分析方法 229
9.3 情感分析与计算方法 232
9.3.1 基于词的经典情感计算与分析方法 232
9.3.2 不同粒度下的情感分析方法 234
9.3.3 文档主体对象的情感倾向分析方法 240
9.3.4 跨领域文档的情感倾向分析方法 245
9.3.5 情感计算评价方法 245
9.4 本章小结 246
参考文献 247
第 10章数据可视化技术250
10.1 可视化技术概述 250
10.1.1 可视化技术的基本概念与目标 250
10.1.2 可视化技术的分类 252
10.2 社会网络可视化的静态分析方法260
10.2.1 社会网络环境下的可视化方法介绍 260
10.2.2 力导引布局(Force-directed Layout)相关算法 262
10.2.3 层次布局(Tier-based Layout) 264
10.2.4 树形布局(Tree-based Layout) 269
10.3 动态可视化交互方法与可视化模式挖掘技术273
10.3.1 可视化的动态交互与形变技术 274
10.3.2 可视化模式挖掘与分析方法 277
10.4 数据可视化的质量评价方法278
10.4.1 数据可视化的质量评价模型 278
10.4.2 数据可视化的质量评价指标 280
10.5 本章小结 281
参考文献 282
第 11章社会计算与舆情分析应用284
11.1 社会网络舆情分析与应用284
11.1.1 分析指标体系与分析模型的建立 284
11.1.2 分析平台的建立与应用 288
11.2 企业社会网络分析与应用289
11.2.1 企业社会网络构造方法 290
11.2.2 企业特征的抽取 291
11.2.3 企业社会网络服务平台与可视化分析 292
11.3 专家网络与知识图谱应用293
11.3.1 专家模型的构建与属性抽取规则 293
11.3.2 专家模型中的属性消歧与网络构建 297
11.4 专利地图的应用298
11.4.1 专利地图的研究与制作方法 298
11.4.2 专利地图的构建与分析 299
11.5 金融风险预测与分析应用302
11.6 本章小结304
参考文献 305
第 12章社会计算与舆情分析的技术发展趋势307
12.1 大数据与数据世系 308
12.2 基于机器学习的类人脑科学的演化310
12.3 社会计算向社会智能的演化312
12.4 小结 314
参考文献 315
附录 A基于信息传播的分类及网站示例 317
附录 B 基于 LDA模型的候选主题词抽取算法描述318
附录 C常用的中文停用词表321
附录 D TBDC4TS聚类算法伪代码示意333
后记335