信阅平台

作者简介

　　赵一鸣，男，管理学博士，管理科学与工程博士后，武汉大学信息资源研究中心教师。曾于2011-2012年由国家留学基金委公派至美国威斯康辛大学密尔沃基分校留学。主持国际自然科学基金青年项目1项、中国博士后科学基金特别资助项目1项、中国博士后科学基金面上项目1项，参与国家自然科学基金重点国际合作项目、国家火炬计划重点项目、国家软科学、科技部科技基础性工作专项等课题多项。发表论文30余篇，其中，SSCI期刊论文2篇，EI期刊论文2篇，国家自然科学基金委管理学部认定的重要期刊论文4篇，人大复印资料全文转载论文2篇。

展开

内容介绍

　　本书围绕文本集潜在主题发现及可视化这一研究命题，论述了使用可视化方法表示、挖掘和展示潜在主题的基本原理，构建了潜在主题可视化的方法流程与策略体系，可用于文本知识发现、查询扩展和知识检索等领域。

展开

精彩书摘

　　《基于多维尺度分析的潜在主题可视化研究》：
　　3.3.2文本分词和预处理
　　潜在主题可视化的第一步是根据研究目标确定需要分析的目标文本集。这一步骤是根据具体的需求，从原始文本数据库中抽取并汇总成与文本挖掘任务有关的源文本数据的过程。该步骤可以缩小处理范围，提高文本挖掘的质量。源文本数据的内容质量直接影响知识发现的有效性。不仅依赖于文本挖掘要求本身以及一些通用的知识，也依赖于文本挖掘算法所应用的具体领域的专家经验和知识。
　　获取目标文本集之后，需要对其进行预处理，才能保证潜在主题可视化的效果。预处理的主要目的是提取文本集的特征和强化特征表示的语义属性。特征提取和属性强化的步骤包括文本分词、数据清洗、同义词合并、低频词去除、扎根理论中的开放式编码，最后生成词条一文本矩阵，作为潜在主题可视化的输入数据。
　　文本的篇幅、语言类型、结构化和格式化程度、是否具有网络属性等因素都是潜在主题可视化需要考虑的影响因素。在预处理阶段，根据文本集的不同特征，需要进行相应的特殊处理，在本节中会对不同文本的处理方法进行介绍。
　　（1）分词
　　对于英文文本来说，英文单词天然地被空格隔开，可以按空格对单词进行划分，然后去除停用词，采用正则表达式来实现。对于英文来说，以词组为单位抽取特征项更容易保持原有的语义结构，但实现起来较为复杂。笔者以单词为单位来抽取特征项，虽然在抽取的时候损失了部分语义，但由于多维尺度分析提供的可视化聚类功能，可以通过相应的方法设计把用户关心的词组还原出来。
　　……

展开

第1章绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 研究目的与研究问题
1.4 研究方法与思路
1.5 特色与创新点

第2章文本主题发现的理论基础
2.1 文本挖掘
2.2 知识发现

第3章潜在主题可视化的基本原理和流程
3.1 词汇集聚与潜在主题的表示
3.2 MDS可视化与潜在主题的挖掘和展示
3.3 潜在主题可视化的基本流程
3.4 小结与讨论

第4章潜在主题可视化的方法
4.1 扎根理论与潜在主题可视化的融合
4.2 潜在主题可视化中的情景模型
4.3 潜在主题可视化的方法设计
4.4 小结与讨论

第5章潜在主题可视化在上市公司风险识别中的应用
5.1 上市公司知识发现的研究现状
5.2 数据来源与处理
5.3 基于邻近矩阵的潜在主题可视化
5.4 基于质心邻近矩阵的潜在主题可视化
5.5 基于属性叠加邻近矩阵的潜在主题可视化
5.6 结果评价
5.7 小结与讨论

第6章总结与展望
6.1 本书的主要工作
6.2 研究的不足和局限性
6.3 下一步的工作
附录
参考文献

展开