《基于多维尺度分析的潜在主题可视化研究》:
3.3.2文本分词和预处理
潜在主题可视化的第一步是根据研究目标确定需要分析的目标文本集。这一步骤是根据具体的需求,从原始文本数据库中抽取并汇总成与文本挖掘任务有关的源文本数据的过程。该步骤可以缩小处理范围,提高文本挖掘的质量。源文本数据的内容质量直接影响知识发现的有效性。不仅依赖于文本挖掘要求本身以及一些通用的知识,也依赖于文本挖掘算法所应用的具体领域的专家经验和知识。
获取目标文本集之后,需要对其进行预处理,才能保证潜在主题可视化的效果。预处理的主要目的是提取文本集的特征和强化特征表示的语义属性。特征提取和属性强化的步骤包括文本分词、数据清洗、同义词合并、低频词去除、扎根理论中的开放式编码,最后生成词条一文本矩阵,作为潜在主题可视化的输入数据。
文本的篇幅、语言类型、结构化和格式化程度、是否具有网络属性等因素都是潜在主题可视化需要考虑的影响因素。在预处理阶段,根据文本集的不同特征,需要进行相应的特殊处理,在本节中会对不同文本的处理方法进行介绍。
(1)分词
对于英文文本来说,英文单词天然地被空格隔开,可以按空格对单词进行划分,然后去除停用词,采用正则表达式来实现。对于英文来说,以词组为单位抽取特征项更容易保持原有的语义结构,但实现起来较为复杂。笔者以单词为单位来抽取特征项,虽然在抽取的时候损失了部分语义,但由于多维尺度分析提供的可视化聚类功能,可以通过相应的方法设计把用户关心的词组还原出来。
……
展开