第1章 文本检索技术<br> 1.3 文本预处理<br> 1.3.1 停用词删除<br> 我们知道如果一个词在某个文本中多次出现,那么这个词就很有可能与文本的主题密切相关。然而如果一个词在多个文本中出现,而且频率过高,那么它对文本的区别能力就非常低。一般地,在文档库的文本中出现频率超过80%的词对检索过程根本起不到作用。这部分词被称为停用词(stopword)。在选择构建索引的词时,停用词需要被过滤,以提高索引效率。一般地,冠词、介词、连词等都是停用词,实际检索系统都会设置一个停用词表。<br> 删除停用词可以大大缩小索引空间的大小,一般可以缩小40%左右。删除停用词的缺点是可能会影响检索系统的查准率,有的文本检索系统为了克服这一缺点采用全文索引,并不剔除停用词,对所有的词都建立索引。<br> 1.3.2 词干提取<br> 词干提取是为了解决英文检索中存在的问题而采取的操作。词于是指将词的词缀(前缀和后缀)删除后剩下的部分。例如单词“compete”是它的变形“competes”、“competitor”、“competition”、“competin9”和“competed”的词干。在英文检索中,如果用户输入的词是信息库中某个相关文本中词的一种变形,词的变形可以是该词的复数、动名词或者过去分词形式等,那么这些相关文本将被视作与查询无关的文本,这将大大影响召回率。为解决这个问题,在构建索引时,用词干来代替词干的所有变形。<br> 词干提取不仅在很大程度上提高召回率,改善信息检索的性能,同时由于词干的众多变形都由词干代替,用于构建索引的词数量也大大减少,索引空间也进一步缩小。<br> 目前,词干提取技术可以分为:词缀删除、表格查询、后续变形、N-连字。词缀删除技术比较直观、简单、有效。在词缀删除中,最重要的就是对词中后缀的删除,因为大多数词的变形是通过后缀来实现的。目前已经有多种关于词缀删除的算法,其中,Porter算法以其简单性和有效性而得到广泛应用。表格查询技术通过在表格中查找某个词的词干来实现,表格中的信息依赖于整个语言中词的词干,因此通常需要相当大的存储空问来存放表格,这就制约了表格查询技术的应用。后续变形技术主要是通过结构化语言的知识来确定词素的边界,这种技术比词缀删除技术复杂。N-连字技术判断单词中的字母是否连在一起,这一过程实际上是词条聚类的过程。
展开