第2章 文本分类概述
2.5 文档的表示
2.5.1 文档的特征
对文档进行预处理以后,需要根据文本分类模型对文档进行相应的特征表示,从文档的组成来看,它是字符串的集合,一般来说,文档的特征项应该具有以下特点:特征项是能够对文档进行充分表示的语言单位;文档在特征项集合上的分布具有较为明显的统计规律;特征项分离比较容易实现,计算复杂度不太大,在文本分类中,按照文档特征的粒度来划分,常用的特征单位有词、词组、N—Gram(N元)项和概念等,中文有时也把词性作为文档的特征,
1.词
在信息检索领域,词(Word)是使用最为普遍的文档特征,英语、法语和德语等西方语言通常采用空格或标点符号将词隔开,具有天然的分隔符,所以词的获取简单,中文、日文和韩文等东方语言,句子之间有分隔符,但词与词之间没有分隔符,所以需要分词来得到词。
展开