《基于半监督与集成学习的文本分类方法》:
②根据特征的辨别能力,筛选出一定数量的特征;
③调整特征的权重,强调辨别能力强的特征,抑制没有辨别能力或辨别能力低的特征。
步骤①的实现通常是构造一种特征评估函数来计算每个特征的辨别能力。常用的评估函数是从信息论中延伸出来的,用于给各个特征词条打分,很好地反映了词条与各类之间的相关程度,如文本频率(Document Frequency)、信息增益(Information Gain)、期望交叉熵(Expected Cross Entropy)、互信息(Mutual Information)、x2统计量(CHI)、单词权(Term Strength)、文本证据权(the Weight ofEvidence for Text)和几率比(Odds Ratio)等。特征的辨别能力由评估分的高低来衡量。
步骤②的实现有两种方法:方法一,设置一个评估分阈值,低于该阈值的特征被删除;方法二,设置一个保留特征数阈值,必须先按照特征的评估分排序,保留排在前面的预定数量的特征。这两种方法各有优缺点。方法一的优点是不需要排序算法,时间效率高;缺点是评估分的阈值难以确定,它与评估函数有关,并且随着训练文本集的改变而变化。方法二的阈值比较好确定,缺点是必须按排序评估分排序,即使采用快速排序法,时间复杂度也是O(nlogn),n是训练文本集的特征总数。
作者提出了一种改进方法——评估分阈值比率法,综合了二者的优点。评估分阈值比率法先计算出所有特征的评估分的平均值aver score,然后设置一个比率阈值thred pi,这比方法一指定常数阈值要容易得多,而且不需要方法二中的排序过程,提高了时间效率。
步骤③一般是构造一种权重调整策略。如果没有这一步,就是普通的特征选择。权重调整的目的是突出重要的特征、抑制次要的特征。TF—IDF权重函数根据特征的逆文本频率IDF调整权重。分析TFIDF权重函数,逆文本频度IDF不能很好地反映特征的重要性,然而使用文本处理中的一些常用的评估函数独立地给每个特征打分,评估分的高低能够很好地代表特征的重要性,因此很自然地想到使用一些常用的评估函数代替逆文本频度IDF进行权重调整,这就是作者的TEF—WA(Term Evaluation Function—WeightAdjustment)权值调整技术的基本思想。新的权值函数称为TF—TEF权重函数,TEF(Term Evaluation Function)代表特征评估函数,TF—TEF权重公式如下。
……
展开