信阅平台

内容介绍

　　文本分类技术广泛应用于新闻媒体、网络期刊文献、数字图书馆、互联网等领域，是人类处理海量文本信息的重要手段。　
　　《基于半监督与集成学习的文本分类方法》重点探讨了利用信息论中的评估函数量化特征权值的方法；基于权值调整改进Co-training的算法；利用互信息或CHI统计量构造特征独立模型，进行特征子集划分的方法；基于投票熵维护样本权重的BoostVE分类模型；融合半监督学习和集成学习的SemiBoost-CR分类模型。
　　其中特征选择和权值调整方法、基于特征独立模型划分特征子集的方法适用于文本分类，其他算法不仅适用于文本分类，对机器学习和数据挖掘的其他研究也有较大的参考价值和借鉴作用。

展开

精彩书摘

　　《基于半监督与集成学习的文本分类方法》：
　　②根据特征的辨别能力，筛选出一定数量的特征；
　　③调整特征的权重，强调辨别能力强的特征，抑制没有辨别能力或辨别能力低的特征。
　　步骤①的实现通常是构造一种特征评估函数来计算每个特征的辨别能力。常用的评估函数是从信息论中延伸出来的，用于给各个特征词条打分，很好地反映了词条与各类之间的相关程度，如文本频率（Document Frequency）、信息增益（Information Gain）、期望交叉熵（Expected Cross Entropy）、互信息（Mutual Information）、x2统计量（CHI）、单词权（Term Strength）、文本证据权（the Weight ofEvidence for Text）和几率比（Odds Ratio）等。特征的辨别能力由评估分的高低来衡量。
　　步骤②的实现有两种方法：方法一，设置一个评估分阈值，低于该阈值的特征被删除；方法二，设置一个保留特征数阈值，必须先按照特征的评估分排序，保留排在前面的预定数量的特征。这两种方法各有优缺点。方法一的优点是不需要排序算法，时间效率高；缺点是评估分的阈值难以确定，它与评估函数有关，并且随着训练文本集的改变而变化。方法二的阈值比较好确定，缺点是必须按排序评估分排序，即使采用快速排序法，时间复杂度也是O（nlogn），n是训练文本集的特征总数。
　　作者提出了一种改进方法——评估分阈值比率法，综合了二者的优点。评估分阈值比率法先计算出所有特征的评估分的平均值aver score，然后设置一个比率阈值thred pi，这比方法一指定常数阈值要容易得多，而且不需要方法二中的排序过程，提高了时间效率。
　　步骤③一般是构造一种权重调整策略。如果没有这一步，就是普通的特征选择。权重调整的目的是突出重要的特征、抑制次要的特征。TF—IDF权重函数根据特征的逆文本频率IDF调整权重。分析TFIDF权重函数，逆文本频度IDF不能很好地反映特征的重要性，然而使用文本处理中的一些常用的评估函数独立地给每个特征打分，评估分的高低能够很好地代表特征的重要性，因此很自然地想到使用一些常用的评估函数代替逆文本频度IDF进行权重调整，这就是作者的TEF—WA（Term Evaluation Function—WeightAdjustment）权值调整技术的基本思想。新的权值函数称为TF—TEF权重函数，TEF（Term Evaluation Function）代表特征评估函数，TF—TEF权重公式如下。
　　……

展开

第1章绪论
1.1 研究背景及意义
1.1.1 数据挖掘和文本挖掘
1.1.2 文本分类及其面临的问题
1.2 国内外相关研究
1.2.1 半监督学习
1.2.2 集成学习
1.3 本书内容组织

第2章文本分类技术概述
2.1 文本分类预处理
2.2 文本的表示
2.3 特征选择
2.3.1 初始特征选择
2.3.2 特征选择算法
2.4 文本分类算法
2.4.1 质心向量分类算法
2.4.2 K近邻分类算法
2.4.3 贝叶斯分类算法
2.4.4 关联规则分类算法
2.4.5 支持向量机
2.4.6 其他分类算法
2.5 实验数据集
2.6 分类模型的评估方法
2.7 本章小结

第3章 TEF-WA权值调整技术
3.1 特征选择存在的问题
3.2 TEF-WA权值调整技术
3.2.1 TEF-WA权值调整的基本思想
3.2.2 各种评估函数的TEF-WA权值调整
3.3 实验结果与分析
3.3.1 TEF-WA权值调整的有效性
3.3.2 不同评估函数的权值调整
3.3.3 评估比较
3.4 本章小结

第4章结合TEF-WA技术的Co-training改进算法
4.1 Co-training算法及其存在的问题
4.2 基于TEF-WA的特征多视图
4.2.1 TEF-WA技术
4.2.2 基于TEF-WA的特征多视图
4.3 基分类器间的差异性评估
4.4 TV-SC算法与TV-DC算法
4.5 实验结果及其分析
4.6 本章小结

第5章基于特征独立模型的Co-training改进算法
5.1 特征独立模型
5.1.1 基于条件互信息的相互独立性
5.1.2 基于条件2统计量的相互独立性
5.1.3 特征独立模型
5.2 特征子集划分算法PMID
5.3 基于MID-Model的改进算法SC-PMID
5.4 实验结果及其分析
5.4.1 PMID-MI与PART-Rnd的实验比较
5.4.2 PMID-CHI与PART-Rnd的实验比较
5.4.3 PMID-MI、PMID-CHI和PART-Rnd的实验比较
5.4.4 SC-PMID-MI、SC-PMID-CHI和SC-PART-Rnd的
实验比较
5.5 本章小结

第6章基于投票信息熵和多视图的AdaBoost改进算法
6.1 AdaBoost算法
6.1.1 AdaBoost算法描述
6.1.2 AdaBoost提升NB文本分类器的问题
6.2 利用特征评估函数构造多视图
6.3 基于投票信息熵的样本权重维护新策略
6.3.1 投票信息熵
6.3.2 基于投票信息熵的样本权重维护新策略
6.3.3 样本权重对NB文本分类器的扰动
6.4 BoostVE算法
6.4.1 BoostVE算法描述
6.4.2 BoostVE算法的最小训练错误上界
6.5 实验结果及其分析
6.5.1 参数对BoostVE算法性能的影响
6.5.2 Boost VE算法与AdaBoost-MV算法、
AdaBoost算法的实验比较
6.5.3 BoostVE 算法提升NB文本分类器的有效性
6.6 本章小结

第7章结合半监督学习的SemiBoost-CR分类模型
7.1 SemiBoost-CR模型的目标函数
7.2 未标注样本的置信度
7.2.1 基于K近邻的置信度
7.2.2 基于最大差距的置信度
7.3 基于置信度的重取样策略
7.4 样本权重维护策略
7.5 SemiBoost-CR分类算法
7.6 实验结果及其分析
7.6.1 未标注近邻样本对置信度conf1的影响
7.6.2 两种置信度方法conf1和conf2的实验比较
7.6.3 topN和bottomN对SemiBoost-CR模型的影响
7.7 本章小结

第8章文本自动分类系统SECTCS
8.1 系统简介
8.2 系统总体结构
8.3 系统的用户界面
8.4 实验数据集
8.5 本章小结
结束语
参考文献

展开