《面向大数据的高效能垃圾文本分类》全面介绍了大数据时代垃圾信息的爆发态势和文本特性,并根据信息文档的多域结构特性和文本Token频率分布的幂律特性,提出了多域学习的思想。研究了一整套面向大数据的高效能垃圾文本分类方法。
《面向大数据的高效能垃圾文本分类》共分7章,第1章分析大数据时代垃圾信息态势,第2章概述垃圾信息过滤方法,第3章研究电子邮件文档和手机短信文档的文本特性,第4章研究多域学习总体框架,第5章提出基于Token频率索引的文本分类算法,第6章研究有监督反馈代价问题,第7章设计面向大数据的高效能垃圾文本过滤系统。
《面向大数据的高效能垃圾文本分类》可以作为普通高等院校、科研机构大数据计算技术相关专业高年级本科生或研究生的实验教材,也可供网络信息技术公司高级研究人员参考。
展开