文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法,理解、分析和挖掘文本的内容,从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。本书主要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法,包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等,最后通过具体实例展示相关技术在实际应用中的使用方法。
本书可作为高等院校计算机、自动化、网络安全、大数据分析等专业,以及利用到文本信息处理的交叉学科(如金融财经、社会人文、生物医药等)的高年级本科生或研究生从事相关研究的入门参考书,也可供相关技术研发人员阅读和参考。
展开