本书主要介绍文本大数据挖掘技术及其在文本自动整编领域的应用方法。除绪论外,本书的主要内容分为上下两篇,共9章。绪论介绍了文本自动整编的相关技术及研究现状,并提出了两种可行的文本自动整编方案。本书的上篇主要介绍了基于抽取式方法的文本自动整编技术,内容包括:面向信息检索的抽取式多文档摘要技术架构、基于多示例框架的深度关联匹配、基于多粒度语义交互的抽取式文档摘要以及基于层次注意力和指针机制的句子排序。下篇主要介绍了基于生成式方法的文本自动整编技术,内容包括:生成式文本自动整编技术架构、基于预训练和深度哈希的文本表示学习、基于两阶段半监督训练的长文本聚类以及基于语句融合及自监督训练的文本摘要生成。第9章对全书内容进行总结,并对后续发展方向提出展望。
本书可作为数据科学与大数据技术、人工智能等相关学科专业的本科生或研究生的教学用书,也可作为自然语言处理或文本挖掘相关领域科研人员的参考书。
展开