搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
文本数据挖掘(第2版)/中国科学院大学研究生教学辅导书系列
0.00     定价 ¥ 99.00
图书来源: 浙江图书馆(由浙江新华配书)
此书还可采购25本,持证读者免费借回家
  • 配送范围:
    浙江省内
  • ISBN:
    9787302612957
  • 作      者:
    作者:宗成庆//夏睿//张家俊|责编:黎强//孙亚楠
  • 出 版 社 :
    清华大学出版社
  • 出版日期:
    2022-11-01
收藏
畅销推荐
内容介绍
文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法,理解、分析和挖掘文本的内容,从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。本书主要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法,包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等,最后通过具体实例展示相关技术在实际应用中的使用方法。 本书可作为高等院校计算机、自动化、网络安全、大数据分析等专业,以及利用到文本信息处理的交叉学科(如金融财经、社会人文、生物医药等)的高年级本科生或研究生从事相关研究的入门参考书,也可供相关技术研发人员阅读和参考。
展开
目录
第1章 绪论
1.1 基本概念
1.2 文本挖掘任务
1.3 文本挖掘面临的困难
1.4 方法概述与本书的内容组织
1.5 进一步阅读
习题
第2章 数据预处理和标注
2.1 概述
2.2 数据获取
2.3 数据预处理
2.4 数据标注
2.5 基本工具
2.5.1 汉语自动分词与词性标注
2.5.2 句法分析
2.5.3 n元语法模型
2.6 进一步阅读
习题
第3章 文本表示
3.1 概述
3.2 向量空间模型
3.2.1 向量空间模型的基本概念
3.2.2 特征项的构造与权重
3.2.3 文本长度规范化
3.2.4 特征工程
3.2.5 其他文本表示方法
3.3 词的分布式表示
3.3.1 神经网络语言模型
3.3.2 C&W模型
3.3.3 CBOW与Skip-gram模型
3.3.4 噪声对比估计与负采样
3.3.5 字词混合的分布式表示方法
3.4 短语的分布式表示
3.4.1 基于词袋的分布式表示
3.4.2 基于自动编码器的分布式表示
3.5 句子的分布式表示
3.5.1 通用的句子表示
3.5.2 任务相关的句子表示
3.6 文档的分布式表示
3.6.1 通用的文档分布式表示
3.6.2 任务相关的文档分布式表示
3.7 进一步阅读
习题
第4章 预训练语言模型
4.1 概述
4.2 ELMo:源自语言模型的语境化分布式向量表示
4.2.1 基于双向LSTM的语言模型
4.2.2 适应下游任务的语境化ELMo词向量
4.3 GPT:生成式预训练模型
4.3.1 Transformer
4.3.2 GPT预训练
4.3.3 GPT微调
4.4 BERT:双向Transformer编码表示
4.4.1 BERT预训练
4.4.2 BERT微调
4.4.3 XLNet:广义自回归预训练模型
4.4.4 UniLM
4.5 进一步阅读
习题
第5章 文本分类
5.1 概述
5.2 传统文本表示
……
第6章 文本聚类
第7章 主题模型
第8章 情感分析与观点挖掘
第9章 话题检测与跟踪
第10章 信息抽取
第11章 文本自动摘要
第12章 技术应用
参考文献
名词术语索引
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证