本书由tidytext创建者亲笔撰写,系统阐述如何使用基于R的整洁工具来进行文本分析。书中首先介绍整洁文本的格式,以及如何获取整洁文本数据集;并通过tidytext中的情感数据集来进行情绪分析;接着介绍如何根据tf-idf统计量来识别特定文档中的重要单词,以及如何利用n-gram来分析文本中的文字网络;之后介绍如何将整洁文本转换为文档词项矩阵和Corpus对象格式,并给出了主题建模的概念;最后通过整合多种已知的整洁文本挖掘方法,给出了一些研究案例,这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通讯信息。总的来说,本书侧重于分析文学、新闻和社交媒体方面的文本,非常适合从事相关文本挖掘的工作人员,也适合自然语言的初学者。与此同时,使用书中提供的大量针对性编程例子,不但可以提高工程实战能力,而且可以在本书提到的整洁框架上建立自己的分析任务。
目录
前言 1
第1章 整洁文本格式 7
比较整洁文本结构与其他数据结构 8
unnest_tokens函数 8
整理Jane Austen的作品 10
gutenbergr包 13
词频 13
总结 17
第2章 基于整洁数据的情感分析 18
情感数据集 18
内连接的情感分析 21
比较三个情感词典 24
最常见的正面单词和负面单词 26
Wordclouds模块 28
除单词外的其他文本单元 30
总结 32
第3章 分析词和文件频率:tf-idf 33
Jane Austen小说中的词项频率 34
Zipf定律 35
bind_tf_idf函数 38
物理学语料库 41
总结 45
第4章 词之间的关系:n-gram及相关性 46
n-gram词条化 46
用widyr包对单词对计数并计算相关性 60
总结 66
第5章 非整洁格式转换 67
使文档–词项矩阵整洁 67
将整洁文本数据转换为矩阵 74
总结 84
第6章 主题建模 85
LDA 86
示例:博大的图书馆馆藏 91
LDA方法的替代实现 101
总结 102
第7章 案例研究:Twitter归档文件比较 103
单词使用情况的比较 107
单词使用情况的变化 109
收藏和转发 113
总结 117
第8章 案例研究:NASA元数据挖掘 118
NASA如何组织数据 118
共现单词与相关单词 123
计算描述字段的tf-idf 129
总结 142
第9章 案例研究:分析Usenet文本 143
预处理 143
新闻组中的单词 146
情感分析 151
总结 159
参考文献 160
“David和Julia已经在tidytext包集成了文本分析方法,因此不再需要学习一套全新的工具集,可以应用所有熟悉的数据框方法和可视化方法。”
– Hadley Wickham,RStudio首席科学家,Auckland大学、Stanford大学、Rice大学统计学教授