信阅平台

产品特色

编辑推荐

展开

作者简介

Julia Silge 是Stack Overflow的数据科学家，负责复杂数据集分析及与不同受众进行技术主题交流。她拥有天体物理学博士学位，热爱简·奥斯汀和制作美丽的图表。

David Robinson 是Stack Overflow的数据科学家，普林斯顿大学定量与计算生物学博士。他喜欢开发开源R软件包，包括broom、gganimate、fuzzyjoin和widyr,还喜欢撰写统计、R和文本挖掘等方面的博客。

展开

内容介绍

本书由tidytext创建者亲笔撰写，系统阐述如何使用基于R的整洁工具来进行文本分析。书中首先介绍整洁文本的格式，以及如何获取整洁文本数据集；并通过tidytext中的情感数据集来进行情绪分析；接着介绍如何根据tf-idf统计量来识别特定文档中的重要单词，以及如何利用n-gram来分析文本中的文字网络；之后介绍如何将整洁文本转换为文档词项矩阵和Corpus对象格式，并给出了主题建模的概念；最后通过整合多种已知的整洁文本挖掘方法，给出了一些研究案例，这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通讯信息。总的来说，本书侧重于分析文学、新闻和社交媒体方面的文本，非常适合从事相关文本挖掘的工作人员，也适合自然语言的初学者。与此同时，使用书中提供的大量针对性编程例子，不但可以提高工程实战能力，而且可以在本书提到的整洁框架上建立自己的分析任务。

展开

精彩书评

“David和Julia已经在tidytext包集成了文本分析方法，因此不再需要学习一套全新的工具集，可以应用所有熟悉的数据框方法和可视化方法。”

– Hadley Wickham，RStudio首席科学家，Auckland大学、Stanford大学、Rice大学统计学教授

展开

精彩书摘

展开

前言 1

第1章整洁文本格式 7

比较整洁文本结构与其他数据结构 8

unnest_tokens函数 8

整理Jane Austen的作品 10

gutenbergr包 13

词频 13

总结 17

第2章基于整洁数据的情感分析 18

情感数据集 18

内连接的情感分析 21

比较三个情感词典 24

最常见的正面单词和负面单词 26

Wordclouds模块 28

除单词外的其他文本单元 30

总结 32

第3章分析词和文件频率：tf-idf 33

Jane Austen小说中的词项频率 34

Zipf定律 35

bind_tf_idf函数 38

物理学语料库 41

总结 45

第4章词之间的关系：n-gram及相关性 46

n-gram词条化 46

用widyr包对单词对计数并计算相关性 60

总结 66

第5章非整洁格式转换 67

使文档–词项矩阵整洁 67

将整洁文本数据转换为矩阵 74

总结 84

第6章主题建模 85

LDA 86

示例：博大的图书馆馆藏 91

LDA方法的替代实现 101

总结 102

第7章案例研究：Twitter归档文件比较 103

单词使用情况的比较 107

单词使用情况的变化 109

收藏和转发 113

总结 117

第8章案例研究：NASA元数据挖掘 118

NASA如何组织数据 118

共现单词与相关单词 123

计算描述字段的tf-idf 129

总结 142

第9章案例研究：分析Usenet文本 143

预处理 143

新闻组中的单词 146

情感分析 151

总结 159

参考文献 160

展开