搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
文本挖掘:基于R语言的整洁工具
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787111588559
  • 作      者:
    Julia Silge,David Robinson著
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2018
收藏
作者简介

Julia Silge 是Stack Overflow的数据科学家,负责复杂数据集分析及与不同受众进行技术主题交流。 她拥有天体物理学博士学位,热爱简·奥斯汀和制作美丽的图表。

David Robinson 是Stack Overflow的数据科学家,普林斯顿大学定量与计算生物学博士。他喜欢开发开源R软件包,包括broom、gganimate、fuzzyjoin和widyr,还喜欢撰写统计、R和文本挖掘等方面的博客。

展开
内容介绍

本书由tidytext创建者亲笔撰写,系统阐述如何使用基于R的整洁工具来进行文本分析。书中首先介绍整洁文本的格式,以及如何获取整洁文本数据集;并通过tidytext中的情感数据集来进行情绪分析;接着介绍如何根据tf-idf统计量来识别特定文档中的重要单词,以及如何利用n-gram来分析文本中的文字网络;之后介绍如何将整洁文本转换为文档词项矩阵和Corpus对象格式,并给出了主题建模的概念;最后通过整合多种已知的整洁文本挖掘方法,给出了一些研究案例,这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通讯信息。总的来说,本书侧重于分析文学、新闻和社交媒体方面的文本,非常适合从事相关文本挖掘的工作人员,也适合自然语言的初学者。与此同时,使用书中提供的大量针对性编程例子,不但可以提高工程实战能力,而且可以在本书提到的整洁框架上建立自己的分析任务。

展开
精彩书评

“David和Julia已经在tidytext包集成了文本分析方法,因此不再需要学习一套全新的工具集,可以应用所有熟悉的数据框方法和可视化方法。”

– Hadley Wickham,RStudio首席科学家,Auckland大学、Stanford大学、Rice大学统计学教授


展开
目录

目录

前言 1

第1章 整洁文本格式 7

比较整洁文本结构与其他数据结构 8

unnest_tokens函数 8

整理Jane Austen的作品 10

gutenbergr包 13

词频 13

总结 17

第2章 基于整洁数据的情感分析 18

情感数据集 18

内连接的情感分析 21

比较三个情感词典 24

最常见的正面单词和负面单词 26

Wordclouds模块 28

除单词外的其他文本单元 30

总结 32

第3章 分析词和文件频率:tf-idf 33

Jane Austen小说中的词项频率 34

Zipf定律 35

bind_tf_idf函数 38

物理学语料库 41

总结 45

第4章 词之间的关系:n-gram及相关性 46

n-gram词条化 46

用widyr包对单词对计数并计算相关性 60

总结 66

第5章 非整洁格式转换 67

使文档–词项矩阵整洁 67

将整洁文本数据转换为矩阵 74

总结 84

第6章 主题建模 85

LDA 86

示例:博大的图书馆馆藏 91

LDA方法的替代实现 101

总结 102

第7章 案例研究:Twitter归档文件比较 103

单词使用情况的比较 107

单词使用情况的变化 109

收藏和转发 113

总结 117

第8章 案例研究:NASA元数据挖掘 118

NASA如何组织数据 118

共现单词与相关单词 123

计算描述字段的tf-idf 129

总结 142

第9章 案例研究:分析Usenet文本 143

预处理 143

新闻组中的单词 146

情感分析 151

总结 159

参考文献 160


展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证