搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
社交网站的数据挖掘与分析
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787111486992
  • 作      者:
    Matthew A. Russell著
  • 出 版 社 :
    机械工业出版社
  • 出版日期:
    2015
收藏
编辑推荐
  全面讲解社交网站数据分析的指南;
  第21届Jolt生产效率大奖获奖图书;
  对主流的各种社交网络进行了全面覆盖,全部源码维护于Github,读者可以通过IPython Notebook运行书中的全部示例代码
展开
作者简介
  Matthew A. Russell,Digital Reasoning Systems公司首席技术官(CTO)、Zaffra公司负责人。作为一名计算机科学家,他热衷于数据挖掘、开源软件开发和创造技术以扩展人类智能。
展开
内容介绍
  社交网站数据如同深埋地下的“金矿”,如何利用这些数据来发现哪些人正通过社交媒介进行联系?他们正在谈论什么?或者他们在哪儿?本书第2版对上一版内容进行了全面更新和修订,它将揭示回答这些问题的方法与技巧。你将学到如何获取、分析和汇总散落于社交网站(包括Facebook、Twitter、LinkedIn、Google+、 GitHub、邮件、网站和博客等)的数据,以及如何通过可视化找到你一直在社交世界中寻找的内容和你闻所未闻的有用信息。
  ■ 借助IPython Notebook、自然语言工具包、NetworkX和其他科学计算工具挖掘主流社交网站
  ■ 使用高级文本挖掘技术(如聚类和TF-IDF)来提取人类语言数据中有价值的知识
  ■ 通过发现GitHub上人、编程语言和代码工程间的亲密性,构建兴趣图谱
  ■ 利用D3.js进行交互式可视化,充分发挥HTML5和JavaScript工具包的灵活特性
  ■ 以“问题-解决方案-讨论”的方式详细讲解深入挖掘Twitter数据的实用技术,并提供代码示例
  本书的配套代码在公开的GitHub代码库中进行维护,可以通过一站式虚拟机来访问,你只需要使用方便易用的IPython Notebook,即可进入愉快的交互式学习情景。
展开
精彩书评
  ★“不管你是否是程序员,通过API来挖掘见解都是必备的技能。本书展示了大量关键数据源,通过工具,可以令编码变得轻松。”
  ——Kevin Makice 《Twitter APl: Up and Running》 作者

  ★“本书使用简洁的交互式代码向读者展示了社交网站数据的全新视角。所有的这些都可以在浏览器中呈现。通过学习这些广泛的示例,读者可以将探索算法复杂度、自然语言处理以及物联网前景等计算机科学中艰深概念的过程变成一次奇妙的旅行。”
  ——Jason Yee Digital Reasoning公司 数据科学家
展开
精彩书摘
  第一部分
  社交网络导引
  本书的第一部分命名为“社交网络导引”,因为它提出了若干从一些最流行社交网站获得直接价值的实用技巧。你将学习如何访问API并分析来自Twitter、Facebook、LinkedIn、Google+、网页、博客和订阅、电子邮件以及GitHub账户的社交数据。一般情况下,每个章节都是相对独立的并讲述一个自成体系的故事,但第一部分所有章节串联起来也讲述一个更完整的故事。在进入轻松地讨论与当前社交网络生活有关的语义网知识之前,主题的复杂性渐次增强。
  因为复杂性是逐步增加的,我们鼓励你依次阅读每一章,但你也应该精选某些章节并跟随其中的示例。每章的示例代码合并到一个单独的IPython Notebook,每个Notebook都是根据本书中的章节编号命名。
  注意: 本书的源代码可以在GitHub(http://bit.ly/1a1kNqy)上找到。我们强烈鼓励你借助虚拟机体验,这样你可以在一个预先配置的“恰好工作”(just work)的开发环境中顺利运行示例代码。
  序幕
  虽然已在前言中提及而且将继续不经意地在后续各章提起,这不是随正文内容配有示例代码库的传统科技书籍。这本书一反常态并为技术书籍定义一个新标准,其中的代码是作为一流的、开源软件项目来管理的,而本书则是对该代码库的“高级”支持。
  为了达到这一目标,经过精心考虑,把本书的讨论与代码示例尽可能完美地集成为一个自然的学习体验。经过与第1版读者的多次讨论并针对教训予以反思,很明显,通过运行有虚拟机的服务器的支持并植根于坚实的配置管理的交互式用户界面是本书最可取的方式。没有更简更好的方式能够赋予你对代码的完全控制权,同时确保代码将“恰好工作”,而不必担心你是使用Mac OS、Windows或Linux,你是运行在32位或64位机,是否和第三方软件的依赖关系改变了或是破坏了API。
  好好利用这个强大的互动学习环境。
  注意: 关于建立一个本书第2版中虚拟机过程的更多思考,请进一步阅读“创作最小可行著作的思考”一文(http://bit.ly/1a1kPyJ)。
  虽然第1章是开始阅读最合理的地方,但当准备开始运行代码示例时,你应该花点时间来熟悉附录A和附录C。附录A提供了一个在线文档并带有截屏,引导你通过一个快速简便的安装过程建立虚拟机。附录C给出了在线文档,提供一些背景资料,有助于你从交互式虚拟机体验中获得最大价值。
  即使你是一位经验丰富的开发者,能够凭一己之力做好这一切工作,在首次尝试本书时试用虚拟机能让你免受软件安装过程中必然遭遇的小挫折。
  ……
展开
目录
前言 1
第一部分 社交网络导引
序幕 13
第1章 挖掘Twitter:探索热门话题、发现人们的谈论内容等 15
1.1 概述 15
1.2 Twitter风靡一时的原因 16
1.3 探索Twitter API 18
1.4 分析140字的推文 33
1.5 本章小结 47
1.6 推荐练习 48
1.7 在线资源 48
第2章 挖掘Facebook:分析粉丝页面、查看好友关系等 50
2.1 概述 51
2.2 探索Facebook的社交图谱API 51
2.3 分析社交图谱联系 62
2.4 本章小结 85
2.5 推荐练习 86
2.6 在线资源 86
第3章 挖掘LinkedIn:分组职位、聚类同行等 88
3.1 概述 89
3.2 探索LinkedIn API 89
3.3 数据聚类速成 94
3.4 本章小结 124
3.5 推荐练习 125
3.6 在线资源 126
第4章 挖掘Google+:计算文档相似度、提取搭配等 127
4.1 概述 128
4.2 探索Google+ API 128
4.3 TF-IDF简介 138
4.4 用TF-IDF查询人类语言数据 145
4.5 本章小结 164
4.6 推荐练习 165
4.7 在线资源 165
第5章 挖掘网页:使用自然语言处理理解人类语言、总结博客内容等 167
5.1 概述 168
5.2 抓取、解析、爬取网页 168
5.3 通过解码语法来探索语义 174
5.4 以实体为中心的分析:范式转换 192
5.5 人类语言数据处理分析的质量 200
5.6 本章小结 203
5.7 推荐练习 203
5.8 在线资源 204
第6章 挖掘邮箱:分析谁和谁说什么以及说的频率等 206
6.1 概述 207
6.2 获取和处理邮件语料库 207
6.3 分析Enron语料库 225
6.4 探索和可视化时序趋势 241
6.5 分析你自己的邮件数据 244
6.6 本章小结 250
6.7 推荐练习 251
6.8 在线资源 251
第7章 挖掘GitHub:检查软件协同习惯、构建兴趣图谱等 253
7.1 概述 254
7.2 探索GitHub的API 254
7.3 使用属性图为数据建模 260
7.4 分析GitHub兴趣图谱 264
7.5 本章小结 286
7.6 推荐练习 287
7.7 在线资源 287
第8章 挖掘带标记语义网:提取微格式、推断资源描述框架等 289
8.1 概述 290
8.2 微格式:易于实现的元数据 290
8.3 从语义标记过渡到语义网:一个小插曲 304
8.4 语义网:发展中的变革 304
8.5 本章小结 310
8.6 推荐的练习 311
8.7 在线资源 311
第二部分 Twitter实用指南
第9章 Twitter实用指南 317
9.1 访问Twitter的API(开发目的) 318
9.2 使用OAuth访问Twitter的API(产品目的) 319
9.3 探索流行话题 323
9.4 查找推文 324
9.5 构造方便的函数调用 325
9.6 使用文本文件存储JSON数据 326
9.7 使用MongoDB存储和访问JSON数据 327
9.8 使用信息流API对Twitter数据管道抽样 329
9.9 采集时序数据 330
9.10 提取推文实体 332
9.11 特定的推文范围内查找最流行的推文 333
9.12 特定的推文范围内查找最流行的推文实体 335
9.13 对频率分析制表 336
9.14 查找转推了状态的用户 337
9.15 提取转推的属性 339
9.16 创建健壮的Twitter请求 340
9.17 获取用户个人资料信息 343
9.18 从任意的文本中提取推文实体 344
9.19 获得用户所有的好友和关注者 345
9.20 分析用户的好友和关注者 347
9.21 获取用户的推文 348
9.22 爬取好友关系图 350
9.23 分析推文内容 351
9.24 提取链接目标摘要 353
9.25 分析用户收藏的推文 356
9.26 本章小结 357
9.27 推荐练习 358
9.28 在线资源 359
第三部分 附录
附录A 关于本书虚拟机体验的信息 363
附录B OAuth入门 364
附录C Python和IPython Notebook的使用技巧 368
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证