搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
寻路大数据:海量数据与大规模分析:introduction to large-scale data & analytics
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787121244728
  • 作      者:
    (美)Michael Manoochehri著
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2014
收藏
编辑推荐
  

  微博副总|高德技术副总裁|百度主任架构师|百度技术委员会主席|UCloud创始人&CEO联合作序推荐
  大数据包罗万象,谷歌大数据平台技术独具匠心,站在全局高度析缕分条,让你不再迷失,能快速得其门而入
  本书是大数据实战用书,包含大量真实案例、实际代码、详细解决方案。
  掌握大数据成功及避开常见陷阱的4个指导原则
  强调协作,避免数据孤岛带来的问题
  高效且经济地托管和共享数TB的数据集
  “为未来而构建”以支持快速增长
  使用Redis开发NoSQL Web应用来收集众包数据
  使用Hadoop、Hive和Shark在大数据集上运行分布式查询
  使用Google BigQuery构建数据信息面板
  使用高级可视化技术探索大数据集
  实现高效流水线以转换海量数据
  使用Apache Pig和Cascading库将复杂处理过程自动化
  运用机器学习方法进行分类、推荐及预测
  使用R语言统计分析大数据集
  建立合理的采购策略:何时选择自制、购买或外包
  使用Python和Pandas构建高效分析工作流
  展望可伸缩数据技术的新趋势及数据科学家的角色演变
  

海报:

展开
作者简介

  Michael Manoochehri,是个企业家、作家和乐观主义者。凭借自己与企业、研究机构和非营利性机构多年的合作经验,他力图让可扩展数据分析变得更加廉价和易获取。Michael 是Google 云平台开发者关系组的成员之一,关注云计算和数据开发者产品,例如Google BigQuery。此外,Michael 是技术博客ProgrammableWeb.com的作者之一,曾在乌干达农村地区研究移动电话的使用,拥有UC Berkeley 信息学院的信息管理与系统文学硕士学位。

  陈冠诚,并行实验室创建者。在导师Prof. Per Stenström指导下完成硕士毕业设计“关于并行程序中锁竞争的性能分析”。2011年加入IBM中国研究院系统组,从事云计算系统架构、海量数据处理等相关研究工作。

展开
内容介绍

  这是一个数据爆发的时代,更是一个数据技术爆发的时代,各行各业都在因此进行深刻的变革。如何从众多的数据技术中选择正确的工具、如何使用这些工具从海量数据中挖掘出有价值的东西,无疑是非常具有挑战性的问题。
  《寻路大数据:海量数据与大规模分析》作者结合自己在Google 大数据平台工作的丰富经验,阐述了数据技术的方方面面。从数据收集、共享到数据存储,从分布式数据平台、分析型数据库到数据可视化,从数据工作流构建到大规模数据分析,作者不仅进行了全面而深入的介绍,更覆盖了目前流行的各种数据技术与工具,同时对技术选型提出了指导性的建议。最后,作者对数据挑战的非技术因素进行了深刻的分析,并对数据技术的发展趋势进行了展望,引人深思。
  《寻路大数据:海量数据与大规模分析》对企业管理者、技术经理、数据分析师、数据应用开发人员和相关从业者都有很好的参考价值。决策者可以从中看到技术趋势,把握时代发展脉搏;数据分析人员可以看到经验的总结和工具的应用;其他从业者可以从中了解数据技术所涉及的各个方面。


展开
精彩书评

  大规模数据分析几乎对所有行业都极其重要。移动和社交技术产生了海量的数据集,分布式云计算提供了存储和分析这些数据所需的资源,专家们掌握着全新的技术,其中包括NoSQL数据库。但是迄今为止,关于“大数据”的大部分书籍只不过是业务争论或者产品目录。本书则不同:它是每个大数据决策者、实施者和战略制定者必不可少的实战指南。
  Michael Manoochehri是一个前Google工程师和数据骇客,他为那些需要低资源消耗和时间开销的实用方案的专业人员写作了本书。借助其广博的知识,作者帮助您专注于构建应用而不是基础设施管理,因为这样您才能从中获得较大的价值。
  作者展示了如何结合使用不同的技术经济、有效地解决关键的大数据用例。您将看到进行海量数据集管理、数据可视化、数据流水线和信息面板构建、统计分析工具选择等的专业方法。纵观本书,作者演示了目前最先进的数据分析工具的使用技巧,其中包括Hadoop、Hive、Shark、R、Apache Pig、Mahout和Google BigQuery。
  对数据进行采集、存储和分析的工具种类非常繁多,而且新的工具还在不断涌现。对于刚进入这个领域的新人来说,这往往意味着需要浏览众多网站和相关书籍才能对大数据处理的基础知识有个基本的了解。正因如此,这本书成为 Addison Wesley 数据分析(Data & Analytics)丛书的一个有力补充 :本书对构建大数据分析系统的工具、技术和实用技巧进行了全面的介绍。
  Michael 是介绍大数据分析的很好人选,他曾在 Google 的云平台开发者关系组工作,帮助开发者使用 BigQuery(Google 的 TB 级数据分析平台)进行大规模数据分析。他将自己在大数据领域广阔的知识面带到了这本书中,为刚接触大数据的人和寻求建议、技巧和工具的人提供了非常实用的实战指南。
  本书从大数据系统的成功应用开始介绍,之后陆续对 NoSQL、分布式计算和CAP 理论进行了讲解。在介绍使用 Hadoop 和 Hive 分析大数据之后,又覆盖了使用 BigQuery 进行实时分析的相关内容。之后还包括了 MapReduce 流水线、Pig 和Cascading、使用 Mahout 进行机器学习等高级课题。在书的最后,读者会看到将Python 和 R 整合到大数据工具链中的实际案例。本书大部分章节都包含了很多例子以帮助读者学习和使用相关的大数据工具。如果你想要一本对大数据分析有一个全面了解的书籍,本书绝对是不二之选。
  ——Paul Dix

展开
精彩书摘
  推荐序1
  《寻路大数据 :海量数据与大规模分析》是一本系统化解读大数据工程处理基础技术的书籍。技术热潮已然催生了形形色色的大数据处理技术及工具,但重要的并非鱼与熊掌的孰优孰劣,而是如何选择或组合这些技术并应用于实现不同的商业目标。
  《寻路大数据 :海量数据与大规模分析》正是从这个角度评估了针对不同使用场景的大数据处理技术,从而帮助技术负责人及架构师做出不同的选型决策。我很高兴看到了这《寻路大数据 :海量数据与大规模分析》的出版,它必将有益于大数据技术的各种具体实践。
  刘子正
  微博常务副总经理

  大数据这个概念,提出来已经有好几年了。在这几年中,作为一名数据工作者,我经常会参加各种大数据相关的讨论,也会有朋友和企业提出一些大数据相关的咨询需求。我感觉到,经过一波又一波的质疑和辩论,很多企业已经接受了大数据这个概念,认可大数据对于企业的重要性。眼前的问题,已经不是要不要开展大数据相关的工作,而是如何开展大数据工作。
  企业需要将大数据的概念、技术、能力和企业自身的数据充分结合,来切实地提升企业的业务能力。实现这个目标要解决的一个问题是,大数据技术的发展太快、太新,能够对大数据整体技术有了解的人很少。各类技术适合处理什么样的数据?适合解决什么样的问题?如何进行技术选型?这些问题对于实操规划企业整体大数据发展的人非常重要,他们迫切需要介于宏观的概念和细节的技术之间,对于规划和选型立刻就能够产生帮助的资源。
  几周之前,我有幸提前阅读到《寻路大数据 :海量数据与大规模分析》的部分章节,很高兴地发现,这本书所提供的,正好是这种立刻能够产生帮助的信息,可以更好地帮助大家规划和设计与企业业务 密切结合的大数据应用,而作者丰富的经验和对于大数据的深刻理解,也可以提高我们对于大数据的认知,避免在大数据的应用中走弯路,非常值得仔细阅读。
  廖若雪
  高德公司

  大数据与移动技术中心副总裁
  前百度主任架构师,百度公司技术委员会主席
  中国改革开放的总设计师曾经说 :“不管黑猫白猫,能抓住老鼠就是好猫”,针对大数据技术我想也是如此。我们曾经花费了很多时间讨论什么是大数据,多大才是大数据,而忽略了如何利用大数据技术来创造真正的价值。
  随着云计算、智能设备、物联网的快速发展,以后每一个公司都会有大量的数据。而现在最重要的,我认为是快速学习大数据的思维、技术和方法解决工作中的实际问题,并对公司的决策提供支撑,对业务的发展提出建议。这才是大数据的真正价值。
  正如《寻路大数据 :海量数据与大规模分析》中提到的“Data processing as a service”,从国内外的发展趋势来看,大数据和云计算的结合越来越紧密,各大云计算运营商都陆续推出大数据处理平台的产品,让每个企业的数据人员能够方便地应用大数据技术,从而专注于业务流程和数据本身,不被大数据基础架构的建设和维护成本所约束,从而快速地发挥大数 据的价值。
  国庆节前杨毅邀请我为《寻路大数据 :海量数据与大规模分析》作序,杨毅是具有丰富的实战经验和对于大数据有深刻理解的业内人士,《寻路大数据 :海量数据与大规模分析》内容也一样稳重而务实。不纠结于大数据名词的定义,而关注于:如何利用各种技术进行大数据处理,如何在各种应用场景下利用大数据产生价值,如何根据企业自身的实际情况选择合适的架构方案和技术解决实际问题,最终提升企业竞争力。这对于企业的技术负责人、大数据技术人员是非常有价值的。我认为每一个相信、追求并使用大数据的朋友都会和我一样,通过《寻路大数据 :海量数据与大规模分析》加深对大数据的理解,提高对大数据的把握能力,从而为业务创造更大的价值。
  大数据,大价值!
  季昕华
  UCloud 创始人 & CEO
  前盛大云 CEO,盛大在线首席安全官
展开
目录

第1 部分 大数据时代指引 1
第1 章 数据成功四原则 3
1.1 当数据成为一件“大”事 3
1.2 数据和单台服务器 4
1.3 大数据的权衡 5
1.3.1 构建可(限)扩展的解决方案 6
1.3.2 构建可(在互联网上)共享数据的系统 7
1.3.3 构建解决方案,而非基础设施 8
1.3.4 关注从数据中解放价值 8
1.4 大数据流水线剖析 9
1.5 终极数据库 10
1.6 总结 10
第2 部分 收集和共享海量数据 13
第2 章 托管和共享TB 级原始数据 15
2.1 文件之殇 16
2.1.1 共享大量文件的挑战 16
2.2 存储:基础设施即服务 17
2.2.1 网络很慢 18
2.3 选择合适的数据格式 18
2.3.1 XML :数据,描述你自己 20
2.3.2 JSON :程序员的选择 21
2.4 字符编码 22
2.4.1 文件转换 24
XXII 目录
2.5 移动中的数据:数据序列化格式 25
2.5.1 Apache Thrift 和Protocol Buffers 26
2.6 总结 27
第3 章 构建基于NoSQL 的Web 应用采集众包数据 29
3.1 关系型数据库:命令及控制 30
3.1.1 关系数据库的ACID 测试 32
3.2 当关系型数据库遇上互联网 33
3.2.1 CAP 原理与BASE 34
3.3 非关系型数据库的模式 36
3.3.1 键- 值数据库 36
3.3.2 文档存储 38
3.4 为写入性能优化:Redis 40
3.5 在多个Redis 实例上分片 43
3.5.1 使用Twemproxy 自动分区 44
3.5.2 Redis 的替代选项 46
3.6 NewSQL :Codd 归来 46
3.7 总结 47
第4 章 解决数据孤岛问题的策略 49
4.1 堆满术语的仓库 49
4.1.1 实践中的问题 51
4.1.2 数据合规与安全规划 52
4.1.3 走进数据仓库 53
4.1.4 数据仓库的口诀:抽取、转换和加载 54
4.2 Hadoop :数据仓库中的大象 55
4.3 数据孤岛也可能是个优点 55
4.3.1 专注于数据问题,而不是技术 56
4.3.2 鼓励员工提出他们自己的问题 57
4.3.3 投资沟通数据孤岛的技术 57
4.4 融合:数据孤岛的终结 58
目录XXIII
4.4.1 Luhn 的商业智能系统是否能成为现实 59
4.5 总结 59
第3 部分 数据探究 61
第5 章 使用Hadoop、Hive 和Shark 探索大规模数据集 63
5.1 什么是数据仓库 64
5.2 Apache Hive :在Hadoop 上进行交互式查询 66
5.2.1 Hive 用例 66
5.2.2 Hive 实战 67
5.2.3 在Hive 中使用其他数据源 71
5.3 Shark :以内存的速度进行查询 72
5.4 云中的数据仓库 73
5.5 总结 74
第6 章 使用Google BigQuery 构建数据信息中心 77
6.1 分析型数据库 78
6.2 Dremel :均贫富 79
6.2.1 Dremel 与MapReduce 的不同之处 80
6.3 BigQuery :数据分析即服务 81
6.3.1 BigQuery 的查询语言 82
6.4 建造自己的大数据信息面板 83
6.4.1 授权访问BigQuery API 84
6.4.2 运行查询并获取结果 87
6.4.3 缓存查询结果 88
6.4.4 添加可视化图形 89
6.5 分析型查询引擎的未来 91
6.6 总结 91
第7 章 探索大数据的可视化策略 93
7.1 警世良言:将数据翻译成故事 94
7.2 人类尺度 VS 机器尺度 97
XXIV 目录
7.2.1 交互性 97
7.3 开发交互式数据应用 98
7.3.1 使用R 和ggplot2 实现交互式可视化 98
7.3.2 matplotlib: Python 的2D 图形库 100
7.3.3 D3.js :用于Web 的交互式可视化库 100
7.4 总结 104
第4 部分 构建数据流水线 107
第8 章 整合:MapReduce 数据流水线 109
8.1 数据流水线是什么 109
8.1.1 正确的工具 110
8.2 使用Hadoop Streaming 搭建数据流水线 111
8.2.1 MapReduce 和数据转换 111
8.2.2 最简单的流水线:stdin 到stdout 113
8.3 单步MapReduce 变换 115
8.3.1 从原始NVSS 数据中抽取相关信息:map 阶段 116
8.3.2 合计每月出生数:reducer 阶段 117
8.3.3 在本地测试MapReduce 流水线 118
8.3.4 在Hadoop 集群上运行我们的MapReduce 作业 119
8.4 降低复杂性:Hadoop 上Python 的MapReduce 框架 120
8.4.1 使用mrjob 重写Hadoop Streaming 示例 121
8.4.2 建造一个多步流水线 122
8.4.3 在Elastic MapReduce 上运行mrjob 脚本 124
8.4.4 其他基于Python 的MapReduce 框架 125
8.5 总结 125
第9 章 使用Pig 和Cascading 构建数据转换工作流 127
9.1 大规模数据工作流实战 128
9.2 多步MapReduce 转换真复杂 128
9.2.1 Apache Pig :拒绝复杂 129
目录XXV
9.2.2 使用交互式Grunt shell 运行Pig 130
9.2.3 过滤和优化数据工作流 132
9.2.4 以批处理模式运行Pig 脚本 132
9.3 Cascading :构建健壮的数据工作流应用 133
9.3.1 以source 和sink 的方式思考 134
9.3.2 构建Cascading 应用 135
9.3.3 创建一个Cascade :一个简单的JOIN 例子 136
9.3.4 在Hadoop 集群上部署Cascading 应用 138
9.4 何时选择Pig 或Cascading 139
9.5 总结 140
第5 部分 基于大规模数据集的机器学习 141
第10 章 使用Mahout 构建数据分类系统 143
10.1 机器能否预测未来 144
10.2 机器学习的挑战 144
10.2.1 贝叶斯分类 146
10.2.2 聚类 146
10.2.3 推荐引擎 148
10.3 Apache Mahout :可伸缩的机器学习工具 148
10.3.1 使用Mahout 进行文本分类 149
10.4 MLbase :分布式机器学习框架 152
10.5 总结 152
第6 部分 基于大规模数据集的统计分析 155
第11 章 使用R 语言处理大数据集 157
11.1 统计学为什么性感 158
11.1.1 R 处理大型数据集的局限性 159
11.1.2 R 的数据帧和矩阵 161
XXVI 目录
11.2 处理大数据集的策略 162
11.2.1 大矩阵处理:bigmemory 和biganalytics 162
11.2.2 ff: 使用大于内存的数据帧 164
11.2.3 biglm :大规模数据集的线性回归 165
11.2.4 RHadoop: 使用R 访问Apache Hadoop 166
11.3 总结 168
第12 章 使用Python 和Pandas 构建分析工作流 171
12.1 数据乐园中自在的蟒蛇――Python 172
12.1.1 为统计性计算选择一门语言 172
12.1.2 扩展现有代码 173
12.1.3 工具和测试 174
12.2 用于数据处理的Python 库 174
12.2.1 NumPy 175
12.2.2 SciPy :Python 的科学计算库 176
12.2.3 数据分析库Pandas 178
12.3 构建更复杂的工作流 182
12.3.1 处理损坏或丢失的记录 184
12.4 iPython :科学计算工具链的最后一环 185
12.4.1 在集群上并行执行iPython 186
12.5 总结 190
第7 部分 展望未来 191
第13 章 何时选择自制、购买或外包 193
13.1 功能重合的解决方案 193
13.2 理解你的数据问题 195
13.3 自制还是购买问题的参考手册 197
13.3.1 你已经对哪些技术有所投入 197
13.3.2 从小处着手 198
13.3.3 规划时考虑可扩展性 198
目录XXVII
13.4 私人数据中心 199
13.5 了解开源的成本 201
13.6 一切皆服务 202
13.7 总结 202
第14 章 未来:数据科技的几个趋势 205
14.1 Hadoop :搅局者与被搅局者 206
14.2 一切皆在云中 208
14.3 数据科学家的兴衰 209
14.4 融合:终极数据库 212
14.5 文化融合 213
14.6 总结 214

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证