信阅平台

编辑推荐

本书从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍 Hadoop这一高性能处理海量数据集的理想工具。全书共14章，3个附录，涉及的主题包括：Haddoop简介；MapReduce简介；Hadoop分布式文件系统； Hadoop的I／O、MapReduce应用程序开发；MapReduce的工作机制； MapReduce的类型和格式；MapReduce的特性；如何安装Hadoop集群，如何管理Hadoop；Pig简介；Hbase简介；ZooKeeper简介，后还提供了丰富的案例分析。
　　　　本书是Hadoop参考，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装与运行Hadoop集群。

展开

作者简介

　　怀特，2007年2月以来，一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一，同时也是Cloudera的一名工程师。Tome为IBM的developerWorks撰写过大量文章，并经常在很多行业大会上举行Hadoop主题演讲。Loudera Cloudera为Hadoop提供商业支持并志愿贡献社区，不收取任何费用。不管是打算在云中运行Hadoop，还是在自己的服务器上运行Hadoop Cloudera都能使其轻松实现。

展开

内容介绍

　　什么是谷歌帝国的基石？MapReduce算法是也！Apache Hadoop架构作为MapReduce算法的一种开源应用，是应对海量数据的理想工具。项目负责人Tom White透过《Hadoop权威指南（中文版）》详细阐述了如何使用Hadoop构建可靠、可伸缩的分布式系统，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装和运行Hadoop集群。

展开

精彩书评

　　“恭喜您有此良机向大师学习Hadoop，在享用技术本身的同时，您还能领略到大师的睿智及其令人如沐春风的写作风格。”
　　——Hadoop 创始人 Doug Cutting

展开

精彩书摘

　　HDFS建立在这样一个思想上：一次写入、多次读取模式是最高效的。一个数据集通常由数据源生成或复制，接着在此基础上进行各种各样的分析。每个分析至少都会涉及数据集中的大部分数据（甚至全部），因此读取整个数据集的时间比读取第一条记录的延迟更为重要。商甬硬件Hadoop不需要运行在昂贵并且高可靠性的硬件上。它被设计运行在商用硬件（在各种零售店都能买到的普通硬件）的集群上，因此至少对于大的集群来说，节点故障的几率还是较高的。HDFS在面对这种故障时，被设计为能够继续运行而让用户察觉不到明显的中断。同时，那些并不适合HDFS的应用也是值得研究的。
　　在目前，HDFS还不太适用于某些领域，不过日后可能会有所改进。低延迟数据访问需要低延迟访问数据在毫秒范周内的应用并不适HDFS。HDFS是为达到高数据吞吐量而优化的，这有可能会以延迟为代价。目前，对于低延迟访问，HBase（参见第12章）是更好的选择。大量的小文件名称节A（namenode）存储着文件系统的元数据，因此文件数量的限制也由名称节点的内存量决定。根据经验，每个文件，索引目录以及块占大约150个字节。因此，举例来说，如果有一百万个文件，每个文件占一个块，就至少需要300MB的内存。虽然存储上百万的文件是可行的，十亿或更多的文件就超出目前硬件的能力了。多用声写入，任意修改文馋HDFS中的文件只有一个写入者，而且写操作总是在文件的末尾。它不支持多个写入者，或是在文件的任意位置修改。
……

展开

第1章初识Hadoop
1.1 数据！数据
1.2 数据的存储和分析
1.3 相较于其他系统
1.3.1 关系型数据库管理系统
1.3.2 网格计算
1.3.3 志愿计算
1.4 Hadoop发展简史
1.5 Apache Hadoop项目

第2章 Map Reduce简介
2.1 一个气象数据集
2.2 使用Unix Tools来分析数据
2.3 使用Hadoop进行数据分析
2.3.1 map和reduce
2.3.2 JavaMap Reduce
2.4 分布化
2.4.1 数据流
2.4.2 具体定义一个combiner
2.4.3 运行分布式Map Reduce作业
2.5 Hadoop流
2.5.1 Ruby语言
2.5.2 Python
2.6 Hadoop管道

第3章 Hadoop分布式文件系统
3.1 HDFS的设计
3.2 HDFS的概念
3.2.1 块
3.2.2 名称节点与数据节点
3.3 命令行接口
3.4 Hadoop文件系统
3.5 Java接口
3.5.1 从Hadoop URL中读取数据
3.5.2 使用FileSystem API读取数据
3.5.3 写入数据
3.5.4 目录
3.5.5 查询文件系统
3.5.6 删除数据
3.6 数据流
3.6.1 文件读取剖析
3.6.2 文件写入剖析
3.6.3 一致模型
3.7 通过distcp进行并行复制
3.8 Hadoop归档文件
3.8.1 使用Hadoop Archives
3.8.2 不足

第4章 Hadoop的I/O
4.1 数据完整性
4.1.1 HDFS的数据完整性
4.1.2 本地文件系统
4.1.3 Checksum File System
4.2 压缩
4.2.1 编码／解码器
4.2.2 压缩和输入分割
4.2.3 在Map Reduce中使用压缩
4.3 序列化
4.3.1 Writable接口
4.3.2 Writeable类
4.3.3 实现自定义的Writable
4.3.4 序列化框架
4.4 基于文件的数据结构
4.4.1 Sequence File类
4.4.2 MapFile

第5章 Map Reduce应用开发
5.1 API的配置
5.1.1 合并资源
5.1.2 各种扩展形式
5.2 配置开发环境
5.2.1 配置的管理
5.2.2 Generic Options Parser，Tool和Tool Runner
5.3 编写单元测试
5.3.1 Mapper
5.3.2 reducer
5.4 本地运行测试数据
5.4.1 在本地作业运行器上运行作业
5.4.2 测试驱动程序
5.5 在集群上运行
5.5.1 打包
5.5.2 启动作业
5.5.3 MapReduce网络用户界面
5.5.4 获取结果
5.5.5 调试作业
5.5.6 使用远程调试器
5.6 作业调优
5.7 Map Reduce的工作流
5.7.1 将问题分解成Map Reduce作业
5.7.2 运行独立的作业

第6章 Map Redoce的工作原理
6.1 运行Map Reduce作业
6.1.1 提交作业
6.1.2 作业的初始化
6.1.3 任务的分配
6.1.4 任务的执行
6.1.5 进度和状态的更新
6.1.6 作业的完成
6.2 失败
6.2.1 任务失败
6.2.2 tasktracker失败
6.2.3 jobtraeker失败
6.3 作业的调度
6.4 shufne和排序
6.4 map端
6.4.2 reduce端
6.4.3 配置的调整
6.5 任务的执行
6.5.1 推测式执行
6.5.2 任务JVM重用
6.5 -3跳过坏记录
6.5.4 任务执行环境

第7章 MapReduce的类型与格式
7.1 MapReduce类型
7.2 输入格式
7.2.1 输入分片与记录
7.2.2 文本输入
7.2.3 二进制输入
7.2.4 多种输入
……
第8章 MapReduce特性
第9章 Hadoop集群的安装
第10章 Hadoop的管理
第11章 Pig简介
第12章 Hbase简介
第13章 ZooKeeper简介
第14章案例研究
附录A
附录B
附录C

展开