搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
Hadoop技术详解
0.00    
图书来源: 浙江图书馆(由图书馆配书)
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787115333322
  • 作      者:
    (美)Eric Sammer著
  • 出 版 社 :
    人民邮电出版社
  • 出版日期:
    2013
收藏
作者简介
Eric Sammer:Cloudera公司首席架构师,主要工作是协助客户做Hadoop及相关大型项目的规划、部署、使用和开发。他在开发和运营分布式、高并发的数据摄取和处理系统方面拥有丰富的经验。
展开
内容介绍
  Hadoop正在成为数据中心进行大型数据处理的实际标准,但市场中却一直缺少关于它的详细操作说明书Hadoop技术详解/“十二五”国家重点图书出版规划项目》作者EricSammer系Cloudera公司的首席架构师,全书将从计划、安装、配置Hadoop系统开始讲起,一直深入到系统调试、维护等方面的知识,向读者展示了Hadoop生产运行环境的详细情况。同时,《Hadoop技术详解/“十二五”国家重点图书出版规划项目》并不只是简述所有的操作工序,而是突出示范了关键部署中的关键操作。
  Hadoop技术详解/“十二五”国家重点图书出版规划项目》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。
展开
精彩书摘
  4.6.1.2  MaDFledtJce
  MapReduce集群成员和心跳的基础架构与HDFS是相匹配的,这毫不奇怪。TaskskTracker定期发送少量的心跳信息给.10bTracker,以表明它们还活着。再次声明,除非对于极端大规模的个案,管理员对此并不感觉头疼。客户端应用程序也没有直接和TaskTracker通信,而是针对JobTracket和HDFS进行大多数操作。在作业提交时候,.10bnacker通过少量RPC请求与NameNode通信。MapReduce真正的流量是在作业交织阶段里TaskTracker的流量。
  随着map任务开始完成,redLice开始运行,每个reducer必须向每个TaskTracker获取属于其分区的map输出数据。该操作通过HTTP进行,并导致全网状通信;每个reducer(通常情况下)都要从每个tasktracker复制一定量的数据。此外,每个reducer允许一定数目的并发来取数据。虽然不同的作业有不同的数据量,但这个交织阶段在群集内占相当重大的横向流量。例如,一个需要将数据集中的每条记录进行变换的数据处理作业,通常会在:map任务中并行转换,这样做的结果往往导致大致相等大小的另一条记录必须经过交织和reduce阶段,并以新的格式写回HDFS。一个作业,如果它需要将输入的100万条大小为100KB的记录(总共大约95GB)的数据集转换为另外一个100万条大小为82KB的记录(总共约78GB)的数据集,将在网络上单单为该作业交织至少78GB数据,更不要说redtlee阶段被写到HDFS的输出过程。
  请记住,活跃的集群一次运行很多作业,通常必须继续录入新的数据到HDFS。万一不清楚的话,那么会处理大量的数据。
  4.6.2  1Gb与10Gb网络
  在讨论Hadoop网络时,用户经常会问它们是否应该部署1GB或10GB的网络基础设施。Htadoop并没有要求;然而,它可以受益于10GB连接所带来的额外带宽和更低的延迟。因此,真正的问题变成是否利大于弊。没有具体的场景信息很难真正评估成本。供应商的选择、网络规模、媒体和月亮的圆缺,所有看上去都是定价规则的一部分。你必须考虑不同交换机、主机适配器(主板上的10千兆以太网LAN尚未普遍)、光纤甚至电缆的成本差异来决定10Gb网络是否可行。另一方面,大量的组织已经跳过这一步,并直接宣布所有新的基础设施必须是10GB,这也是可行的。在这本书出版的时候(指英文版——译者注),一个典型的10GB架顶式交换机比对应的1Gb交换机贵大约3倍。
  ……
展开
目录
第1章 简介
第2章 HDFS
2.1 目标和动机
2.2 设计
2.3 守护进程
2.4 读写数据
2.4.1 数据读取流程
2.4.2 数据写操作流程
2.5 管理文件系统元数据
2.6 NameNode的高可用性
2.7 NameNode联盟
2.8 访问与集成
2.8.1 命令行工具
2.8.2 用户空间文件系统(FUSE)
2.8.3 表示状态传输(REST)的支持

第3章 MapReduce
3.1 MapReduce的若干阶段
3.2 Hadoop MapReduce简介
3.2.1 后台程序
3.2.2 出错处理
3.3 YARN

第4章 规划一个Hadoop集群
4.1 挑选Hadoop的发行版本
4.1.1 Apache Hadoop
4.1.2 Cloudera的Apache Hadoop发行版本
4.1.3 版本和功能
4.1.4 我应该使用哪个版本
4.2 硬件选型
4.2.1 主节点硬件的选择
4.2.2 工作节点的硬件选择
4.2.3 集群的大小
4.2.4 刀片服务器、存储区域网络(SAN)和虚拟化
4.3 操作系统的选择和准备
4.3.1 部署规划
4.3.2 软件
4.3.3 主机名、DNS和标识
4.3.4 用户、组和特权
4.4 内核调整
4.4.1 vm.swappiness
4.4.2 vm.overcommit_memory
4.5 磁盘配置
4.5.1 选择文件系统
4.5.2 挂载选项
4.6 网络设计
4.6.1 Hadoop中的网络使用:回顾
4.6.2 1 Gb与10 Gb网络
4.6.3 典型的网络拓扑

第5章 安装和配置
5.1 安装Hadoop
5.1.1 Apache Hadoop
5.1.2 CDH
5.2 配置概述
5.3 环境变量和Shell脚本
5.4 日志配置
5.5 HDFS
5.5.1 识别和定位
5.5.2 优化与调整
5.5.3 格式化NameNode
5.5.4 创建/tmp目录
5.6 NameNode的高可靠性
5.6.1 隔离(Fencing)选项
5.6.2 基本配置
5.6.3 自动失效备援配置
5.6.4 格式化和引导NameNode启动
5.7 NameNode联盟(Federation)
5.8 MapReduce
5.8.1 识别和定位
5.8.2 优化和调整
5.9 机架拓扑
5.10 安全

第6章 用户标识、身份验证和授权
6.1 用户标识
6.2 Kerberos和Hadoop
6.2.1 Kerberos
6.2.2 Hadoop上的Kerberos支持
6.3 授权
6.3.1 HDFS
6.3.2 MapReduce
6.3.3 其他工具和系统
6.4 集成试试

第7章 资源管理
7.1 何谓资源管理
7.2 HDFS配额
7.3 MapReduce 调度器
7.3.1 先进先出(FIFO)调度器
7.3.2 公平调度器
7.3.3 计算能力调度器(Capacity Scheduler)
7.3.4 未来发展

第8章 集群维护
8.1 Hadoop流程管理
8.1.1 用初始化脚本管理进程
8.1.2 手动管理进程
8.2 HDFS维护任务
8.2.1 添加一个DataNode
8.2.2 卸载DataNode
8.2.3 用fsck来检查文件系统的一致性
8.2.4 HDFS块数据均衡
8.2.5 处理坏磁盘
8.3 MapReduce维护任务
8.3.1 添加tasktracker
8.3.2 卸载tasktracker
8.3.3 终结MapReduce 作业
8.3.4 终结MapReduce任务
8.3.5 处理列入黑名单的tasktracker

第9章 故障分析与排查
9.1 鉴别诊断(Differential Diagnosis)
9.2 故障和问题
9.2.1 人类(自己)
9.2.2 配置错误
9.2.3 硬件故障
9.2.4 资源枯竭
9.2.5 主机标识和命名
9.2.6 网络分区
9.3 “计算机插好了么?”
9.4 治疗和护理
9.5 实战案例
9.5.1 神秘的瓶颈
9.5.2 127.0.0.1这个地址不存在

第10章 监控
10.1 概览
10.2 Hadoop度量(Metrics)
10.2.1 Apache Hadoop 0.20.0和CDH3 (metrics1)
10.2.2 Apache Hadoop 0.20.203及之后的版本、CDH4(metrics2)
10.2.3 SNMP
10.3 健康监控
10.3.1 主机级别的检查
10.3.2 所有Hadoop进程
10.3.3 HDFS检查
10.3.4 MapReduce检查

第11章 备份与恢复
11.1 数据备份
11.1.1 分布式拷贝(distcp)
11.1.2 并行提取数据
11.2 NameNode元数据
附录 弃用的配置属性
展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证