信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书主要有以下三大特点：(1)理论与实战相结合，不仅对Hadoop组件基本原理、编程模型等基础理论进行深入的介绍，而且从环境搭建、案例分析、项目创建和代码实现等方面系统性地介绍如何基于hadoop组件接口开发大数据技术应用系统；(2)由浅入深，在实战方面，首先，基于接口实例，介绍接口功能及基本编程框架；然后，进一步基于综合项目案例，介绍项目实战开发的具体过程。使得读者深入浅出，避免读者陷入理解基本原理和接口，却难以具体设计和编程实现实际应用中大数据处理算法的困境；(3)系统开发前后端相结合，在项目实战案例中，本书不是仅仅介绍如何基于大数据平台实现大数据处理的过程，而是将Web系统的前后端相结合作为一个整体，进行项目总体设计和功能实现，更加贴切于现实的项目应用需求，从而提高了读者的项目实战能力和开发水平。

展开

精彩书评

展开

精彩书摘

展开

第1章大数据处理技术及应用概述
1.1 大数据概念及特征
1.2 大数据处理技术
1.2.1 数据采集
1.2.2 数据预处理
1.2.3 数据存储
1.2.4 数据计算
1.2.5 数据分析
1.2.6 数据解释
1.3 Google大数据处理系统
1.3.1 GFS
1.3.2 MapReducee
1.3.3 BigTable
1.4 Hadoop大数据处理框架
1.4.1 Hadoop简介
1.4.2 Hadoop生态圈
1.5 大数据的行业应用
第2章 Hadoop安装与配置
2.1 虚拟机与Linux系统安装
2.1.1 虚拟机安装
2.1.2 Linux系统安装
2.2 Hadoop完全分布式安装与配置
2.2.1 SSH安装与配置
2.2.2 JDK安装与配置
2.2.3 Hadoop完全分布式安装与配置
第3章分布式文件系统HDFS
3.1 HDFS概述
3.1.1 HDFS架构
3.1.2 HDFS的优缺点
3.2 HDFS两种操作方式
3.2.1 HDFS Shell命令
3.2.2 HDFS JAVA AP
3.2.3 HDFS JAVA API实例
3.3 项目实战：分布式云盘系统
3.3.1 开发环境安装与配置
3.3.2 项目设计
3.3.3 项目实现
3.3.4 运行测试
第4章大数据分布式并行处理框架MapReduce
4.1 MapReduce概述
4.1.1 MapReduce计算框架
4.1.2 MapReduce工作流程
d.1.3 Spark、Flink和Hadoop比较
4.2 MapReduce编程基础
4.2.1 Mapper类和Reducer类
4.2.2 MapReduce作业配置
4.2.3 MapReduce数据类型
4.3 MapReduce编程实例
4.3.1 MapReduce项目创建与运行
4.3.2 Map编程实例
4.3.3 单个MapReduce编程实例
4.3.4 多个Mapreduce过程编程实例
4.4 项目实战：电信手机流量数据分析系统
4.4.1 项目设计
4.4.2 项目实现
4.4.3 项目运行测试
第5章分布式数据仓库Hive
5.1 Hive概述
5.1.1 Hive简介
5.1.2 Hive的体系架构
5.1.3 Hive与传统数据库的对比分析
5.1.4 Hive的优缺点
5.2 Hive安装与配置
5.2.1 Hive安装
5.2.2 安装配置Hive+mysql
5.3 Hive Shell操作
5.3.1 Hive非交互模式常用Shell命令
5.3.2 Hive交互模式下的命令
5.3.3 Hive的常用HiveQL操作
5.4 Hive Java API
5.4.1 Hive Java API基本操作
5.4.2 Hive Java API实例
5.5 项目实战：粮食生产离线大数据分析系统
5.5.1 系统设计
5.5.2 项目创建
5.5.3 系统实现关键技术
5.5.4 系统功能实现
5.5.5 项目运行测试
第6章分布式数据库HBase
6.1 HBase概述
6.1.1 HBase数据存储模式
6.1.2 HBase的逻辑架构
6.1.3 HBase数据模型简介
6.1.4 HBase设计
6.1.5 HBase的优缺点
6.2 HBase安装与配置
6.2.1 Zookeeper安装与配置
6.2.2 Hbaser安装与配置
6.3 HBase Shell命令
6.3.1 查询操作
6.3.2 DDL操作
6.3.3 DML操作
6.3.4 HBase Shell命令综合实例
6.4 HBase.Java API
6.4.1 HBase的常用Java API
6.4.2 HBase Java API实例
6.5 项目实战：用户通话记录高效查询系统
6.5.1 项目设计
6.5.2 项目实现
6.5.3 项目运行测试
第7章海量日志采集Flume
7.1 Flume概述
7.1.1 Flume架构
7.1.2 Flume工作原理
7.1.3 Flume特点
7.2 .Flume安装与配置
7.3 F1ume基础应用
7.3.1 案例一：Avm source
7.3.2 案例二：Neteat source
7.3.3 案例三：实时监控单个追加文件
7.3.4 案例四：监控本地文件夹新增文件
7.3.5 案例五：实时监控文件夹下文件追加
7.4 Flume自定义组件高阶开发
7.4.1 自定义拦截器
7.4.2 自定义Source
7.4.3 自定义Sink
7.5 项目实战：电商平台用户行为日志分析系统
7.5.1 系统设计
7.5.2 项目实现
7.5.3 项目运行测试
第8章基于Mahout.的个性化推荐系统
8.1 推荐系统概述
8.1.1 推荐系统工作流程
8.1.2 推荐机制
8.2 Mahout概述
8.2.1 Mahout的核心概念
8.2.2 Mahout应用场景
8.3 Mahout安装与配置
8.3.1 Mahout下载与配置
8.3.2 Mahout测试
8.4 Eclipse中创建Maven工程
8.4.1 创建项目
8.4 _2 项目配置
8.5 项目实战：基于Mahout个性化新闻推荐系统
8.5.1 系统设计
8.5.2 项目创建
8.5.3 项目实现
8.5.4 项目运行测试

展开