信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

本书是一本专门论述大数据采集与处理相关技术及应用的著作，也是一线研发工程师的实战经验结晶。本书依次介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等相关内容，并结合大数据应用各行业背景，介绍了电商、煤炭、教育、医疗、电信、交通等行业的大数据采集与处理。最后，本书以某电商网站数据分析为背景，介绍一个完整的数据采集、清洗、处理的离线数据分析案例，以期给读者展示一个系统的实践操作过程。与本书所述技术相关的论著较少，所著内容新颖、系统全面、实践指导性强，既适合大数据、人工智能等领域的工程技术人员学习参考，也可作为高等院校计算机学科大数据及其相关专业的本科生和研究生教材。

展开

精彩书评

展开

精彩书摘

展开

第1章大数据基础
1.1 大数据概念及特征
1.2 大数据采集与处理基本流程
1.2.1 大数据采集
1.2.2 大数据预处理
1.2.3 大数据处理
1.3 大数据分析
1.4 大数据应用
1.4.1 大数据应用行业分类
1.4.2 大数据分析在商业上的应用
习题
参考文献
第2章开源Hadoop
2.1 Hadoop概述
2.1.1 Hadoop简介
2.1.2 Hadoop起源及发展史
2.1.3 Hadoop发行版本
2.1.4 Hadoop特性
2.2 Hadoop生态系统
2.2.1 HDFS
2.2.2 MapReduce
2.2.3 Hive
2.2.4 ZooKeeper
2.2.5 Flume
2.2.6 Kafka
2.2.7 Spark
2.2.8 Storm
2.2.9 Flink
2.2.10 YARN
2.3 Hadoop的安装与使用
2.3.1 环境准备
2.3.2 单机模式
2.3.3 伪分布式
2.3.4 完全分布式安装
习题
参考文献
第3章大数据采集
3.1 数据采集与大数据采集
3.1.1 数据采集
3.1.2 大数据采集及数据来源
3.1.3 传统数据采集与大数据采集的区别
3.1.4 大数据采集分类
3.2 大数据采集方法
3.2.1 数据库采集
3.2.2 系统日志采集
3.2.3 网络数据采集
3.2.4 传感器采集
3.2.5 众包采集
3.3 常用采集工具及平台
3.3.1 Flume
3.3.2 Fluentd
3.3.3 Logstash
3.3.4 Chukwa
3.3.5 Scribe
3.3.6 Splunk
3.3.7 Scrapy
3.4 网络爬虫
3.4.1 网络爬虫分类
3.4.2 网络爬虫发展现状
3.4.3 网络爬虫使用技术
3.5 实战
3.5.1 项目准备
3.5.2 架构设计
3.5.3 代码实现
3.5.4 结果展示
习题
参考文献
第4章日志采集
4.1 日志采集概述
4.1.1 系统日志分类
4.1.2 日志分析系统架构及日志采集方式
4.1.3 日志采集应用场景与日志分析应用场景
4.1.4 日志采集系统关键技术
4.2 Scribe
4.2.1 Scribe概述
4.2.2 Scribe全局配置
4.2.3 Scribe的存储类型配置
4.3 Chukwa
4.3.1 Chukwa概述
4.3.2 Chukwa架构
4.3.3 Chukwa数据收集应用
4.4 Kafka
4.4.1 Kafka概述
4.4.2 Kafka架构
4.4.3 Kafka日志采集
4.5 Flume
4.5.1 Flume概述
4.5.2 Flume架构
4.5.3 Flume的优势
4.6 实战
4.6.1 Flume安装部署
4.6.2 环境测试
4.6.3 采集目录到HDFS
4.6.4 采集文件到HDFS
习题
参考文献
第5章大数据预处理
5.1 为什么要进行数据预处理
5.2 大数据预处理总体架构
5.3 大数据预处理方法
5.3.1 数据清洗
5.3.2 数据集成
5.3.3 数据转换
5.3.4 数据消减
5.4 ETL工具Kettle
5.4.1 ETL介绍
5.4.2 Kettle介绍
5.4.3 Kettle安装与配置
5.5 实战
5.5.1 基于Python的数据预处理
5.5.2 基于Hadoop生态圈的Kettle应用
习题
参考文献
第6章大数据存储
6.1 大数据存储概述
6.1.1 大数据存储面临的问题
6.1.2 大数据存储方式
6.1.3 大数据存储技术路线
6.2 HDFS
6.2.1 HDFS架构
6.2.2 HDFS存储机制
6.2.3 NameNode和DataNode工作机制
6.3 NoSQL
6.3.1 NoSQL数据库概述
6.3.2 HBase
6.3.3 MongoDB
6.3.4 Redis
6.4 ElasticSearch
6.4.1 ElasticSearch概述
6.4.2 ElasticSearch基本概念
6.4.3 ElasticSearch工作原理
6.4.4 ElasticSearch存储机制
6.4.5 ElasticSearch分布式存储
6.4.6 ElasticSearch安装与运行
6.5 实战
6.5.1 主从模式搭建
6.5.2 Sentinel模式搭建
6.5.3 Cluster模式搭建
习题
参考文献
第7章 MapReduce
7.1 概述
7.2 MapReduce计算框架
7.2.1 MapReduce模型
7.2.2 MapReduce函数
7.2.3 MapReduce资源管理
7.2.4 MapReduce生命周期管理
7.3 MapReduce工作流程及原理
7.3.1 MapReduce工作流程
7.3.2 MapReduce工作原理
7.4 深入Shuffle过程
7.4.1 Map端Shuffle
7.4.2 Reduce端Shuffle
7.5 实战
7.5.1 任务准备
7.5.2 编写Map程序
7.5.3 编写Reduce 程序
7.5.4 编写main函数
7.5.5 核心代码包
7.5.6 运行代码
习题
参考文献
第8章 Hive数据仓库
8.1 数据仓库简介
8.1.1 数据仓库概念
8.1.2 数据仓库的结构
8.1.3 传统数据仓库的问题
8.1.4 数据仓库的发展
8.2 Hive
8.2.1 Hive简介
8.2.2 Hive与传统数据库的对比
8.2.3 Hive系统架构
8.2.4 Hive体系结构
8.2.5 Hive工作

展开