信阅平台

产品特色

编辑推荐

展开

作者简介

展开

内容介绍

随着互联网的发展，大数据的思想与技术已经逐渐渗入人们生活、工作的方方面面。本书突出“大数据分析”这一主题，从大数据分析原理、技术和应用的角度，讲述大数据分析基础知识、大数据分析平台核心原理、大数据分析关键技术及大数据分析应用。大数据分析的基础知识主要包括大数据的产生背景与定义、大数据的特点和技术、大数据的应用和价值、大数据时代的思维变革、国家大数据战略；大数据分析平台的核心原理主要包括开源大数据平台Hadoop和Spark的发展、生态系统、体系结构、安装和使用方法等，大数据存储(Hadoop分布式文件系统——HDFS的基本原理)，大数据处理(MapReduce并行编程模型、Hadoop2．0的资源管理调度框架——YARN)；大数据分析的关键技术主要包括大数据的获取、数据清洗、数据归约、数据标准化、大数据分析算法(包括聚类、分类算法)的应用；大数据分析的应用是以案例的形式给出大数据分析在上市公司信用风险预测研究中的实际应用。本书能培养学生搭建大数据分析平台的工程技术能力，面向大规模、多类型数据集的分析及处理能力，基于大数据思维方式进行数据分析的能力，将大数据技术与实际财经应用问题相结合并实现快速决策分析的能力，同时培养学生科技报国的家国情怀和使命担当。本书适合作为高等院校各专业(尤其是大数据相关专业、财经类专业)大数据分析相关课程的教材，也可供相关技术人员参考。

展开

精彩书评

展开

精彩书摘

展开

第1章大数据的概述
1.1 大数据的产生背景与概念
1.1.1 大数据的产生背景
1.1.2 大数据的定义
1.1.3 数据的存储单位
1.1.4 大数据的分类
1.2 大数据的特点和技术
1.2.1 大数据的特点
1.2.2 大数据的技术
1.3 大数据的应用和价值
1.3.1 大数据的应用
1.3.2 大数据的价值
1.4 大数据时代的思维变革
1.5 国家大数据战略
1.5.1 国家大数据战略的历史沿革
1.5.2 国家大数据战略的时代背景
1.5.3 国家大数据战略的内涵
1.5.4 国家大数据战略的意义
1.6 本章小结
1.7 习题
第2章开源大数据平台
2.1 Hadoop平台
2.1.1 Hadoop的概述
2.1.2 Hadoop的体系结构和生态系统
2.1.3 Hadoop的安装和使用
2.2 Spark平台
2.2.1 Spark的概述
2.2.2 Spark的生态系统和体系结构
2.2.3 RDD的运行原理
2.2.4 Spark的安装和使用
2.3 本章小结
2.4 习题
第3章 HDFS
3.1 HDFS的概述
3.1.1 分布式文件系统
3.1.2 HDFS的简介
3.2 HDFS的体系结构
3.2.1 HDFS 1.0的体系结构
3.2.2 HDFS 2.0的体系结构
3.3 HDFS的存储原理
3.3.1 冗余数据保存
3.3.2 数据存取策略
3.3.3 文件读／写过程
3.3.4 数据错误与恢复
3.4 HDFS的优缺点分析
3.5 HDFS的常用命令
3.6 本章小结
3.7 习题
第4章 MapReduce并行编程模型
4.1 MapReduce的概述
4.1.1 分布式并行编程
4.1.2 MapReduce的简介
4.1.3 Map函数和Reduce函数
4.2 MapReduce的体系结构
4.2.1 MapReduce 1.0 体系结构的总体框架
4.2.2 Hadoop 2.0 的体系结构
4.2.3 MapReduce的容错性
4.3 MapReduce的工作流程
4.3.1 MapReduce工作流程的概述
4.3.2 MapReduce的执行过程
4.3.3 Shuffle过程详解
4.4 MapReduce的实例分析
4.4.1 WordCount
4.4.2 倒排索引
4.4.3 Top
4.5 MapReduce的编程实践
4.5.1 任务要求
4.5.2 编写Map处理逻辑
4.5.3 编写Reduce处理逻辑
4.5.4 编写main方法
4.5.5 实验过程
4.6 MapReduce的优缺点分析
4.6.1 MapReduce的优点
4.6.2 MapReduce的缺点
4.7 本章小结
4.8 本章习题
第5章 Hadoop 2.0的资源管理调度框架――YARN
5.1 YARN的产生背景
5.1.1 MapReduce 1.0中存在的问题
5.1.2 YARN的产生
5.2 YARN的设计思路
5.3 YARN的体系结构
5.3.1 YARN的体系结构总体框架
5.3.2 YARN各组件功能的介绍
5.3.3 YARN的容错性
5.4 YARN的工作流程
5.5 YARN的优缺点分析
5.5.1 YARN的优点
5.5.2 YARN的缺点
5.6 本章小结
5.7 本章习题
第6章大数据的获取和预处理
6.1 大数据的获取
6.1.1 爬虫的基础知识
6.1.2 Scrapy爬虫的原理与流程
6.1.3 Scrapy的爬虫实例
6.2 数据清洗
6.2.1 数据清洗的概述
6.2.2 数据清洗的原理
6.2.3 数据清洗的流程
6.2.4 Pandas数据清洗的实例
6.3 数据归约
6.3.1 维归约
6.3.2 属性选择
6.3.3 离散化方法
6.3.4 PCA的实例
6.4 数据标准化
6.4.1 数据标准化的概念
6.4.2 数据标准化的方法
6.4.3 数据标准化的实例
6.5 本章小结
6.6 习题
第7章大数据分析算法
7.1 聚类算法
7.1.1 经典聚类算法
7.1.2 大数据聚类算法的应用
7.2 分类算法
7.2.1 经典分类算法
7.2.2 大数据分类算法的应用
7.3 本章小结
7.4 习题
第8章大数据分析的应用案例
8.1 案例背景
8.2 数据获取和预处理
8.2.1 获取来源
8.2.2 数据说明
8.2.3 数据预处理
8.3 评价指标说明
8.4 基于Python的实现
8.4.1 基于Python的逻辑回归
8.4.2 基于Python的SVM
8.4.3 基于Python的朴素贝叶斯
8.4.4 基于Python的决策树
8.4.5 基于Python的随机森林
8.5 基于Spark的实现
8.5.1 基于Spark的逻辑回归
8.5.2 基于Spark的SVM
8.6 实验结果分析
8.7 本章小结
8.8 习题

展开