信阅平台

编辑推荐

　　赵刚博士在信息化领域耕耘10余年，对大数据的认识深刻且系统。
　　阐述的视角放在了大数据的技术应用上，对于想利用大数据的读者非常具有参考价值。
　　结合应用实践，详细阐述了传统信息系统与大数据平台的整合策略，大数据应用实践的流程和方法，并介绍了主要的大数据应用产品和解决方案。

展开

作者简介

　　赵刚，博士。北京赛智时代信息技术咨询有限公司（CIOManage）创始人。历任国内著名信息化咨询公司赛迪顾问股份有限公司高级副总裁、首席信息化咨询顾问，国内计算机系统集成一级资质企业北京赛迪时代信息产业股份有限公司总经理、首席架构师，2012年获得中国电子信息产业发展研究院十大“赛迪学者”称号，兼任中国信息化推进联盟专家、中国电子学会高级会员。
　　近2年，主持和参与过的信息化咨询和集成项目有：国家新一代信息技术应用战略研究、亚太地区智慧城市指标体系研究、中国－欧盟信息社会研究、天津市智慧城市规划、国土资源部分布式国土资源信息共享服务平台、国家图书馆文津馆智能搜索集群平台、公安部虚拟化数据平台、中海油企业级数据中心和灾备中心规划、国药集团私有云计算平台规划、北京市物联网应用示范项目初步设计、鄂尔多斯市人口基础数据库建设等。
　　在信息化领域耕耘10余年，服务的政府、企业客户超过100家，发表文章若干篇，著有专著《IT管理体系－战略、管理和服务》，参与编写《智慧城市：规划、建设和评估》、《信息化基本知识》、《信息系统审计》等。

展开

内容介绍

　　《大数据：技术与应用实践指南》由浅入深，首先概述性地分析了大数据的发展背景、基本概念，从业务的角度分析了大数据应用的主要业务价值和业务需求，在此基础上介绍大数据的技术架构和关键技术，结合应用实践，详细阐述了传统信息系统与大数据平台的整合策略，大数据应用实践的流程和方法，并介绍了主要的大数据应用产品和解决方案。最后，对大数据面临的挑战和未来的趋势进行了展望。

展开

精彩书评

　　★本书可以为一切想了解大数据技术应用、建设大数据企业级应用架构、享受大数据分析之美的读者提供一把开启大数据世界的钥匙，即使是对大数据有所研究的人士，本书系统性的视角也可以使他们了解全局、开阔思路，本书具有很高的参考价值。
　　——中国工程院院士倪光南

　　★当今大数据的应用将是企业在主数据管理和商业智能基础上一个重要应用发展方向。赵博士这本书从大数据的概念、应用需求、技术架构、应用集成和方法论等方面系统阐述大数据应用，为企业大数据技术和应用实践提供指导。这本书不是大数据理念的书，也不是纯粹的HADOOP技术开发的书，而主要着眼大数据的技术架构和应用需求，为企业大数据的应用人员提供一个实践性的指南。
　　——云计算领域专业专家、中国医药集团总公司信息化专家组组长、信息部主任雷万云

　　★大数据已经慢慢从一个Buzz Word变成一个时代的化身，潜移默化地深入每个人的生活，在大数据时代我们也该静下心来想想真正的大数据是什么？大数据改变了些什么？大数据不仅仅是一个技术问题，追根究底其实是一个商业问题，怎么让大数据产生价值，我们需要一个创新的想法，而技术是实现价值的一种手段。这本书从不同行业的业务需求入手，涵盖了很多具体的大数据场景用例，也深入浅出地涉及了大数据相关的技术及其架构，同时从企业角度给出了可参考的解决方案，是一本很好的大数据应用实践指南。
　　——IBM中国开发中心首席技术官兼新技术研发中心总经理毛新生

　　★这本书太及时了！它回答了这样一个务实的问题：在大数据术语满天飞的时代，究竟应该怎么做？怎么做，并非简单地用某种新工具、新理念来指导实践，而是通过贯通理论与实践、案例与方法，构建和充实“大数据”这个方兴未艾的新疆域。
　　——财讯传媒集团（SEEC）首席战略官、ZiffDavis媒体集团（中国）战略发展研究主任段永朝

　　★本书以系统的视角，从概念背景到整合策略再到应用实例，解析了大数据的相关技术和基本应用路径，对处于摸索道路上的大数据研发人员与应用人员，实现从大数据蓝图到大数据实践的迈进，以及充分挖掘和利用大数据中的价值，将带来有用的启迪和帮助。
　　——赛迪智库软件与信息服务业研究所所长安晖

展开

精彩书摘

　　3.4.3 大数据挖掘与高级分析
　　数据挖掘是从大量数据中寻找其规律的技术，是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取出模式、关联、变化、异常和有意义的结构。数据挖掘主要价值在于利用数据挖掘技术能发现规律并改善预测模型。
　　数据挖掘技术可以分为描述性技术和预测性技术，描述性技术了解数据中潜在的规律，预测性技术是用历史预测未来的技术。
　　数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型，其中比较典型的有：关联分析、基于决策树或神经网络的分类分析、聚类分析、序列分析等，如图3-50所示是其中一些应用示例。下面分别介绍几种常见的数据挖掘类型。
　　1. 关联（Association）分析
　　关联规则描述了一组数据项之间的关系。关联分析是在交易数据、关系数据或其他信息载体中，发现存在于项目集或对象集之间的关联规则，包括关联、相关性、因果结构或频繁出现的模式。在关联规则挖掘算法中，通常给出了置信度和支持度两个概念，对于置信度和支持度均大于给定阈值的规则称为强规则，而关联分析主要就是对强规则的挖掘。关联规则模式属于描述型模式，发现关联规则的算法属于无监督学习的方法。关联分析广泛用于购物篮分析、交叉销售、商品目录设计等商业决策领域。沃尔玛就使用关联规则发现了哪些人同时购买了纸尿片和啤酒。例如，下面是在购物篮分析中的关联规则例子。
　　问题是：“什么商品组合，顾客可能会在一次购物中同时购买？”
　　购物篮分析：设全域为出售商店的集合（即项目全集），一次购物购买（即事务）的商品为项目全集的子集，若每种商品用一个布尔变量表示该商品的有无，则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析，得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则描述。
　　购买纸尿布与购买啤酒的关联规则可表示为：
　　diaper→beer [support=2%,confidence=60%]
　　support为支持度，confidence为置信度。
　　该规则表示：在所分析的全部事务中，有2％的事务同时购买纸尿布和啤酒；在购买纸尿布的顾客中60％也购买啤酒。
　　常用的关联分析算法有Apriori算法及它的各种改进或扩展算法。Apriori算法是一种挖掘布尔关联规则频繁项集的算法。算法的核心思想是基于频集理论的一种递推方法，目的是从数据库中挖掘出那些支持度和信任度都不低于给定的最小支持度阈值和最小信任度阈值的关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。对于大规模、分布在不同站点上的数据库或数据仓库，关联规则的挖掘可以使用并行算法，如Count分布算法、Data分布算法、Candidate分布算法、智能Data分布算法（IDD）和DMA分布算法等。
　　2. 分类（Classification）分析
　　所谓分类是根据数据的特征为每个类别建立一个模型，根据数据的属性将数据分配到不同的组中。在实际应用过程中，分类规则可以分析分组中数据的各种属性，并找出数据的属性模型，从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有数据，并预测新数据将属于哪一个组。类的描述可以是显式的，如用一组特征概念描述；也可以是隐式的，如用一个数学公式或数学模型描述。
　　分类是事先定义好类别，属于有指导学习范畴。分类的目的是学会一个分类模型（称为分类器），该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由特征值组成的特征向量。此外，训练样本还有一个类别标记。一个具体样本的形式可表示为：
　　（v1,v2,...,vn; c）；其中vi表示特征值，c表示类别。
　　常用分类算法有决策树、神经网络（NN）、贝叶斯分类（Bayes）等。决策树是一个树结构，它用样本的属性作为节点，用属性的取值作为分支。决策树的根节点是所有样本信息中信息量最大的属性，中间节点是以该节点为根的子树所包含的样本子集中信息量最大的属性，决策树的叶节点是样本的类别值。决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递推方式，在决策树的内部节点进行属性值的比较并根据不同的属性值判断从该节点向下的分支，在决策树的叶节点得到结论。所以，从根节点到叶节点的一条路径就对应着一条合取规则，整棵决策树就对应着一组析取表达式规则。著名的决策树算法有ID3和改进的C4.5。如图3-51所示为一个决策树的例子。
　　神经网络（NN）算法是反映人脑结构及功能的一种数学模型，它是由大量的简单处理单元经广泛并行互联形成的一种网络系统，用以模拟人类进行知识的表示与存储以及利用知识进行推理的行为。它是对人脑系统的简化、抽象和模拟，具有人脑功能的许多特征。如图3-52所示为基于知识的神经网络的信息流程。
　　分类适合类别或分类体系已经确定的场合，目前分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等领域。
　　3. 聚类分析（Clustering）
　　聚类是指一组彼此间非常“相似”的数据对象的集合。相似的程度可以通过距离函数来表示，由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近，不同分组之间的数据相差较大。好的聚类方法可以产生高质量的聚类，保证每一聚类内部的相似性很高，而各聚类之间的相似性很低。聚类分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。采用聚类分析，系统可以根据部分数据发现规律，找出对全体数据的描述。
　　常用算法有K均值、最近邻、神经网络等。K均值算法把n个对象根据它们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。
　　聚类分析用于很多领域，如对购物篮分析中，可用聚类分析基于其他人的兴趣来预测这个顾客的兴趣。
　　4. 序列（Sequence）分析
　　序列分析主要用于分析数据仓库中的某类与时间相关的数据，搜索类似的序列或子序列，并挖掘时序模式、周期性、趋势和偏离等。序列模式可以看成是一种特定的关联模型，它在关联模型中增加了时间属性。例如，它可以导出，“在两年前购买了福特轿车的顾客，有70%可能在今年采取以旧换新的购车行动”，“在购买了自行车和购物篮的所有客户中，有80%的客户会在两个月后购买打气筒”等。
　　5. 偏差检测（Deviation Detection）分析
　　用于检测并解释数据分类的偏差，即数据集中间显著不同于其他数据的对象。它有助于滤掉知识发现引擎所抽取的无关信息，也可滤掉那些不合适的数据，同时可产生新的关注性事实。偏差包括很多有用的知识，如分类中的反常实例，模式的例外，观察结果对模型预测的偏差，量值随时间的变化等。偏差检测的基本方法是寻找观察结果与参照之间的差别，观察结果常常是某一个域的值或多个域值的汇总，参照是给定模型的预测、外界提供的标准或另一个观察。常用算法有决策树、神经网络、异常因子LOF检测等。常用应用有及时发现有欺诈嫌疑的异常行为等。
　　6. 预测模型（Predictive Modeling）分析
　　所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。建立预测模型的常用方法：回归分析、线性模型、支持矢量机、关联规则、决策树预测、遗传算法、神经网络等。后续章节将重点阐述预测分析。
　　7. 模式相似性挖掘
　　用于在时间数据库或空间数据库中搜索相似模式时，从所有对象中找出用户定义范围内的对象，或找出所有元素对中两者的距离小于用户定义的距离范围的元素对。模式相似性挖掘的方法有相似度测量法、遗传算法等。

　　……

展开

第1章大数据的概念和发展背景
1.1 大数据的发展背景
1.2 大数据的概念和特征
1.2.1 大数据的概念
1.2.2 大数据的特征
1.3 大数据的产生
1.3.1 数据产生由企业内部向企业外部扩展
1.3.2 数据产生从Web 1.0 向Web 2.0、从互联网向移动互联网扩展
1.3.3 数据产生从计算机/互联网（IT）向物联网（IOT）扩展
1.4 数据的量级
1.4.1 数据大小的量级
1.4.2 大数据的量级
1.5 大量不同的数据类型
1.5.1 按照数据结构分类
1.5.2 按照产生主体分类
1.5.3 按照数据作用方式分类
1.6 大数据的速度
1.7 大数据的潜在价值
1.8 大数据的挑战
1.8.1 业务视角不同带来的挑战
1.8.2 技术架构不同带来的挑战
1.8.3 管理策略不同带来的挑战

第2章大数据应用的业务需求
2.1 大数据应用的业务流程
2.1.1 产生数据
2.1.2 聚集数据
2.1.3 分析数据
2.1.4 利用数据
2.2 大数据应用的业务价值
2.2.1 发现大数据的潜在价值
2.2.2 实现大数据整合创新的价值
2.2.3 新领域再利用的价值
2.3 各行业大数据应用的个性需求
2.3.1 互联网与电子商务行业
2.3.2 零售业
2.3.3 金融业
2.3.4 政府
2.3.5 医疗业
2.3.6 能源业
2.3.7 制造业
2.3.8 电信运营业
2.3.9 交通物流业
2.4 企业级大数据应用的共性需求
2.4.1 客户分析
2.4.2 绩效分析
2.4.3 欺诈和风险评估
2.5 以银行客户分析为例，分析一个大数据的应用场景

第3章大数据应用的总体架构和关键技术
3.1 总体架构
3.1.1 业务目标
3.1.2 架构设计原则
3.1.3 总体架构参考模型
3.1.4 总体架构的特点
3.2 大数据存储和处理技术
3.2.1 Hadoop：分布式存储和计算平台
3.2.2 Hadoop 之HDFS：分布式文件系统
3.2.3 Hadoop 之MapReduce：分布式计算框架
3.2.4 Hadoop 之NoSQL：分布式数据库
3.2.5 Hadoop 之外的大数据计算技术
3.3 大数据查询和分析技术：SQL on Hadoop
3.3.1 Hive：基本的Hadoop 查询和分析
3.3.2 Hive 2.0：Hive 的优化和升级
3.3.3 实时互动的SQL：Impala 和drill
3.3.4 基于PostgreSQL 的SQL on Hadoop
3.4 大数据高级分析和可视化技术
3.4.1 传统数据仓库与联机分析处理技术
3.4.2 大数据对传统分析的挑战
3.4.3 大数据挖掘与高级分析
3.4.4 大数据挖掘与高级分析库：Mahout
3.4.5 非结构化复杂数据分析
3.4.6 实时预测分析
3.4.7 开源可视化工具：R 语言
3.4.8 可视化技术
3.5 以银行客户分析为例的大数据的技术环境部署
3.5.1 银行客户大数据应用体系架构
3.5.2 技术环境安装与配置

第4章大数据与企业级应用的整合策略
4.1 大数据传输、整合和流程管理平台
4.1.1 数据传输
4.1.2 数据整合
4.1.3 流程管理
4.2 大数据与存储架构的整合
4.2.1 传统存储架构比较
4.2.2 大数据平台的存储架构的选择
4.2.3 集群存储的发展
4.2.4 基于HDFS 的集群存储
4.2.5 固态硬盘（SSD）对内存计算的支持
4.3 大数据与网络架构的发展
4.4 大数据与虚拟化技术的整合
4.5 在云计算平台上的大数据云
4.6 大数据与信息安全
4.7 以银行客户分析为例，分析一个大数据的平台整合

第5章大数据应用的实践方法与案例
5.1 实践方法论
5.1.1 业务需求定义
5.1.2 数据应用现状分析与标杆比较
5.1.3 大数据应用架构规划和设计
5.1.4 大数据技术切入与实施
5.1.5 大数据试用和评估
5.1.6 大数据应用推广
5.2 应用案例
5.2.1 亚马逊
5.2.2 雅虎
5.2.3 淘宝网
5.2.4 Facebook
5.3 以银行客户分析为例的实施案例分析
5.3.1 银行基于大数据的客户分析的业务需求
5.3.2 银行基于大数据的客户分析的现状与标杆比较
5.3.3 银行基于大数据的客户分析的应用架构规划与设计
5.3.4 银行基于大数据的数据分析的实施、试点和推广

第6章大数据应用的主流解决方案
6.1 产业链
6.1.1 国际上的大数据生态环境
6.1.2 国内产业链主要力量
6.2 主流厂商解决方案
6.2.1 Cloundera
6.2.2 Hortonworks
6.2.3 MapR
6.2.4 IBM
6.2.5 Oracle
6.2.6 EMC
6.2.7 Intel
6.2.8 SAP
6.2.9 Teradata

第7章大数据应用的未来挑战和趋势
7.1 隐私保护
7.1.1 法律保护
7.1.2 技术保护
7.1.3 理念革新
7.2 技术标准
7.2.1 ISO 标准化进展
7.2.2 评价基准和基准测试
7.2.3 标准套件
7.3 大数据治理
7.3.1 数据治理框架
7.3.2 数据质量管理
7.3.3 大数据的组织、角色和责任
7.4 适应商业社会的未来趋势
7.4.1 从产品推销向数据营销的转变
7.4.2 从流程驱动到分析驱动的转变
7.4.3 从私有资源到公共服务的转变
……

展开