搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
文献来源:
出版时间 :
大数据:技术与应用实践指南:technology and application practice
0.00    
图书来源:
  • 配送范围:
    全国(除港澳台地区)
  • ISBN:
    9787121281501
  • 作      者:
    赵刚著
  • 出 版 社 :
    电子工业出版社
  • 出版日期:
    2016
收藏
编辑推荐

  1、赵刚博士在信息化领域耕耘10余年,对大数据的认识深刻且系统。
  2、阐述的视角放在了大数据的技术应用上,对于想利用大数据的读者非常具有参考价值。
  3、结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。

展开
作者简介

  赵刚,博士。北京赛智时代信息技术咨询有限公司(CIOManage)创始人。历任国内著名信息化咨询公司赛迪顾问股份有限公司高级副总裁、首席信息化咨询顾问,国内计算机系统集成一级资质企业北京赛迪时代信息产业股份有限公司总经理、首席架构师,2012年获得中国电子信息产业发展研究院十大“赛迪学者”称号,兼任中国信息化推进联盟专家、中国电子学会高级会员。
  近两年,主持和参与过的信息化咨询和集成项目有:国家新一代信息技术应用战略研究、亚太地区智慧城市指标体系研究、中国-欧盟信息社会研究、天津市智慧城市规划、国土资源部分布式国土资源信息共享服务平台、国家图书馆文津馆智能搜索集群平台、公安部虚拟化数据平台、中海油企业级数据中心和灾备中心规划、国药集团私有云计算平台规划、北京市物联网应用示范项目初步设计、鄂尔多斯市人口基础数据库建设等。
  在信息化领域耕耘10余年,服务的政府、企业客户超过100家,发表文章若干篇,著有专著《IT管理体系-战略、管理和服务》,参与编写《智慧城市:规划、建设和评估》、《信息化基本知识》、《信息系统审计》等。

展开
内容介绍

  大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前*为热门的信息技术应用领域。本书由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。*后,对大数据面临的挑战和未来的趋势进行了展望。第2版,对于这几年的发展做一个补充。

展开
精彩书评

本书可以为一切想了解大数据技术应用、建设大数据企业级应用架构、享受大数据分析之美的读者提供一把开启大数据世界的钥匙,即使是对大数据有所研究的人士,本书系统性的视角也可以使他们了解全局、开阔思路,本书具有很高的参考价值。

中国工程院院士  倪光南


当今大数据的应用将是企业在主数据管理和商业智能基础上一个重要应用发展方向。赵博士这本书从大数据的概念、应用需求、技术架构、应用集成和方法论等方面系统阐述大数据应用,为企业大数据技术和应用实践提供指导。这本书不是大数据理念的书,也不是纯粹的HADOOP技术开发的书,而主要着眼大数据的技术架构和应用需求,为企业大数据的应用人员提供一个实践性的指南。

云计算领域专家、中国医药集团总公司信息化专家组组长、信息部主任  雷万云


大数据已经慢慢从一个Buzz Word变成一个时代的化身,潜移默化地深入每个人的生活,在大数据时代我们也该静下心来想想真正的大数据是什么?大数据改变了些什么?大数据不仅仅是一个技术问题,追根究底其实是一个商业问题,怎么让大数据产生价值,我们需要一个创新的想法,而技术是实现价值的一种手段。这本书从不同行业的业务需求入手,涵盖了很多具体的大数据场景用例,也深入浅出地涉及了大数据相关的技术及其架构,同时从企业角度给出了可参考的解决方案,是一本很好的大数据应用实践指南。

IBM中国开发中心首席技术官兼新技术研发中心总经理  毛新生



这本书太及时了!它回答了这样一个务实的问题:在大数据术语满天飞的时代,究竟应该怎么做?怎么做,并非简单地用某种新工具、新理念来指导实践,而是通过贯通理论与实践、案例与方法,构建和充实“大数据”这个方兴未艾的新疆域。

财讯传媒集团(SEEC)首席战略官、ZiffDavis媒体集团(中国)战略发展研究主任  段永朝


本书以系统的视角,从概念背景到整合策略再到应用实例,解析了大数据的相关技术和基本应用路径,对处于摸索道路上的大数据研发人员与应用人员,实现从大数据蓝图到大数据实践的迈进,以及充分挖掘和利用大数据中的价值,将带来有用的启迪和帮助。

赛迪智库软件与信息服务业研究所所长  安晖


展开
精彩书摘

  6.1  产业链
  6.1.1  国际大数据产业生态
  大数据的厂商生态图发布在投资人Dave Feinleib的博客 上,比较清晰地介绍了国际上主流的大数据研究、产品和服务厂商,本书引用了Dave的分析,如图6 1所示。当然,新的产品和厂商每天都在不断涌现,真正的检验还将来自市场。
  很多厂商的产品和技术都建立在Apache开源的分布式计算和存储的基础支撑平台上,包括开源的Hadoop/MapReduce、HBase、Mahout 和Cassandra等。
  开源基础技术之上,主流的大数据厂商分为大数据分析基础设施、大数据操作基础设施、大数据基础设施云服务、传统结构化数据库、商业智能、可视化等领域。
  1. 大数据分析基础设施
  大数据分析基础设施主要是指Hadoop发行版产品,主要的厂商和产品有:Cloudera、Hortonworks、MapR,这是3家主要的Hadoop发行版产品的提供商,下一节会具体介绍其产品。其他主流厂商的产品包括HP的Vertica、EMC的Greenplum HD、IBM的BigInsights以及ParAccel、InfoBright、Kognitio、Calpont、Exasol、Datastax等。
  2. 大数据操作基础设施
  大数据操作基础设施主要是指企业级的NoSQL数据库和SQL on Hadoop产品,主要产品有Couchbase、Hadapt、Teradata、10gen、Terracotta、MarkLogic、VoltDB等。例如,Couchbase和MarkLogic等都是企业级的商用NoSQL数据库。
  3. 大数据基础设施云服务(IAAS)
  基于大数据基础设施提供的云服务有Amazon Web Services Elastic MapReduce、Google BigQuery、Infochimps、Microsoft Windows Azure等。
  4. 关系型数据库
  关系型数据库产品Oracle、Microsoft SQL Server、MySQL、PostgreSQL、MemSQL、SAP Sybase、IBM DB2等。
  5. 数据云服务(DAAS)
  DaaS的主要产品有:Gnip、Datasift、Space Curve、Factual、Windows Azure Marketplace、LexisNexis、Loqate、Kaggle、 Knoema、Inrix等。例如,Windows Azure Marketplace就是基于Windows Azure云计算平台,供数据供应商和开发人员购买和销售数据集和应用程序的在线市场。
  6. 商业智能产品
  商业智能产品主要有:Oracle Hyperion、SAP Business Objects,Microsoft Business Intelligence、IBM Cognos、SAS、MicroStrategy、GoodData,HP的Autonomy、QlikView、Chart.io、Domo、Bime、RJMetrics等。这一类产品通常兼具分析和可视化的能力。
  7. 分析和可视化应用
  分析和可视化应用主要产品有:SAS、Teradata Aster、Tableau Software、Palantir、MetaMarkets、Visual.ly、KarmaSphere、EMC Greenplum、Platfora、ClearStory Data、Dataspora、Centrifuge、Cirro、Ayata、Alteryx、Datameer、Panopticon、Tibco、Opera、Metalayer、Pentaho。例如,EMC Greenplum套件能对各种类型数据进行分析和可视化展现。Teradata收购的 Aster Data 是高级分析和管理各种非结构化数据领域的重要厂商。
  8. 日志应用
  日志数据应用主要产品有:Splunk、Loggly、Sumo Logic。例如,Splunk 是一个可运行于各种平台的 IT 数据、日志分析软件。
  9. 广告/媒体应用
  广告/媒体应用主要产品有:Media Science、Bluefin Labs、CollectiveI、Recorded Future、LuckySort、DataXu、RocketFuel、Turn等。例如,RocketFuel是一家广告优化公司,Rocket Fuel每天处理15亿次品牌广告展示,广告效果完全基于数据来进行改善。
  10. 垂直应用
  大数据垂直应用的主要产品有:Predictive Policing、BloomReach、Atigeo、Myrrix。例如,BloomReach公司面向市场营销开发大数据应用(BDA),通过机器学习、网络爬虫和搜索技术来挖掘数据,对网站的数据进行分析,然后设法为网站带来更多的流量,从而给他们的客户带来更多的利润。
  6.1.2  国内大数据产业生态
  如图6-2所示为赛智咨询公司提供的2015年国内大数据产业生态现状。
  国内在互联网和行业应用领域的大数据应用也处于较好的水平,例如阿里巴巴、百度、腾讯网等公司在大数据技术研发和应用方面均处于较高的水平。在大数据硬件基础设施方面,国内主要服务器厂商如曙光、浪潮、华为等公司均推出了自身的大数据一体机产品,如曙光的XData大数据一体机、浪潮的云海大数据一体机等。因大数据硬件基础设施强调基于低成本服务器集群搭建,降低了硬件的门槛,使得国内厂商在性能上并不逊色于国外厂商,也有了迎头赶上的机会,曙光一体机在中国农业银行的应用似乎也证明了这一点。在商业化Hadoop发行版方面,国内的企业仍在不断摸索,华为的FusionInsight Hadoop、环星科技、红象等Hadoop发行版本被推出。在Apache开源项目的基础上加入了相应的优化和服务,这对于国内的Hadoop开发者来说,并不是难事。在NOSQL数据库方面,目前主流的互联网公司,大多采用的是国外开源的NOSQL数据库。
  ……

展开
目录

第1章  大数据的概念和发展背景 1
1.1  大数据的发展背景 1
1.2  大数据的概念和特征 4
1.2.1  大数据的概念 4
1.2.2  大数据的特征 4
1.3  大数据的产生 5
1.3.1  数据产生由企业内部向企业外部扩展 5
1.3.2  数据产生从Web 1.0向Web 2.0、从互联网向移动互联网扩展 6
1.3.3  数据产生从计算机/互联网(IT)向物联网(IOT)扩展 7
1.4  数据的量级 7
1.4.1  数据大小的量级 7
1.4.2  大数据的量级 8
1.5  大量不同的数据类型 8
1.5.1  按照数据结构分类 9
1.5.2  按照产生主体分类 12
1.5.3  按照数据作用方式分类 13
1.6  大数据的速度 14
1.7  大数据的应用价值 14
1.8  大数据的挑战 15
1.8.1  业务视角不同带来的挑战 15
1.8.2  技术架构不同带来的挑战 15
1.8.3  管理策略不同带来的挑战 16
第2章  大数据应用的业务需求 17
2.1  大数据应用的业务流程 17
2.1.1  产生数据 18
2.1.2  聚集数据 18
2.1.3  分析数据 19
2.1.4  利用数据 19
2.2  大数据应用的业务价值 19
2.2.1  发现大数据的潜在价值 20
2.2.2  发现动态行为数据的价值 20
2.2.3  实现大数据整合创新的价值 20
2.3  各行业大数据应用的个性需求 21
2.3.1  互联网与电子商务行业 21
2.3.2  零售业 26
2.3.3  金融业 28
2.3.4  政府 31
2.3.5  医疗业 34
2.3.6  能源业 35
2.3.7  制造业 37
2.3.8  电信运营业 38
2.3.9  交通业 40
2.4  企业级大数据应用的共性需求 42
2.4.1  客户分析 42
2.4.2  绩效分析 46
2.4.3  欺诈和风险评估 47
2.5  以银行客户分析为例,分析一个大数据的应用场景 48
第3章  大数据应用的总体架构和关键技术 51
3.1  总体架构 51
3.1.1  业务目标 51
3.1.2  架构设计原则 52
3.1.3  总体架构参考模型 55
3.1.4  总体架构的特点 58
3.2  大数据存储和处理技术 59
3.2.1  Hadoop:分布式存储和计算平台 59
3.2.2  HDFS:分布式文件系统 65
3.2.3  MapReduce:分布式计算框架 72
3.2.4  NoSQL:分布式数据库 98
3.2.5  MPP:大规模并行处理系统 113
3.2.6  Spark:轻量级的分布式内存计算系统 117
3.2.7  S4和Storm:流计算框架 126
3.2.8  大数据存储和处理技术的比较分析 132
3.3  大数据查询和分析技术 133
3.3.1  Hive:基本的Hadoop查询和分析 134
3.3.2  Hive 2.0:Hive的优化和升级 144
3.3.3  实时互动的SQL:Impala和drill 147
3.3.4  基于PostgreSQL的SQL on Hadoop 153
3.4  大数据高级分析和可视化技术 154
3.4.1  传统数据仓库与联机分析处理技术 154
3.4.2  大数据对传统分析的挑战 157
3.4.3  大数据挖掘与高级分析 157
3.4.4  大数据挖掘与高级分析库 162
3.4.5  非结构化复杂数据分析 163
3.4.6  实时预测分析 170
3.4.7  开源可视化工具:R语言 177
3.4.8  可视化技术 185
3.5  以银行客户分析为例的大数据应用体系架构 194
第4章  大数据与企业级应用的整合策略 196
4.1  大数据传输、接入、整合和流程管理平台 197
4.1.1  数据传输 197
4.1.2  数据接入 203
4.1.3  数据整合 207
4.1.4  流程管理 208
4.2  大数据与存储架构的整合 212
4.2.1  传统存储架构比较 212
4.2.2  大数据平台的存储架构的选择 214
4.2.3  集群存储的发展 214
4.2.4  基于HDFS的集群存储 216
4.2.5  固态硬盘(SSD)对内存计算的支持 218
4.2.6  软件定义存储(SDS) 218
4.2.7  超融合架构(HCI) 220
4.3  大数据与网络架构的发展 220
4.3.1  统一的以太网结构 222
4.3.2  软件定义网络(SDN) 223
4.3.3  网络功能虚拟化(NFV) 226
4.4  大数据与虚拟化技术的整合 228
4.5  大数据与Docker技术 230
4.5.1  Docker概述 230
4.5.2  Docker原理与总体架构 231
4.5.3  Docker与应用程序开发与管理 237
4.6  大数据与云计算 240
4.7  大数据安全 242
4.8  以银行客户分析为例,分析一个大数据的平台整合 244
第5章  大数据应用的实践方法与案例 246
5.1  实践方法论 246
5.1.1  业务需求定义 247
5.1.2  数据应用现状分析与标杆比较 248
5.1.3  大数据应用架构规划和设计 249
5.1.4  大数据技术切入与实施 250
5.1.5  大数据试用和评估 251
5.1.6  大数据应用推广 252
5.2  技术应用案例 252
5.2.1  Amazon和Google 252
5.2.2  Yahoo 255
5.2.3  Amazon 257
5.2.4  Facebook 259
5.2.5  Twitter 263
5.2.6  淘宝网 264
5.3  以银行客户分析为例的实施案例分析 266
5.3.1  银行基于大数据的客户分析的业务需求 266
5.3.2  银行基于大数据的客户分析的现状与标杆比较 267
5.3.3  银行基于大数据的客户分析的应用架构规划与设计 269
5.3.4  银行基于大数据的数据分析的实施、试点和推广 269
第6章  大数据应用的主流解决方案 270
6.1  产业链 270
6.1.1  国际大数据产业生态 270
6.1.2  国内大数据产业生态 273
6.2  主流厂商解决方案 274
6.2.1  Cloundera 275
6.2.2  Hortonworks 276
6.2.3  MapR 277
6.2.4  IBM 278
6.2.5  Oracle 280
6.2.6  EMC 281
6.2.7  Intel 282
6.2.8  SAP 283
6.2.9  Teradata 285
第7章  大数据应用的未来挑战和趋势 286
7.1  隐私保护 286
7.1.1  法律保护 287
7.1.2  技术保护 289
7.1.3  理念革新 290
7.2  技术标准 291
7.2.1  ISO大数据标准化进展 291
7.2.2  大数据基准和基准测试 293
7.2.3  大数据处理分析标准套件 296
7.3  大数据治理 296
7.3.1  数据治理框架 297
7.3.2  数据质量管理 298
7.3.3  大数据的组织、角色和责任 299
7.4  适应商业社会的未来趋势 300
7.4.1  从产品推销向数据营销的转变 300
7.4.2  从流程驱动到分析驱动的转变 300
7.4.3  从私有资源到公共服务的转变 301

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

请选择您读者所在的图书馆

选择图书馆
浙江图书馆
点击获取验证码
登录
没有读者证?在线办证