第1章大数据概论
本章提要
在这个日新月异发展的社会中,人们发现未知领域的规律主要依赖抽样数据、局部数据和片面数据,甚至无法获得真实数据时只能纯粹依赖经验、理论、假设和价值观去认识世界。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。然而大数据时代的来临使人类拥有更多的机会和条件在各个领域更深入地获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律。大数据的出现帮助商家了解用户、锁定资源、规划生产、做好运营及开展服务。
本章主要从大数据时代背景、大数据基本概念、大数据系统以及大数据与企业等方面,让读者对大数据有初步的认识。
1.1大数据时代背景
中国庞大的人数和应用市场,其复杂性高并且充满变化,从而成为世界上拥有最复杂的大数据的国家。解决这种由大规模数据引发的问题,探索以大数据为基础的解决方案,是中国产业升级、效率提高的重要手段。因此,解决大数据这一问题不仅提高公司的竞争力,也能提高国家竞争力。
1.1.1大数据的数据源
近年来,随着信息技术的发展,我国在各个领域产生了海量数据,主要分布如下。
1. 以BAT为代表的互联网公司
(1) 阿里巴巴: 目前保存的数据量为近百个拍字节(PB),90%以上是电商数据、交易数据、用户浏览和点击网页数据、购物数据。
(2) 百度: 2013年的数据总量接近一千个拍字节(PB),主要来自中文网、百度推广、百度日志、UGC,由于占有70%以上的搜索市场份额从而坐拥庞大的搜索数据。
(3) 腾讯: 存储数据经压缩处理后总量在100PB左右,数据量月增10%,主要是大量社交、游戏等领域积累的文本、音频、视频和关系类数据。
大数据
技术基础
00第1章
大数据概论
002. 电信、金融与保险、电力与石化系统
(1) 电信: 包括用户上网记录、通话、信息、地理位置等。运营商拥有的数据量都在10PB以上,年度用户数据增长数十拍字节(PB)。
(2) 金融与保险: 包括开户信息数据、银行网点和在线交易数据、自身运营的数据等。金融系统每年产生数据达数十拍字节(PB),保险系统数据量也接近拍字节(PB)级别。
(3) 电力与石化: 仅国家电网采集获得的数据总量就达到10个拍字节(PB)级别,石化行业、智能水表等每年产生和保存下来的数据量也达到数十拍字节(PB)级别。
3. 公共安全、医疗、交通领域
(1) 公共安全: 在北京,就有50万个监控摄像头,每天采集视频数量约3PB,整个视频监控每年保存下来的数据在数百拍字节(PB)以上。
(2) 医疗卫生: 据了解,整个医疗卫生行业一年能够保存下来的数据就可达到数百PB。
(3) 交通: 航班往返一次就能产生太字节(TB)级别的海量数据;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十拍字节(PB)。
4. 气象与地理、政务与教育等领域
(1) 气象与地理: 中国幅页辽阔,气象局保存的数据为4~5PB,每年约增数百个太字节(TB),各种地图和地理位置信息每年约增数十太字节(PB)。
(2) 政务与教育: 北京市政务数据资源网涵盖旅游、教育、交通、医疗等门类,一年上线公布400余个数据包。政务数据多为结构化数据。
5. 其他行业
线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量还处于积累期,整个体积都不算大,多则达到拍字节(PB)级别,少则几百太字节(TB),甚至只有数十太字节(TB)级别,但增速很快。
1.1.2大数据的价值和影响
数量巨大、与微观情境相结合的运行记录信息的最终结果就是大数据。尽管运行记录信息不是大数据的全部,但却应该是以后大数据的主流。目前看得到的金融、电信、航空、电商、零售渠道等领域中的大数据,多数也都是运行记录信息。大数据具有采集过程价值未知、力争全面、即时、系统性并发的记录方式,以及主受体统一和大微观的特征,这些特征决定了大数据的价值发挥。
大数据的应用很广泛,解决了大量的日常问题。大数据是利害攸关的,它将重塑人们的生活、工作和思维方式,比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。大数据需要人们重新讨论决策、命运和正义的性质。人们的世界观正受到大数据优势的挑战,拥有大数据不但意味着掌握过去,更意味着能够预测未来。因此,大数据给人们带来了巨大的价值和影响。
(1) 全面洞察客户信息。全面分析来自渠道的反馈、社会传媒等多源信息,让每个客户作为个体了解全景。
(2) 提升企业的资源管理: 利用实时数据实现预测性维护,并减少故障,推动产品和服务开发。
(3) 数据深度利用。梳理结构化、非结构化、海量历史/实时、地理信息4类数据资源,以企业核心业务及应用为主线实现四类数据资源的关联利用。
(4) 风险及时感知和控制。通过全面数据分析改进风险模型,结合交易流数据实时捕获风险,及时有效地控制。
(5) 辅助智能决策。实时分析所有的运营数据和效果反馈,优化运营流程。利用投资回报率最大程度减少信息技术成本。
(6) 更快和更大规模的产品创新。多源捕获市场反馈,利用海量市场数据和研究数据来快速驱动创新。
1.1.3大数据技术应用场景
当前,大数据技术的应用涉及各个行业领域。
1. 大数据在金融行业的应用
近年来,随着“互联网金融”概念的兴起,催生了一大批金融、类金融机构转型或布局的服务需求,相关产业服务应运而生。而随着互联网金融向纵深发展,行业竞争日趋白热化,金融、类金融机构在其中的短板日益凸显。为了更好地获得最佳商机,金融行业也步入了大数据时代。
华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪。人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多来决定公司股票的买入还是卖出。
阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,给他们提供贷款,并且不需要这些中小企业的担保。目前阿里公司已放贷款上千亿元,坏账率仅为0.3%。
2. 大数据在政府的应用
为充分运用大数据的先进理念、技术和资源,加强对我国各地市场主体的服务和监管,推进简政放权和政府职能转变,提高政府治理能力,我国一些省市运用大数据加强对市场主体服务和监管实施方案已然出炉。
3. 大数据在医疗健康的应用
随着医疗卫生信息化建设进程的不断加快,医疗数据的类型和规模也在以前所未有的速度迅猛增长,甚至产生了无法利用目前主流软件工具的现象,这些医疗数据能帮助医改在合理的时间内达到撷取、管理信息并整合成为能够帮助医院进行更积极的经营决策的有用信息。这些具有特殊性、复杂性的庞大的医疗大数据,仅靠个人甚至个别机构来进行搜索,那基本是不可能完成的。
4. 大数据在宏观经济管理领域的应用
IBM日本分公司建立了一个经济指标预测系统,它从互联网新闻中搜索出能影响制造业的480项经济数据,再利用这些数据进行预测,准确度相当高。
印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万条短信、微博留言预测琼斯工业指数,准确率高达87%。
淘宝网建立了“淘宝CPI”,通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI,预测某个时间段的经济走势比国家统计局的CPI还提前半个月。
5. 大数据在农业领域的应用
由Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气数据,各地的降雨、气温和土壤状况及历年农作物产量做成紧凑的图表,从而能够预测美国任一农场下一年的产量。农场主可以去该公司咨询明年种什么能卖出去、能赚钱,说错了该公司负责赔偿,赔偿金额比保险公司还要高,但到目前为止还没赔过。
通过对手机上的农产品“移动支付”数据、“采购投入”数据和“补贴”数据分析,可准确预测农产品生产趋势,政府可依此决定出台激励实施和确定合适的作物存储量,还可以为农民提供服务。
6. 大数据在商业领域的应用
沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习语义搜索引擎“北极星”,方便浏览,在线购物者因此增加10%~15%,销售额增加十多亿美元。
沃尔玛通过手机定位,可以分析顾客在货柜前停留时间的长短,从而判断顾客对什么商品感兴趣。
不仅仅是通过手机定位,实际上美国有的超市在购物推车上也安装了位置传感器,根据顾客在不同货物前停留时间的长短来分析顾客可能的购物行为。
在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易记录平台把消费记录拿来供自己使用,还会把消费记录卖给其他商家。
7. 大数据在银行的应用
在信用卡服务方面,银行首先利用移动互联网技术的定位功能确定商圈,目前已实际覆盖全国161个商圈,累计服务千万人次;其次利用用户活动轨迹追踪,确定高价值商业圈设计业务;再利用大数据进行客户需求的体验分析。既包括客户的需要,也包括客户的体验,最终实现用户体验的LIKE曲线。
1.1.4大数据技术的发展前景
据预测,到2020年,全球需要存储的数据量将达到35万亿吉字节(GB),是2009年数据存储量的44倍。根据IDC的研究,2010年底全球的数据量已达到120万拍字节(PB)。这些数据如果使用光盘存储,摞起来可以从地球到月球一个来回。对于商业而言,这里孕育着巨大的市场机会,庞大的数据就是一个信息金矿。数据是企业的重要资产。因此,大数据将人们带进了一个更有前景的领域。
在大数据时代,一批新的大数据技术正在涌现,将改变人们分析处理海量数据的方式,使人们更快、更经济地获得所需的结果。传统商业智能限于技术瓶颈很大程度上是对抽样数据进行分析。大数据技术就是要打破传统商业智能领域的局限。大数据技术不但能处理结构化数据,还能分析和处理各种半结构化和非结构化数据,甚至从某种程度上,更擅长处理非结构化数据,例如Hadoop。而在现实生活中,这样的数据更为普遍,增长得更为迅速。例如,社交媒体中的各种交互活动、购物网站用户点击行为、图片、电子邮件等。可以说,正是此类数据的爆炸性催生了大数据相关技术的出现和完善,从而让人们知道在一个资源有限的世界中应该提取哪些有价值的信息。
大数据技术的出现和完善还可以帮助健康保险公司不做体检就能决定保险覆盖面,并降低提醒病人服药的成本。通过大数据的相关性,语言可以得到翻译,汽车可以在预测的基础上自行驾驶。人们之所以能做所有的这些事,新工具的使用只是一个很小的因素,比拥有更快的处理器、更多的存储器,更智能的软件和算法更重要的是,人们拥有了更多的数据,继而世界上更多的事物被数据化了。显然,人类量化世界的雄心先于计算机革命,但是数字工具将数据化提升到了新的高度。不仅移动电话能够跟踪到呼叫的人和被呼叫人所在的位置,而且同样的数据也能用于断定来人是否生病了。
能置身于信息流中央并且能够收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技术和丰富的想象力,即一个能容纳大数据的心态,但价值的核心归功于数据本身。有时,重要的资产并不仅仅是能清楚看到的信息,聪明的公司可以用它来改善现有的服务,或推出全新的服务。
大数据将成为理解和解决当今许多紧迫的全球问题所不可或缺的重要工具。在应对气候变化问题时,需要对污染相关的数据进行分析得出最佳方案,从而明确努力方向,找出解决问题的方法。全球范围内遍布的大量传感设备,包括智能手机内部的传感器,使人们能以更高的细节水平模拟环境。而世界贫困人口迫切需要提高医疗保健服务,降低医疗费用,这很大程度上可以靠自动化来实现。当下许多似乎需要人类判断力才能进行的事情,其实可以完全交由计算机来做,比如癌细胞活检、传染病爆发前期的模式预测等。
大数据也被用于发展经济和理解如何预防冲突。基于手机动向数据显示,非洲许多贫民窟地区经济活动十分活跃。大数据还揭示了最有可能引发种族关系紧张的社区以及解除难民危机的方式。只有当科技应用于生活的方方面面时,大数据的使用范围才能进一步扩大。
大数据能帮助人们更好地进行已有的工作,并处理全新事务。在不久的将来,人们将在生活的方方面面使用到大数据。当大数据成为日常生活的一部分后,它将会极大地改变人们对未来的看法。
大数据时代造就了一个数据库无所不在的世界,数据监管部门面临前所未有的压力和责任。如何避免数据泄露对国家利益、公众利益、个人隐私造成伤害?如何避免信息不对称,对困难群体的利益构成伤害?在有效控制风险之前,也许还是让“大数据”继续待在笼子里更好一些。
大数据的经济价值已经被人们认可,大数据的技术正逐渐成熟,一旦完成数据的整合和监管,大数据爆发的时代即将到来。人们现在要做的,就是选好自己的方向,为迎接大数据的到来提前做好准备。
以未来的视角看,无论是政府、互联网公司、IT企业,还是行业用户,只要以开放的心态、创新的勇气拥抱“大数据”,大数据时代就一定有属于中国的机会。
1.2大数据基本概念〖*2〗1.2.1大数据定义麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data: The next frontier for innovation,competition and productivity》中给出的大数据定义是: 大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定太字节(TB)值的数据集才能算是大数据。
国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。
亚马逊公司(全球最大的电子商务公司)的大数据科学家John Rauser 给出了一个简单的定义: 大数据是任何超过了一台计算机处理能力的数据量。
维基百科中只有短短的一句话: “巨量资料(Big Data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”
而在百度百科中是这样定义的: “大数据(Big Data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。”
综合上面的定义,可以得出以下几点。
(1) 大数据并没有明确的界限,它的标准是可变的。大数据在今天的不同行业中的范围可以从几十太字节(TB)到几拍字节(PB),但在20年前1GB的数据已然是大数据了。可见,随着计算机软硬件技术的发展,符合大数据标准的数据集容量也会增长。
(2) 大数据不仅仅只是大,它还包含了数据集规模已经超过了传统数据库软件获取、存储、分析和管理能力的意思。
IDC报告显示,计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2011年的22倍。在过去几年,全球的数据量以每年58%的速度增长,在未来这个速度会更快。如果按照现在存储容量每年增长40%的速度计算,到2017年需要存储的数据量甚至会大于存储设备的总容量。如何利用大数据解决科研、医疗、能源、商业、政府管理、城市建设等领域的问题,是全世界面临的问题。
举几个大家熟悉例子: 2014年11月19日,百度在京召开“百度云两周年媒体沟通会”,正式宣布百度云总用户数突破两亿,百度云数据存储量达5EB,这些数据足以塞满3.4亿部16GB内存的iPhone6,如果将这些手机首尾相连,可以在地球和月球之间搭建16条星际通道。
2014年3月7日,在阿里巴巴有史以来最大型对外开放的数据峰会“2014西湖品学大数据峰会”上,阿里巴巴大数据负责人披露了阿里巴巴目前的数据储存情况。目前在阿里巴巴数据平台事业部的服务器上,攒下了超过100PB已处理过的数据,等于104857600GB,相当于4万个西雅图中央图书馆,580亿本藏书。仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影。而如果将一个人作为服务器,则此人处理的数据量相当于每秒钟看上837集的《来自星星的你》。
在2013年的数据大会上,腾讯公司数据平台总经理助理蒋杰透露,腾讯QQ目前拥有8亿用户、4亿移动用户,在数据仓库存储的数据量单机群数量已达到4400台,总存储数据量经压缩处理后约100PB,并且这一数据还在日增200~300TB、月增加率为10%的速度增长。
1993 年,《纽约客》刊登了一幅漫画,标题是“互联网上,没有人知道你是一条狗”。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5 万美元。当时关注互联网社会学的一些专家,甚至担忧“计算机异性扮装”而引发的社会问题。
20多年后,互联网发生了巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗,还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实,每个人在互联网进入到大数据时代都将是透明存在的。
1.2.2大数据结构类型
当今企业存储的数据不仅仅是内容多,而且结构已发生了极大改变,不再仅仅是以二维表的规范结构存储。大量的数据来自不是结构化的数据类型(半结构化数据、准结构化数据或非结构化数据),如办公文档、文本、图片、XML、 HTML、各类报表、图片、音频和视频等,并且这些数据在企业的所有数据中是大量且增长迅速的。企业80%的数据来自不是结构化的数据类型,结构化数据仅有20%。全球结构化数据增长速度约为32%,而不是结构化的数据类型增速高达63%。预计今年不是结构化的数据类型占有比例将达到互联网整个数据量的75%以上。
(1) 结构化数据: 包括预定义的数据类型、格式和结构的数据。例如,关系型数据库中的数据。
(2) 半结构化数据: 具有可识别的模式并可以解析的文本数据文件。例如,自描述和具有定义模式的XML数据文件。
(3) 准结构化数据: 具有不规则数据格式的文本数据,使用工具可以使之格式化。例如,包含不一致的数据值和格式化的网站点击数据,可参考http://www.zkpk.org/。
(4) 非结构化数据: 没有固定结构的数据,通常保存为不同类型的文件。例如,文本文档、图片、音频和视频。
1.2.3大数据核心特征
业界通常用4个V,即Volume(数据量大)、Variety(类型繁多)、Value(价值密度低)、Velocity(速度快,时效高)来概括大数据的特征。
……
展开