第1章大数据智慧计算原理与方法
1.1大数据的特性
大数据有六大特性:数据量大(数量)、包罗万象(对象麵)、结构复杂(格式类型)、全数据(真实性)、知识隐蔽(隐蔽性)和动态发展(时态),如图1。1所示。其中,数据量大主要是从数量的角度来对大数据进行观察的结果,其中数据的数量非常庞大,体现在需要大量的存储空间,需要大量的计算资源对其中数据进行处理;包罗万象主要是从对象类型的角度来对大数据进行观察的结果,其中对象的类型非常多,在传统数据中不相关的对象类型也有可能被包罗进同一个大数据;结构复杂主要是从格式类型的角度来对大数据进行观察的结果,大数据中可以包含有大量异构的格式,这在传统数据中也是罕见的;全数据主要是从数据真实性的角度来对大数据进行观察的结果,全息数据、高维数据、中间数据等大大提高了数据的真实性;知识隐蔽是指无法通过普通的搜索、统计等手段获得其中知识。动态发展主要是从时态的角度来对大数据进行观察的结果,大数据和传统数据一样都会随时间变化,但由于大数据的量大,其增量也大,使得这随时间变化导致的数据量的剧增更不能忽视,而是要专门酿一种解决的方法。
大数据的第1个特点是包罗万象。在传统数据时期,看起来毫不相关的数据,在大数据时代也会统一起来考虑,所以就导致很多数据原本看起来风马牛不相及,但现在我们要将这些数据关联起来考虑。但在现实中这些表面上不怎么相关的数据的数据源也是分离的,所以就需要一种方法能把这些数据源关联起来。一旦这些原本分离的数据源被关联起来,将会产生新的数据,从而又能进一步促进大数据的发展。
大数据的第2个特点是结构复杂。大数据相对于特定类型的数据,如数字、文本、图像、声音、视频这些单一的数据麵而言是结构最为复杂的一种数据。大数是一种集视频、图像、声音、文字、数字于一体的大数,也是一种集时间维、空间维、本性维于一体的大数据正是因为其组成成分的复杂性,以及不同维之间的关联性,使得其大数据的特性更为突出。不但大数据内部的结构复杂,酿由于大数据拆分、加工、重组、挖掘等技术的应用,使得不同大数据之间也存在着千丝万缕的联系,形成了大数据之间结构的复杂性。
大数的第3个特点是全数。大数据是对现实世界的记录和复制,不丢弃貌似无关紧要的信息,而传统数据是人类或程序对客观世界的记录,其中有人类对客麵界的抽象及取舍。全数据在数据的维度上没有任何损失,所以大数的挖掘价觀大。当然,这也是相对的,因为大数据的分解是有限的,而且大部分大数据也不是全息的,因此大数据也无法完全地复制现实,所以说大数只是相对的全数据,但随着采集技术、存储技术的发展,大数据的分辨率会越来越高,而且会朝着全维、全息的方向发展,所以大数的全数据性会越来越高。
大数据的第4个特点是知识隐蔽。大数据之所以被学术界和企业界甚至政府所重视,就是因为其中可以挖掘出大量的知识,但这些知识不是显而易见的,而是隐蔽的,需要采用专门的算法才可以分析出来。酿不存在一种放之四海而皆准的万能算法可以分析挖掘出所有大数据中蕴含的知识,必须要有针对性地在特定场景下对特定大数据进行特定的分析和挖掘。
大数据的第5个特点是动态发展。大数据不是死的数据,不是一成不变的数据,不是一旦处理完毕就一劳永逸的数据。因为我们的世界是动态的,整个世界最原始的状态就是一个连续不断的、将会延续无数亿年的大数流。大数据在日新月异,甚至每秒都在剧增,如天文望远镜采集的天文数据、市民上传的视频数据、天气预报数据,都是在不断增加和发展中的大数据。
大数据的第6个特点是数繼大,而且大数据的数据量增长速度非常快。每天有无数的计算机在计算数据,无数的人在创麵的文档,录制新的音频,在向优酷等在线视频网站上传各种视频,每天都有无数的监控器、摄像头、传感器在采集各种各样的实时的、非实时的数据 。随着各种触摸屏、传感器等数据采集设备的普及,特别是智能手机也具备了输入信息、录制音频和视频的能力,现在已经进入全民大数据的时代。人们喜欢用文字、音频、视频来记录生活中的点点滴,学校喜欢将师生的教学资源共享,用视频来记录老师上课的实况,政府喜欢用公共服务平台采集大众信息并服务于大众,用视频来监控社会的动态。一个文本文件或图像文件或声音文件或视频文件,其据量有大有小,小的有兆级,大的有吉级,超大的有太级,如高清视频就能达到太级。这些大数据含有非常丰富的信息,要占用大量的存储空间。同时,随着互联网特别是移动互联网的发展,越来越多的数据被上传到网上进行分享、拆分、加工、重组,从而使得从无数的原始数据中又衍生出更多数据量更大的目标数据,这又进一步增加了大数的数据量。
1.2大数据对智慧计算的需求
由于大数据具有6大特性,即数据量大(数量)、包罗万象“橡类型)、结构复杂(格式类型)、全数据(真实性)、知识隐蔽(隐蔽性)和动态发展(时态),这6大特性是传统数据所不具备或不明显具备的,但现有计算臟和方法一般都是针对传统数据来进行酿的,所以用现有计算原理方法处理大数据时就会显示出局限性,这就对大数据计算原理方法产生了创新的需求,本书提出并研究了能满足这种需求的8种大数据智慧计算原理方法,如图1.2所示。
大数据的大不但表现在量大,更表现在包罗万象,就是会包含不同对象,但在现实中这些表面上不怎么相关的数据的数据源也是分离的,所以就需要一种方法能把这些数据源关联起来。第2章正是针对处理海量大数据的需要,提出和研究了跳板大数据智慧计算原理与方法,以关联不同的数据源,使得不同的数据源之间可以互联互通,从而可以产生新的服务和新的数据。正是利用了跳板大数据智慧计算原理与方法,才使得云计算的调度与绿色能源的调度连接了起来(2.1节),从而提高绿色电力的利用率;才使得虚拟建模与物联网连接了起来(2.2节),从而通过虚拟模型可以操纵现实;才使得移动终端与超级计算机连接了起来(2.3节),从而通过移动终端可以方便使用超级计算机。
……
展开