《大数据时代 思想政治教育环境新论》:
3.大数据的分类
大数据依据来源不同一般分为四类:科研数据、互联网数据、感知数据和企业数据。
科研数据:科研数据在大数据时代前很久就存在,可能来自生物工程、天文望远镜或粒子对撞机,不一而足。这些数据存在于封闭系统中,使用者都是传统上做高性能计算(HPC)的企业,很多大数据技术脱胎于HPC。早在大数据作为一个新概念出现之前,曾经就有过一个概念:Data Intensive Scalable Computing(DISC)。
科研数据存在于具有极高计算速度且性能优越机器的研究机构,包括生物工程研究以及粒子对撞机或天文望远镜,例如位于欧洲的国际核子研究中心装备的大型强子对撞机,在其满负荷的工作状态下每秒就可以产生PB级的数据。
互联网数据:互联网大数据是时代的主流,尤其社交媒体是近年来大数据的主要来源,几乎所有的大数据技术都源于快速发展的国际互联网企业。比如以搜索著称的百度与谷歌的数据规模都已经达到上千PB的规模级别,而应用广泛影响巨大的脸谱、亚马逊、雅虎、阿里巴巴的数据都突破上百PB。互联网数据增长的驱动力一是梅特卡夫定律(互联网企业的价值与用户数的平方成正比),二是扎克伯格反复引用的信息分享理论:一个人分享的信息每一到两年翻番。
……
展开