《系统与决策丛书:基于数据科学的复杂元网络方法及应用》:
第1章 数据科学概述
据百科辞典解释,数据是对客观事物的符号表示,是用于表示客观事物未经加工的原始素材,如图形符号、数字、字符等。或者说,数据是通过物理观察得来的事实和概念,是关于现实世界中的对象或概念的描述。
20世纪中期计算机科学诞生,大量数据被快速生产并以二进制数位的形式存储在计算机系统中,人类社会的数据量剧增,逐步形成一个有别于真实自然界或人类社会的“数据世界”。步入21世纪,在互联网络和Web技术的推动下,电子商务、移动服务、云计算和传感器的普及,以及科学实验和计算机仿真的应用,大量从宏观到微观、从自然到社会、从科学研究到个人活动,数据不受时间和地点限制源源不断产生;数据的种类和规模以前所未有的速度增长和累积,标志着人类社会在不知不觉中步入大数据时代。
近年来以探讨如何更好地利用数据来产生良好社会效率的“大数据研究和发展倡议” [1],以及如何在科学研究、环境、生物医学领域利用大数据进行突破的“大数据计划”[2]等,引起产业界、学术界和政府机构的密切关注。在学术界,Nature杂志曾在2008年刊登“Big Data”专刊[3],阐述了在数据驱动的背景下,解决大数据问题所需要的技术以及面临的挑战; Science杂志则在2011年刊登“Dealing with Data”专刊[4],围绕科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。
大数据的规模效应导致数据采集、管理、分析和利用的复杂性,并最终导致传统的数据管理方式、数据处理方式、数据思维的颠覆式的改变,探测数据的科学和技术变得越来越重要。目前,一门探测数据世界中数据的奥秘和规律的新兴学科——数据科学正涌现出来[5];一群精通数据和数据处理技术、将数据价值从繁冗的数据中抽离出来的数据研究人员——数据科学家(data scientist)走进人们的视野[6];一种基于密集型数据的知识发现的科学研究方式——“第四范式”一经发布就引发革命性轰动效应[7];一个以开发和利用数据资源、生成和制造数据产品的产业已初具规模。
本章首先回顾数据世界形成的历史及演化过程,其次结合相关历史事件介绍数据科学的形成及学术界对数据科学体系的探索和诠释,再次借鉴知识论域框架尝试性定义了数据科学的“理论、方法论、方法和应用”,最后综述了大数据的关键技术和工具。
1.1数据世界演化及特征
1.1.1数据世界的形成与演化回顾社会发展历史,人类最初是通过大脑来记忆对现实世界的感知,这是最初的数据化。但是由于人脑记忆的有限性和不完全可靠性,人类开始寻求各种辅助设施来帮助记忆。例如,在树桩或龟壳上刻录图形和符号等,这种方式不仅创造了文字,也实现了对自然界各种事物的记录和传播。
造纸和印刷术的发明带来了人类历史上的第一次“数据爆炸”[8]。纸质书的发明使得记载真实世界的符号、图形等数据能长期保存并广泛传播。这期间的作者和出版商是主要的数据生产者,书籍和图书馆成为数据存储和传播的媒介和场所。20世纪初,音频和视频等多媒体设备的发明和使用成为数据存储和传播的新载体,如录音带和录音机,缩微胶片和投影仪等。至此,关于人类能感知的任何东西,都能以数字、字符、声音、图像和照片等形式被记录、存储和传播。
20世纪中叶,计算机及存储设备的发明带来了第二次“数据爆炸”,人类将原来存储在不同载体上的数据数字化,以二进制数位形式存储在计算机系统中。数据处理技术从最初的文件处理系统发展到基于数据库技术的运营系统,如航空售票系统、银行交易记录系统、超级市场销售记录系统等,数据伴随着运营活动产生并记录和存储在计算机系统中。这阶段,数据生成本质上是按定制格式录入计算机的“被动式”生产方式(表11)。随着各种计算机系统的运作,区别于真实世界的数据世界开始形成,且规模随着时间推移不断增长扩大。
真正的“数据爆炸”源于因特网和万维网技术的发展,特别是进入Web2.0时代,以博客、微博为代表的各种新型社交网络的出现,3G网络和WiFi等网络基础设施的普及,以及以智能手机、平板电脑为代表的新型移动设备的广泛使用,激发用户主动创建和传播数据的意愿,数据产生方式转变为以用户原创内容(user generated content, UGC)为标志的[9]“主动式”生成,最终导致数据呈爆炸式的增长。
数据密集型的科研方式和人类对感知式系统的广泛使用,进一步将人类社会带入到“大数据”时代。一方面,计算机模拟或仿真产生海量实验数据,如人类基因组数据库的建立;另一方面,真实世界各领域数据被广泛布置于各角落的设备自动采集,如地图数据、海洋数据、天气和气象数据等,各种来源和不同类型的数据自动地、源源不断地流入并存储在网络服务器、政府部门数据库、企业数据库、个人电脑和便携式设备中。
表1-1数据世界演化历史
注:MB、GB、TB、PB等为计算机存储单位。1比特(bit,计算机二进制位,取值为0或1);1字节(B)=8比特;1KB=210B;1MB=220B; 1GB=230B; 1TB=240B; 1PB=250B; 1EB=260B; 1ZB=270B
1.1.2数据世界的特征
数据世界在技术演化的推动下不断发生质的飞跃和改变,并逐渐形成并表现出数据量巨大、数据类型多样、数据复杂但富含价值等典型特征。国际数据公司(International Data Corporation,IDC)给出了大数据的4V定义[10],即海量的数据规模(volume)、快速的数据流转和动态的数据体系(velocity)、多样的数据类型(variety)和巨大的数据价值(value)。
数据规模性是指数据存储或处理的规模从原来的MB发展到GB,甚至TB或PB;数据管理从数据库(database,DB)到大数据库(very large database,VLDB),再到超大规模数据库(extremely large database,XLDB)的管理。但是多大规模的数据才能称为“大数据”呢?根据麦肯锡公司的观点,“大数据”不是按具体的TB值来衡量的,而是其大小超出了常规数据库的获取、存储、管理和分析能力[11];亚马逊公司的大数据科学家John Rauser也指出,大数据是任何超过了一台计算机处理能力的数据量[12]。因此,数据的规模效应不仅带来数据管理和处理的困难,而且在数据的真实性、一致性、安全性等方面也面临难于控制等问题。
数据多样性是指数据来源的多样性。例如,数据来源包括个人数据、企业数据、政府数据、公共数据、地理数据(如GPS数据)、生命数据(如DNA序列)、经济数据(如股票数据)、文化和社会数据(如新闻出版)、空间数据、海洋数据、科学数据等各领域。这些数据记录了人的行为、企业的业务活动、科学实验和社会经济的发展等。不同来源的数据在产生方式和产生频率、数据存储和表达语言、数据类型和格式等方面也呈现多样性特征。
数据价值性是指在海量数据中隐含的大量的丰富信息,探索和挖掘数据背后的规律或模式成为理解自然、生物、社会和技术系统复杂性的重要依据。大数据给科学研究和产业带来挑战的同时,也带来无穷机遇。
数据复杂性也是海量数据表现出来的重要特征之一。在文件管理和数据库管理阶段,先有模式才产生数据,数据世界的数据多是结构化的数据;但进入Web2.0和大数据时代,数据从结构转变为无结构,如网页(超链接文本)、Web日志和电子邮件等,以及音频、视频和图片等多媒体数据。数据复杂性对创新的数据存储技术、数据管理技术和数据分析工具产生需求。
1.2数据科学的概念
在科学领域,当数据不再是科学研究的成果,而是变成了科学研究的基础,该如何对其采集、管理和分析呢?在商业领域,当数据从简单的处理对象演变为重要资源,该如何对其管理、开发和利用呢?对这些问题的思考,是否会导致学术界产生以数据为研究对象的数据科学或数据学(datalogy)的探讨呢?
尽管目前对数据科学是否存在或者是否是一门独立学科的问题尚无统一界定,但越来越多的学者认识到:探索数据是人类认识和理解真实世界的有效方法,以数据为中心的科学既不同于以自然界为研究对象的自然科学,也不同于以人类为研究对象的社会科学,但它正成为推动自然、社会和人文科学发展的动力。
事实上,自20世纪60年代开始,学者们开始对与数据相关的科学产生兴趣,尝试着对“数据科学”的研究对象、研究内容、学科体系等方面进行探索和诠释。文献[13]研究了相关历史事件,作者对其进行了整理和扩充,见表1-2。
表1-2数据科学相关的事件
基于时间上的观察,大致可以划分为三个阶段。第一个阶段是“数据科学”概念的形成。早在1966年,丹麦计算机科学家、图灵奖的获得者Peter Naur就曾撰写The Science of Datalogy一文[14],提出并定义“datalogy”是使用数据的科学(datalogy as the science of the nature and use of data),并建议用该术语替代计算机科学。之后Peter Naur在1974年出版的Concise Survey of Computer Methods[15]一书中,定义“数据科学”是处理数据的科学(the science of dealing with data)[15]。后来“数据科学”在20世纪90年代中期被分类社团联盟采用,在IFCS东京会议首次作为会议主题,即“data science, classification, and related methods” [16]。2001年贝尔实验室的Cleveland发表论文[17],提出将数据科学设立为一个新的学科,吸收“计算在数据方面取得的进展”作为统计学的延伸,并提出具体实施的六个行动计划。2002年国际科技数据委员会(Committee on Data for Science and Technology,CODATA)采用了术语“数据科学”[18],并发行官方杂志Data Science Journal。2003年The Journal of Data Science创刊(www.jdsonline.com),标志着“数据科学”概念在学术界得到认可。
第二个阶段是“数据科学家”概念的形成。2005年美国国家科学委员会发表了《数字数据收集万岁:促进21世纪的研究与教育》报告[19],提出并将数据科学家定义为“信息与计算机科学家,数据库、软件工程师及程序员,学科专家”,是数字数据收集的关键人物。2009年Natahn Yau在“数据科学家崛起”一文中提及数据科学家的职位头衔[20];同年拥有“科学性程序员”头衔的Sadkowsky在Linkedin建立了数据科学家小组,对其datasceintists.com网站进行辅佐[21]。这些举动被视为是数据科学走向职业化的标志。2011年Patil建立数据科学团队,指出数据科学家就是使用数据和科学创造新的东西的群体[22]。
第三个阶段是关于“什么是数据科学”的讨论。Loukides在其发表的What is Data Science一文中指出,数据科学是创造数据的科学[23]。Mason和Wiggins指出数据科学粗略的步骤是数据获取、清洗、探索、建模和解释,是融合统计学、机器学、数学等学科的专业领域[24]。Conway提出数据科学的文氏图,指出数据科学是数学、统计学、专业知识、黑客技能等的交叉领域[25]。Warden指出数据科学“是有缺陷的但却有用的术语”,尚无被广泛接受的范围边界,也没有完整的定义,但肯定是与传统科学家所做的事情不同[26]。Harris指出数据科学是数据科学家所做的事情[27]。
……
展开