第一章 大数据概述
第一节 数据科学
数据科学是关于数据的科学,基于数据的广泛性和多样性研究数据的共性。数据科学是研究探索CYBER空间中数据界的理论、方法和技术。
一、数据科学的相关术语
(一)CYBER空间
CYBER空间意译为异次元空间、多维信息空间、计算机空间、网络空间等。其本意是指以计算机技术、现代通信网络技术、虚拟现实技术等信息技术的综合运用为基础,以知识和信息为内容的新型空间,是人类运用知识创造的人工世界,是一种用于知识交流的虚拟空间。信息化是一个数据生产的过程,是将现实世界中的事物和现象以数据的形式存储到CYBER空间中。数据记录了人类的行为,包括工作、生活和社会的发展,是自然和生命的一种表示形式。
(二)数据爆炸
数据快速大量地产生并存储在CYBER空间中的现象称为数据爆炸,数据爆炸在CYBER空间中形成数据自然界。数据是CYBER空间中的唯一存在,我们需要研究和探索CYBER空间中数据的规律和现象。探索CYBER空间中数据的规律和现象是探索宇宙规律、探索生命规律、寻找人类行为规律、寻找社会发展规律的一种重要手段。
(三)数据科学的定义
数据科学是关于数据的科学或者研究数据的科学,是探索CYBER空间中数据界奥秘的理论、方法和技术,研究的对象是数据界中的数据。与自然科学和社会科学不同,数据科学的研究对象是CYBER空间数据。数据科学主要包括两方面:一是研究数据本身,以科学的方法研究数据的各种类型、状态、属性及变化形式和变化规律;二是用数据的方法研究科学,为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为的现象和规律。
(四)数据科学的方法和技术
数据科学采用收集数据的形式,进行开放式分析,不做预先假定。在许多数据科学项目中,首先要浏览原始数据,形成一个假定,然后基于假定进行调查确认。数据科学的关键概念是:数据科学是一种经验科学,直接基于数据进行科学处理。数据科学已经有一些方法和技术,例如数据获取、数据存储与管理、数据安全、数据分析、可视化等。
数据科学不仅完成分析,而且涉及整个端到端的生命周期,数据系统本质上是用于研发真实世界理解模型的科学设备。这就表明必须深刻理解数据的来源、数据转换的适用性和准确性、转换算法和过程之间的相互作用,以及数据存储机制。这个端到端概览的角色能够确保所有事务都能够正确执行,从而探索数据、创建并验证各项科学假设。
二、数据科学的主要内容
数据科学的主要内容包括基础理论和数据预处理、数据计算数据管理等。其中,基础理论包括概念、理论、方法、技术和工具等。数据科学的理论基础是统计学、机器学习、数据可视化及某一领域实务知识与经验等(如图1-1所示)。数据科学学科建立,需要完成知识结构、课程设置和专业设置等学科体系建设,探讨数据科学与自然科学和社会科学之间的关系,以及数据科学与计算机科学和信息科学之间的关系等。
……
展开