第1章 绪论
尽管社会上已有数据学、数据科学、大数据技术等各种论文与著述面世,但较少见一部将数据作为一门独立的科学,就普遍数据问题做全面研究的专著。为此,本书以数据作为独立科学的研究对象展开论述,形成数据的理论原理与方法。
1.1 数据研究的起因及意义
1.1.1 数据研究的起因
1)关于起因
我研究数据的起因,在很大程度上不仅仅是因为好奇,而是因为数据的重要性。大家可能听说过一位科学家为保护数据而牺牲的故事,他就是“两弹一星”元勋郭永怀。
1968年12月4日,郭永怀在试验中发现了一个重要线索,便着急从研制基地连夜乘飞机赶回北京汇报。5日凌晨,飞机在首都机场失事了,在生命将近的*后瞬间,郭永怀把装有绝密文件的公文包放在胸前,与警卫员牟方东紧紧地拥抱在一起。*终二人用血肉之躯保护了对国家有重要价值的科技数据,但他们却永远地离开了我们。后来他的英雄事迹被广泛传颂(来源:)。
数据在科学研究中就是生命,就是突破点。当无法获得数据时,即使思想、方法、技术都有,也很难突破。马天琼博士在2018年Science上发表了题为Single-crystal X-ray diffraction structures of covalent organic frameworks的文章。当时对共价有机框架材料的研究在国际上已有成果,但是,有机单体通过共价键的连接,在多维度方向上形成一种有机高分子材料长期不能突破,难就难在要从原子、分子尺度进行精准测量获得精确的数据,就是如何在原子尺度层面上获得这种材料精确的结构信息。*终她掌握了控制晶体生长的方法,成功合成了大尺寸单晶,并通过解析单晶的结构合成了新型材料,可见数据是多么重要。
我认为,数据必须要精心研究,就像妈妈蒸馍馍一样,面要“揉”到位了馍馍就好吃,数据也一样。只有把数据研究好,成果才能非同小可。
为此,我坚定了将研究数据作为我毕生的工作与信念。
2)关于数据
“数据”已成为当今人类社会生活中不可或缺的词语,而且使用频率非常高,无论是在日常工作、文件、谈论,还是大小会议、政府工作报告中,数据无处不在、无时不提。
我们在网上随便查搜各项数据,立刻就有数万条之多。这是因为我们每时每刻都在生产着数据,每时每刻都在消费着数据,每时每刻都在应用着数据,从而创造着各种数据的商业模式与价值。
然而,何为数据?
早年,我查阅了很多书籍、词典和各类文献,也没有能找到一条关于“数据”的词条,更没有找到一个准确的定义或注释。更让我好奇的是,人类是什么时候开始将“数”与“据”组成一个词,又是如何在今天如此流行的?
研究数据是很难的,主要是因为人们不认为数据是一门科学,认为其就是一般研究过程中的资料。虽然近年情况不同了,重视数据的呼声很高,但还没有重视到将数据作为科学研究的必然对象,它既没有学科,又没有领域。
现在,我若要将其作为一个科学问题加以探索,先要找到有关数据的基本定义和寓意,思考如下问题:
(1)“数”和“据”是从什么时候开始组成一个专用词语的?是动词还是名词?“数据”在词典里如何注释和定义?它的本质含义是什么?
(2)“数据”到底是什么东西?是物质的,还是理念的?
(3)“数据”的内涵、外延是什么?内涵有多深刻,外延拓展有多宽广?
为了寻找答案,我查过国内*重要的各类大部头词典。
据文献记载,《说文解字》(〔汉〕许慎撰,〔宋〕徐铉校订,2013年,中华书局)*早出自许慎。在中国,虽有仓颉造字之说,仓颉被尊称为“万世文字之祖”,但他只对单一字进行了“作文”(形体描画)和“作字”(形旁和声旁组合),而东汉时期的许慎完成了《说文解字》的编纂。这应该是我国*古老的字典,共收录了万余字,距今大约1900年。由于是单字录入,自然只有“数”和“据”,没有“数据”一词。
《辞源》和《辞海》,是我国现代权威的词典。在《辞源》(广东、广西、湖南、河南辞源修订组,商务印书馆编辑部编,修订本第二册,1980年,商务印书馆出版社)中未找到“数据”和与之相关的词条,在《辞海》(夏征农主编,1999年版缩印本,2000年,上海辞书出版社)中找到了与数相关的词条117条,其中与“数据”相关的词条10条,包括数据处理、数据共享、数据管理等,但仍然没有单独将“数据”作为词条录入,更没有对其作注和解释。
后来经过反复查阅,终于在《现代汉语词典》(中国社会科学院语言研究所词典编辑室编,2002年增补本,商务印书馆)中找到了,这让我无比兴奋。在《辞海》(夏征农、陈至立主编,第六版彩图本,2009年,上海辞书出版社)中也找到了数据一词的解释,其中与数据有关的词条增加到18条,与数有关的词条增加到123条。具体描述如下:
【数据】数据是指“进行各种统计、计算、科学研究或技术设计等所依据的数值”。
同时,在《新英汉词典》(王立非编,2019,商务印书馆国际有限公司)中也发现了“data”的词条,注释为:“①资料,材料;②(电脑的)数据,资料。”相关词组有data mining(数据开采,数据剖析);data processing([计]数据处理)等。
由此,可以证明以下几点:
第一,“数据”一词是新生的词组,虽然其在社会、民间绝对属于热词,广泛传播,但被收录在字、词典中作为单一词条的时间还是比较晚的,大约是在2002年前后。
第二,根据对数据词条的注解,以及用数据库、数据处理、数据管理、数据采集/检索类的词条举例,证明“数据”一词诞生在互联网时代,显然属于一种新生事物的产物。
第三,数据至今没有被正式列为科学。虽然现在有了数据科学词条,也有数据科学专著,但都不是关于数据的独立科学,因此我们需要对普世的、独立的数据进行科学研究和著述。
不过在查找数据中,倒是找到了“情报学”(《中国百科大辞典》,1990,华夏出版社),书中将信息定位为“第三资源”,定位还是比较高,研究的也比较早。
3)关于数据组成
何为数据?虽然查了很多资料,但各处并没有给出精确的答案,仅限于一般意义上的注释,对数据的来源、组成和本质含义并没有给出解释。
由于我个人对数据有着不同的认识,所以做了长达20多年的探索。我不同意人们将数据仅称为“资料”,也不同意人们仅从计算机的“十数九表”与“数据跟着代码走”的数据学意义上认识数据,为此,我想给数据“正名”。
后来,正因为对中国数字油田的基本内涵与外延的研究,开启了我对信号、数字、数据、信息、知识、智慧的全面研究,我的“数据”思维发生了根本性的改变,特别是由“数字地球”引申、延展、衍生而出的各种数字化、智能化思想与技术及各种建设,使我对数据的内涵与外延有了更深刻的了解。
2005年是我对数字、数据、信息研究的真正开端,我以中国数字油田研究为主要方向,以数据研究为目标。这么多年来,我就想知道数据到底是什么?数据能否成为未来社会和人类科学技术新的基础理论的“发动机”?为此我做了不懈的努力。
这就是我研究数据的基本原因与动力。
1.1.2 数据研究的意义
经过多年的思考、探索、研究,我认为研究数据的重要意义在于以下几点。
(1)建立一套数据理论体系。数据是一门科学,它不仅是一个简单的字、词,也不在于是否被收录在词典中,而是未来科学技术的前沿与科学技术重要的理论基础。
数据本身就是一门科学。通过对数据进行科学研究,可以建立一套完整的数据理论体系,形成一套完整的数据科学理论,构建一套完整的数据建设模式,创建一套完整的数据价值体系。
数据理论应该包含数据理论、原理,数据基础问题和定律,数据建设与方法,数据价格与价值流转机制,数据确权法律体系,等等。
数据体系应该包含数据的理论、数据科学、数据方法、数据的技术、数据文化与哲学、数据经济等。
关于数据的基本问题、数据科学的理论与方法等会在第3章、第5章中论述,数据的技术、数据文化与哲学、数据经济均渗透在各章节中研究,不作为专门章节来论述。然而,不是因为它们不重要,而是因为受到篇幅的限制。我相信数据的价值会让数据经济大放异彩,数据的技术会在数字化、智能化、智慧建设中得到体现,只有数据文化与哲学在未来会更加重要,才会有更多的学者来研究。
(2)寻找到未来科学技术的理论基础。数据不仅仅是单一的数据本身,也不是一般意义的现象与一般意义上的外延,随着科学技术、互联网(Internet)、计算机科学等的发展,数据的外延已扩展到互联网数据和移动互联网数据,包括音频、视频、图片、照片等,数据的概念、内涵、外延发生了巨大的变化。
到了大数据时代,数据已成为国家战略和所有领域、单位的资产,是一切科学问题研究与科学管理的资源。数据与大数据因通过深度分析、挖掘可获得数据深处的意外价值而被人们广泛认可。
到现代,科学与技术结合得越来越紧密,人们很难分出哪个是科学、哪个是技术,二者之间的边界越来越模糊。但是,科学与技术有一个共同的需要,就是需要基础理论的支撑。我们从科学技术发展数千年的历史上看,所有的科学与技术都离不开基础理论的研究。我们试图看能否通过数据科学理论的研究而找到未来科学技术的基础理论,这就是我们研究数据与数据理论*大的一个心愿。
表面看全球化是商业化、生活化,实际上是科技化的问题,然而当前出现的贸易摩擦全球化问题,其背后是科学技术话语权的争夺。众所周知,第二次世界大战以来的金融话语权,科学技术话语权都掌握在西方国家,尤其是以美国为首的西方大国之中。但是,科学技术快速发展了70多年后,有很多学者忧虑,科学技术的基础理论被“吃干榨净”,仅剩下“*后一滴柠檬汁”,怎么办?
人们在这样一个高速发展的社会大潮中,热切地期待新的牛顿和爱因斯坦理论的出现,更期待新的科学技术的基础理论的出现。下一个科学技术基础理论的诞生会不会是数据与数据科学呢?我们希望通过对数据与数据科学的研究,能够找到答案。
(3)打开新时代科学技术的大门。数据的发展就是数据的未来。数据发展不仅仅是数据自身衍生、演化与发展问题,还有在数据驱动下的社会重大变革与科学技术革命中的发展与未来问题。
首先,要研究数字、数据、信息之间的关联关系。人类社会认识是从物质世界开始的,现在我们跨越了数据世界,直接进入了信息世界,这个跨越是否可行,且会给人类社会、科学技术带来什么后果?这是数据研究中不可跨越的一个大问题。
其次,还要研究数字、数据、信息、知识、智慧的关联关系,它们都不是孤立体,而是一个强大的关联体,它们互为关系、互为依据、相互转化,形成一种社会进步的推动力。
因此,数字可以形成数字化,数据可以形成智能化,信息、知识、智慧形成智慧建设,它们共同创建模式,创造社会财富。
*后,数据与数据科学的地位必须给予确立。我们现在虽然都称“数据科学”,但是数据的地位还没有被确立,数据科学的地位也就不会被确立。只有数据确权、数据的法律地位被确认,才能有数据的地位,才能有数据科学的地位。
因此,我们必须通过对数据与数据科学深入研究,建立数据与数据科学的基本理论与理论体系,得到人们的广泛认同,才能让数据与数据科学的地位得以确立。
我相信数据理论必将打开新时代科学技术的大门,创造一个崭新的未来科学技术新时代。
1.2 数据研究的基本内容及数据战略研究
1.2.1 数据研究的基本任务
数据研究的核心内容是数据理论、原理与方法论。本书共分为10章,研究内容涉及数据起源、数据理论、数据原理、数据建设、数据科学、数据科学家、大数据方法论与数据未来等。但归纳起来,主要有三大任务:
第一,数据基本问题的研究;
展开