大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究以实验科学为主,实验科学是科技人员设计的,如何采集数据、处理数据事先都已想好了,不管是检索还是模式识别,都有一定的科学规律可循,通过设计实验可以进行数据抽样获取,并通过数据分析研究各种以定律和定理为特征的理论科学,这种数据研究方法导致了计算科学的兴起。
大数据的出现必然催生了一种新的科研模式,不同于传统的数据获取,大数据时代的数据研究更多的是去冗分类、去粗取精,从数据中挖掘知识。几百年来,传统科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。在面对大数据所提供的全面数据资源时,科研人员无需再进行数据的抽象调查,只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象,这是和以往的科学研究方法不相同的,因为它更多的是根据数据来进行实验设计和科学研究,即研究方法演变为以数据为主导的数据密集型科学研究。
(3)数据相关性引导因果分析。
观察各种复杂系统得到的大数据,直接反映的往往是一个个孤立的数据和分散的链接,但这些反映相互关系的链接整合起来就是数据相关性。大数据的相关性特征隐藏在复杂的规模数据中,不同于传统的逻辑推理研究,大数据需要对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳,因此继承了统计科学的一些特点。这种分析更加关注数据的相关性或称关联性,所谓相关性是指两个或两个以上变量的取值之间存在某种规律性。严格来讲,统计学并不适用于检验逻辑上的因果关系,而传统的数据分析则是更侧重于根据数据分析找出某一现象存在的因果关系。
因果关系的研究曾促成了科学体系的建立,近代科学体系获得的成就已经证明,科学是研究因果关系最重要的手段。相关性研究是可以和因果分析一样成为科学的新发展,也能作为因果分析的研究基础和补充。对于简单封闭的数据系统,基于小数据的因果分析容易做到,但对于开放复杂的大数据系统,传统的因果分析难以奏效,而寻求因果关系的本质——相关性则是一种更加可行的方法。可以看出,相关性高于因果关系,同时相关性也引导因果关系,两者可以相互结合。
实际上,在大数据时代,正是由于数据分析侧重于寻找更高层次的相关性,才促使大数据技术在商业领域广泛流行。企业的目标往往只需要挖掘和发现与关系数据具有较强相关性的数据因素,并根据数据相关性采取相应的措施,而不必深究其背后的内在规律和模型(即因果关系)。抽象而言,大数据时代的数据分析需求,往往不是按传统的“从数据到信息再到知识和智慧”的研究思路,而是走“从数据直接到价值”的捷径。
……
展开