此必要,对于简单事实进行判断的数据分析难道也要采集全部数据?我曾与香港城市大学的祝建华教授讨论过这个问题。祝教授是传播学研究方法和数据分析的专家,他认为一定可以找到一种数理统计方法来进行分析,并不一定需要全部数据。联系舍恩伯格的第二个观点中所说的相关关系,我认为他说的全体数据不是指数量,而是指范围,即大数据的随机样本不限于目标数据,还包括目标以外的所有数据。我认为大数据分析不能排除随机抽样,只是抽样的方法和范围要加以拓展。
我同意舍恩伯格的第二个观点,我认为这是对他第一个观点很好的补充,这也是对精准传播和精准营销的一种反思。“大数据的简单算法比小数据的复杂算法更有效”,更具有宏观视野和东方哲学思维。
对于舍恩伯格的第三个观点,我也不能完全赞同。“不是因果关系,而是相关关系”,不需要知道“为什么”,只需要知道“是什么”。传播即数据,数据即关系。在小数据时代,人们只关心因果关系,对相关关系认识不足,大数据时代的相关关系举足轻重,如何强调都不为过,但不应该完全排斥因果关系。大数据从何而来?为何而用?如果我们完全忽略因果关系,不知道大数据产生的前因后果,也就消解了大数据的人文价值。如今不少学者为了阐述和传播其观点,往往语出惊人,对旧有观念进行彻底的否定,这是不可取的。
世间万物的复杂性、多样化并非非此即彼那么简单,舍恩伯格也陷入了这种二元对立的幼稚思维吗?其实不然,读者在阅读时一定要看清楚他是在什么语境下说的,不要因囫囵吞枣的浅读而陷入断章取义的误读。比如说,舍恩伯格在提出“不是因果关系,而是相关关系”这一论断时,他在书中还说道:“在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续研究更深层次的因果关系,找出背后的‘为什么’。”①由此可见,他说的全部数据和相关关系都有特定语境,是数据挖掘中的选项。
大数据研究的一大驱动力是商用,舍恩伯格在第二部分里讨论了大数据时代的商业变革。舍恩伯格认为数据化就是一切皆可“量化”,大数据的定量分析有力地回答了“是什么”这一问题,但仍然无法完全回答“为什么”。因此,我认为并不能排除定性分析和质化研究。数据创新可以创造价值,这是毫无疑问的。舍恩伯格在讨论大数据的角色定位时,仍把它置于数据应用的商业系统中,而没有把它置于整个社会系统里,但他在第二部分大数据时代的管理变革中讨论了这个问题。在风险社会中,信息安全问题日趋凸显,数据独裁与隐私保护成为一对矛盾。如何摆脱大数据的困境?舍恩伯格在最后一节“掌控”中试图作出回答,但基本上属于老生常谈。我想,或许凯文·凯利的《失控》可以帮助我们解答这个问题,至少它可以提供更多的思考维度。正如舍恩伯格在结语中所道:“大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。”谢谢舍恩伯格,让大数据讨论从自然科学回到人文社科。由此推断,《大数据时代》不是最终答案,也不是标准答案,只是参考答案。
此外,在阅读此书之前还必须具备一些数据科学的基本知识和基本概念,比如说,什么叫数据?什么叫大数据?数据分析与数据挖掘的区别是什么?数字化与数据化有什么不同?读前做些功课,读起来就比较好懂了。
……
展开