随着大数据时代信息技术的快速发展,互联网应用已经渗透人们工作、学习和生活的各个方面,极大地丰富了人们的生活内容。人们在通过互联网进行的各种社会活动中,积累了大量的数据信息,能够记录和获取信息的设备也越来越多,不仅智能手机可随时随地记录我们的行踪,各种生活和工作相关的设备也都连接到网络中,让数以百亿计的机器设备基于社会化网络的平台和应用,使政府、社会组织以及个人随时随地都能获取和产生新的数据,也引发了大数据规模爆炸式增长。这些数据的保存积累形成的“大数据” 记录了自然界的变化和人类的思想、行为等方面的内容,数据大量产生,并且具有极其强烈的传播性。大数据的概念已经深入我们工作和生活的各个方面,对人类的思维方式产生了巨大影响,为人们更深入地认识、分析和理解世界提供了基础。
大数据的特征表现在数据量的巨大、数据内容的多样化和结构的复杂,以及信息的实时采集和快速处理的及时性等三个方面,有人用3V (Volume,Varity,Velocity)来形容这三个特征。但是大数据还有一个特征就是大数据中蕴含着巨大的价值,IBM认为其具有真实性(Veracity)的价值,这个真实性不仅表现在对客观事物的真实反映,更应体现在对于认识客体的整体性的反映。微软认为其具有内容珍贵的价值性(Value),大数据体现了数据记录的完整性,这种完整性不仅记录了众多珍贵的小概率事件,同时由于数据的完整性产生了局部数据所不能表现的数据之间的关联,这些关联会导致新的有价值的事件出现。还有学者认为其具有灵活性(Vitality)的价值,大数据是在持续不断地全面记录和提供信息①,因此可以满足客户各种灵活多变的对信息内容的需求。这些定义表明,大数据是真实地反映客观世界的信息全集,用大数据分析处理事物的精准性对于各行各业都非常重要,能给社会带来比石油都珍贵的有价值的信息,所以大数据的“大”不仅是体量巨大和复杂,而且包含了内容量上和价值量上“大”的含义。
另外,大数据不同于独立分散的局部数据的数据库系统,它是具有一个或多个事件全体信息的数据全集,所以会得出许多分散数据得不到的数据关系和事件信息,数据也呈现出多维度、多层次和多粒度的复杂性。钱学森说:“只有一个或没有层次结构的事物称为简单的系统,而子系统种类很多且有层次结构,它们之间关联关系又很复杂的系统称为复杂巨系统。”② 现在研究的大数据系统都是复杂系统,广泛存在多维度、多层次和多粒度特性,数据量越大信息关联度越大,信息的线索也越多。就如复杂信息系统理论中的超循环构架,而这种复杂构架恰恰是生命发生的有序结构建构的可能的最初模式。由此我们可以根据数据的关联性发现更多的线索,消除对于事物的不确定性,用来产生预测模型,寻找新的商业趋势、精准营销、疾病预防、行为轨迹跟踪、打击犯罪以及测定实时路况等信息,做到那些由于数据不够大而难以做到的很多信息挖掘工作。但是,大数据的规模已经巨大到无法通过传统的处理方法按照人们的需要进行数据处理,很难形成人类需要的准确信息。我们需要改变传统的思维模式和处理模式,在大数据中找出有用信息,使信息成为信息资产,而不是淹没在数据的海洋中。
原始积累的信息是混乱和无序的,大数据本身还不是人类智慧和文明,其中的重复和无用的信息不仅不会增加社会文明,反而会造成社会的混沌和社会系统的无序。人类文明就是从持续不断积累的信息中选择和挖掘有效信息,找到促进社会文明发展的先进文化,使社会系统不断向有序发展,促进社会的进步和发展。
而信息熵就是对信息有效性的度量,是基于事物的不确定性应用概率统计方法,从信息的概率分布寻找信息的确定性。大数据也表现出模糊性特征,大数据时代的信息熵应用就是要在纷繁复杂的数据中,通过对每个事件的概率分布进行分析,找出最珍贵的小概率事件,挖掘出有价值的信息。针对大数据多维度、多层次和多粒度等复杂性特征,应用信息熵有效衡量复杂结构信息的不确定性的方法,不仅可以处理单个事件信息的度量,还可应用信息熵的联合信息熵、条件信息熵、互信息熵等工具对复杂信息进行处理,获取人类需要的真正智慧信息。信息熵是衡量信息消除不确定性的量化指标,信息熵的思想促进了大数据的复杂性信息处理、深入挖掘有效信息等技术发展。信息熵对于社会系统来说,是衡量信息带给社会确定性影响的程度。
大数据为我们探索整个未知世界的不确定性提供了基础,为深度挖掘和创造人类文明带来了新的契机,为了面对大数据时代所展现出来的数据特征,我们不仅需要人工智能、深度学习和大数据处理等科学技术,更需要哲学思辨,需要在方法论和认识论层次上改变思维方式。维克托·迈尔-舍恩伯格和肯尼斯·库克耶在《大数据时代:生活、工作与思维的大变革》一书中提出了处理大数据的方法是面向全体而不是抽样样本,是采用模糊的方法而不是力求精确性,是采用相关关系而不是因果关系等三个思维上的转变。① 大数据时代的信息熵应用正是从这种整体性、模糊性和相关性出发,在概率统计及系统多维度和层次相关性的方法下,研究复杂事件的确定性,在纷繁复杂的数据中,挖掘出有价值的信息。
展开