第一章 多维数据分析及其研究概述
引言
多维数据分析的本质是指从数据中识别合理的、新颖的、有潜在价值的、以及最终可理解模式(Pattern)的非常规过程。数据分析中面临的一个主要问题是数据中潜在可能的关系模式数量太大,因此要想搜索到有用的模式,传统的线性变换的方法难以适应大数据量需求,必须采用一定的人工智能技术,特别是并行计算的神经网络领域的方法。对于多维空间点的处理,使用的方法主要是传统的线性变换方法以及当前流行的非线性变换方法。并行计算的神经网络方法对于多维、非线性应用有本质的联系,神经网络的本质是一种基于连接的并行计算方法,可以认为是在概念空间寻找映射函数,实现多维空间到低维空间的映射。这种非线性映射的方法,适合多维数据的处理规律,因此具有实现对多维数据分析的能力。本书在介绍序列构造神经网络的多维数据分析方法之前,先简单介绍一下多维数据分析的相关概念及其研究现状与进展。
维与多维的概念
数据分析的视角:维
维是人们观察客观事物的角度,是一种类型划分的方法。例如我们要评估一套房产的价格,可以从城市、地段、面积、房型、楼层、朝向等因素进行分析,那么这里的城市、地段、面积、房型、楼层、朝向就是相应的维。基于不同的维,可以看到各量度的汇总情况,也可以基于所有的维进行交叉分析。所以,维是多维数据集的结构性特性,是实际数据中用来描述数据分类的有组织的层次结构。这些分类和级别描述了一些相似的成员集合,可以基于这些成员集合进行分析。
展开