15.3.4 聚类
聚类也称为簇(cluster),是指一个数据对象的集合。其特点是在同一个类中的对象之间具有相似性,而在不同类的对象之间是相异的。聚类分析就是把一个给定的数据对象集合分成不同的簇的过程。
聚类是一种无监督分类法,没有预先指定的类别。其典型的应用是作为一个独立的分析工具,用于了解数据的分布,或作为其他算法的一个数据预处理步骤。聚类分析在市场销售、土地使用、保险、城市规划、地震研究等各个领域获得了广泛的应用。
一个好的聚类方法要能产生高质量的聚类结果一一簇。这些簇要具备两个特点,即高的簇内相似性和低的簇间相似性。聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现,聚类结果的好坏还取决于该聚类方法是能发现某些还是所有的隐含模式。通常来说,聚类算法需要满足以下特性:
·可伸缩性;
·能够处理不同类型的属性;
·能发现任意形状的簇;
·在决定输入参数时,尽量不需要特定的领域知识;
·能够处理噪声和异常;
·对输入数据对象的顺序不敏感;
·能处理高维数据;
·能产生一个好的、能满足用户指定约束的聚类结果;
·结果是可解释的、可理解的和可用的。
对于聚类算法而言,如何衡量两个对象之间的相似度(相异度)是至关重要的。通常使用距离来进行衡量。对不同类型的变量,距离函数的定义通常是不同的,而且,根据实际的应用和数据的语义,在计算距离时,不同的变量有不同的权值相联系。常用的距离度量方法如下。
展开