系统聚类法

时间:2024-02-24 07:15:14

1. 概述

系统聚类法也称为多层次聚类法,分类的单位由高到低呈树状结构,且所处的位置越低其包含的样本点就越少,共同特征越多。这种方法适合于数据量较小的情况,当数据量较大时系统聚类法的速度较慢。

2. 算法核心思想

其做法是开始时把每个样品作为一类,然后把最靠近的两个或若干个样品(即距离最小的群品)首先聚为小类,再将已聚合的小类按其类间距离合并(两两或若干),不断继续下去,最后把一切子类都聚合到一个大类。

3. 算法实现步骤

以n个样本的聚类分析为例,系统聚类法的步骤如下:

1、将数据标准化。

2、计算n个样本两两之间的距离。 

3、将每个样本归为一类,根据计算出的样本间的距离合并距离最近的两类为一个新类。

4、再计算新类与其他各类的距离,同样再根据计算出的距离合并距离最近的两类为一个新类。

5、循环以上过程直至类别个数为1。

6、画出各阶段的聚类图并决定类别的个数。

常用的空间距离有:绝对值距离、欧氏距离、切比雪夫距离、马氏距离和兰氏距离等。