将所有样本及相关数据进行距离矩阵计算,并采用层次聚类(hierarchical cluster)对所有样本进行聚类[1],形成表现样本间相似度的树状图。层次聚类指的是从下而上地合并cluster,具体而言,就是每次找到距离最短的两个cluster,然后进行合并成一个大 的cluster,直到全部合并为一个cluster,整个过程就是建立一个树结构的过程。

层次聚类首先需要计算样本和样本的距离用于评判样本之间的相似性,距离计算方法是欧式聚类。
不同颜色代表不同组别,横坐标代表簇,树状图反映了每个样本之间的相似度,越相似越能聚在一起。
默认采用聚类方法为:average-linkage,即计算两个cluster各自数据点的两两距离的平均值。