聚类分析树状图如何看?

Python018

聚类分析树状图如何看?,第1张

看懂聚类分析树状图需要一把尺子,与从左向右的横线垂直90度放下。此时,横线(一条线就是一个类别)被尺子截断,这些端点的个数就是该相对距离下的类别数目。

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,它是一种重要的人类行为。

聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

SPSS聚类分析提供两种类别图形的输出,第一种是软件默认的“冰柱图”,形状类似于冬天屋檐上垂下的冰柱,因此得名。第二种是“树状图”,在新版本软件中也称谱系图,像一个横着生长的树。

主要用于市场细分、用户细分等领域,利用SPSS进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分,因此,筛选有效的聚类变量至关重要。

从右往左看,最右边,你可以看成是左边有开口的矩形,它有上下两条横线,就是说把样本分为两类,一类是宁夏,一类是其它地区

再往左走,出现了一个节点,再往左一点,原来的一条横线分成了两条,加上原来的那条,一共是三条,就是说分为三类,是宁夏,甘肃,其它地区

再往左,有四条,就是分四类,宁夏是第一类,甘肃是第二类,海南和新疆是第三类,其它是第四类

再往左,就是分五类,分别是宁夏,甘肃,新疆,海南,其它地区

就是这样以此类推,你想要分几类,就找几条横线,这个往左到最后就是每个样本归为一类。

那么圆形的树状图如何实现呢?我查找了一下相关资料。

R语言包 dendextend 这个包可以实现,利用 help(package="dendextend") 查看帮助文档,能够看到其中的一个小例子

但是这个后期美化起来好像不太方便。

还找到了一个参考链接是

http://talgalili.github.io/dendextend/articles/dendextend.html

介绍的也是 dendextend 这个包的用法。

这个时候再运行上面提到的例子就可以直接得到结果

把树的形状改为圆形,添加样本的名称

鸢尾花数据集是150个样本,用圆形的图看下效果

最终的结果是

这里关于最外圈文本位置的调整,我还的再仔细看看,这里出图后位置不太合适,我是手动调整的!