R语言中实现层次聚类模型

2023-02-26 16:55:01Python010

R语言中实现层次聚类模型,第1张

R语言中实现层次聚类模型

大家好！在这篇文章中，我将向你展示如何在R中进行层次聚类。

什么是分层聚类？

分层聚类是一种可供选择的方法，它可以自下而上地构建层次结构，并且不需要我们事先指定聚类的数量。

该算法的工作原理如下：

将每个数据点放入其自己的群集中。

确定最近的两个群集并将它们组合成一个群集。

重复上述步骤，直到所有数据点位于一个群集中。

一旦完成，它通常由树状结构表示。

让我们看看分层聚类算法可以做得多好。我们可以使用hclust这个。hclust要求我们以距离矩阵的形式提供数据。我们可以通过使用dist。默认情况下，使用完整的链接方法。

这会生成以下树形图：

从图中我们可以看出，群集总数的最佳选择是3或4：

要做到这一点，我们可以使用所需数量的群集来切断树cutree。

现在，让我们将它与原始物种进行比较。

它看起来像算法成功地将物种setosa的所有花分为簇1，并将virginica分为簇2，但是与花斑杂交有困难。如果你看看显示不同物种的原始图，你可以理解为什么：

让我们看看我们是否可以通过使用不同的连接方法更好。这一次，我们将使用平均连接方法：

这给了我们以下树状图：

我们可以看到，群集数量的两个最佳选择是3或5.让我们用cutree它来将它降到3个群集。

我们可以看到，这一次，该算法在聚类数据方面做得更好，只有6个数据点出错。

我们可以如下绘制它与原始数据进行比较：

这给了我们下面的图表：

内部颜色与外部颜色不匹配的所有点都是不正确聚类的点。

R语言将层次聚类中的树分成簇

说明

在聚类树图中可以观测到聚类的层次，但是仍然得不到组的信息，不过我们可以定义一个聚类树图会拥有多少个簇，并控制树的高度以便将树分成不同的组。

操作

接上节的数据hc

将数据分成四组

fit = cutree(hc,4)

检查数据的簇标签

fit

[1] 1 1 2 1 2 1 2 2 1 1 1 2 2 1 1 1 2 1 2 3 4 3 4 3 3 4 4 3 4 4 4 3 3 3 4 4 3 4 4 4 4 4 4 4 3 3 4 4 4 3 4 3 3 4 4 4 3 4 4 3

统计每一个簇中的对象数

table(fit)

fit

1 2 3 4

11 8 16 25

使用红色矩形框可视化矩形的簇

plot(hc,hang = -0.01,cex =0.7)

rect.hclust(hc,k=4,border = "red")

除了使用红色矩形来框来界定簇，还可以使用它对单独某个簇进行标记：

plot(hc,hang = -0.01,cex =0.7)

rect.hclust(hc,k = 4,which = 2,border = "red")

标记特定簇

还可以调用dendextend包，使用不同的颜色来绘制红色矩形框的各个不同聚簇。

根据分支所在的不同簇，对其涂色

library(dendextend)#delete

dend %>% color_branches(k=4) %>% plot(horiz = TRUE,main = "Horizontal Dendrogram")

不同簇不同色

在这些簇周围添加红色矩形框

dend %>% color_branches(k=4) %>% plot(horiz = TRUE,main = "Horizontal Dendrogram")

dend %>% rect.dendrogram(k=4,horiz = TRUE)

最后，在图中添加一条切割线来展示对树的操作结：

dend %>% color_branches(k=4) %>% plot(horiz = TRUE,main = "Horizontal Dendrogram")

dend %>% rect.dendrogram(k=4,horiz = TRUE)

abline(v = heights_per_k.dendrogram(dend)["4"] + .1,lwd = 2,lty = 2,col = "blue")

水平聚类树中绘制分割线

聚类分析有两种主要计算方法，分别是凝聚层次聚类（Agglomerative hierarchical method）和K均值聚类（K-Means）。

层次聚类又称为系统聚类，首先要定义样本之间的距离关系，距离较近的归为一类，较远的则属于不同的类。可用于定义“距离”的统计量包括了欧氏距离 (euclidean)、马氏距离(manhattan)、两项距离(binary)、明氏距离(minkowski)。还包括相关系数和夹角余弦。层次聚类首先将每个样本单独作为一类，然后将不同类之间距离最近的进行合并，合并后重新计算类间距离。这个过程一直持续到将所有样本归为一类为止。在计算类间距离时则有六种不同的方法，分别是最短距离法、最长距离法、类平均法、重心法、中间距离法、离差平方和法。下面我们用iris数据集来进行聚类分析，在R语言中所用到的函数为hclust。

首先提取iris数据中的4个数值变量，然后计算其欧氏距离矩阵。然后将矩阵绘制热图，从图中可以看到颜色越深表示样本间距离越近，大致上可以区分出三到四个区块，其样本之间比较接近。 data=iris[,-5] dist.e=dist(data,method='euclidean') heatmap(as.matrix(dist.e),labRow = F, labCol = F) X 然后使用hclust函数建立聚类模型，结果存在model1变量中，其中ward参数是将类间距离计算方法设置为离差平方和法。

使用plot(model1)可以绘制出聚类树图。如果我们希望将类别设为3类，可以使用cutree函数提取每个样本所属的类别。 model1=hclust(dist.e,method='ward') result=cutree(model1,k=3) 为了显示聚类的效果，我们可以结合多维标度和聚类的结果。先将数据用MDS进行降维，然后以不同的的形状表示原本的分类，用不同的颜色来表示聚类的结果。可以看到setose品种聚类很成功，但有一些virginica品种的花被错误和virginica品种聚类到一起。

距离不同层次数据样本

# 上一篇：怎么能自学学精C语言啊？

# 下一篇：骑马与砍杀0.960各武器代码代码