R语言入门--第十四节（聚类分析）

2023-02-24 05:26:01Python018

R语言入门--第十四节（聚类分析）,第1张

（1）定义每一个观测值为一类；

（2）计算每一类和其它各类的距离；

（3）把“距离”最短的两类合并成一类，这样类的个数就减少一个；

（4）重复步骤1和步骤2，直到包含所有观测值的类合并成单个类为止。

基于5种营养标准含量（变量）的27种食物（观测）进行层次聚类分析，探索不同食物的相同点与不同点，并分成有意义的类。此处层次聚类算法以平均联动(average)为例。

（1）数据预处理--归一化

（2）计算欧几里得距离

（3）平均联动层次聚类分析

（1）确定聚类个数

NbClust包提供了众多的指数来确定在一个聚类分析里类的最佳数目。

（2）获取最终的聚类方案

由上图，尝试解释每类变量的含义：

K均值聚类为最常见的划分方法。

（1）选择K个中心点（随机选择K个观测），K数值就是我们预期的聚类数。

（2）把每个数据点分配给离它最近的中心点；第一次中心点是随机选择的，但也可以设置参数，选择最优的初始值。

（3）重新计算每类中的点到该类中心点距离的平均值；此时的中心点应该为每一类的均值中心点，对异常值敏感（之后都是如此）

（4）分配每个数据到它最近的中心点；

（5）重复步骤3、4，直到所有的观测值不在被分配或是达到最大的迭代次数（默认10次）

（1）数据预处理：去除第一列干扰数据，并归一化数据。

（2）确定待提取的聚类个数，同样可用NbClust包判断（顺序与层次聚类分析不同，如前所述，层次聚类分析在最后才确定聚类个数）

（3）K均值聚类分析

（4）最后将聚类结果与原始数据标准结果（第一列数据）进行比对，看看分析质量如何。

兰德指数接近0.9，看来K均值聚类算法还不错~

K均值法对均值异常敏感，相比来说，PAM为更稳健的方法。

（1）随机选择K个观测（每个都称为中心点）；

（2）计算观测值到各个中心的距离；

（3）把每个观测值分配到最近的中心点；

（4）计算每个中心点到每个观测值的距离的总和（总成本）；

（5）选择一个该类中不是中心的点，并和中心点互换；

（6）重新把每个点分配到距它最近的中心点；

（7）再次计算总成本；

（8）若新的总成本比步骤4计算的总成本少，就把新的点作为中心点；

（9）重复步骤5-8，直到中心点不变。

聚类分析有两种主要计算方法，分别是凝聚层次聚类（Agglomerative hierarchical method）和K均值聚类（K-Means）。

层次聚类又称为系统聚类，首先要定义样本之间的距离关系，距离较近的归为一类，较远的则属于不同的类。可用于定义“距离”的统计量包括了欧氏距离 (euclidean)、马氏距离(manhattan)、两项距离(binary)、明氏距离(minkowski)。还包括相关系数和夹角余弦。层次聚类首先将每个样本单独作为一类，然后将不同类之间距离最近的进行合并，合并后重新计算类间距离。这个过程一直持续到将所有样本归为一类为止。在计算类间距离时则有六种不同的方法，分别是最短距离法、最长距离法、类平均法、重心法、中间距离法、离差平方和法。下面我们用iris数据集来进行聚类分析，在R语言中所用到的函数为hclust。

首先提取iris数据中的4个数值变量，然后计算其欧氏距离矩阵。然后将矩阵绘制热图，从图中可以看到颜色越深表示样本间距离越近，大致上可以区分出三到四个区块，其样本之间比较接近。 data=iris[,-5] dist.e=dist(data,method='euclidean') heatmap(as.matrix(dist.e),labRow = F, labCol = F) X 然后使用hclust函数建立聚类模型，结果存在model1变量中，其中ward参数是将类间距离计算方法设置为离差平方和法。

使用plot(model1)可以绘制出聚类树图。如果我们希望将类别设为3类，可以使用cutree函数提取每个样本所属的类别。 model1=hclust(dist.e,method='ward') result=cutree(model1,k=3) 为了显示聚类的效果，我们可以结合多维标度和聚类的结果。先将数据用MDS进行降维，然后以不同的的形状表示原本的分类，用不同的颜色来表示聚类的结果。可以看到setose品种聚类很成功，但有一些virginica品种的花被错误和virginica品种聚类到一起。

问题1：代码如下

#b为新建立的0矩阵，a为原始数据矩阵，读取文件test.txt的数据

a<- as.matrix(read.table("test.txt"))

b<- matrix(0,nrow=ncol(a),ncol = ncol(a))

for(n in i : nrow(a))

{

for(i in 1 :ncol(a))

{

if(a[n,i] == 1)

{

for( j in 1 :ncol(a))

{