基于R语言的分类、聚类研究

Python015

基于R语言的分类、聚类研究,第1张

1.所有在对iris数据集分(聚)类研究中,setosa均可以完全正确分(聚)类,而另外两类则会出现不同程度的误差,这也是导致整个研究模型出现误差的原因;

2.在使用的三种分类研究方法中,决策树模型的效果最优,因此可以使用该方法进行鸢尾花数据集的分类预测研究。

1.在对鸢尾花数据集进行聚类时,K-means、K-medoids两种聚类方法的正确率相同,可见在数据集离群点和噪音不大的情况下,二者聚类效果基本相同,但当出现离群点和噪音时,应该考虑K-medoids聚类方法;

2.鸢尾花数据集进行聚类分析时,划分聚类效果优于层次聚类;

3.对于量纲不一致的数据,应进行标准化,但对于量纲一致的数据,标准化之后结果并不一定优于未标准化的数据得到的结果。

1 读取,计算均值,箱图观察

2 查看数据分布

2.1 hist直方图

2.2 qqnorm散点图

3 Shapiro-Wilk正态性检验

4 方差齐性检验

意义:方差分析就是在大家误差水平差不多的条件下看控制和对照组是不是有显著差异。那方差其实就是误差水平了。当方差不一致的时候,这个方法就没法分辨出究竟是控制造成的差异还是,内在的波动造成的差异。

参考: https://www.zhihu.com/question/21195390

参考: https://blog.csdn.net/tiaaaaa/article/details/58130363

4.1 F检验

使用条件:数据正态分布,只可以检验两个样本

4.2 bartlett检验

使用条件:正态分布的数据,多个样本

4.3 levene检验

没有条件:数据可不具正态性,可以检验多个总体的方差齐性

SPSS的默认方差齐性检验方法

5 差异检验

5.1 参数检验:T检验

使用条件:两样本来自正太分布总体,方差齐

5.2 非参数检验:Wilcoxon秩和检验(两样本)

参数:

参考: https://www.jianshu.com/p/f30d1fe877ea

5.3 非参数检验:Kruskal-Wallis(KS)秩和检验(多样本)

5.4 Deseq两组reads count差异分析