R语言-相关性检验及线性拟合

2023-02-24 15:24:02Python014

R语言-相关性检验及线性拟合,第1张

相关性检验R=1时为完全正相关。R=-1为完全负相关。R=0为正态分布

斜率与R值无关

输出P值为0.0122显示明显正相关

计算直线：

lm（纵坐标，横坐标，data=数据框）

图加直线：

abline(直线数据，col=”颜色“，lwd=数值)

lwd为线的宽度

相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度。

一般来讲研究对象（样品或处理组）之间使用距离分析，而元素（物种或环境因子）之间进行相关性分析 。两个变量之间的相关性可以用简单相关系数（例如皮尔森相关系数等）进行表示，相关系数越接近1，两个元素相关性越大，相关系数越接近0，两个元素越独立。

Pearson相关系数是用于表示相关性大小的最常用指标，数值介于-1~1之间，越接近0相关性越低，越接近-1或1相关性越高。正负号表明相关方向，正号为正相关、负号为负相关。适用于两个正态分布的连续变量。

利用两变量的秩次大小来进行分析，属于非参数统计方法。适用于不满足Pearson相关系数正态分布要求的连续变量。也可以用于有序分类变量的之间的相关性测量。

Kendall's Tau相关系数是一种非参数检验，适用于两个有序分类变量。

此外衡量两个变量之间关系的方法还有：卡方检验、Fisher精确检验等。

Pearson、Spearman、Kendall相关系数都可以通过cor函数实现，cov协方差函数参数同cor函数。

ggcorrplot包内只有2个函数，一个cor_pmat()用于计算p值，一个ggcorrplot()用于绘图。ggcorrplot相当于精简版的corrplot包，只有主题更加丰富多样。

This function computes and returns the distance matrix computed by using the specified distance measure to compute the distances between the rows of a data matrix.

这个函数用特定的方法计算矩阵的行之间的距离，并返回距离矩阵。

scale是对矩阵的每一列进行标准化，如果要对行标准化需要先转置。如 heatmapdata <- t(scale(t(heatmapdata)))

得出相关系数我们并不一定能得出数据之间的相关水平，这时候我们会进行相关性检验来进行量化。

置信区间:confidence interval，是指由由样本统计量所构成的总体参数的估计区间。在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。简单来说就是只有概率还不行，还得知道概率发生的范围。例如，如果在一次大选中某人的支持率为55%，而置信水平0.95以上的置信区间是（50%,60%），那么他的真实支持率有百分之九十五的机率，落在百分之五十和百分之六十之间，因此他的真实支持率不足一半的可能性小于百分之5。

cor.test函数每次只能检测一组变量。它有四个重要的参数，x和y是需要检测的相关性的变量，alternative参数指明是进行两边检验(two.sided)或正相关检验(greater)或负相关检验(less)。method参数选择算法(Pearson、Spearman、Kendall)

psych包中的corr.test可以一次性检验多组变量，可以递归计算整个数据集。

该函数不仅计算了相关系数，而且计算了相关性检验的值

偏相关

t检验适用于样本含量较小，总体方差未知的正态分布数据

UScrime数据集是美国七个州的刑罚制度对犯罪率影响的数据集。

t检验使用t.test()函数,格式为y~x，其中y是数值型变量，x是二分型变量。波浪线后面是分组变量，南方和北方分成两组，做了t检验。

如果想在多余两个组的数据中进行比较，数据符合正态分布我们就用方差分析，如果不符合正态分布则用非参数的方法。在相关性检验中，我们可以用参数方法和非参数方法。统计分析方法包括参数检验和非参数检验，