R语言与统计-1:t检验与秩和检验

Python027

R语言与统计-1:t检验与秩和检验,第1张

一般根据数据是否符合正态分布,选择合适的统计方法:

T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。t检验是用t分布理论来推论差异发生的概率, 从而比较两个平均数的差异是否显著。 它与 Z检验 、 卡方检验 并列。

其他进行正态性检验的函数 (如下函数都属于nortest包)

Lillie.test()

ad.test()

cvm.test()

pearson.test()

sf.test()

不同的函数可能会得到不同的结果。

对于不服从正态分布的数据,可以采用一些方法使它服从正态分布。

var.test只能用于两样本方差齐性检验

当数据不满足正态分布的时候,要进行t检验必须进行原始数据的变换。如取log,平方根,倒数, boxCox转换 等。

Wilcox秩和检验(又称Mann-Whitney U检验)是对原假设的非参数检验,在不需要假设两组样本数据为正态分布的情况下,测试二者数据分布是否存在显著差异,此检验适用于数据分布属于非正态性的分析对象,其适用范围相较于t检验广泛。

执行wilcoxon秩和检验(也称Mann-Whitney U检验)这样一种非参数检验 。t检验假设两个样本的数据集之间的差别符合正态分布(当两个样本集都符合正态分布时,t检验效果最佳),但当服从正态分布的假设并不确定时,我们执行wilcoxon秩和检验来验证数据集中mtcars中自动档与手动档汽车的mpg值的分布是否一致,p值<0.05,原假设不成立。意味两者分布不同。警告“无法精确计算带连结的p值“这是因为数据中存在重复的值,一旦去掉重复值,警告就不会出现。

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性分析旨在研究两个或两个以上随机变量之间相互依存关系的方向和密切程度。

一般来讲研究对象(样品或处理组)之间使用距离分析,而元素(物种或环境因子)之间进行相关性分析 。两个变量之间的相关性可以用简单相关系数(例如皮尔森相关系数等)进行表示,相关系数越接近1,两个元素相关性越大,相关系数越接近0,两个元素越独立。

Pearson相关系数是用于表示相关性大小的最常用指标,数值介于-1~1之间,越接近0相关性越低,越接近-1或1相关性越高。正负号表明相关方向,正号为正相关、负号为负相关。适用于两个正态分布的连续变量。

利用两变量的秩次大小来进行分析,属于非参数统计方法。适用于不满足Pearson相关系数正态分布要求的连续变量。也可以用于有序分类变量的之间的相关性测量。

Kendall's Tau相关系数是一种非参数检验,适用于两个有序分类变量。

此外衡量两个变量之间关系的方法还有:卡方检验、Fisher精确检验等。

Pearson、Spearman、Kendall相关系数都可以通过cor函数实现,cov协方差函数参数同cor函数。

ggcorrplot包内只有2个函数,一个cor_pmat()用于计算p值,一个ggcorrplot()用于绘图。ggcorrplot相当于精简版的corrplot包,只有主题更加丰富多样。

This function computes and returns the distance matrix computed by using the specified distance measure to compute the distances between the rows of a data matrix.

这个函数用特定的方法计算矩阵的行之间的距离,并返回距离矩阵。

scale是对矩阵的每一列进行标准化,如果要对行标准化需要先转置。如 heatmapdata <- t(scale(t(heatmapdata)))

1、打开R语言自带开发工具,RGui。

2、定义一个向量  bd<-c(1,2,3,4,5)。

3、通过length和sum函数对向量的均值进行计算,将计算出的均值放到meanx中。

4、输入meanx即可看到计算出的均值。

5、这只是R语言计算均值的一种方法,通过mean函数可以直接计算出向量的均值。