《R语言实战》自学笔记44-t检验

2023-02-25 04:42:02Python025

《R语言实战》自学笔记44-t检验,第1张

数据准备

t检验，亦称student t检验（Student's t test），主要用于样本含量较小（例如n <30），总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率，从而比较两个平均数的差异是否显著。

t检验的适用条件为样本分布符合正态分布。

R中检验正态分布的函数：

shapiro.test()

结果p值要是小于0.05，样本分布是非正态分布，如果大于0.05，样本分布是正态分布。

t检验可分为单总体检验和双总体检验，以及配对样本检验。

单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。

个人理解的应用实例：已知一个玉米品种的产量是8000 kg/ha，在一个田间试验中测定这个玉米品种的产量，单样本t检验要做的就是检验田间试验测定的产量与已知产量是否相等。

单样本t检验的假设：

H0：样本均值与已知的总体均值相等。

H1：样本均值与已知的总体均值不相等。

t统计量的计算：

m：样本平均值；

：已知总体的均值；

S：样本标准差，自由度df=n-1。

n：样本量。

单样本t检验R调用函数：

t.test(x, mu, alternative = "two.sided")

x：数据向量；

mu：理论平均值。默认为0，可根据自己统计计算需求更改；

alternative：备择假设。允许值为“two.sided”（默认），也可以根据需要设置为“greater”或“less”之一。

结果解释：p值小于0.05，结论是v1的平均值与理论值1.5有显著差异。

检验两个样本平均数与其各自所代表的总体的差异是否显著。

个人理解的应用实例：检验两个玉米品种产量是否存在差异。

t.test(y ~ x, data)

其中的y是一个数值型变量，x是一个二分变量。

t.test(y1, y2)

其中的y1和y2为数值型向量（即各组的结果变量）。可选参数data的取值为一个包含了这些变量的矩阵或数据框。

t检验默认假定方差不相等，并使用Welsh的修正自由度。你可以添加一个参数var.equal=TRUE以假定方差相等，并使用合并方差估计。默认的备择假设是双侧的（即均值不相等，但大小的方向不确定）。你可以添加一个参数alternative="less"或alternative="greater"来进行有方向的检验。

结果解读：得到结果中P值小于0.05，说明要拒绝原假设（两品种v1值无差异），接受备择假设，即两品种v1值差异显著。

非独立样本的t检验假定组间的差异呈正态分布。

个人理解的应用实例：一个玉米品种接受两个施氮处理，两个施氮处理下玉米的产量是否存在差异。

t.test(y1, y2, paired=TRUE)

其中的y1和y2为两个非独立组的数值向量。

结果解读：不同氮素水平的比较显示p值小于0.05，说明v1值在两个氮水平间差异显著；而两个年份下v1值无显著差异。

如果想在多于两个的组之间进行比较，应该怎么做？如果能够假设数据是从正态总体中独立抽样而得的，那么你可以使用方差分析（ANOVA）。ANOVA是一套覆盖了许多实验设计和准实验设计的综合方法。

参考资料：

链接： http://www.bio-info-trainee.com/4385.html

我做题的时候主要翻阅学习了《R语言实战》里统计相关内容。

需要掌握R内置数据集及R包数据集

鸢尾花(iris)数据集，包含150个鸢尾花的信息，共五列，分别为萼片长度(Sepal.Length)、萼片宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)和种类(Species)。前四列为定量数据，后一列种类为定性数据，是非连续的字符变量。