统计方法的选择(4)--事后检验

Python030

统计方法的选择(4)--事后检验,第1张

前面几篇通过参数检验和非参数检验对多组数据进行检验后,发现有差异,那么究竟是哪几个之间有差异,这就涉及到本篇所讲的事后检验或者事后两两检验。真如前面几篇中写的,事后检验和compare_means()和stat_compare_means()这两个函数默认的对两两之间进行差异比较是有区别的。

本篇就事后检验进行R语言的实践和操作。

还是把最开始的那幅图贴上,最后一部分就是事后检验的方法选择

从图中可以看出,参数检验和非参数检验在多组比较有差异后进行两两比较方法的选择。

数据依然使用 统计方法的选择(2)--参数检验 中三组小鼠的实验的数据,

结果如下

p值>0.05,符合正态分布和方差齐性

接下来进行方差分析

结果如下

经过ANOVA方差分析,发现p<0.05,说明全局角度有差异,那么接下来对两两进行比较。

每个分组的数目都是相等的,事后检验首选Tukey HSD法,并添加conf.level = 0.95置信区间。

这里的p值和之前直接比较得来的p值是有区别的,之前直接比较的结果如下

可以发现通过事后比较的方法得到的p值,显著差异的是明显小于直接比较的,这也就可以解释通过直接比较会增加犯Ⅰ类错误的概率。

还可以使用agricolae包中的LSD.test函数实现参数事后检验

依然是上面的数据,操作如下

console=T可以直接展示结果

最后的结果只是将各组分组,不同字母表示不同组别,具有差异性,结果可以看出3组和1组不具有差异性,和之前做的图也是符合的。

参数事后检验还有其他方法,比如SNK法(Student-Newman-Keuls)事后检验,Duncan事后检验,Scheffe事后比较,这几个方法的检验都在agricolae包中,展现形式不外乎以上两种方式。

非参数事后检验的数据还是使用 统计方法的选择(3)--非参数检验 中的数据。

先加载数据并查看数据

主要探索DEPDC1基因的表达情况

先进性正态性和方差齐性检验

结果如之前所写,正态性检验和方差齐性检验,p值都小于0.05,所以不符合正态性,方差不齐,采用非参数检验。对于多组非参数比较,采用用用kruskal.test()

结果如下

p值小于0.05,多组之间有差异,那么进行组间比较,先看看之前直接比较的结果

对于非参数检验事后比较,这里采用posthoc.kruskal.nemenyi.test方法,操作如下

结果如下

结果还是有点小复杂,好像没有之前直接比较或者与平均值比较更清晰,并且差异性把分组也加入了,这个还要继续再探索一下。

教学类文章的写作自有套路,新的教学方法的应用评估,如何选择统计方法是一个问题。

在统计学上,教学前后的自身对照,属于类实验。

在医学生物研究中,经常会听到“类实验”研究,意思是研究设计中有对研究对象的干预内容,与实验研究不同的是设计内容缺少随机原则分组或不设对照组。

我们这里说的“类实验”研究指的是带有类似实验研究背景的研究方式,比如研究新型教学方式是否有效,将学生班级分为两组,其中一组为实验组,另外一组为对照组,实验组使用新型教学方式,对照组不作任何处理。

还有另一种类实验式问卷为实验前与实验后式问卷,比如测验新型教学方式是否有效,分别测量学生新型教学方式(实验)前,和新型教学方式之后的成绩对比。

“类实验”类研究,通常也称作“情景”类研究等,在通常情况下,这类问卷研究影响关系并不通过回归分析,而是通过差异研究分析,如果具有差异性其说明变量之间有影响关系,反之则说明没有影响关系。此类框架在市场研究、教育学、心理学中相对较为常见,通常均是使用量表类问卷题。

从研究思路上看:

1. 和其他类型研究相似,首先对样本背景,和样本特征、行为分析。使用频数分析了解各题项具体情况。

2. 信度和效度分析。对研究量表进行信度和量表验证。针对信度分析,有时将实验组和对照组分别进行研究,也或者对实验前样本和实验后样本分别进行信度研究。

3. 交互作用研究。此步骤为“类实验”式问卷核心研究步骤,通常情况下“类实验”类问卷研究会分析实验组和对照组的差异情况,也或者实验前和实验后样本的差异情况。在此基础上,研究人员可以对在实验水平不同(实验组和对照组,或者实验前和实验后)时,X对于Y的影响幅度是否一致进行研究,比如不同。

4. 研究变量描述分析。如果研究问卷使用量表,则可以分别对实验组和对照组,也或者对实验前和实验后研究量表平均得分情况进行分析。

5. 差异分析,如果在交互作用研究中发现具有差异性,也即说明实验有效,可以继续深入研究具体差异情况。

如果使用A方法和B方法进行比较,通常使用t检验就可以。

如果没有不同方法的比较,而是使用自身前后对照查看是否达到教学目标,应该使用什么统计方法呢?

教学前评分和教学后评分的统计方法,使用的统计方法为配对T检验或者Wilcoxon符号秩检验。

R语言统计实现:

Paired t-test

data: aftertest and pretest

t = 20.125, df = 36, p-value <2.2e-16

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

2.819198 3.451072

sample estimates:

mean of the differences

3.135135

学员自评 学员互评 老师评价

单因素K水平方差分析

RStudio 可以直接导入excel数据,对于数据分析非常方便。

数据框数据访问方法:

1.配对t检验

2.数据分析

3.单因素K水平方差分析

非正态分析,使用Kruskal-Wallis试验。

结果包括chi-squared

1 读取,计算均值,箱图观察

2 查看数据分布

2.1 hist直方图

2.2 qqnorm散点图

3 Shapiro-Wilk正态性检验

4 方差齐性检验

意义:方差分析就是在大家误差水平差不多的条件下看控制和对照组是不是有显著差异。那方差其实就是误差水平了。当方差不一致的时候,这个方法就没法分辨出究竟是控制造成的差异还是,内在的波动造成的差异。

参考: https://www.zhihu.com/question/21195390

参考: https://blog.csdn.net/tiaaaaa/article/details/58130363

4.1 F检验

使用条件:数据正态分布,只可以检验两个样本

4.2 bartlett检验

使用条件:正态分布的数据,多个样本

4.3 levene检验

没有条件:数据可不具正态性,可以检验多个总体的方差齐性

SPSS的默认方差齐性检验方法

5 差异检验

5.1 参数检验:T检验

使用条件:两样本来自正太分布总体,方差齐

5.2 非参数检验:Wilcoxon秩和检验(两样本)

参数:

参考: https://www.jianshu.com/p/f30d1fe877ea

5.3 非参数检验:Kruskal-Wallis(KS)秩和检验(多样本)

5.4 Deseq两组reads count差异分析