统计学基础与R-比例分析

Python018

统计学基础与R-比例分析,第1张

入门生物信息或者进行生物相关研究,所有人都绕不开统计的基础知识和计算实现方式。在担任中科院生物统计学课程助教的过程中,我发现大部分同学的首要困惑在于理不清相关概念,其次才是不知道该如何用R语言来进行最基本的计算。本合集共分为8小节,将简要介绍生物统计学相关基础知识以及如何使用R语言进行最基本的计算和分析。

需要说明的是,文中个别描述严格来讲并不准确但希望有助于理解,涉及到R语言的部分则展示了若干函数最基本用法,希望不给阅读和学习增加负担。另外,这份资料主要面向生物统计学和R语言基础薄弱的人群,勉强可以称之为极简手册 ,详细的学习还需要阅读相关教材资料。

在之前几节内容中提到了均值分析和比较,但有时候我们关心的并不是均值而是 比例 (proportion)。

对于n比较大(通常为 同时)的样本来说,根据中心极限定理,样本近似于正态分布,可以使用z检验,其检验统计量计算公式为:

其中, 表示观测到的比例, 为预期比例,n表示样本量, 。

如果样本比较小,则使用二项分布进行统计。

在R中,对于小样本,采用 binom.test() ,对于大样本使用正态分布近似二项分布,利用 prop.test() 进行分析。

在单样本比例检验中,我们关心的是具有同种特性的两个群体,在该特性总体中所占有的比例情况。例如,小鼠中公鼠母鼠各有一半,有100只患有某种疾病,其中有公鼠60只,母鼠40只。想知道是否公鼠患病率比母鼠高。在该问题中成功次数为公鼠患病数55,总次数为100,预期比例为50%(公母鼠数量相等)。

其中,x为成功的次数,n为总测试,p为要测试的概率大小。在结果中,显示了卡方检验的统计量值,自由度和p值和置信区间,最后给出了样本概率估计值。

如果我们已知两组具有不同特性(A和B)样本的样本量和这两组样本中具有某种共同特性(C)的个体数量(也就是知道了C特性各自群体比例和总体比例),想要计算具有C特性的个体在A特性群体和B特性群体中的比例是否一样,就需要用到 双比例检验

当样本数量较小时(所有np和nq都小于5),通常采用非参数检验 Fisher Exact probability test 进行分析。当样本力量较大时,我们还是近似使用正态分布z检验来进行预测。

例如,男生500人,女生500人,其中喜欢阅读的男生有400人,喜欢阅读的女生有460人。男生喜欢阅读的比例是否比女生高。我们假设男生喜欢阅读的比例比女生高,则备择假设是男生喜欢阅读的比例比女生低。

由结果可知,p<0.05,拒绝原假设,即男生喜欢阅读的比例比女生低。

分布可以通过原假设,得到一个统计量来表示期望结果和实际结果之间的偏离程度,进而根据分布,自由度和假设成立的情况,得出 观察频率极值 的发生概率(比当前统计结果更加极端的概率)。计算方法是对概率分布中的每一个频率,用期望频数和实际频数差的平方除以期望频数,最后把所有结果相加。得到的统计量结果越大,说明差别越显著,数值越小说明观察和期望的差别越小,当观察频数和期望频数一致是卡方为0。其实就是在比较观测到的比例和期望的比例的关系。

卡方分布就可以用来检验某个分类变量各类的出现概率是否等于指定概率,可以检验数据的 拟合优度 (指定的一组数据与指定分布的吻合度),也可以用来检验两个变量的 独立性 (两个变量之间是否存在某种关联)。

在使用卡方检验时,需要的一个参数被称为 自由度 ,指的是独立变量的个数(组数减去限制数)。通常,二项分布已知p,泊松分布已知 ,正态分布已知 和 时的自由度是n-1。进行独立性检验时,h行kl列联列表的自由度是 。

系列文章目录

一般根据数据是否符合正态分布,选择合适的统计方法:

T检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。t检验是用t分布理论来推论差异发生的概率, 从而比较两个平均数的差异是否显著。 它与 Z检验 、 卡方检验 并列。

其他进行正态性检验的函数 (如下函数都属于nortest包)

Lillie.test()

ad.test()

cvm.test()

pearson.test()

sf.test()

不同的函数可能会得到不同的结果。

对于不服从正态分布的数据,可以采用一些方法使它服从正态分布。

var.test只能用于两样本方差齐性检验

当数据不满足正态分布的时候,要进行t检验必须进行原始数据的变换。如取log,平方根,倒数, boxCox转换 等。

Wilcox秩和检验(又称Mann-Whitney U检验)是对原假设的非参数检验,在不需要假设两组样本数据为正态分布的情况下,测试二者数据分布是否存在显著差异,此检验适用于数据分布属于非正态性的分析对象,其适用范围相较于t检验广泛。

执行wilcoxon秩和检验(也称Mann-Whitney U检验)这样一种非参数检验 。t检验假设两个样本的数据集之间的差别符合正态分布(当两个样本集都符合正态分布时,t检验效果最佳),但当服从正态分布的假设并不确定时,我们执行wilcoxon秩和检验来验证数据集中mtcars中自动档与手动档汽车的mpg值的分布是否一致,p值<0.05,原假设不成立。意味两者分布不同。警告“无法精确计算带连结的p值“这是因为数据中存在重复的值,一旦去掉重复值,警告就不会出现。

检测p值的正确方法如下所述:

通过假设检验的方式对两个离散变量进行相关性验证(通常我们会将置信值p-value 设置成5%),普遍的验证过程分以下四步,

Step One: 给出假设(null-test),如假设两个变量a, b互相独立,那么我们就可以通过统计实验数据得出两个变量的分布

Step Two: 根据假设所得的变量分布,计算期望(Expected)与实际的偏差,并且我们知道这个偏差服从切比雪夫分布

Step Three: 根据算得的偏差和置信值(p-value),确定是否接受假设(accept null-test) 或者拒绝(reject null-test)(拒绝的原因基本上是因为实际观测值与预期值偏差过大,这种小概率事件发生,所以我们不接受假设)

Step Four: 得出结论,给出相关报告