【r<-基础|统计】频数检验

Python015

【r<-基础|统计】频数检验,第1张

你有分类数据然后想要检验是否这些数据值的频数分布是否与预期不符,或者是否组间的频数分布有(显著)差异。

频数检验通常解决两类问题:

通常用于解决这样问题的统计检验方法,分为 精确检验 近似检验 两种。

注意 :精确二项检验仅能用于有两个水平的单变量。Fisher精确检验仅能用于二维列联表(比如,当存在一个独立变量和一个非独立变量时它可以使用;但不能用于两个独立变量和一个非独立变量的情况)。

想要检验配对或被试内效应,我们可以使用McNemar检验。使用该检验必须满足存在两个水平的独立变量和两个水平的非独立变量。

想要检验有重复测量的两个变量独立性,我们可以使用Cochran-Mantel-Haenszel 检验。

假设你有下面的数据,其中每一行代表一个记录:

相比于以 记录 的数据框存储,你的数据可能是 计数 的数据框,或者是一个列联表。本文提到的分析必须使用列联表,你可以参见 this page 获取更多解决方案信息。

想要检验假设:结果列result(忽略条件condition)中的两个值在总体中几乎相等(50%-50%)。

想要检验有不同期望频率的样本(比如下面一个0.75,一个0.25):

如果你想要从检验结果中提取信息,可以将结果保存进一个变量,然后用 str() 函数查看变量信息,接着把你想要的部分取出来。例如:

精确二项检验仅能用于存在两个值的单变量数据。

如果你想要从检验结果中提取信息,可以将结果保存进一个变量,然后用 str() 函数查看变量信息,接着把你想要的部分取出来。例如:

想要检验控制和处理组结果的频数差异,使用2维列联表。

对 2x2 列表,默认使用 Yates’s continuity correction 。这个检验对小样本进行更加保守地估计,设置选项 correct=FALSE 使用无校正的Pearson卡方检验。

对于小样本而言Fisher精确检验更为适合。小样本的2x2列表非常典型,样本更多、更复杂的列表计算强度非常大。当然,用R进行比较复杂的计算也是没有太大问题的。

Cochran-Mantel-Haenszel 检验 (或称为 Mantel-Haenszel 检验))用于检验重复测量两离散变量的独立性。通常使用 2x2xK列表表示,K是测量条件的次数。比如你想要指导是否一个处理(C vs. D)是否影响了恢复的概率(yes or no)。假设该处理一天监控测量三次——早上、中午和晚上,而你想要你的检验能够控制它。那么你可以使用CMH检验对2x2x3列联表进行操作,第三个变量是你想要控制的变量。

R中的CMH检验可以处理比2x2xK维度更高的数据,例如你处理3x3xK列联表。

在接下来的例子里有三个变量:Location,Allele和Habitat。问题是——当控制location变量时,Allel(94或非94)和Habitat(marine或estuarine)两个变量是否独立。

注意上面的数据是 计数 的数据框,而不是像之前的例子是 记录 的数据框。这里我们使用 xtabs() 函数将它转换为列联表。

根据检验结果,当控制Location变量时Allele与Habitat变量存在相关(p=.025)。

注意列联表的前两个维度处理是一致的,所以前后顺序变化都不会影响结果。而最后一个变量变化会导致结果的不同,下面是一个实例。

McNemar检验概念上是频数数据的一个被试内检验。例如,假设你想要检验是否一个处理增加了一个人对某个问题反应“yes”的概率,而且你只有每个人处理前和处理后的数据。标准的卡方检验将不合适,因为它假设了组别是独立的。取而代之,我们可以使用McNemar检验。该检验仅适用于当存在一个独立变量的两次测量时。用于McNemar的列联表与用于卡方检验的非常相似,但结构上是不同的。

假设你有下面的数据。每个对象有处理前和后的反应。

如果你的数据不是宽格式,必须要进行转换(参见 this page 获取更多信息)。

接下来从数据框的pre和post列生成列联表:

执行检验:

对于小样本,它会使用连续校正。我们可以使用 精确 校正的McNemar检验替换这种校正方式,前者更加的精确,可通过 exact2x2 包获取。

原文链接: http://www.cookbook-r.com/Statistical_analysis/Frequency_tests/#cochran-mantel-haenszel-test

在对于定类数据的分析中,我们有时需要通过样本概率检验总体概率是否不同于某个既定的概率值,或是对比分组数据的分布情况,在R中,该如何处理这类问题?

在概率值的检验中存在两个常见的问题:

我们通常会运用统计检验的方法来解决上述的问题,所用的检验方法可被分为精确检验与近似检验。

为了确认数据中的匹配关系或是对象间的影响,这里我们用到了McNemar检验。需要说明的是,在我们使用这个方法之前,必须确保我们有且只有一个自变量和一个因变量,每一个变量中有且只有两个层级(两种类别属性)。

通过重复测量的方法我们可以对两个变量间的独立性进行检验,这其中用到了Cochran-Mantel-Haenszel检验。

假设下面就是我们的数据,其中每一条记录行代表一个样本:

通常情况下,我们可能不会愿意对这样的样本记录列表进行直接的处理,相比而言,一个变量组合情况的计数表或是一个列联表更容易被数据分析工作者所接受。在此,我们必须将它转化为一个列联表的形式,具体的方法我们在“R语言行动指南-38 数据框与列联表的转换”中做过介绍。

我们的目标为检验原假设——反应结果的两种数值(0和1,不考虑condition)在总体中出现的概率是均等(各为50%)的:

如果你想从检验的结果中提取信息的话,你可以将其储存为一个变量,并用str()函数对其进行查看,最后从中筛选出你想要的信息,如下所示:

精确二项检验只能适用于我们的数据中仅有一个二元变量的情况,比如说下面的例子。

如果你想从检验的结果中提取信息的话,你可以将其储存为一个变量,并用str()函数对其进行查看,最后从中筛选出你想要的信息,如下所示:

为了检验控制组(control)与实验组(treatment)是否存在显著的概率差异,我们需要用到二维的列联表结构。

对于2x2的列联表,函数会默认采用Yates连续性校准的方法对其中的统计枢轴量进行调整,这一方法再检验样本规模较小的数据时较为保守。当我们设置参数correct=FALSE时,函数将会直接使用一般的Pearson卡方统计量作为枢轴量而不会去调整它。

对于样本规模小的数据,在概率检验时Fisher确切概率法也许会显得更为适用。这一方法普遍运用于2x2列联表即小样本数据集的原因是,当面对复杂一些的表格(例如2x3列联表)或样本量更大的数据集时,它需要十分巨大的计算量。但在R中,计算量的问题得到了解决,我们同样可以将它应用于对某些大样本数据的处理中。

Cochran-Mantel-Haenszel检验(CHM检验,或称Mantel-Haenszel检验)用于检验两组重复测量得到的二分变量之间的独立性。该方法的运算通常基于2x2xK的列联表,其中K为测量值的类别数。例如,我们想要研究一下某一激励或实验(吃药vs.没吃药)是否对医患的康复率(康复或没康复)产生显著的影响,现在假设这一激励发生于每天的三个时间段:早上、下午、晚上——我们在进行检验时必须控制这些变量。此时我们的CHM检验将会基于一个2x2x3的列联表,其中第三个变量就是我们所要控制的时间段变量。

实际上,在R中的CHM检验可以处理的数据维度不局限于2x2xK,你也可以用这一方法去检验一个3x3xK的列联表数据。

在下面的例子(引用于McDonald的《Handbook of Biological Statistics》)中,我们可以看到三个变量:Location,Allele,以及Habitat。我们的目标为在将Location作为控制变量的情况下,检验Allele (94或non-94)和Habitat (marine 或estuarine)是否相互独立。

我们需要注意的是,上列数据是以一个变量组合计数表的形式作为输入的,而不是我们之前所见的样本记录列表。所以在这里我们要使用xtabs()函数将其转换为列联表形式,而非之前的table()函数。

通过上述检验我们可以发现,在以Location为控制变量的条件下,变量Allele和变量Habitat之间存在显著的相互影响,p=.025。

这里需要我们注意的是,在上述方法中,列联表内的头两个变量处于对等的地位关系(所以我们可以任意改变它们之间的次序而不会影响到检验的最终结果),而最后一个变量的地位则和它们不同,下面的例子将进一步说明它。

McNemar检验从概念上来说很像是对于概率数据的组内检验。例如,现在我们要研究某一个激励是否显著增加了一个人在某个问题上回答“yes”的可能性,而对于每一个志愿者我们都进行了激励前的先验调查与激励后的后验调查,并记录下了他们的回答。在这个案例中,传统的卡方检验并不适用,因为卡方检验本身假设样本之间的相互独立,但事实并非如此。此时,McNemar检验就可以大显身手了,并且这种方法只能适用于对同一个二分变量进行两次测量的情况。对于一个2x2的列联表,McNemar检验在结果上也许会与“一般”的卡方检验几乎近似,但从方法的结构上来看,二者截然不同。

假设下面便是我们的数据,每一个对象样本都对应着一组激励前与激励后的数据。

对于小样本数据,McNemar检验的过程中用到了连续性校对,如果我们不需要这样的调整过程,我们也可以通过调用exact2x2包,来使用一个精确版本的McNemar检验。

遗传算法(Genetic Algorithm, GA)是近几年发展起来的一种崭新的全局优化算法,它借

用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个个体的适应性

的提高。这一点体现了自然界中"物竞天择、适者生存"进化过程。1962年Holland教授首次

提出了GA算法的思想,从而吸引了大批的研究者,迅速推广到优化、搜索、机器学习等方

面,并奠定了坚实的理论基础。 用遗传算法解决问题时,首先要对待解决问题的模型结构

和参数进行编码,一般用字符串表示,这个过程就将问题符号化、离散化了。也有在连续

空间定义的GA(Genetic Algorithm in Continuous Space, GACS),暂不讨论。

一个串行运算的遗传算法(Seguential Genetic Algoritm, SGA)按如下过程进行:

(1) 对待解决问题进行编码;

(2) 随机初始化群体X(0):=(x1, x2, … xn);

(3) 对当前群体X(t)中每个个体xi计算其适应度F(xi),适应度表示了该个体的性能好

坏;

(4) 应用选择算子产生中间代Xr(t);

(5) 对Xr(t)应用其它的算子,产生新一代群体X(t+1),这些算子的目的在于扩展有限

个体的覆盖面,体现全局搜索的思想;

(6) t:=t+1;如果不满足终止条件继续(3)。

GA中最常用的算子有如下几种:

(1) 选择算子(selection/reproduction): 选择算子从群体中按某一概率成对选择个

体,某个体xi被选择的概率Pi与其适应度值成正比。最通常的实现方法是轮盘赌(roulett

e wheel)模型。

(2) 交叉算子(Crossover): 交叉算子将被选中的两个个体的基因链按概率pc进行交叉

,生成两个新的个体,交叉位置是随机的。其中Pc是一个系统参数。

(3) 变异算子(Mutation): 变异算子将新个体的基因链的各位按概率pm进行变异,对

二值基因链(0,1编码)来说即是取反。

上述各种算子的实现是多种多样的,而且许多新的算子正在不断地提出,以改进GA的

某些性能。系统参数(个体数n,基因链长度l,交叉概率Pc,变异概率Pm等)对算法的收敛速度

及结果有很大的影响,应视具体问题选取不同的值。

GA的程序设计应考虑到通用性,而且要有较强的适应新的算子的能力。OOP中的类的继

承为我们提供了这一可能。

定义两个基本结构:基因(ALLELE)和个体(INDIVIDUAL),以个体的集合作为群体类TP

opulation的数据成员,而TSGA类则由群体派生出来,定义GA的基本操作。对任一个应用实

例,可以在TSGA类上派生,并定义新的操作。

TPopulation类包含两个重要过程:

FillFitness: 评价函数,对每个个体进行解码(decode)并计算出其适应度值,具体操

作在用户类中实现。

Statistic: 对当前群体进行统计,如求总适应度sumfitness、平均适应度average、最好

个体fmax、最坏个体fmin等。

TSGA类在TPopulation类的基础上派生,以GA的系统参数为构造函数的参数,它有4个

重要的成员函数:

Select: 选择算子,基本的选择策略采用轮盘赌模型(如图2)。轮盘经任意旋转停止

后指针所指向区域被选中,所以fi值大的被选中的概率就大。

Crossover: 交叉算子,以概率Pc在两基因链上的随机位置交换子串。

Mutation: 变异算子,以概率Pm对基因链上每一个基因进行随机干扰(取反)。

Generate: 产生下代,包括了评价、统计、选择、交叉、变异等全部过程,每运行一

次,产生新的一代。

SGA的结构及类定义如下(用C++编写):

[code] typedef char ALLELE // 基因类型

typedef struct{

ALLELE *chrom

float fitness// fitness of Chromosome

}INDIVIDUAL // 个体定义

class TPopulation{ // 群体类定义

public:

int size // Size of population: n

int lchrom // Length of chromosome: l

float sumfitness, average

INDIVIDUAL *fmin, *fmax

INDIVIDUAL *pop

TPopulation(int popsize, int strlength)

~TPopulation()

inline INDIVIDUAL &Individual(int i){ return pop[i]}

void FillFitness() // 评价函数

virtual void Statistics() // 统计函数

}

class TSGA : public TPopulation{ // TSGA类派生于群体类

public:

float pcross // Probability of Crossover

float pmutation // Probability of Mutation

int gen // Counter of generation

TSGA(int size, int strlength, float pm=0.03, float pc=0.6):

TPopulation(size, strlength)

{gen=0pcross=pcpmutation=pm}

virtual INDIVIDUAL&Select()

virtual void Crossover(INDIVIDUAL &parent1, INDIVIDUAL &parent2,

INDIVIDUAL &child1, INDIVIDUAL &child2)

&child1, INDIVIDUAL &child2)

virtual ALLELE Mutation(ALLELE alleleval)

virtual void Generate() // 产生新的一代

}

用户GA类定义如下:

class TSGAfit : public TSGA{

public:

TSGAfit(int size,float pm=0.0333,float pc=0.6)

:TSGA(size,24,pm,pc){}

void print()

}[/code]

由于GA是一个概率过程,所以每次迭代的情况是不一样的;系统参数不同,迭代情况

也不同。在实验中参数一般选取如下:个体数n=50-200,变异概率Pm=0.03, 交叉概率Pc=

0.6。变异概率太大,会导致不稳定。

参考文献

● Goldberg D E. Genetic Algorithm in Search, Optimization, and machine

Learning. Addison-Wesley, Reading, MA, 1989

● 陈根社、陈新海,"遗传算法的研究与进展",《信息与控制》,Vol.23,

NO.4, 1994, PP215-222

● Vittorio Maniezzo, "Genetic Evolution of the Topology and Weight Distri

bution of the Neural Networks", IEEE, Trans. on Neural Networks, Vol.5, NO

.1, 1994, PP39-53

● Xiaofeng Qi, Francesco Palmieri, "Theoretical Analysis of Evolutionary

Algorithms with anInfinite Population Size in Continuous Space. Part Ⅰ

l Networks, Vol.5, NO.1, 1994, PP102-119

● Xiaofeng Qi, Francesco Palmieri, "Theoretical Analysis of Evolutionary

Algorithms with anInfinite Population Size in Continuous Space. Part Ⅱ

al Networks, Vol.5, NO.1, 1994, PP102-119

● Gunter Rudolph, Convergence Analysis of Canonical Genetic Algorithms, I

EEE, Trans. on Neural Networks, Vol.5, NO.1, 1994, PP96-101

● A E Eiben, E H L Aarts, K M Van Hee. Gloable convergence of genetic alg

orithms: A Markov chain analysis. in Parallel Problem Solving from Nat

ure. H.-P.Schwefel, R.Manner, Eds. Berlinand Heidelberg: Springer, 1991

, PP4-12

● Wirt Atmar, "Notes on the Simulation of Evolution", IEEE, Trans. on Neu

ral Networks, Vol.5, NO.1, 1994, PP130-147

● Anthony V. Sebald, Jennifer Schlenzig, "Minimax Design of Neural Net Co

ntrollers for Highly Uncertain Plants", IEEE, Trans. on Neural Networks, V

ol.5, NO.1, 1994, PP73-81

● 方建安、邵世煌,"采用遗传算法自学习模型控制规则",《自动化理论、技术与应

用》,中国自动化学会 第九届青年学术年会论文集,1993, PP233-238

● 方建安、邵世煌,"采用遗传算法学习的神经网络控制器",《控制与决策》,199

3,8(3), PP208-212

● 苏素珍、土屋喜一,"使用遗传算法的迷宫学习",《机器人》,Vol.16,NO.5,199

4, PP286-289

● M.Srinivas, L.M.Patnaik, "Adaptive Probabilities of Crossover and Mutat

ion", IEEE Trans. on S.M.C, Vol.24, NO.4, 1994 of Crossover and Mutation",

IEEE Trans. on S.M.C, Vol.24, NO.4, 1994

● Daihee Park, Abraham Kandel, Gideon Langholz, "Genetic-Based New Fuzzy

Reasoning Models with Application to Fuzzy Control", IEEE Trans. S. M. C,

Vol.24, NO.1, PP39-47, 1994

● Alen Varsek, Tanja Urbancic, Bodgan Filipic, "Genetic Algorithms in Con

troller Design andTuning", IEEE Trans. S. M. C, Vol.23, NO.5, PP1330-13

39, 1993