用的最多的,是求均值的mean()函数,当然这里也要提到,像sum()这种求和函数,
还有sd(x) 标准差函数,var(x) 方差函数。min()求最小值,max()求最大值。
我们来具体试试,这里使用一个向量:
test<-c(2,4,5,23,199,25,78,90,12)
求最大值
>max(test)
[1] 19
求最小值
>min(test)
求和
>sum(test)
[1] 43
求标准差,求方差
>sd(test)
[1] 65.01154
>var(test)
[1] 4226.
在来试试最重要的均值
>mean(test)
[1] 48.66667
另外中位数计算。使用median()函数
>median(test)
[1] 23
如果给定一种概率分布,通常会有四类计算问题:
计算其概率密度density (d)计算其概率分布probability(p)计算其百分位数quantile (q)随机数模拟random (r)上面四类计算对应的英文首字母,就是R语言类率分布函数的开头字母。
比如说,正态分布是norm的化,那密度函数就是dnorm(),分布函数就是pnorm(),
更有用的是用相应分布生成随机数,比如rnorm(),就会生成服从正态分布的随机数。
比如我们生成100个服从正态分布的随机数
rnorm(100)
[1] -9.064408e-01 1.026560e+00 -1.097470e+00 1.055395e+00 9.377175e-01
[6] -2.080103e-01 -3.092396e-01 -8.739942e-01 -1.242774e+00 1.102486e+00
[11] 1.082092e+00 -1.695528e+00 -5.930809e-01 -2.100800e-01 8.253859e-01
[16] -1.112551e+00 -3.960474e-01 -9.354820e-01 7.291608e-01 -3.773510e-01
[21] -3.438082e-01 -7.378688e-02 -9.047609e-01 -1.036344e+00 9.485103e-01
[26] -3.437985e-01 -2.145275e-02 1.350098e+00 -1.283633e+00 3.767240e-01
[31] 1.169566e+00 -4.325399e-01 -9.215626e-02 3.839357e-01 3.045491e-01
......
我们再用相应的频率分布直方图来看一下,这些生成的随机数:
hist(rnorm(100))
R就画出了这些随机数的频率分布图
如果你已经做过分词了,那么一篇文章在R里面呈现的结构应该是一个vector,你只需要使用table这个函数就可以对所有词语出来的频数进行统计,然后根据你的关键词提取对应部分就可以了啊。你有分类数据然后想要检验是否这些数据值的频数分布是否与预期不符,或者是否组间的频数分布有(显著)差异。
频数检验通常解决两类问题:
通常用于解决这样问题的统计检验方法,分为 精确检验 与 近似检验 两种。
注意 :精确二项检验仅能用于有两个水平的单变量。Fisher精确检验仅能用于二维列联表(比如,当存在一个独立变量和一个非独立变量时它可以使用;但不能用于两个独立变量和一个非独立变量的情况)。
想要检验配对或被试内效应,我们可以使用McNemar检验。使用该检验必须满足存在两个水平的独立变量和两个水平的非独立变量。
想要检验有重复测量的两个变量独立性,我们可以使用Cochran-Mantel-Haenszel 检验。
假设你有下面的数据,其中每一行代表一个记录:
相比于以 记录 的数据框存储,你的数据可能是 计数 的数据框,或者是一个列联表。本文提到的分析必须使用列联表,你可以参见 this page 获取更多解决方案信息。
想要检验假设:结果列result(忽略条件condition)中的两个值在总体中几乎相等(50%-50%)。
想要检验有不同期望频率的样本(比如下面一个0.75,一个0.25):
如果你想要从检验结果中提取信息,可以将结果保存进一个变量,然后用 str() 函数查看变量信息,接着把你想要的部分取出来。例如:
精确二项检验仅能用于存在两个值的单变量数据。
如果你想要从检验结果中提取信息,可以将结果保存进一个变量,然后用 str() 函数查看变量信息,接着把你想要的部分取出来。例如:
想要检验控制和处理组结果的频数差异,使用2维列联表。
对 2x2 列表,默认使用 Yates’s continuity correction 。这个检验对小样本进行更加保守地估计,设置选项 correct=FALSE 使用无校正的Pearson卡方检验。
对于小样本而言Fisher精确检验更为适合。小样本的2x2列表非常典型,样本更多、更复杂的列表计算强度非常大。当然,用R进行比较复杂的计算也是没有太大问题的。
Cochran-Mantel-Haenszel 检验 (或称为 Mantel-Haenszel 检验))用于检验重复测量两离散变量的独立性。通常使用 2x2xK列表表示,K是测量条件的次数。比如你想要指导是否一个处理(C vs. D)是否影响了恢复的概率(yes or no)。假设该处理一天监控测量三次——早上、中午和晚上,而你想要你的检验能够控制它。那么你可以使用CMH检验对2x2x3列联表进行操作,第三个变量是你想要控制的变量。
R中的CMH检验可以处理比2x2xK维度更高的数据,例如你处理3x3xK列联表。
在接下来的例子里有三个变量:Location,Allele和Habitat。问题是——当控制location变量时,Allel(94或非94)和Habitat(marine或estuarine)两个变量是否独立。
注意上面的数据是 计数 的数据框,而不是像之前的例子是 记录 的数据框。这里我们使用 xtabs() 函数将它转换为列联表。
根据检验结果,当控制Location变量时Allele与Habitat变量存在相关(p=.025)。
注意列联表的前两个维度处理是一致的,所以前后顺序变化都不会影响结果。而最后一个变量变化会导致结果的不同,下面是一个实例。
McNemar检验概念上是频数数据的一个被试内检验。例如,假设你想要检验是否一个处理增加了一个人对某个问题反应“yes”的概率,而且你只有每个人处理前和处理后的数据。标准的卡方检验将不合适,因为它假设了组别是独立的。取而代之,我们可以使用McNemar检验。该检验仅适用于当存在一个独立变量的两次测量时。用于McNemar的列联表与用于卡方检验的非常相似,但结构上是不同的。
假设你有下面的数据。每个对象有处理前和后的反应。
如果你的数据不是宽格式,必须要进行转换(参见 this page 获取更多信息)。
接下来从数据框的pre和post列生成列联表:
执行检验:
对于小样本,它会使用连续校正。我们可以使用 精确 校正的McNemar检验替换这种校正方式,前者更加的精确,可通过 exact2x2 包获取。
原文链接: http://www.cookbook-r.com/Statistical_analysis/Frequency_tests/#cochran-mantel-haenszel-test