《R语言实战》自学笔记41-生成频数表

Python025

《R语言实战》自学笔记41-生成频数表,第1张

数据准备

频数表是数理统计中由于所观测的数据较多,为简化计算,将这些数据按等间隔分组,然后按选举唱票法数出落在每个组内观测值的个数,称为(组)频数。这样得到的表称“频数表”或“频数分布表”。

列联表(contingency table)是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。列联表可以告诉你组成表格的各种变量组合的频数或比例。列联表分析的基本问题是:观察各属性之间是否独立,做简单的描述性统计。

按两个变量交叉分类的,该列联表称为两维列联表;若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。一维列联表就是频数分布表。频数就是各个分组中属性出现的次数。

1.一维列联表

2.二维列联表

table(A, B)

其中,A是行变量,B是列变量。

xtabs(~ A + B, data = mydata)

其中的mydata是一个矩阵或数据框。总的来说,要进行交叉分类的变量应出现在公式的右侧(即~符号的右方),以+作为分隔符。

gmodels包CrossTable()

3.多维列联表

参考资料:

如果你已经做过分词了,那么一篇文章在R里面呈现的结构应该是一个vector,你只需要使用table这个函数就可以对所有词语出来的频数进行统计,然后根据你的关键词提取对应部分就可以了啊。

R语言与统计-1:t检验与秩和检验

R语言与统计-2:方差分析

拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。

简单来说,就是检验样本数据分布是否与已知总体的分布是一致的

如若已知人群中四种血型的占比为0.1 0.5 0.2 0.2,看该组男性的血型分布是否与人群的一致。参数p:传入已知总体的参数情况。

两者写法一样,解释的方法不一样。

卡方齐性检验:比较不同的分类水平下,各个类型的比例是否一致。

卡方独立性检验:

对于行变量为无序分类,列变量为有序分类的数据,由于不能忽略等级关系,也只能使用CMH检验,而不能使用皮尔森卡方检验。

使用CMH检验查看盘尼西林的水平和是否推迟注射对兔子的结局是否有影响。

mantelhaen.test()函数

p值>0.05,无统计学意义。将盘尼西林分为5层水平后,立即注射和推迟1.5h注射的OR值是2.076923

mantelhaen.test()函数

income是一个有序分类变量。结果显示工资水平对工作满意度没有显著的统计学关系。

mcnemar.test()函数