数据准备
频数表是数理统计中由于所观测的数据较多,为简化计算,将这些数据按等间隔分组,然后按选举唱票法数出落在每个组内观测值的个数,称为(组)频数。这样得到的表称“频数表”或“频数分布表”。
列联表(contingency table)是观测数据按两个或更多属性(定性变量)分类时所列出的频数表。它是由两个以上的变量进行交叉分类的频数分布表。列联表可以告诉你组成表格的各种变量组合的频数或比例。列联表分析的基本问题是:观察各属性之间是否独立,做简单的描述性统计。
按两个变量交叉分类的,该列联表称为两维列联表;若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。一维列联表就是频数分布表。频数就是各个分组中属性出现的次数。
1.一维列联表
2.二维列联表
table(A, B)
其中,A是行变量,B是列变量。
xtabs(~ A + B, data = mydata)
其中的mydata是一个矩阵或数据框。总的来说,要进行交叉分类的变量应出现在公式的右侧(即~符号的右方),以+作为分隔符。
gmodels包CrossTable()
3.多维列联表
参考资料:
如果你已经做过分词了,那么一篇文章在R里面呈现的结构应该是一个vector,你只需要使用table这个函数就可以对所有词语出来的频数进行统计,然后根据你的关键词提取对应部分就可以了啊。R语言与统计-1:t检验与秩和检验R语言与统计-2:方差分析
拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。
简单来说,就是检验样本数据分布是否与已知总体的分布是一致的
如若已知人群中四种血型的占比为0.1 0.5 0.2 0.2,看该组男性的血型分布是否与人群的一致。参数p:传入已知总体的参数情况。
两者写法一样,解释的方法不一样。
卡方齐性检验:比较不同的分类水平下,各个类型的比例是否一致。
卡方独立性检验:
对于行变量为无序分类,列变量为有序分类的数据,由于不能忽略等级关系,也只能使用CMH检验,而不能使用皮尔森卡方检验。
使用CMH检验查看盘尼西林的水平和是否推迟注射对兔子的结局是否有影响。
mantelhaen.test()函数
p值>0.05,无统计学意义。将盘尼西林分为5层水平后,立即注射和推迟1.5h注射的OR值是2.076923
mantelhaen.test()函数
income是一个有序分类变量。结果显示工资水平对工作满意度没有显著的统计学关系。
mcnemar.test()函数