最新版的r语言没有方差分析表格的解决方法如下:
ANOVA对各疗法的F检验表明,4种药品用于缓解术后疼痛的疗效不同,但是并不能得出哪种药品疗法与其他不同。
多重比较可以解决这个问题.e.g. TukeyHSD()函数提供了对各组均值差异的成对检验;multcomp包中的glht()函数提供了多重均值比较更为全面的方法,既适用于线性模型,也适用于广义线性模型;多重t检验方法针对每组数据进行t检验。代码如下: TukeyHSD(medicine.aov) #par()函数旋转轴标签,增大左边界面积,使标签摆放更美观。 par(las = 2) par(mar = c(5, 8, 4, 2)) plot(TukeyHSD(medicine.aov))
图形中置信区间包含0的药品对比,说明差异不显著。 library(multcomp) #为适合字母阵列摆放,par语句用来增大顶部边界面积 par(mar = c(5, 4, 6, 2)) tuk <- glht(medicine.aov, linfct = mcp(Treatment = "Tukey")) #cld()函数中level选项为设置的显著性水平(这里的0.05对应95%置信区间) plot(cld(tuk, level = 0.05), col = "lightgrey")
有相同字母的组(用箱线图表示)说明均值差异不显著。
多次重复使用t检验会增大犯第一类错误的概率,为了克服这一缺点,需要调整p-值。R软件调整p-值用的是p.adjust()函数,函数使用的不同参数代表不同的调整方法。 attach(medicine) #求数据在各水平下的均值 mu<-c(mean(Response[Treatment==1]), mean(Response[Treatment==2]), mean(Response[Treatment==3]),mean(Response[Treatment==4]))mu #作多重t检验。这里用到的pairwise.t.test()函数用来得到多重比较的p值 pairwise.t.test(Response, Treatment, p.adjust.method = "none")
#观察两个作调整后的p值的情况。p.adjust.method()函数的参数也可换为"hochberg","hommel","bonferroni","BH","BY","fdr"等。 pairwise.t.test(Response, Treatment, p.adjust.method = "holm") #绘制箱线图 plot(medicine$Response~medicine$Treatment)
1. 列出包所在库的路径.libPaths()
[1] "C:/Program Files/R/R-3.0.2/library"
2. 安装包,括号里面包的名称要加英文引号,在列出的CRAN镜像站点列表中选择一个进行下载,我一般选的是China(Hefei)
install.packages()
例如,install.packages("ggplot2")
3. 包的载入library()或require(),安装完包后,需要加载才能使用其中的函数,此时括号中不使用引号。两者的不同之处在于library()载入之后不返回任何信息,而require()载入后则会返回TRUE,因此require()适合用于程序的书写。
例如
library(ggplto2)
>require(foreign)
Loading required package: foreign
>is.logical(require(foreign))
[1] TRUE
4. 包的更新
update.packages()
5. 包的帮助信息 格式如下,可以查看包中的函数以及说明
help(package="ggplot2")
6. 查看本地的包
6.1 查看默认加载的包,忽略基本的包
getOption("defaultPackages")
>getOption("defaultPackages")
[1] "datasets" "utils" "grDevices" "graphics" "stats" "methods"
[7] "ggplot2"
6.2 查看当前已经加载过的包
(.packages())
[1] "ggplot2" "stats" "graphics" "grDevices" "utils" "datasets" "methods" "base"
6.3 要显示所有可用的包
(.packages(all.available=TRUE))
>(.packages(all.available=TRUE))
[1] "abind" "agricolae" "aplpack" "base" "bitops"
[6] "boot" "car" "caTools" "class" "cluster"
[11] "codetools" "colorRamps" "colorspace" "compiler" "datasets"
[16] "Defaults" "devtools" "dichromat" "digest" "doBy"
[21] "e1071" "effects" "ellipse" "evaluate" "foreign"
[26] "formatR" "Formula" "gdata" "ggplot2" "ggthemes"
[31] "gmodels" "gplots" "graphics" "grDevices" "grid"
[36] "gtable" "gtools" "highr" "Hmisc" "httr"
[41] "KernSmooth" "knitr" "labeling" "lattice" "latticeExtra"
[46] "leaps" "lme4" "lmtest" "LSD" "manipulate"
[51] "markdown" "MASS" "Matrix" "matrixcalc" "memoise"
[56] "methods" "mgcv" "minqa" "multcomp" "munsell"
[61] "mvtnorm" "nlme" "nnet" "nortest" "parallel"
[66] "pixmap" "plyr" "proto" "psych" "quantmod"
[71] "Rcmdr" "RColorBrewer" "Rcpp" "RcppEigen" "RCurl"
[76] "relimp" "reshape2" "rgl" "rJava" "RODBC"
[81] "rpart" "rstudio" "samplesize" "sandwich" "scales"
[86] "schoolmath" "sciplot" "sem" "spatial" "splines"
[91] "stats" "stats4" "stringr" "survival" "tcltk"
[96] "tcltk2" "TH.data" "tools" "TTR" "utils"
[101] "VennDiagram" "whisker" "XLConnect" "xts" "zoo"
7. 卸载包detach(),这是library()的反向操作,此操作主要是为了避免某些包中的函数名称相同,造成冲突,注意与library()的参数不同,detach()参数为detach(package:包的名称),library(包的名称)。
例如
>library(ggplot2) #加载包
>(.packages()) #列出当前已经加载的包
[1] "ggplot2" "stats" "graphics" "grDevices" "utils" "datasets"
[7] "methods" "base"
>detach(package:ggplot2) # 卸载ggplot2包
>(.packages()) #列出当前已经加载的包
[1] "stats" "graphics" "grDevices" "utils" "datasets" "methods"
[7] "base"
8. 自定义启动时候的加载包
如果需要长期使用某个包的话,每次开启都需要输入library(),比较麻烦,因此可以让R启动时自动加载某些包。在R的安装目录/etc/Rprofile.site加入下载语句:
例如让R启动时自动加载ggplot2包
local({old <- getOption("defaultPackages")
options(defaultPackages = c(old, "ggplot2"))})
9. 在文章中引用R软件包,例如引用ggplot2包:
citation(package="ggplot2")
To cite ggplot2 in publications, please use:
H. Wickham. ggplot2: elegant graphics for data analysis. Springer New
York, 2009.
A BibTeX entry for LaTeX users is
@Book{,
author = {Hadley Wickham},
title = {ggplot2: elegant graphics for data analysis},
publisher = {Springer New York},
year = {2009},
isbn = {978-0-387-98140-6},
url = {http://had.co.nz/ggplot2/book},
}
很少见到类似的介绍。虽然说没啥用,不过确实有人会搞不明白各种函数之间的关系lm()创建线性模型,主要用来拟合 定量数据~定量数据
aov()用来拟合 定量数据~分类数据/等级数据,做多重比较(多等级变量)时用TukeyHSD等方法
但lm()也可以做anova的事,可以自定义分类间对比
当lm()用来处理 定量数据~分类数据/等级数据时,会自动将等级资料转换成虚拟变量(dummy variable),类似于独热数据,帮助lm()构建虚拟变量的函数是model.matrix()
上面的方法是最原始的lm()用于拟合 分类变量~定量变量的理解。默认的几种contrasts可以用来看各种组间差异。接下来讲一下自定义对比。只需要修改contasts参数的值为自己拟定的矩阵即可。
换个contrasts方法再看看
理解应该是没问题了,但是用这种方式自定义参数从而获得处理间比较是不足的。因为为了避免共线性问题,最多创建k-1个虚拟变量。不可能描述所有需要的比较。
所以上面讲的几乎没啥用,去学一下multcomp包吧,能够自定义比较。
记得,回归方法始终是建模,这里的p值意义是,权重显著不为0。进一步说,就是有该自变量时因变量的正态分布均值不为0。那么两组比较也就是两个不同自变量的情况下,因变量分布不同,也可以反映在权重的均值和标准误差上,自然就可以进一步比较。所以呢,像limma包里,在做contrasts之前回归的方法就是lm(0+factor()),这样去除了intercept,得到的是各处理方法的均值和标准误差,从而便于进一步自定义contrasts来比较。
我好像没看到R基础包stat中自带的自定义contrasts的函数和方法,也没查到,如果有大佬用过,麻烦说一下,谢谢啦。
最后补充一下,如果因变量并不满足正态分布,应该用广义线性模型,如:
处理 分类~ 的logistic回归,处理 频数数据~ 的poisson回归等。因为广义线性模型用的参数估计方法是最大似然,所以对变量类型没有严格限制。