《R语言实战》自学笔记57-ANOVA模型拟合

Python013

《R语言实战》自学笔记57-ANOVA模型拟合,第1张

虽然ANOVA和回归方法都是独立发展而来,但是从函数形式上看,它们都是广义线性模型

的特例。

aov(formula, data = dataframe)

表中y是因变量,字母A、B、C代表因子。

表中小写字母表示定量变量,大写字母表示组别因子,Subject是对被试者独有的标识变量。

表达式中效应的顺序在两种情况下会造成影响:

(a)因子不止一个,并且是非平衡设计;

(b)存在协变量。出现任意一种情况时,等式右边的变量都与其他每个变量相关。此时,我们无法清晰地划分它们对因变量的影响。

R默认类型I(序贯型)方法计算ANOVA效应(参考补充内容“顺序很重要!”)。可以这样写:y ~ A + B + A:B。

R中的ANOVA表的结果将评价:

 A对y的影响;

控制A时,B对y的影响;

控制A和B的主效应时,A与B的交互效应。

样本大小越不平衡,效应项的顺序对结果的影响越大。一般来说,越基础性的效应越需要放在表达式前面。具体来讲,首先是协变量,然后是主效应,接着是双因素的交互项,再接着是三因素的交互项,以此类推。对于主效应,越基础性的变量越应放在表达式前面,因此性别要放在处理方式之前。有一个基本的准则:若研究设计不是正交的(也就是说,因子和/或协变量相关),一定要谨慎设置效应的顺序。

参考资料:

formula代表拟合的公式,如Y~X,则对因变量Y和自变量X作线性拟合拟合模型为 y=a+bx ,如Y 0+X或Y X+0则除对因变量Y和自变量X作线性拟合外,还规定改直线必过原点及拟合模型为 y=x 。

lm对象即lm函数返回的值,其属性包括

常用的有 coefficients , residuals 和 fitted.values ,分别表示拟合的得到的各系数的值、残差和预测值。

可以看出该拟合曲线为y=0.52805925 -0.02797779x

其他值的调用,包括p值,给定x预测的y值,拟合系数R方等需要通过summary函数调用

也可以直接通过 summary(line.model) 打印出大部分与回归直线相关的一些结果