R语言中的多元方差分析

Python047

R语言中的多元方差分析,第1张

R语言中的多元方差分析1、当因变量(结果变量)不止一个时,可用多元方差分析(MANOVA)对它们同时进行分析。library(MASS)attach(UScereal)y <- cbind(calories, fat, sugars)aggregate(y, by = list(shelf), FUN = mean)Group.1 calories fatsugars1 1 119.4774 0.6621338 6.2954932 2 129.8162 1.3413488 12.5076703 3 180.1466 1.9449071 10.856821cov(y)calories fat sugarscalories 3895.24210 60.674383 180.380317fat60.67438 2.713399 3.995474sugars180.38032 3.995474 34.050018fit <- manova(y ~ shelf)summary(fit)Df Pillai approx F num Df den Df Pr(>F) shelf 1 0.195944.955 3 61 0.00383 **Residuals 63 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1summary.aov(fit)Response calories :Df Sum Sq Mean Sq F valuePr(>F)shelf1 45313 45313 13.995 0.0003983 ***Residuals 63 2039823238 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Response fat :Df Sum Sq Mean Sq F value Pr(>F) shelf1 18.421 18.4214 7.476 0.008108 **Residuals 63 155.236 2.4641---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1Response sugars :Df Sum Sq Mean Sq F value Pr(>F) shelf1 183.34 183.34 5.787 0.01909 *Residuals 63 1995.87 31.68 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 12、评估假设检验单因素多元方差分析有两个前提假设,一个是多元正态性,一个是方差—协方差矩阵同质性。(1)多元正态性第一个假设即指因变量组合成的向量服从一个多元正态分布。可以用Q-Q图来检验该假设条件。center <- colMeans(y)n <- nrow(y)p <- ncol(y)cov <- cov(y)d <- mahalanobis(y, center, cov)coord <- qqplot(qchisq(ppoints(n), df = p), d, main = "QQ Plot Assessing Multivariate Normality", ylab = "Mahalanobis D2")abline(a = 0, b = 1)identify(coord$x, coord$y, labels = row.names(UScereal))如果所有的点都在直线上,则满足多元正太性。2、方差—协方差矩阵同质性即指各组的协方差矩阵相同,通常可用Box’s M检验来评估该假设3、检测多元离群点library(mvoutlier)outliers <- aq.plot(y)outliers

可以通过三个方法找出离群值:

1.单变量检测法

2.双变量检测法

3.多元模型检测法

离群值 (outliers)是指在一份数据中,与其他观察值具有明显不同特征的那些观察值。然而,并没有一个明确的准则来判断哪些观察值属于“离群值”。这主要取决于多种因素。

方法/步骤

打开r软件,输入数据集。这里以一个班级的学生成绩为例来介绍箱线图的使用方法。

输入绘制箱线图命令boxplot(class1),运行命令,得到一班学生成绩箱线图。箱线图箱体中间的粗黑线表示中位数所在位置,可以看到本例的平均值大约在80分。最下面的圈号表示异常点。本例的异常值为25。

一个图表中可以绘制多个系列的箱线图,便于比较。这里添加另外一个班级的成绩,进行比较。

输入绘制箱线图的代码:

boxplot(class1,class2,names=c('一班','二班'),col=c("green","red"))

其中names表示为两个系列命名。col为颜色取值。

运行代码,得到连个箱线图。从图中可以明显看到两个班级的成绩分布情况。二班的成绩比较集中,一班的差异比较大。二班的平均分要高于一班。完成。

提示:箱线图还有很多参数可供我们绘图时使用。可以运行命令help(boxplot)了解更多内容。