《Discovering Statistics Using R》笔记6-箱形图和离群值

Python011

《Discovering Statistics Using R》笔记6-箱形图和离群值,第1张

新冠肺炎疫情期间本职工作比较忙。。。好久没更新了OTL

读《Discovering Statistics Using R》第四章 Exploring data with graphs中的4.7节箱形图 以及5.8.1节 处理离群值 做的笔记。主要是介绍箱形图和离群值。之前本系列笔记跳过了第四章的内容,因为对于用R作图我打算另开文集来写的。特意又跳回4.7节是因为按照之前笔记顺序该做如何处理离群值的内容了。

一个生物学家怀疑音乐节会对人的健康产生影响,他找了810个音乐会观众,收集了音乐节三天他们的卫生情况,卫生情况得分0-4.我们使用该数据的未去除极端值的版本 DownloadFestival.dat

箱形图是展示连续性变量情况很好的方法。

箱体的中间表示中位数

箱体的两端表示为下四分位数(Q1)和上四分位数(Q3)

箱体两端向外分出两条“触须”,触须长度不超过1.5倍的四分位间距(interquartile range IQR=Q3-Q1)

接下来我们使用箱形图来分性别(gender)展示示例数据中第一天卫生评分的情况(day1):

在生成的箱形图中我们可以看到女性组里有一个明显的离群值(outlier)。

离群值(outlier)也叫异常值,简单来说就是与其他数据点明显不同的测量值。在箱形图中:

大于上四分位数+1.5倍四分位间距的值或者小于下四分位数-1.5倍四分位间距的值被定义为离群值。

大于上四分位数+3倍四分位间距的值或者小于下四分位数-3倍四分位间距的值被定义为极端离群值(extreme outliers)。

离群值对一些统计量影响很大(比如均值),因此有时需要留意。

我们对原始数据按照day1变量降序排列后可以找到那个离群值:

发现离群值后有几种常用方法可以减少离群值对分析的影响。在应用这些方法前需要先检查一下离群值是否是数据错误录入造成。如果数据录入无误,主要有三种处理方法:

有理由认为这个20.02的离群值应该是2.02由于错误录入造成的。这时应该去找原始数据进行核实。假设我们经核实确实应该是2.02,现在把它改正。

这里我使用 dplyr 包的 if_else() 进行数据修改,其用法和R自带的 ifelse() 基本一致: if_else(condition, true, false, missing = NULL) ,当 condition 的判断为TRUE时返回 true 参数的值,当 condition 的判断为FALSE时返回 false 参数的值。

修改后再做一次箱形图:

从箱形图中我们可以看出数据分布的范围、中位数水平、中间50%的数据分布的范围(箱体)、最高25%的数据分布范围和最低25%的数据分布范围。通过箱形图还可以看出数据分布是否对称:如果上下触须长度相近则数据分布大致对称。另外,触须以外的点展示了离群值的情况。

老师的吐槽大会,乐死我了。hhh

regression,通常指用一个或者多个预测变量,也称自变量或者解释变量,来预测响应变量,也称为因变量、效标变量或者结果变量的方法

存在多个变量

AIC 考虑模型统计拟合度、用来拟合的参数数目

AIC值越小,越好

更多的变量:

图一:是否呈线性关系, 是

图二:是否呈正态分布,一条直线,正态分布

图三:位置与尺寸图,描述同方差性,如果方差不变,水平线周围的点应该是随机分布

图四:残差与杠杆图,对单个数据值的观测,鉴别离群点、高杠杆点、强影响点

模型建好,用predict函数对剩余500个样本进行预测,比较残差值,若预测准确,说明模型可以。

analysis of variance,简称ANOVA,也称为变异数分析。用于两个及两个以上样本均数差别的显著性检验。广义上,方差分析也是回归分析的一种,只不过线性回归的因变量一般是连续型变量。自变量是因子时,研究关注的重点通常会从预测转向不同组之间的差异比较。也就是方差分析。

power analysis,可以帮助在给定置信度的情况下,判断检测到给定效应值所需的样本量。也可以在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率

拓展了线性模型的框架,包含了非正态因变量的分析。线性回归、方差分析都是基于正态分布的假设

-泊松回归 ,用来为计数资料和列联表建模的一种回归分析。泊松回归假设因变量是泊松分布,并假设它平均值的对数可被未知参数的线性组合建模

-logistic 回归

通过一系列连续型或者类别型预测变量来预测二值型结果变量是,logistic 回归是一个非常有用的工具。流行病学研究中用的多。

Principal Component Analysis,PCA,探索和简化多变量复杂关系的常用方法。 是一种数据降维技巧。可以将大量相关变量转化为一组很少的不相关变量。这些无关变量成为主成分。主成分是对原始变量重新进行线性组合,将原先众多具有一定相关性的指标,重新组合为一组的心得相互独立的综合指标。

探索性因子分析法 exploratory factor analysis,简称为EFA,是一系列用来发现一组变量的潜在结构的方法。通过找寻一组更小的、潜在的活隐藏的结构来解释已观测到的、显式的变量间的关系

因子分析步骤与PCA一致

啤酒与尿布

箱线图主要是通过四分位数描述数据分布,通过最大值,上四分位数,中位数,下四分位数,最小值五处位置描述数据分布情况。箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上四分位数与下四分位数的差值)的观测。从箱线图中,可以大致推断出数据的集中或离散趋势。

boxplot() 是一个泛型函数,目前支持两种参数类型:公式和数据。

x 参数为一个数值向量或者列表,若为列表则对列表中每一个子对象依次作出箱线图。

formula 为一个公式,比如 y ~ x。

data 参数为一个数据框或者列表。

na.action 参数是对NA值的操作,默认为忽略。

ann 参数为逻辑值,是否绘制坐标轴。

range 是一个延伸倍数,决定了箱线图的须延伸到什么位置。

width 设置箱子的宽度。

varwidth 为逻辑值,若为 TRUE,那么箱子的宽度与样本量的平方根成比例。

notch 决定了是否在箱子上画凹槽,可以用于比较两组数据的中位数是否有差异。

horizontal 是否水平放置箱线图。

add 参数设置是否将箱线图添加到现有图形上。

at 参数,当add为TRUE时,设置箱线图位置。

[1] https://www.sohu.com/a/220236877_434937

[2] https://zhuanlan.zhihu.com/p/144339417

[3] Robert I. Kabacoff (著). R语言实战(高涛/肖楠/陈钢 译). 北京: 人民邮电出版社.