关R语言实战中箱线图关于异常值理解的问题

Python016

关R语言实战中箱线图关于异常值理解的问题,第1张

首先要理解一下箱线图中四分位差的原理,详见 https://baike.baidu.com/item/%E5%9B%9B%E5%88%86%E4%BD%8D%E5%B7%AE/8362429

理解过后,再来看一下在R中以超过Q3+1.5(Q3-Q1),低于Q1-1.5(Q3-Q1)为范围认定为异常值,也就是说在R中先确定异常值,再在非异常值中确定箱线图的最小值或最大值。这样也就能解释为什么在最小值(最大值)后还有比最小值(最大值)还小(大)的异常值。

1、首先r语言中在画图中调整异常值的大小可以不断删除强影响点或者离群点。

2、其次一直重复直到获得比较满意的拟合。

3、最后若不显著,则说明数据集中没有离群点。