正态分布的应用——基于峰度系数解释离群效应

Python021

正态分布的应用——基于峰度系数解释离群效应,第1张

内容导入 :

大家好这里是每天分析一点点。本期介绍的是数据分析基础系列,主要给大家介绍描述性统计分析原理,包括中位数、众数、平均数、方差、标准差、离散系数、峰度峰度、离群值等的原理、概念以及应用。再结合区域工资水平,探讨峰度在离群效应分析中的应用。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。欢迎大家关注。

概念介绍:

峰度的概念:

峰度又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于0,峰的形状比较尖,比正态分布峰要陡峭。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。

峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。当变量值的次数在众数周围分布比较集中,使次数分布曲线比正态分布曲线顶峰更为隆起尖峭,称为尖顶峰度;当变量值的次数在众数周围分布较为分散,使次数分布曲线较正态分布曲线更为平缓,称为平顶峰度。

峰度的计算公式:

峰度计算为四阶中心距除以四阶标准差,所谓中心距,就是距离数据中心的距离,数据中心一般是值数据的平均值,因此中心距就是每个数减去平均数的和,然后求平均,四阶就是在这个基础上求四次方。四阶标准差就是标准差的四次方。

峰度的相关原理: 

根据均值不等式,可以确定出峰度系数的取值范围:它的下限不会低于-2,上限不会高于数据的个数。有一些典型分布的峰度系数值得特别关注。例如,正态分布的峰度为常数0,均匀分布的峰度为常数-1.2。

峰度以K表示,以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若K<0,则称分布具有不足的峰度,若K>0,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。

峰度的特点:     

峰度的特点:     

正态分布的峰度为0。     

以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度;     

若k<0,则称分布具有不足的峰度;     

若k>0,则称分布具有过度的峰度。     

峰度的应用:

1.  K>0,数据尖峰,数据集中在一个区域内,两侧存在离群值     

2.  K<0,数据平峰,数据相对不集中,数据无离群值。     

综合应用场景:

 接下来我们#数据峰度:

某地区随机50人的平均工资为来看个实际的案例吧。

2589,2163,2126,3500,2268,1871,2050,1856,2572,1000,3932,2105,1652,2559,2741,1766,2705,2067,3800,2749,2020,6918,1350,1168,1245,1966,1080,915,1563,2307,2861,600,711,696,2261,3260,2219,2415,2877,2143,2564172,951,1683,888,2880,4000,3500,1000,1250。请分析该地区的收入是否存在离群值。

 我们可以使用峰度来解释离群的效应,用python的计算过程如下。

#求平均数 income_mean=np.mean(income)

#求中心距 center_dis=income-income_mean

#求标准差 sigma=np.std(income)

#求平均4阶中心距 center_dis4=sum(np.power(center_dis,4))/len(income)

#求标准差的4次方 sigma4=np.power(sigma,4)

#求数据峰度 kurtosis=center_dis4/sigma4-3

print(kurtosis)#数据峰度为:4.408 大于0,数据为尖峰。

 根据峰度的原理,如果峰度大于0,峰的形状比较尖,比正态分布峰要陡峭。峰度高就意味着方差增大是由低频度的大于或小于平均值的极端差值引起的。因此,我们可以得出结论,该地区收入是存在离群值。但是,离群值是极大值还是极小值呢?我们有如何进行确定。这就要结合偏度系数进行判断。还记得吗?上期我们的偏度系数测量为1.424,右偏。因此,该收入数据存在离群值,并且是极大的离群值,会使平均数大于中位数大于众数。大部分人的收入在平均值以下,贫富差距巨大。

各位还没有看懂的朋友关注一下我们的微信公众号,那里的视频解释更加精彩。

 本期分享到这里,我们会在每周持续更新,咱们下期再见,期待您的光临。

 有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

可能公式算错了。

偏度这一指标,又称偏斜系数、偏态系数,是用来帮助判断数据序列的分布规律性的指标。

在数据序列呈对称分布(正态分布)的状态下,其均值、中位数和众数重合。且在这三个数的两侧,其它所有的数据完全以对称的方式左右分布。 如果数据序列的分布不对称,则均值、中位数和众数必定分处不同的位置。这时,若以均值为参照点,则要么位于均值左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称之为左偏;除此无它。

考虑到所有数据与均值之间的离差之和应为零这一约束,则当均值左侧数据较多的时候,均值的右侧必定存在数值较大的“离群”数据;同理,当均值右侧数据较多的时候,均值的左侧必定存在数值较小的“离群”数据。一般将偏度定义为三阶中心矩与标准差的三次幂之比(CSDN博主「浅笑古今」)。

1、峰度系数的概念:

峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同,但他们分布曲线顶端的高耸程度却不同。

2、偏度系数的概念:

偏度系数是描述分布偏离对称性程度的一个特征数。当分布左右对称时,偏度系数为0。当偏度系数大于0时,即重尾在右侧时,该分布为右偏。当偏度系数小于0时,即重尾在左侧时,该分布左偏。

扩展资料:

在日常生活和经济管理中,常见的频数分布曲线主要有钟形分布(正态分布、偏态分布)、J形分布、U形分布,洛伦茨分布曲线等几种类型。

1、钟形分布特征是“两头小,中间大”,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少。

2、J形分布主要有正J形和反J形分布。正J形是次数随着变量值的增大而增多,反J形是次数随着变量值增大而减少。

3、U形分布的特征与钟形分布相反,靠近中间的变量值分布次数少,靠近两端的变量值分布的次数多。例如人口死亡现象按年龄分布便是如此。

4、洛伦茨分布曲线是美国统计学家格伦茨(M.Krenz)提出来的,专门用以检定社会收入分配的平等程度。洛伦茨分布曲线运作有两个条件:一是居民或家庭按收入水平分组,计算各级居民或家庭的比重;二是计算各组收入的比重。

参考资料来源:百度百科——偏度系数

参考资料来源:百度百科——峰度系数