《Discovering Statistics Using R》笔记2-用偏度系数峰度系数考察正态性假设

2023-03-08 09:08:02Python016

《Discovering Statistics Using R》笔记2-用偏度系数峰度系数考察正态性假设,第1张

读《Discovering Statistics Using R》第五章 Exploring assumptions做的笔记。本笔记对应章节为5.5.2，主要介绍使用偏度系数和峰度系数考察正态性假设。

上一篇笔记《Discovering Statistics Using R》笔记-图示法考察正态性假设中介绍了用图示法考察正态性假设，图示法考察的较大弊端是比较主观。我们可以用偏度系数和峰度系数来定量考察数据分布的形状。

一个生物学家怀疑音乐节会对人的健康产生影响，他找了810个音乐会观众，收集了音乐节三天他们的卫生情况，卫生情况得分0-4.我们使用该数据的去除极端值后的版本 DownloadFestival(No Outlier).dat

使用 psych 包的 describe() 可以生包括峰度系数、偏度系数在内的一系列统计量。

skew即为偏度系数，krutosis即为峰度系数。

另外也可以使用 pastecs 包的 stat.desc() 来完成同样的任务。

实际上在R中，总可以找到两个甚至更多个方法来完成同一个任务。

因为 stat.desc() 原始的输出用科学计数法来显示，不太好看，用 round() 调整了输出数字显示的位数。

我们可以把偏度系数和峰度系数转换为标准正态分布的Z值。准换为Z值后，

将某统计量转换为标准正态分布Z值，只需要将该统计量减去该统计量分布的均值后再除以该统计量的标准差（标准误）就行了。这里我们假设检验中原假设是系数为0，所以减去的均值用0来带入。对应标准误可以由R来计算。

标准正态分布下双侧尾部面积0.05对应Z值为1.96。因此转换后的Z值如果绝对值大于1.96，对应P值就小于0.05.

应用时需要注意：大样本量下标准误会较小，即使系数距离0很近得到的Z值也会很大，容易拒绝原假设。因此在较大样本量下，检验水准的标准应当提高（比如说0.01，对应Z值为2.58）。样本量如果非常大（书中说是大于200，但我觉得具体样本量多大算非常大要结合具体假设检验考察的问题），这种显著性检验意义就不大了（因为即使很小的差异也很容易有统计学意义），更重要的是作图观察数据分布的形状。

在上面 stat.desc() 的运行结果中有skew.2SE和kurt.2SE。分别对应偏度系数除以2倍标准误和峰度系数除以2倍标准误。即转换后的Z值再除以2（这里将1.96近似为2处理了）.因此skew.2SE绝对值大于1，就意味着偏度系数为0的差异性检验具有统计学意义。kurt.2SE同理。

注意到 stat.desc() 的运行结果中还给出了正态性检验的结果，在之后的笔记中再详细介绍。

1、峰度系数的概念：

峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏态系数都相同，但他们分布曲线顶端的高耸程度却不同。

2、偏度系数的概念：

偏度系数是描述分布偏离对称性程度的一个特征数。当分布左右对称时，偏度系数为0。当偏度系数大于0时，即重尾在右侧时，该分布为右偏。当偏度系数小于0时，即重尾在左侧时，该分布左偏。

扩展资料：

在日常生活和经济管理中，常见的频数分布曲线主要有钟形分布（正态分布、偏态分布）、J形分布、U形分布，洛伦茨分布曲线等几种类型。

1、钟形分布特征是“两头小，中间大”，即靠近中间的变量值分布的次数多，靠近两边的变量值分布的次数少。

2、J形分布主要有正J形和反J形分布。正J形是次数随着变量值的增大而增多，反J形是次数随着变量值增大而减少。

3、U形分布的特征与钟形分布相反，靠近中间的变量值分布次数少，靠近两端的变量值分布的次数多。例如人口死亡现象按年龄分布便是如此。

4、洛伦茨分布曲线是美国统计学家格伦茨（M.Krenz）提出来的，专门用以检定社会收入分配的平等程度。洛伦茨分布曲线运作有两个条件：一是居民或家庭按收入水平分组，计算各级居民或家庭的比重；二是计算各组收入的比重。