聊聊python的分位数

2023-02-26 05:44:01Python025

聊聊python的分位数,第1张

在日常的数据分析中，分位数是非常重要的一环，在探查数据分布，定义指标中都必不可缺。但 python 里的分位数计算却潜藏了一些坑点，特分享。

我们先看看百度百科的分位数定义：

正如上文所言，四分位数就是将数据从小到大排成4等分，然后取出3个分割点的数值。百分位数则以此类推，通过分位数我们可以对数据的分布有更深的了解：

分位数的定义是很容易理解的，但大部分人不知道的是，分位数的计算方法有两种：

我们依旧以四分位数为例

三种方法各有利弊，但结果都可能存在差距，需要与需求方仔细确认到底是哪个计算方法。

能满足4分位计算的函数主要有2个：numpy 的 percentile 方法和 pandas 的 quantile 方法。但他们的计算方法都是 1+(n-1)方法，我们看个例子：

既然没有现成的方法，我们就手写一个 n 的方法。

百分位的计算是非常常见的数据分析需求，但在实际使用时并没有那么的简单，专业的统计逻辑和""我们以为""的逻辑并不尽然相同。需时时谨慎，校验数据。

在Python中，pandas是基于NumPy数组构建的，使数据预处理、清洗、分析工作变得更快更简单。pandas是专门为处理表格和混杂数据设计的，而NumPy更适合处理统一的数值数组数据。

使用下面格式约定，引入pandas包：

pandas有两个主要数据结构：Series和DataFrame。

Series是一种类似于一维数组的对象，它由 一组数据 （各种NumPy数据类型）以及一组与之相关的 数据标签（即索引） 组成，即index和values两部分，可以通过索引的方式选取Series中的单个或一组值。

pd.Series(list,index=[ ]) ，第二个参数是Series中数据的索引，可以省略。

Series类型索引、切片、运算的操作类似于ndarray，同样的类似Python字典类型的操作，包括保留字in操作、使用.get()方法。

Series和ndarray之间的主要区别在于Series之间的操作会根据索引自动对齐数据。

DataFrame是一个表格型的数据类型，每列值类型可以不同，是最常用的pandas对象。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多个二维块存放的（而不是列表、字典或别的一维数据结构）。

pd.DataFrame(data,columns = [ ],index = [ ]) ：columns和index为指定的列、行索引，并按照顺序排列。

如果创建时指定了columns和index索引，则按照索引顺序排列，并且如果传入的列在数据中找不到，就会在结果中产生缺失值：

数据索引 ：Series和DataFrame的索引是Index类型，Index对象是不可修改，可通过索引值或索引标签获取目标数据，也可通过索引使序列或数据框的计算、操作实现自动化对齐。索引类型index的常用方法：

重新索引 ：能够改变、重排Series和DataFrame索引，会创建一个新对象，如果某个索引值当前不存在，就引入缺失值。

df.reindex(index, columns ,fill_value, method, limit, copy ) ：index/columns为新的行列自定义索引；fill_value为用于填充缺失位置的值；method为填充方法，ffill当前值向前填充，bfill向后填充；limit为最大填充量；copy 默认True，生成新的对象，False时，新旧相等不复制。

删除指定索引 ：默认返回的是一个新对象。

.drop() ：能够删除Series和DataFrame指定行或列索引。

删除一行或者一列时，用单引号指定索引，删除多行时用列表指定索引。

如果删除的是列索引，需要增加axis=1或axis='columns'作为参数。

增加inplace=True作为参数，可以就地修改对象，不会返回新的对象。

在pandas中，有多个方法可以选取和重新组合数据。对于DataFrame，表5-4进行了总结

适用于Series和DataFrame的基本统计分析函数 ：传入axis='columns'或axis=1将会按行进行运算。

.describe() ：针对各列的多个统计汇总，用统计学指标快速描述数据的概要。

.sum() ：计算各列数据的和

.count() ：非NaN值的数量

.mean( )/.median() ：计算数据的算术平均值、算术中位数

.var()/.std() ：计算数据的方差、标准差