如何用R来求分组数据的中位数，众数

2023-02-25 17:39:02Python015

如何用R来求分组数据的中位数，众数,第1张

说简单点：一组数据中如果有特别大的数或特别小的数时，一般用中位数 一组数据比较多（20个以上），范围比较集中，一般用众数其余情况一般还是平均数比较精确一、联系与区别： 1、平均数是通过计算得到的，因此它会因每一个数据的变化而变化。 2、中位数是通过排序得到的，它不受最大、最小两个极端数值的影响．中位数在一定程度上综合了平均数和中位数的优点，具有比较好的代表性。部分数据的变动对中位数没有影响，当一组数据中的个别数据变动较大时，常用它来描述这组数据的集中趋势。另外，因中位数在一组数据的数值排序中处中间的位置， 3、众数也是数据的一种代表数，反映了一组数据的集中程度．日常生活中诸如“最佳”、“最受欢迎”、“最满意”等，都与众数有关系，它反映了一种最普遍的倾向．二、平均数、中位数和众数它们都有各自的的优缺点．平均数：(1)需要全组所有数据来计算； (2)易受数据中极端数值的影响．中位数：(1)仅需把数据按顺序排列后即可确定； (2)不易受数据中极端数值的影响．众数：(1)通过计数得到； (2)不易受数据中极端数值的影响关于“中位数、众数、平均数”这三个知识点的理解，我简单谈谈自己的认识和理解。 ⒈众数。一组数据中出现次数最多的那个数据，叫做这组数据的众数。 ⒉众数的特点。 ①众数在一组数据中出现的次数最多；②众数反映了一组数据的集中趋势，当众数出现的次数越多，它就越能代表这组数据的整体状况，并且它能比较直观地了解到一组数据的大致情况。但是，当一组数据大小不同，差异又很大时，就很难判断众数的准确值了。此外，当一组数据的那个众数出现的次数不具明显优势时，用它来反映一组数据的典型水平是不大可靠的。 3.众数与平均数的区别。众数表示一组数据中出现次数最多的那个数据；平均数是一组数据中表示平均每份的数量。 4.中位数的概念。一组数据按大小顺序排列，位于最中间的一个数据(当有偶数个数据时，为最中间两个数据的平均数)叫做这组数据的中位数。 5.众数、中位数及平均数的求法。 ①众数由所给数据可直接求出②求中位数时，首先要先排序(从小到大或从大到小)，然后根据数据的个数，当数据为奇数个时，最中间的一个数就是中位数当数据为偶数个时，最中间两个数的平均数就是中位数。③求平均数时，就用各数据的总和除以数据的个数，得数就是这组数据的平均数。 6.中位数与众数的特点。 ⑴中位数是一组数据中唯一的，可能是这组数据中的数据，也可能不是这组数据中的数据； ⑵求中位数时，先将数据有小到大顺序排列，若这组数据是奇数个，则中间的数据是中位数；若这组数据是偶数个时，则中间的两个数据的平均数是中位数； ⑶中位数的单位与数据的单位相同； ⑷众数考察的是一组数据中出现的频数； ⑸众数的大小只与这组数的个别数据有关，它一定是一组数据中的某个数据，其单位与数据的单位相同；（6）众数可能是一个或多个甚至没有；（7）平均数、众数和中位数都是描述一组数据集中趋势的量。 7.平均数、中位数与众数的异同： ⑴平均数、众数和中位数都是描述一组数据集中趋势的量； ⑵平均数、众数和中位数都有单位； ⑶平均数反映一组数据的平均水平，与这组数据中的每个数都有关系，所以最为重要，应用最广； ⑷中位数不受个别偏大或偏小数据的影响； ⑸众数与各组数据出现的频数有关，不受个别数据的影响，有时是我们最为关心的数据。 8.统计量。平均数、众数和中位数都叫统计量，它们在统计中，有着广泛的应用。 9.举手表决法。在生活中，往往会有由多数人来从众多答案中选择一个的情形，一般都利用“举手表决”方式来解决问题。即在统计出所有提议及相应票数的情况下，看各票数的众数是否超过总票数的一半，如果众数超过了总票数的一半，选择的最终答案就是这个众数。如果出现了双众数（两个众数），可对这两个众数采用抓阄、抽签或投掷硬币等办法选出最终的答案。 10.平均数、众数和中位数三种统计数据在生活中的意义。平均数说明的是整体的平均水平；众数说明的是生活中的多数情况；中位数说明的是生活中的中等水平。 11.如何通过平均数、众数和中位数对表面现象到背景材料进行客观分析。在个别的数据过大或过小的情况下，“平均数”代表数据整体水平是有局限性的，也就是说个别极端数据是会对平均数产生较大的影响的，而对众数和中位数的影响则不那么明显。所以，这时要用众数活中位数来代表整体数据更合适。即：如果在一组相差较大的数据中，用中位数或众数作为表示这组数据特征的统计量往往更有意义

统计学：数据的集中趋势（图片上传不了，请见谅，粗略汇总，如有想法，请下方留言）

[if !supportLists]（一）[endif] 数据的集中趋势：

集中趋势(central tendency)在统计学中是指一组数据向某一中心值拢的程度，它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值，低层数据的集中趋势测度值适用于高层次的测量数据，能够揭示总体中众多个观察值所围绕与集中的中心，反之，高层次数据的集中趋势测度值并不适用于低层次的测量数据。

[if !supportLists]1．[endif] 众数（Mode）：

定义：众数（Mode）是统计学名词，在统计分布上具有明显集中趋势点的数值，代表数据的一般水平（众数可以不存在或多于一个）。修正定义：是一组数据中出现次数最多的数值，叫众数，有时众数在一组数中有好几个。用M表示。理性理解：简单的说，就是一组数据中占比例最多的那个数。

相关资料：众数是样本观测值在频数分布表中频数最多的那一组的组中值，主要应用于大面积普查研究之中。在高斯分布中，众数位于峰值，用众数代表一组数据，可靠性较差，不过，众数不受极端数据的影响，并且求法简便。在一组数据中，如果个别数据有很大的变动，选择中位数表示这组数据的“集中趋势”就比较适合。当数值或被观察者没有明显次序（常发生于非数值性资料）时特别有用，由于可能无法良好定义算术平均数和中位数。例子：{鸡、鸭、鱼、鱼、鸡、鱼}的众数是鱼。众数算出来是销售最常用的，代表最多的。

计算方法： ① 观察法。若数据已归类，则出现频数最多的数据即为众数；若数据已分组，则频数最多的那一组的组中值即为众数。用观察法求得的众数，一般是粗略众数。

金氏插入法，根据计算公式：

或

式中L表示众数所在组的精确下限，U 表示众数所在组的精确上限，fa为与众数组下限相邻的频数，fb为与众数组上限相邻的频数，i为组距。

②皮尔逊经验法

根据计算公式：

可求众数。

式中ξ为样本均值， Md 为中数，用皮尔逊公式计算所得众数近似于理论众数，常称为皮尔逊近似众数。众数是皮尔逊（Pearson,K.）最先提出并在生物统计学中使用的，以上是数据出自于离散型随机变量时求众数的方法，对于连续型随机变量ξ ，若概率密度函数为 f ，且 f 恰有一个最大值，则此最大值称为ξ 的众数，有时也把 f 的极大值称为众数； f 有两个以上极大值时，亦称复众数。

Excel：在对应单元格中输入公式：=MODE(B3:B28)，众数次数：公式如下：=COUNTIF(B3:B28,众数数值或者众数所在单元格)。

[if !supportLists]2．[endif] 中位数（ Median ) ：

定义：中位数（又称中值/中点数，英语： Median ），统计学中的专有名词，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。中位数是按顺序排列的一组数据中居于中间位置的数，即在这组数据中，有一半的数据比他大，有一半的数据比他小，这里用来表示中位数。（注意：中位数和众数不同，众数指最多的数，众数有时不止一个，而中位数只能有一个。）是一种衡量集中趋势的方法。

对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。一个数集中最多有一半的数值小于中位数，也最多有一半的数值大于中位数。如果大于和小于中位数的数值个数均少于一半，那么数集中必有若干值等同于中位数。设连续随机变量 X的分布函数为，那么满足条件的数称为X或分布F的中位数。

特点： ①中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值，不受分布数列的极大或极小值影响，从而在一定程度上提高了中位数对分布数列的代表性。

②有些离散型变量的单项式数列，当次数分布偏态时，中位数的代表性会受到影响。

③趋于一组有序数据的中间位置

计算方法： ①对于一在Matlab中，median()函数是求取一组数据的中位数的内置函数，使用规则如下：

M = median(A)

M = median(A,dim)

M = median(___,nanflag)

示例：

1）A = [0 1 12 3 21 3 24 2 2]

M = median(A)

得到结果：M = [ 1.5000 2.5000 2.0000]

2）A = [0 1 12 3 2]

M = median(A,2)

得到结果：

其他： 1）平均数是通过计算得到的，因此它会因每一个数据的变化而变化。

2）中位数是通过排序得到的，它不受最大、最小两个极端数值的影响。部分数据的变动对中位数没有影响，当一组数据中的个别数据变动较大时，常用它来描述这组数据的集中趋势。

3）众数也是数据的一种代表数，反映了一组数据的集中程度．日常生活中诸如“最佳”、“最受欢迎”、“最满意”等，都与众数有关系，它反映了一种最普遍的倾向。

优缺点：平均数需要全组所有数据来计算，易受数据中极端数值的影响。中位数仅需把数据按顺序排列后即可确定，不易受数据中极端数值的影响。众数通过计数得到，不易受数据中极端数值的影响。在数列中出现了极端变量值的情况下，用中位数作为代表值要比用算术平均数更好，因为中位数不受极端变量值的影响；如果研究目的就是为了反映中间水平，当然也应该用中位数。在统计数据的处理和分析时，可结合使用中位数。

[if !supportLists]3．[endif] 平均数 ( mean ) ：

定义：平均数，统计学术语，是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。它是反映数据集中趋势的一项指标。

在统计工作中，平均数（均值）和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值.

调和平均数≤几何平均数≤算术平均数≤平方平均数（并且只有当所有变量值都相等时，这三种平均数才相等）

分类： ①算术平均数(arithmetic mean）：算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。把n个数的总和除以n，所得的商叫做这n个数的平均数。用平均数表示一组数据的情况，有直观、简明的特点，所以在日常生活中经常用到，如平均速度、平均身高、平均产量、平均成绩等等。

优缺点：该方法的优点是计算简单，而缺点是计算平均数时没有考虑到近期的变动趋势，因而预测值与实际值往往会发生较大的误差。通常适用于预测销售比较稳定的产品。如没有季节性变化的粮油食品和日常用品等。

②几何平均数（geometric mean),n个观察值连乘积的n次方根就是几何平均数。根据资料的条件不同，几何平均数分为加权和不加权之分。几何平均数多用于计算平均比率和平均速度。如：平均利率、平均发展速度、平均合格率等

　 1、简单几何平均法

　　2、加权几何平均法

算术平均数，(a+b)/2,体现纯粹数字上的关系，而根号ab,称为几何平均数，这个体现了一个几何关系，作一正方形，使其面积等于以a,b为长宽的矩形，则该正方形的边长即为a、b的几何平均数，中国古代数学书中提到的矩形面积时往往用长宽的几何平均数来表示。

计算几何平均数要求各观察值之间存在连乘积关系，它的主要用途是：1、对比率、指数等进行平均；2、计算平均发展速度；其中：样本数据非负，主要用于对数正态分布。

特点：1、几何平均数受极端值的影响较算术平均数小。2、如果变量值有负值，计算出的几何平均数就会成为负数或虚数。3、它仅适用于具有等比或近似等比关系的数据（它适用于反映特定现象的平均水平，即现象的总标志值不是各单位标志值的总和，而是各单位标志值的连乘积的情形。对于这类社会经济现象，不能采用算术平均数反映其一般水平，而需采用几何平均数）。4、几何平均数的对数是各变量值对数的算术平均数。

计算举例：假定某地储蓄年利率（按复利计算）：5%持续1.5年，3%持续2.5年，2.2%持续1年。请问此5年内该地平均储蓄年利率。该地平均储蓄年利率（利率=利息÷本金÷时间×100%)某银行为吸收存款而提高利息率，五年的利息率分别为3%、4%、5%、6%、7% ，试计算五年的平均年利率（分别按单利和复利两种情况计算）存入10000元五年后的实际本利和：单利：10000*（1+3%+4%+5%+6%+7%）=12500复利：10000*（1+3%）*（1+4%）*（1+5%）*（1+6%）*（1+7%）=12757.03元单利平均年利率：（3%+4%+5%+6%+7%）/5=5%复利平均年利率：[（1+3%）*（1+4%）*（1+5%）*（1+6%）*（1+7%）-1]/5=5.51%(按照此方法计算的复利的平均年利率计算方法为3.44%：

③调和平均数(harmonic mean）：调和平均数又称倒数平均数，是变量倒数的算术平均数的倒数。

计算方法：简单调和平均数是算术平均数的变形，它的计算公式如下:

加权调和平均数：加权调和平均数是加权算术平均数的变形。它与加权算术平均数在实质上是相同的，而仅有形式上的区别，即表现为变量对称的区别、权数对称的区别和计算位置对称的区别。因而其计算公式为:

加权调和平均数的应用:在很多情况下，由于只掌握每组某个标志的数值总和(M)而缺少总体单位数(f)的资料，不能直接采用加权算术平均数法计算平均数，则应采用加权调和平均数。

例如:某工厂购进材料三批，每批价格及采购金额资料如下表:

价格(元/千克)(x)采购金额(元)(m)采购数量(千克)(m/x)

第一批3510000286

第二批4020000500

第三批4515000330

合计--450001116

调和平均数可以用在相同距离但速度不同时，平均速度的计算如一段路程，前半段时速60公里，后半段时速30公里〔两段距离相等〕，则其平均速度为两者的调和平均数时速40公里。

另外，两个电阻R1， R2并联后的等效电阻R:

恰为两电阻调和平均数的一半。

特点:①调和平均数易受极端值的影响，且受极小值的影响比受极大值的影响更大。②只要有一个标志值为0，就不能计算调和平均数。③当组距数列有开口组时，其组中值即使按相邻组距计算，假定性也很大，这时的调和平均数的代表性很不可靠。

④调和平均数应用的范围较小。在实际中，往往由于缺乏总体单位数的资料而不能直接计算算术平均数，这时需用调和平均法来求得平均数。

注意事项:(1)当变量数列有一变量X的值为零时，调和平均数公式的分母将等于无穷大，因而无法求出确定的平均值。(2)调和平均数和算术平均数一样，易受两极端值影响。上端值越大，平均数向上偏离集中趋势就越大。反之，下端值越大，平均数向下偏离集中趋势越大。(3)要注意区分调和平均数和算术平均数的使用条件，因事制宜。

密度，速度，概率都是一种近似概念：A在空间B的平均分布程度，而调和平均数，是为了衡量A在空间B,C的总体平均分布程度（假设B,C不重叠）。而加权调和平均数，就是在B,C里加个权数。

调和平均数与算术平均数的举例分析：

例一水果甲级每元1公斤，乙级每元1.5公斤，丙级每元2公斤。问：

（1）若各买1公斤，平均每元可买多少公斤？

（2）各买6.5公斤，平均每元可买多少公斤？

（3）甲级3公斤，乙级2公斤，丙级1公斤，平均每元可买几公斤？

（4）甲乙丙三级各买1元，每元可买几公斤？

解：例一

(1)(公斤／元)

　 (2)(公斤／元)

(3)(公斤／元)

[if !supportLists](4)[endif](公斤／元)

考虑一次去便利店并返回的行程：

去程速度为30 mph，返程时交通有一些拥堵，所以速度为10 mph，去程和返程走的是同一路线，也就是说距离一样（5英里）

整个行程的平均速度是多少？如果不假思索地应用算术平均数的话，结果是20 mph（(30+10)/2）。但是这么算不对。因为去程速度更快，所以你更快地完成了去程的5英里，整个行程中以30 mph的速度行驶的时间更少，以10 mph的速度行驶的时间更多，所以整个行程期间你的平均速度不会是30 mph和10 mph的中点，而应该更接近10 mph。

为了正确地应用算术平均数，我们需要判定以每种速率行驶所花的时间，然后以适当的权重加权算术平均数的计算：

去程：5 / (30/60) = 10分钟

返程：5 / (10/60) = 30分钟

总行程：10 + 30 = 40分钟

加权算术平均数：(30 * 10/40) + (10 * 30/40) = 15 mph所以，我们看到，真正的平均速度是15 mph，比使用未加权的算术平均数计算所得低了5 mph（或者25%）。

那如果用调和平均数呢？

2 / (1/30 + 1/10) = 15

一下子得到了真正的行程平均速度，自动根据在每个方向上使用的时间进行调整。需要注意的是，这里之所以可以直接应用调和平均数，是因为去程和返程的距离是相等的，如果两者距离不等（比如去程和返程走了不同路线），那么需要应用加权调和平均数。在财经上，加权调和平均数可以用于计算组合投资多个股票的市盈率（P/E）。

当然调和平均数还有很多应用场景，比如统计学上的F1评分，就是准确率和召回的调和平均数。

④指数平均数(EXPMA）：指数平均数其构造原理是对股票收盘价进行算术平均，并根据计算结果来进行分析，用于判断价格未来走势得变动趋势。

EXPMA指标是一种趋向类指标，与平滑异同移动平均线[MACD]、平行线差指标[DMA]相比，EXPMA指标由于其计算公式中着重考虑了价格当天 [当期]行情得权重，因此在使用中可克服其他指标信号对于价格走势得滞后性。同时也在一定程度中消除了DMA指标在某些时候对于价格走势所产生得信号提前性，是一个非常有效得分析指标。

[if !supportLists]4．[endif]分位数（quantile fractile）

定义：设连续随机变量X的累积分布函数为F(X)，概率密度函数为p(x)。那么，对任意0<p<1的p，称F(X)=p的X为此分布的分位数，或者下侧分位数。简单的说，分位数指的就是连续分布函数中的一个点，这个点的一侧对应概率p。

[if !supportLists]5．[endif]极差（range)

定义：全距(Range)，又称极差，是用来表示统计资料中的变异量数(measures of variation)，其最大值与最小值之间的差距即最大值减最小值后所得之数据。极差不能用作比较，单位不同方差能用作比较，因为都是个比率。

极差是指一组测量值内最大值与最小值之差，又称范围误差或全距，以R表示。它是标志值变动的最大范围，它是测定标志变动的最简单的指标。移动极差(Moving Range)是其中的一种。

极差没有充分利用数据的信息，但计算十分简单，仅适用样本容量较小(n<10)情况。

优缺点：它是标志值变动的最大范围。极差也称为全距或范围误差，它是测定标志变动的最简单的指标。换句话说，也就是指一组数据中的最大数据与最小数据的差叫做这组数据的极差。极差英文为range，简写为R，表示为：R=Xmax-Xmin。移动极差（Moving Range）是其中的一种。

mode=function(x){

y=NULL

y=table(x)

k=max(y)

y=as.data.frame(y)