如何用R来求分组数据的中位数，众数

2023-02-24 01:30:02Python022

如何用R来求分组数据的中位数，众数,第1张

说简单点：一组数据中如果有特别大的数或特别小的数时，一般用中位数 一组数据比较多（20个以上），范围比较集中，一般用众数其余情况一般还是平均数比较精确一、联系与区别： 1、平均数是通过计算得到的，因此它会因每一个数据的变化而变化。 2、中位数是通过排序得到的，它不受最大、最小两个极端数值的影响．中位数在一定程度上综合了平均数和中位数的优点，具有比较好的代表性。部分数据的变动对中位数没有影响，当一组数据中的个别数据变动较大时，常用它来描述这组数据的集中趋势。另外，因中位数在一组数据的数值排序中处中间的位置， 3、众数也是数据的一种代表数，反映了一组数据的集中程度．日常生活中诸如“最佳”、“最受欢迎”、“最满意”等，都与众数有关系，它反映了一种最普遍的倾向．二、平均数、中位数和众数它们都有各自的的优缺点．平均数：(1)需要全组所有数据来计算； (2)易受数据中极端数值的影响．中位数：(1)仅需把数据按顺序排列后即可确定； (2)不易受数据中极端数值的影响．众数：(1)通过计数得到； (2)不易受数据中极端数值的影响关于“中位数、众数、平均数”这三个知识点的理解，我简单谈谈自己的认识和理解。 ⒈众数。一组数据中出现次数最多的那个数据，叫做这组数据的众数。 ⒉众数的特点。 ①众数在一组数据中出现的次数最多；②众数反映了一组数据的集中趋势，当众数出现的次数越多，它就越能代表这组数据的整体状况，并且它能比较直观地了解到一组数据的大致情况。但是，当一组数据大小不同，差异又很大时，就很难判断众数的准确值了。此外，当一组数据的那个众数出现的次数不具明显优势时，用它来反映一组数据的典型水平是不大可靠的。 3.众数与平均数的区别。众数表示一组数据中出现次数最多的那个数据；平均数是一组数据中表示平均每份的数量。 4.中位数的概念。一组数据按大小顺序排列，位于最中间的一个数据(当有偶数个数据时，为最中间两个数据的平均数)叫做这组数据的中位数。 5.众数、中位数及平均数的求法。 ①众数由所给数据可直接求出②求中位数时，首先要先排序(从小到大或从大到小)，然后根据数据的个数，当数据为奇数个时，最中间的一个数就是中位数当数据为偶数个时，最中间两个数的平均数就是中位数。③求平均数时，就用各数据的总和除以数据的个数，得数就是这组数据的平均数。 6.中位数与众数的特点。 ⑴中位数是一组数据中唯一的，可能是这组数据中的数据，也可能不是这组数据中的数据； ⑵求中位数时，先将数据有小到大顺序排列，若这组数据是奇数个，则中间的数据是中位数；若这组数据是偶数个时，则中间的两个数据的平均数是中位数； ⑶中位数的单位与数据的单位相同； ⑷众数考察的是一组数据中出现的频数； ⑸众数的大小只与这组数的个别数据有关，它一定是一组数据中的某个数据，其单位与数据的单位相同；（6）众数可能是一个或多个甚至没有；（7）平均数、众数和中位数都是描述一组数据集中趋势的量。 7.平均数、中位数与众数的异同： ⑴平均数、众数和中位数都是描述一组数据集中趋势的量； ⑵平均数、众数和中位数都有单位； ⑶平均数反映一组数据的平均水平，与这组数据中的每个数都有关系，所以最为重要，应用最广； ⑷中位数不受个别偏大或偏小数据的影响； ⑸众数与各组数据出现的频数有关，不受个别数据的影响，有时是我们最为关心的数据。 8.统计量。平均数、众数和中位数都叫统计量，它们在统计中，有着广泛的应用。 9.举手表决法。在生活中，往往会有由多数人来从众多答案中选择一个的情形，一般都利用“举手表决”方式来解决问题。即在统计出所有提议及相应票数的情况下，看各票数的众数是否超过总票数的一半，如果众数超过了总票数的一半，选择的最终答案就是这个众数。如果出现了双众数（两个众数），可对这两个众数采用抓阄、抽签或投掷硬币等办法选出最终的答案。 10.平均数、众数和中位数三种统计数据在生活中的意义。平均数说明的是整体的平均水平；众数说明的是生活中的多数情况；中位数说明的是生活中的中等水平。 11.如何通过平均数、众数和中位数对表面现象到背景材料进行客观分析。在个别的数据过大或过小的情况下，“平均数”代表数据整体水平是有局限性的，也就是说个别极端数据是会对平均数产生较大的影响的，而对众数和中位数的影响则不那么明显。所以，这时要用众数活中位数来代表整体数据更合适。即：如果在一组相差较大的数据中，用中位数或众数作为表示这组数据特征的统计量往往更有意义

R语言-统计学描述性统计

描述定量数据的数值方法：中心趋势度量变异的度量相对位置的度量。

1.中心趋势度量：算数平均中位数众数

1.1 在R中计算平均数的函数 mean( )常规的mean() 函数用法mean(x, trim = 0, na.rm = FALSE, ...) 参数说明： x 对象名称trim 过滤掉异常值，按照距离平均值的远近距离排除，如对象中含有10个数据，排除最高和最低值，trim=0.2na.rm 默认为F 表示是否计入空值实例1：做一个稍微复杂点的操作，用r做数据透视表并把结果转换为matrix ，对行列求和。(仅娱乐，无实用价值)

demo <- mtcars[1:6,] # 调用R自带函数集，并去前6行

toushi <- aggregate(mtcars[,5:6] ,by = list(cyl = mtcars$cyl),sum) # 数据透视表求和

toushi <- as.matrix(toushi) # 将结果的数据框转化成矩阵

#(toushi <- apply(toushi,c(1,2),sum))

(rowSums(toushi)) # 行求和

(colSums(toushi)) # 列求和

toushi <- rbind(toushi,rowSums(toushi)) #将行求和结果并入最后一行

toushi <- cbind(toushi,colSums(toushi)) #将列求和结果并入最后一列

1.2 中位数和众数

对于偏度极大的数据集，中位数能更好的描述数据分布的中心。

很少用众数作为数据数据趋势的度量，只有当对y出现的相对频率感兴趣时，才会考虑到众数。

R实现中位数：