R语言排序函数

Python023

R语言排序函数,第1张

sort()是对向量进行从小到大的排序

rank()返回的是对向量中每个数值对应的秩

order()返回的值表示位置,依次对应的是向量的最小值、次小值、第三小值......最大值

rank() sort() order() 和 reorder()

data<=c(2,3,6,1)

reorder()函数在ggplot2中见过:

x = reorder(Var1, -Freq) Var1是分类变量,Freq是数值型变量

help(recorder) 的结果:

Reorder Levels of a Factor

Description

reorder is a generic function. The "default" method treats its first argument as a categorical variable, and reorders its levels based on the values of a second variable, usually numeric.

Usage

reorder(x, ...)

Default S3 method:

reorder(x, X, FUN = mean, ...,

order = is.ordered(x))

R语言中,和排序相关的常用函数有: order() sort() rank() ,一般是对向量进行操作,也可以对数据框的列进行操作。

1. order(..., decreasing = FALSE)

“...” 中可以是一个向量(数值型,字符型,逻辑型, 因子型 均可),也可以是多个向量( 长度必须相同

它返回的是排列后(默认是升序)的元素在该向量中所处的位置,即 索引 ,所以返回的不是原来向量的那些数值,而是排序后那些数值所对应的位置。它在常在数据框中运用,可以根据某一列和某几列来调整数据框。

1.1 单个向量

1.2 多个向量(数据框的多列)

上面最左边的一列数值(不是var1这一列)就是 order(df$var1) 生成的,列var1的顺序就是order后的,注意和前面df 的列var1进行比较,还有一点要牢记的就是这种在数据框里的调整,是 整行变动(都按列var1来) 。故而本质上,对于数据框而言, order函数出来的是原始数据框中的行号,行号顺序一变,意味着行号代表的整行跟着变

接着再按列var2排序(注意是在列var1已经排好的基础上再按列var2重新排序,即此时列var1里的 非重复值的行顺序不会再变了,只有列var1里有重复值(数值相同的)的行才会变换 ,而且是按照列var2来变换,。如还要按其它列再排,以此类推):

最后再按列var3排序,此时只有列var2中 有重复值的行 (当然这时var1肯定也是重复的)才会变换------这里是含有9的那两行,并且是按照这些重复值对应到列var3的那些行的数值(数值1和2)来变的

总结提升,order()函数中,如果第一个向量(或者说是数据框里你想要根据它来调整的那一列)里没有重复值,那么按照后面的所有向量(不管有多少个)的重排都不会进行(或者说重排的结果不会变),order(vec1,vec2,vec3,...) 返回的行号及其顺序和 order(vec1) 的是一样。

同理,也可以处理对应的行(比如矩阵或是数据框的行)

1.3 factor(因子型向量)

2. sort(x, decreasing = FALSE)

x 只能是 一个 向量(数值型,字符型,逻辑型, 因子型 均可)

返回的是排序后(默认是升序)的那个数值向量( 还是那些数值,只不过是排序过了的

3. rank(x, na.last = TRUE)

求秩的函数,x 只能是 一个**向量(数值型,字符型,逻辑型), 该向量一般不会有重复值 ,返回的是该向量中对应元素的“排名”,即元素顺序它不会改变,只是告诉你每个元素在整个向量中的名次(如果要排序(默认是升序)的话)。

如果向量有重复值,出现的结果会有些不太好处理

匹配两个向量,返回的是第一个向量 x中的各个元素在第二个向量 y中所匹配的元素的位置值(索引,下标值),即 返回的是第二个向量的下标值组成的向量

注意事项:

1. 返回的下标值向量的长度与第一个向量相等,即 length(x) == length(match(x,y)) 为 TRUE。

2. 第一个向量可以是只有一个元素的向量。

3. 两个向量的长度不一定要相等。

4. 返回的是 x中每个元素在y中的位置,可用来提取y中的元素,没有匹配上的会返回 NA。

拓展用法:

y [match(x, y)] : x中 和y 相同的元素都是哪些,前提是x中的元素在y中都有(即x是y的子集),否则会返回 NA。( 最好是用x[ x %in y]

y[-match(x, y)] : 找出 y里面有 x里面没有的数值,前提是x中的元素在y中都有(即x是y的子集),否则会报错。

当两个向量类型不一样时, match函数会进行类型转换,然后再匹配。

x %in% y

判断x中的元素是否都在y中,返回的是个长度和 x 一样的逻辑值向量,存在的话返回TRUE,否则返回FALSE。

sum(x %in% y) : 统计 x 中有多少个元素在y中,或者说 x 和 y 有几个相同元素

x[x %in% y] :x中 和y 相同的元素都是哪些

R语言中排序有几个基本函数:sort()、rank()、order()、arrange()

一、总结

sort()函数是对向量进行从小到大的排序

rank()函数返回的是对向量中每个数值对应的秩

order()函数返回的值表示位置,依次对应的是向量的最小值、次小值、第三小值……最大值等(位置索引)

arrange()函数(需加载dplyr包)针对数据框,返回基于某列排序后的数据框,方便多重依据排序

二、具体用法

1.sort

2.order

(1) rank 函数是对一维度数组、向量x 进行排序。若x 为数值,则按照从小到大的原则进行排序。

P.S. 实际情况中,存在大量用二维表格描述的数据,比如行表示地点列表示时间的统计表,若进行排序,应先通过字符拼接的手段将表格转化为一维的向量,否则结果将失去意义。

(2) rank 将数据分为确定值与缺失值两种。缺失值可按先后排在确定值之间(na.last = FALSE), 也可排在之后(na.last = TRUE), 也可保留,不参与排序(na.last = "keep")。

(3) "first" 是最基本的排序,小数在前大数在后,相同元素先者在前后者在后。

"max" 是相同元素都取该组中最好的水平,即通常所讲的并列排序。

"min" 是相同元素都取该组中最差的水平,可以增大序列的等级差异。

"average" 是相同元素都取该组中的平均水平,该水平可能是个小数。

"random" 是相同元素随机编排次序,避免了“先到先得”,“权重”优于“先后顺序”的机制增大了随机的程度。