R语言的排序函数(order, sort, rank)及匹配函数（match,%in%)用法详解

2023-03-05 13:17:02Python08

R语言的排序函数(order, sort, rank)及匹配函数（match,%in%)用法详解,第1张

R语言中，和排序相关的常用函数有： order() ， sort() ， rank() ，一般是对向量进行操作，也可以对数据框的列进行操作。

1. order(..., decreasing = FALSE)

“...” 中可以是一个向量（数值型，字符型，逻辑型， 因子型 均可），也可以是多个向量（ 长度必须相同 ）

它返回的是排列后（默认是升序）的元素在该向量中所处的位置，即索引，所以返回的不是原来向量的那些数值，而是排序后那些数值所对应的位置。它在常在数据框中运用，可以根据某一列和某几列来调整数据框。

1.1 单个向量

1.2 多个向量（数据框的多列）

上面最左边的一列数值（不是var1这一列）就是 order(df$var1) 生成的，列var1的顺序就是order后的，注意和前面df 的列var1进行比较，还有一点要牢记的就是这种在数据框里的调整，是 整行变动(都按列var1来) 。故而本质上，对于数据框而言， order函数出来的是原始数据框中的行号，行号顺序一变，意味着行号代表的整行跟着变 。

接着再按列var2排序（注意是在列var1已经排好的基础上再按列var2重新排序，即此时列var1里的 非重复值的行顺序不会再变了，只有列var1里有重复值（数值相同的）的行才会变换 ，而且是按照列var2来变换，。如还要按其它列再排，以此类推）：

最后再按列var3排序，此时只有列var2中 有重复值的行 （当然这时var1肯定也是重复的）才会变换------这里是含有9的那两行，并且是按照这些重复值对应到列var3的那些行的数值（数值1和2）来变的

总结提升，order()函数中，如果第一个向量（或者说是数据框里你想要根据它来调整的那一列）里没有重复值，那么按照后面的所有向量（不管有多少个）的重排都不会进行（或者说重排的结果不会变），order(vec1,vec2,vec3,...) 返回的行号及其顺序和 order(vec1) 的是一样。

同理，也可以处理对应的行（比如矩阵或是数据框的行）

1.3 factor（因子型向量）

2. sort(x, decreasing = FALSE)

x 只能是一个向量（数值型，字符型，逻辑型， 因子型 均可）

返回的是排序后（默认是升序）的那个数值向量（ 还是那些数值，只不过是排序过了的 ）

3. rank(x, na.last = TRUE)

求秩的函数，x 只能是 一个**向量（数值型，字符型，逻辑型）， 该向量一般不会有重复值 ，返回的是该向量中对应元素的“排名”，即元素顺序它不会改变，只是告诉你每个元素在整个向量中的名次（如果要排序（默认是升序）的话）。

如果向量有重复值，出现的结果会有些不太好处理

匹配两个向量，返回的是第一个向量 x中的各个元素在第二个向量 y中所匹配的元素的位置值（索引，下标值），即 返回的是第二个向量的下标值组成的向量 。

注意事项：

1. 返回的下标值向量的长度与第一个向量相等，即 length(x) == length(match(x,y)) 为 TRUE。

2. 第一个向量可以是只有一个元素的向量。

3. 两个向量的长度不一定要相等。

4. 返回的是 x中每个元素在y中的位置，可用来提取y中的元素，没有匹配上的会返回 NA。

拓展用法：

y [match(x, y)] ： x中和y 相同的元素都是哪些，前提是x中的元素在y中都有（即x是y的子集），否则会返回 NA。（ 最好是用x[ x %in y] ）

y[-match(x, y)] ：找出 y里面有 x里面没有的数值，前提是x中的元素在y中都有（即x是y的子集），否则会报错。

当两个向量类型不一样时, match函数会进行类型转换，然后再匹配。

x %in% y

判断x中的元素是否都在y中，返回的是个长度和 x 一样的逻辑值向量，存在的话返回TRUE，否则返回FALSE。

sum(x %in% y) ：统计 x 中有多少个元素在y中，或者说 x 和 y 有几个相同元素

x[x %in% y] ：x中和y 相同的元素都是哪些

用法：assign(x, value, pos = -1, envir = as.environment(pos), inherits = FALSE, immediate = TRUE)

assign函数在循环时候，给变量赋值。

举例说明：

1、

for (i in 1:(length(rowSeq)-1)){

assign(paste("nginx_server_fields7_", i, sep = ""), nginx_server_fields7[(rowSeq[(i-1)+1]):(rowSeq[i+1]), ])

}

2、

for (i in 1:3){

assign(paste("a", i, sep = ""), i:10)

}

ls()

[1] "a1" "a2" "a3" "i"

>a1

[1] 1 2 3 4 5 6 7 8 9 10

>a2

[1] 2 3 4 5 6 7 8 9 10

>a3

[1] 3 4 5 6 7 8 9 10

1、paste函数可用于字符串连接

用法：paste (..., sep = " ", collapse = NULL)，分隔符默认为空格

我们简单举个例子

1）paste("a","b") ##能连接a b

[1] "a b"

paste("a","b","c")

[1] "a b c"

2）设置分隔符paste("a","b",sep="=") ##注意到用等号分隔了

[1] "a=b"

3）连接多个元素paste("a",1:5,sep="") ##会自动每个元素与a相连

[1] "a1""a2""a3""a4""a5"

4）paste("a",1:5,".pdf",sep="") ##比如想批量输出文件名

[1] "a1.pdf""a2.pdf""a3.pdf""a4.pdf""a5.pdf"、

2、collapse参数

谢益辉大佬说这个参数引无数英雄竞折腰啊，大家只会sep

1）paste("a",1,collapse="+") ##注意到了吧，collapse没用上

[1] "a 1"

2）paste(c("a","b","c"),collapse="+") ##这样就很容易理解了，collapse折叠起了元素

[1] "a+b+c"

3）paste("a",1:5,sep="") ##再来更明显的举例

[1] "a1""a2""a3""a4""a5"

4）paste("a",1:5,sep="",collapse="+") ##先在元素间连接，然后折叠

[1] "a1+a2+a3+a4+a5"

3、与paste0函数的区别

paste0函数，默认sep=""是两个函数唯一的区别

paste(c("a","b","c"),1:3)##默认空格符

[1] "a 1""b 2""c 3"

paste(c("a","b","c"),1:3,sep=" ")

[1] "a 1""b 2""c 3"

paste(c("a","b","c"),1:3,sep="")

[1] "a1""b2""c3"

如果两个向量长度不同paste(c("a","b","c"),1:5) ##超出范围后继续从前向后连接

[1] "a 1" "b 2" "c 3" "a 4" "b 5"

paste0(c("a","b","c"),1:3)#默认元素连接为sep=""

[1] "a1""b2""c3"

用法：unlist()函数的作用，就是将list结构的数据du，变zhi成非list的数据，即将list数据变成字符串向量或者数字向量的形式

如果是向量的话就直接输出向量

例子：

%in%相当于match()函数的一个缩写。用来判断一个数组或矩阵是否包含在另一个数组或矩阵里。举个例子一目了然：

#首先复制两个变量a和b

>a <- 1:5

>b <- 3:7

>a %in% b #看a的元素是否包含在b中输出结果如下：

[1] FALSE FALSE TRUE TRUE TRUE

用法：apply(x, MARGIN, FUN, ...)

作用：对矩阵的行或列使用函数，或者对数组的各个维度使用函数

x为数据对象，MARGIN是维度的下标，MARGIN=1表示行，MARGIN=2表示列，FUN是自己指定的任意或自定义函数

注：数据框dataframe也可以使用apply函数，该函数会自动将数据框转化为矩阵，但前提是数据框中各列的数据类型必须是数值型，否则会报错。

用法：lapply(x,FUN,...)

作用：对列表中的各个元素使用函数

x是格式为列表的数据源，FUN是任意函数。

intersect(data1，data2)：交集

union(data1，data2)：并集

TCGA里的数据tumor多normal少，想要挑选出配对样本进行差异分析。（并不是说必须挑配对样本才能做哦，直接做也是可以的）

这里使用的数据是TCGA的CHOL表达矩阵。

从TCGA ID里可以找到tumor和normal的分组，统计它们的数量：

配对样本的共同点是病人ID（前12位）一致，根据这个来匹配即可。

先拆分成tumor和normal两个矩阵，根据ID的14和15位来拆

有normal样本的病人的ID ，是normal组样本ID的前12位，也是exp_nor的行名。

然后将tumor矩阵中与patient相匹配的样本名选出来，能匹配到的就会被挑出来。%in%从来都是R语言里的一个神技能： %in%很简单

可以把表达矩阵拼回去咯：

就相当于把表达矩阵按列取子集了，tumor和normal各九个样本，后面可以拿来做配对样本的差异分析哦，例如下面这张图，就是COAD数据配对差异分析得到的差异基因热图。

转录组的差异分析在这里： TCGA（转录组）差异分析三大R包及其结果对比

向量函数元素的是数值

# 上一篇：如何在js中调用php?

# 下一篇：中秋节手抄报模板视频

推荐阅读

热门文章

最新发布

标签列表

R语言的排序函数(order, sort, rank)及匹配函数（match,%in%)用法详解

给您推荐相同类型的内容：