R语言中,和排序相关的常用函数有: order() , sort() , rank() ,一般是对向量进行操作,也可以对数据框的列进行操作。
1. order(..., decreasing = FALSE)
“...” 中可以是一个向量(数值型,字符型,逻辑型, 因子型 均可),也可以是多个向量( 长度必须相同 )
它返回的是排列后(默认是升序)的元素在该向量中所处的位置,即 索引 ,所以返回的不是原来向量的那些数值,而是排序后那些数值所对应的位置。它在常在数据框中运用,可以根据某一列和某几列来调整数据框。
1.1 单个向量
1.2 多个向量(数据框的多列)
上面最左边的一列数值(不是var1这一列)就是 order(df$var1) 生成的,列var1的顺序就是order后的,注意和前面df 的列var1进行比较,还有一点要牢记的就是这种在数据框里的调整,是 整行变动(都按列var1来) 。故而本质上,对于数据框而言, order函数出来的是原始数据框中的行号,行号顺序一变,意味着行号代表的整行跟着变 。
接着再按列var2排序(注意是在列var1已经排好的基础上再按列var2重新排序,即此时列var1里的 非重复值的行顺序不会再变了,只有列var1里有重复值(数值相同的)的行才会变换 ,而且是按照列var2来变换,。如还要按其它列再排,以此类推):
最后再按列var3排序,此时只有列var2中 有重复值的行 (当然这时var1肯定也是重复的)才会变换------这里是含有9的那两行,并且是按照这些重复值对应到列var3的那些行的数值(数值1和2)来变的
总结提升,order()函数中,如果第一个向量(或者说是数据框里你想要根据它来调整的那一列)里没有重复值,那么按照后面的所有向量(不管有多少个)的重排都不会进行(或者说重排的结果不会变),order(vec1,vec2,vec3,...) 返回的行号及其顺序和 order(vec1) 的是一样。
同理,也可以处理对应的行(比如矩阵或是数据框的行)
1.3 factor(因子型向量)
2. sort(x, decreasing = FALSE)
x 只能是 一个 向量(数值型,字符型,逻辑型, 因子型 均可)
返回的是排序后(默认是升序)的那个数值向量( 还是那些数值,只不过是排序过了的 )
3. rank(x, na.last = TRUE)
求秩的函数,x 只能是 一个**向量(数值型,字符型,逻辑型), 该向量一般不会有重复值 ,返回的是该向量中对应元素的“排名”,即元素顺序它不会改变,只是告诉你每个元素在整个向量中的名次(如果要排序(默认是升序)的话)。
如果向量有重复值,出现的结果会有些不太好处理
匹配两个向量,返回的是第一个向量 x中的各个元素在第二个向量 y中所匹配的元素的位置值(索引,下标值),即 返回的是第二个向量的下标值组成的向量 。
注意事项:
1. 返回的下标值向量的长度与第一个向量相等,即 length(x) == length(match(x,y)) 为 TRUE。
2. 第一个向量可以是只有一个元素的向量。
3. 两个向量的长度不一定要相等。
4. 返回的是 x中每个元素在y中的位置,可用来提取y中的元素,没有匹配上的会返回 NA。
拓展用法:
y [match(x, y)] : x中 和y 相同的元素都是哪些,前提是x中的元素在y中都有(即x是y的子集),否则会返回 NA。( 最好是用x[ x %in y] )
y[-match(x, y)] : 找出 y里面有 x里面没有的数值,前提是x中的元素在y中都有(即x是y的子集),否则会报错。
当两个向量类型不一样时, match函数会进行类型转换,然后再匹配。
x %in% y
判断x中的元素是否都在y中,返回的是个长度和 x 一样的逻辑值向量,存在的话返回TRUE,否则返回FALSE。
sum(x %in% y) : 统计 x 中有多少个元素在y中,或者说 x 和 y 有几个相同元素
x[x %in% y] :x中 和y 相同的元素都是哪些
用法:assign(x, value, pos = -1, envir = as.environment(pos), inherits = FALSE, immediate = TRUE)
assign函数在循环时候,给变量赋值。
举例说明:
1、
for (i in 1:(length(rowSeq)-1)){
assign(paste("nginx_server_fields7_", i, sep = ""), nginx_server_fields7[(rowSeq[(i-1)+1]):(rowSeq[i+1]), ])
}
2、
for (i in 1:3){
assign(paste("a", i, sep = ""), i:10)
}
ls()
[1] "a1" "a2" "a3" "i"
>a1
[1] 1 2 3 4 5 6 7 8 9 10
>a2
[1] 2 3 4 5 6 7 8 9 10
>a3
[1] 3 4 5 6 7 8 9 10
1、paste函数可用于字符串连接
用法:paste (..., sep = " ", collapse = NULL),分隔符默认为空格
我们简单举个例子
1)paste("a","b") ##能连接a b
[1] "a b"
paste("a","b","c")
[1] "a b c"
2)设置分隔符paste("a","b",sep="=") ##注意到用等号分隔了
[1] "a=b"
3)连接多个元素paste("a",1:5,sep="") ##会自动每个元素与a相连
[1] "a1""a2""a3""a4""a5"
4)paste("a",1:5,".pdf",sep="") ##比如想批量输出文件名
[1] "a1.pdf""a2.pdf""a3.pdf""a4.pdf""a5.pdf"、
2、collapse参数
谢益辉大佬说这个参数引无数英雄竞折腰啊,大家只会sep
1)paste("a",1,collapse="+") ##注意到了吧,collapse没用上
[1] "a 1"
2)paste(c("a","b","c"),collapse="+") ##这样就很容易理解了,collapse折叠起了元素
[1] "a+b+c"
3)paste("a",1:5,sep="") ##再来更明显的举例
[1] "a1""a2""a3""a4""a5"
4)paste("a",1:5,sep="",collapse="+") ##先在元素间连接,然后折叠
[1] "a1+a2+a3+a4+a5"
3、与paste0函数的区别
paste0函数,默认sep=""是两个函数唯一的区别
paste(c("a","b","c"),1:3)##默认空格符
[1] "a 1""b 2""c 3"
paste(c("a","b","c"),1:3,sep=" ")
[1] "a 1""b 2""c 3"
paste(c("a","b","c"),1:3,sep="")
[1] "a1""b2""c3"
如果两个向量长度不同paste(c("a","b","c"),1:5) ##超出范围后继续从前向后连接
[1] "a 1" "b 2" "c 3" "a 4" "b 5"
paste0(c("a","b","c"),1:3)#默认元素连接为sep=""
[1] "a1""b2""c3"
用法:unlist()函数的作用,就是将list结构的数据du,变zhi成非list的数据,即将list数据变成 字符串向量 或者数字向量的形式
如果是向量的话就直接输出向量
例子:
%in%相当于match()函数的一个缩写。用来判断一个数组或矩阵是否包含在另一个数组或矩阵里。举个例子一目了然:
#首先复制两个变量a和b
>a <- 1:5
>b <- 3:7
>a %in% b #看a的元素是否包含在b中输出结果如下:
[1] FALSE FALSE TRUE TRUE TRUE
用法:apply(x, MARGIN, FUN, ...)
作用:对 矩阵 的行或列使用函数,或者对 数组 的各个维度使用函数
x为数据对象,MARGIN是维度的下标,MARGIN=1表示行,MARGIN=2表示列,FUN是自己指定的任意或自定义函数
注:数据框dataframe也可以使用apply函数,该函数会自动将数据框转化为矩阵,但前提是数据框中各列的数据类型 必须是数值型,否则会报错。
用法:lapply(x,FUN,...)
作用:对列表中的各个元素使用函数
x是格式为列表的数据源,FUN是任意函数。
intersect(data1,data2):交集
union(data1,data2):并集
TCGA里的数据tumor多normal少,想要挑选出配对样本进行差异分析。(并不是说必须挑配对样本才能做哦,直接做也是可以的)
这里使用的数据是TCGA的CHOL表达矩阵。
从TCGA ID里可以找到tumor和normal的分组,统计它们的数量:
配对样本的共同点是病人ID(前12位)一致,根据这个来匹配即可。
先拆分成tumor和normal两个矩阵,根据ID的14和15位来拆
有normal样本的病人的ID ,是normal组样本ID的前12位,也是exp_nor的行名。
然后将tumor矩阵中与patient相匹配的样本名选出来,能匹配到的就会被挑出来。%in%从来都是R语言里的一个神技能: %in%很简单
可以把表达矩阵拼回去咯:
就相当于把表达矩阵按列取子集了,tumor和normal各九个样本,后面可以拿来做配对样本的差异分析哦,例如下面这张图,就是COAD数据配对差异分析得到的差异基因热图。
转录组的差异分析在这里: TCGA(转录组)差异分析三大R包及其结果对比