R语言中的基本函数使用 - 更新中

Python013

R语言中的基本函数使用 - 更新中,第1张

用法:assign(x, value, pos = -1, envir = as.environment(pos),  inherits = FALSE, immediate = TRUE)

assign函数在循环时候,给变量赋值。

举例说明:

1、

for (i in 1:(length(rowSeq)-1)){

  assign(paste("nginx_server_fields7_", i, sep = ""), nginx_server_fields7[(rowSeq[(i-1)+1]):(rowSeq[i+1]), ])

}

2、

for (i in 1:3){

    assign(paste("a", i, sep = ""), i:10)

}

ls()

[1] "a1" "a2" "a3" "i"

>a1

[1]  1  2  3  4  5  6  7  8  9 10

>a2

[1]  2  3  4  5  6  7  8  9 10

>a3

[1] 3  4  5  6  7  8  9 10

1、paste函数可用于字符串连接

用法:paste (..., sep = " ", collapse = NULL),分隔符默认为空格

我们简单举个例子

1)paste("a","b") ##能连接a b

[1] "a b"

paste("a","b","c")

[1] "a b c"

2)设置分隔符paste("a","b",sep="=") ##注意到用等号分隔了

[1] "a=b"

3)连接多个元素paste("a",1:5,sep="") ##会自动每个元素与a相连

[1] "a1""a2""a3""a4""a5"

4)paste("a",1:5,".pdf",sep="") ##比如想批量输出文件名

[1] "a1.pdf""a2.pdf""a3.pdf""a4.pdf""a5.pdf"、

2、collapse参数

谢益辉大佬说这个参数引无数英雄竞折腰啊,大家只会sep

1)paste("a",1,collapse="+") ##注意到了吧,collapse没用上

[1] "a 1"

2)paste(c("a","b","c"),collapse="+") ##这样就很容易理解了,collapse折叠起了元素

[1] "a+b+c"

3)paste("a",1:5,sep="") ##再来更明显的举例

[1] "a1""a2""a3""a4""a5"

4)paste("a",1:5,sep="",collapse="+") ##先在元素间连接,然后折叠

[1] "a1+a2+a3+a4+a5"

3、与paste0函数的区别

paste0函数,默认sep=""是两个函数唯一的区别

paste(c("a","b","c"),1:3)##默认空格符

[1] "a 1""b 2""c 3"

paste(c("a","b","c"),1:3,sep=" ")

[1] "a 1""b 2""c 3"

paste(c("a","b","c"),1:3,sep="")

[1] "a1""b2""c3"

如果两个向量长度不同paste(c("a","b","c"),1:5) ##超出范围后继续从前向后连接

[1] "a 1"  "b 2"  "c 3"  "a 4"  "b 5"

paste0(c("a","b","c"),1:3)#默认元素连接为sep=""

[1] "a1""b2""c3"

用法:unlist()函数的作用,就是将list结构的数据du,变zhi成非list的数据,即将list数据变成 字符串向量 或者数字向量的形式

如果是向量的话就直接输出向量

例子:

%in%相当于match()函数的一个缩写。用来判断一个数组或矩阵是否包含在另一个数组或矩阵里。举个例子一目了然:

#首先复制两个变量a和b

>a <- 1:5

>b <- 3:7

>a %in% b    #看a的元素是否包含在b中输出结果如下:

[1] FALSE FALSE  TRUE  TRUE  TRUE

用法:apply(x, MARGIN, FUN, ...)

作用:对 矩阵 的行或列使用函数,或者对 数组 的各个维度使用函数

x为数据对象,MARGIN是维度的下标,MARGIN=1表示行,MARGIN=2表示列,FUN是自己指定的任意或自定义函数

注:数据框dataframe也可以使用apply函数,该函数会自动将数据框转化为矩阵,但前提是数据框中各列的数据类型 必须是数值型,否则会报错。

用法:lapply(x,FUN,...)

作用:对列表中的各个元素使用函数

x是格式为列表的数据源,FUN是任意函数。

intersect(data1,data2):交集

union(data1,data2):并集

read.table()函数是R最基本函数之一,主要用来读取矩形表格数据。

各参数的说明如下:

(1)file

file是一个带分隔符的ASCII文本文件。

(2)header

一个表示文件是否在第一行包含了变量的逻辑型变量。

如果header设置为TRUE,则要求第一行要比数据列的数量少一列。

(3)sep

分开数据的分隔符。默认sep=""。

read.table()函数可以将1个或多个空格、tab制表符、换行符或回车符作为分隔符。

(4)quote

用于对有特殊字符的字符串划定接线的字符串,默认值是TRUE(")或单引号。(`)

(5)dec

decimal用于指明数据文件中小数的小数点。

(6)numerals

字符串类型。用于指定文件中的数字转换为双精度数据时丢失精度的情况下如何进行转换。

(7) row.names

保存行名的向量。可以使用此参数以 向量的形式 给出每行的实际行名。或者要读取的表中 包含行名称的列序号 列名字符串

在数据文件中有行头且首行的字段名比数据列少一个的情况下,数据文件中第1列将被视为行名称。除此情况外,在没有给定row.names参数时,读取的行名将会自动编号。

可以使用row.names = NULL强制行进行编号。

(8) col.names

指定列名的向量。缺省情况下是又"V"加上列序构成,即V1,V2,V3......

Tip:

rownames、colnames是base包中的行名、列名函数;

而row.names、col.names是read.table函数中的行名、参数

(9)as.is

该参数用于确定read.table()函数读取字符型数据时是否转换为因子型变量。当其取值为FALSE时,该函数将把字符型数据转换为因子型数据,取值为TRUE时,仍将其保留为字符型数据。其取值可以是逻辑值向量(必要时可以循环赋值),数值型向量或字符型向量,以控制哪些列不被转换为因子。

注意:可以通过设置参数 colClasses = "character"来阻止所有列转换为因子,包括数值型的列。

(10)na.strings

可选的用于表示缺失值的字符向量。

na.strings=c("-9","?")把-9和?值在读取数据时候转换成NA

(11)colClasses

用于指定列所属类的字符串向量。

(12)nrows

整型数。用于指定从文件中读取的最大行数。负数或其它无效值将会被忽略。

(13)skip

整型数。读取数据时忽略的行数。

(14)check.names

逻辑值。该参数值设置为TRUE时,数据框中的变量名将会被检查,以确保符在语法上是有效的变量名称。

(15)fill

逻辑值。在没有忽略空白行的情况下(即blank.lines.skip=FLASE),且fill设置为TRUE时,如果数据文件中某行的数据少于其他行,则自动添加空白域。

(16)strip.white

逻辑值,默认为FALSE。此参数只在指定了sep参数时有效。当此参数设置为TRUE时,数据文件中没有包围的字符串域的前边和后边的空格将会被去掉。

(17)blank.lines.skip

逻辑值,此参数值设置为TRUE时,数据文件中的空白行将被忽略。默认值为TRUE。

(18)comment.char

字符型。包含单个字符或空字符的向量。代表注释字符的开始字符。可以使用""关闭注释。

(19)allowEscapes

逻辑值。类似“\n”这种C风格的转义符。如果这种转义符并不是包含在字符串中,该函数可能解释为字段分隔符。

(20)flush

逻辑值。默认值为FALSE。当该参数值设置为TRUE时,则该函数读取完指定列数后将转到下一行。这允许用户在最后一个字段后面添加注释。

(21) stringsAsFactors

逻辑值,标记处字符向量是否需要转化为因子,默认是TRUE。

(22)fileEncoding

字符串类型,指定文件的编码方式。如果指定了该参数,则文本数据按照指定的格式重新编码。

(23)encoding

假定输入字符串的编码方式。

(24)text

字符串类型。当未提供file参数时,则函数可以通过一个文本链接从text中读取数据。

(25)skipNul

逻辑值。是否忽略空值。默认为FALSE。

参考资料1: R语言中read.table()函数用法详解 - 翔宇亭IT乐园

1. 判断存在:一个元素是不是在向量中用 a%in%b

>a="TT"

>b=c("AA","AT","TT")

>a %in% b

[1] TRUE

2. 判断某一元素这向量中的索引(第几个位置): index.TT=which(b==”TT”)

>index.TT=which(b=="TT")#index.TT是想知道的索引号,which是判断函数,b是想知道的元素所在的向量

>index.TT

[1] 3

3. 相当于 python 中的字典, names 函数

>b

[1] "AA" "AT" "TT"

>names(b)=c("geno1","geno2","geno3")#geno mean genotype

>names(b)

[1] "geno1" "geno2" "geno3"

>names(b)[1]

[1] "geno1"

>names(b)[1]="test"

>names(b)

[1] "test""geno2" "geno3"

>names(b)=NULL

>b

[1] "AA" "AT"

>b["geno2"]

"AT"

pop_name=c(“CEU”,"YRI")

names(pop_name)=c(1,2)

names(pop_name[1])=1

4. 去除某一元素: b[-index.nu]

#想去除元素”TT”,如果你不知道是第几个索引,可以先判断索引,再删除。

>b=c("AA","AT","TT")

>names(b)=c("geno1","geno2","geno3")

>index.TT=which(b=="TT")

>b=b[-index.TT]

>b

geno1 geno2

"AA""AT"

5. 相当于 Python 中的 set() 函数 和 count() 函数: unique() , table()

>b=c("TT","AT","AT","TT","AA")

>unique(b)#即相当于去除所有的重复,只保留一个

[1] "TT" "AT" "AA"

>table(b)#以元素为name,统计各元素的个数

b

AA AT TT

122

6. 字符串的分割: strsplit()

>test="AA"

>strsplit(test)

错误于strsplit(test) :缺少参数"split",也没有缺省值

>strsplit(test,split='')

[[1]]

[1] "A" "A"

>test=strsplit(test,split='')[[1]]

>test

[1] "A" "A"

7. 文本文档的写入: write.table()

write.table( res.matrix,file=new.file,sep='\t',quote=F,row.names=F,col.names=F,append=T)#quote=F去掉引号后写入,row.names=F去掉行的名字写入,否则会把名字写进去

##写入数据时候最好把数据存储成一个matrix然后直接写。要是每行每行写的话要注意数据的格式了。先建立一个空的matrix,见8,然后通过rbind或者cbind叠加上去。

方法一:

a=c()

b=c(“AA”,”TT”,”CC”)

for (i in 1:3){

a=c(a,b)

}

write.table(a,file=”test.txt”)#你会发现结果是

AA

TT

CC

….

##而且还有行和列的名字,因为没有设置参数。因为对于c向量来说,写的话默认是竖着写的,每个元素占一行。所以比较方便的就是rbind

方法二:

a=c()

b=c(“AA”,”TT”,”CC”)

for (i in 1:3){

a=rbind(a,b)

}

write.table(a,file=”test.txt”,quote=F,row.names=F,col.names=F)#你会发现结果是

AA TT CC

AA TT CC

AA TT CC

##原因是rbind把最总结果当做矩阵了。对于R数据的写入最好能生成最后的矩阵再写入。但是西面的梅一行写一次和方法二的效果是想通的,但是要用到append参数。

a=c()

b=c(“AA”,”TT”,”CC”)

for (i in 1:3){

a=rbind(a,b)

write.table(a,file=”test.txt”,quote=F,row.names=F,col.names=F,append=T)

}

8. 建立一个空的 matrix :

res.matrix <- matrix( ,nrow=0,ncol=6 )##这样就建立了一个0行6列的空matrix了。

9. 如何将 R 运行结果输出到文件

>x=read.table("F:/my/work/chengxu/PValue/pc2jieguo/pc2302.txt")

>z=t(x)

>ks.test(y,z)

Two-sample Kolmogorov-Smirnov test

data:y and z

D = 0.207, p-value <2.2e-16

alternative hypothesis: two-sided

如上面运行结果,我想将p-value <2.2e-16自动保存到一个文件中,如何用R程序实现,谢谢!

sink("output.txt")

print(ks.test(y,z)$p.value)

sink()

http://cos.name/cn/topic/16300

10 降序排列:

>a=c(1,1.2,0.1,4,5,-0.1)

>a=sort(a,decreasing=T)

>a

[1]5.04.01.21.00.1 -0.1

11. 取前1%的数

>a=c(1:10,4:20,1:100,1:1000)

>a=sort(a,decreasing=T)#先降序

>sig=a[round(length(a)*0.01)]

>sig

[1] 990

12.在shell中直接执行R脚本

R CMD BATCH --argstest.R

13. R中高级作图的方法

http://qizhi502.blog.163.com/blog/static/11497002520120611451736/

14:设置字体类型:

par(family='Times New Roman')

15:控制图形四周的空白大小

par(mfrow=c(3,1),mar=c(0,0,0,0))

其中mar是四周的间距,分别为x,y上下的距离

16控制作图区域的大小layout

layout(c(1,2,3),height=c(1,1,0.5))

分成竖着三份, 其中三份比列依次为(高度依次为2:2:1)

17保留两位小数

round(0.123,digits=2)

18 在原有图的基础上画图:

par(fig=c(0.1,0.5,0.43,0.65), new=TRUE)

19 只显示y轴

plot(1:10,1:10,axes=F)

axis(2,at.....)

20 调节刻度方向 las

plot(1:10,1:10,las=1)

21 屏幕分割

layout(matrix(1:16,4,4))###竖着plot

par(mfrow=c(4,4))##横着plot

22.逻辑表示或者

xor为异或,两值不等为真,两值相等为假。例:xor(0, 1)

23. 从向量中随机取几个数sample

sample(rep(1:1000),10)

23 字符串转换成小数浮点型

as.numeric("0.123")

24. 读取不规范的文本

f=readLines(afile,n=1)#n表示读几行

f=strsplit(f,'\t')##分割

f[1][[1]]##第一行

f[1][[1]][1]##第一行 第一个字符串

25. write 写入文件

write(afile, "a\tb\t",append=T) #沿着每行一次 写入

26. 不需要循环,这直接对matrix没行或者每列进行筛选操作apply()

apply(data,col2 or row1, max>0)

27.保留2位小数

a=2.300

a=as.numeric(sprintf(“%.3f”,a))

28。调出假设检验的p value

t.test(data1,data2)$p.value