R语言文件读取

Python015

R语言文件读取,第1张

参考文章地址(https://zhuanlan.zhihu.com/p/120422644)

逗号分隔文件 (.csv文件)、 制表符分隔文件 (.tsv文件)和 空格分隔文件 (.txt文件)

(一).csv文件的读取

mydata <- read.csv(file=" ", header=T, sep=",", quote="\", dec=".", fill=T, comment.char=" ")

comment.char用于设置需要跳过的内容,比如需要跳过的行前面有“#”,那么设置comment.char=“#”,当然你也可以设置从中间开始读,注意,这个函数是read.csv里面的哦!

file: 以csv结尾的文件名,由文件所在路径及其文件名构成

header:是否把第一行作为表头

sep:分隔方式,csv文件分隔读入参数设置为"."

                               tsv文件分隔读入参数设置为"\t"

                               txt文件分隔为空格,不需要设置sep参数

也可以通过mydata <- read.table("D:/mydata.csv", header=T, sep=",", row.names="id")读取

(二).tsv文件的读取

mydata <- read.table("D:/mydata.tsv", header=T, sep="\t", row.names="id")

除了分隔方式跟上面一样

(三).txt文件的读取

mydata <- read.table("c:/mydata.txt", header=TRUE, row.names="id")

除了分隔方式跟上面一样

(四)以.gz结尾的压缩文件的读取

1.在R中可以使用gzfile()的方式读取压缩文件

2.使用data.table包里的fread()函数

安装并加载data.table包

install.packages("data.table")

library(data.table)

使用fread()函数读取文件,这里参数和之前的一致,唯一的不同就是fread()可以直接读取压缩文件

mydata <- fread(‘c:/mydata.txt.gz’, header=T, row.names=’id’)

(五)读取.xlsx后缀文件,也就是excel文件

1. 安装并加载openxlsx包

install.packages("openxlsx")

library(openxlsx)

2.进行数据的导入

mydata <- read.xlsx( "mydata.xlsx",rowNames=T)

其他参数可以通过? read.xlsx在R中根据需要进行添加的。

在R中,如果我们想要从外界读入文件或写出文件到特定路径该如何操作呢?

读入文件,我们可以用read.table函数;而写出文件,我们可以用write.table函数。

每个参数都有自己的意义,其中比较常用的有header,sep等.

file是我们读入的文件名称;header,设置为T或F,是否把第一行定义为header;sep是设置文件内的分隔符。我们看个例子:

如果大家对具体的参数想要了解,可以输入下面命令,就可以了解这个函数以及里面各个参数的具体用法和含义:

其中比较常用的参数有file,quote,sep,row.names和col.names.

其中file是设置我们输出的文件名,这个是自己定义的。

quote是一个逻辑值,T或者F。如果是T,那么输出的结果文件中的因子或者字符串会有引号;如果是F,输出的结果文件中的因子或者字符串就没有引号。

sep,和read.table中的sep类似,是分隔符,不过是用来设置输出文件是以什么分隔符来分割,比较常用的有空格,",",或者"\t"等。

row.nems和col.names是用来设置是否输出行和列名。

希望这几个例子可以使你了解了write.table的常用用法,如果想更详细的了解,可输以下命令查看:

希望有帮到你。

杀杀

前两天一个同学问了一个批量读数据(文件)的问题

感觉现在分析测序数据的话,在R中一次性读取多个文件的功能还是挺需要用到的

决定总结一下下

总不能写n行read.csv…balabala…去读取,那太麻烦了

于是决定使用批量读数据

首先我们要获取这个文件夹里所有的文件名字以便读取

接下来我们需要构建读文件的路径

ps: 在做这种批量操作时还是有必要先花时间测试一个样本是否能够成功,然后再去做批量的循环,这样也能方便自己找bug

因此我们先试着读取一个文件

这里因为例子中的文件格式比较特殊,所以使用的读取函数是read.delim,如果是.csv或.txt等格式,也可以替换成read.csv, read.table等函数。

好了测试通过,接下来开始批量读文件

需要注意的是,合并文件的时候,需要注意你是要取所有文件中行名的交集还是并集,或者最后你是否有一个统一的行名来规整所有文件。(当然如果你确定每个文件的行名都是相同的,就可以直接cbind),我遇到过需要取交集的情况,可以写一个循环对每个文件的行名做交集,用最终的交集文件去match出所有你要的行然后合并。

但是这个例子中,有的文件的行名是1-4000,有的是5000-8000,存在非常大的差异,而需求是最后整合成一个行名为0-8000的矩阵,因此我先建立一个0-8000的列作为行名,把每个文件和这列进行一个match操作,然后未match到的填充为0。

其实没有很难的部分,主要是需要读取文件夹中的所有文件名,然后循环读取就行了。