R语言读数据

Python017

R语言读数据,第1张

杀杀

记录一些R语言读入数据的方法还有可能遇到的问题~

读入数据时,需要先了解数据文件的类型(也就是看后缀)。一般就能够知道数据的类型和分隔符等信息。

另外,如果能够用excel预览一下数据的话,可以先看看数据是否有行列名。有些数据会有两列的行名,如基因名-基因id-表达值······,特殊的数据需要额外的处理。

还需要注意一下matrix和data.frame的数据结构,matrix中只能有一种数据类型,这意味着如果在读入数据时不进行合适的处理,R会将数值强行读成字符型,造成读数据的错误。

当用excel存储过之后,再用R处理时,会提示你行名重复,其实根本没有重复。因此建议不要用excel保存这种数据,一定要编辑可以使用notepad++或者ultra edit等软件。

-----正题分割线-----

read.xx的函数是R的内置函数,可以直接读取,并且设置一些参数

这些函数读取后都默认为data.frame,如果需要矩阵请使用as.matrix转换。

一定要赋值,不然R语言会把大大的矩阵print出来。

如果是没怎么见过的类型:

这个函数会自动识别你的分隔符,并且把第一行设为列名,但是没办法指定行名,需要读入以后自己设置

跟read.delim类似,可以读各种类型的文件以及非常大的文件:

读取后默认是一种data.table的数据类型,需要通过as.matrix/as.data.frame转换后使用。

像perl语言一样,逐行读取数据具有很大的优势

(万一文件超多行对吧)对于那种几个G的文件,全部读进来可能会导致你的电脑死机,所以我们可以先读几百行进来看看,或者分批读取,这样不会占用电脑太大内存,读取方法和上文的一次性读入有所不同-随便找个文件举例:

接下来继续读入数据,比如说我现在想读4行,因为文件是txt类型,所以分隔设为\t

第一种:把excel中所有sheet的表格读入为data.frame,并分别命名为每个sheet的名称

---请忽略硬核打码

第二种:把excel中所有sheet的表格读入为矩阵,并放进一个list中

R语言批量读文件

批量读excel的xlsx文件原理是和读其它文件一样的。

学到了新的会持续更新哟~

参考文章地址(https://zhuanlan.zhihu.com/p/120422644) 逗号分隔文件 (.csv文件)、 制表符分隔文件 (.tsv文件)和 空格分隔文件 (.txt文件) (一).csv文件的读取 mydata <- read.csv(file=" ", header=T, sep=",", quote="\", dec=".", fill=T, comment.char=" ") comment.char用于设置需要跳过的内容,比如需要跳过的行前面有“#”,那么设置comment.char=“#”,当然你也可以设置从中间开始读,注意,这个函数是read.csv里面的哦! file: 以csv结尾的文件名,由文件所在路径及其文件名构成 header:是否把第一行作为表头 sep:分隔方式,csv文件分隔读入参数设置为"."                                tsv文件分隔读入参数设置为"\t"                                txt文件分隔为空格,不需要设置sep参数 也可以通过mydata <- read.table("D:/mydata.csv", header=T, sep=",", row.names="id")读取 (二).tsv文件的读取 mydata <- read.table("D:/mydata.tsv", header=T, sep="\t", row.names="id") 除了分隔方式跟上面一样 (三).txt文件的读取 mydata <- read.table("c:/mydata.txt", header=TRUE, row.names="id") 除了分隔方式跟上面一样 (四)以.gz结尾的压缩文件的读取 1.在R中可以使用gzfile()的方式读取压缩文件 2.使用data.table包里的fread()函数 安装并加载data.table包 install.packages("data.table") library(data.table) 使用fread()函数读取文件,这里参数和之前的一致,唯一的不同就是fread()可以直接读取压缩文件 mydata <- fread(‘c:/mydata.txt.gz’, header=T, row.names=’id’) (五)读取.xlsx后缀文件,也就是excel文件 1. 安装并加载openxlsx包 install.packages("openxlsx") library(openxlsx) 2.进行数据的导入 mydata <- read.xlsx( "mydata.xlsx",rowNames=T) 其他参数可以通过? read.xlsx在R中根据需要进行添加的。