R语言 -- fread() 函数快速读取大表格

Python028

R语言 -- fread() 函数快速读取大表格,第1张

平时读取一个表格文件通常使用 read.table 函数,但当遇到上百M或上G的文件时,就读的非常慢了。

有个函数 fread() ,来自 data.table 包,可以更快地读取表格文件,速度可以快 近十倍

比如现在有个基因组注释文件 Homo_sapiens.GRCh37.87.gtf ,大小为1.1G,分别使用 read.table() 和 fread() 读取所用的时间分别为:

时间分别为30s 和 4s !

而且对于很大的表格,fread()还会提供读取进度条,非常滴友好~

参考文章地址(https://zhuanlan.zhihu.com/p/120422644)

逗号分隔文件 (.csv文件)、 制表符分隔文件 (.tsv文件)和 空格分隔文件 (.txt文件)

(一).csv文件的读取

mydata <- read.csv(file=" ", header=T, sep=",", quote="\", dec=".", fill=T, comment.char=" ")

comment.char用于设置需要跳过的内容,比如需要跳过的行前面有“#”,那么设置comment.char=“#”,当然你也可以设置从中间开始读,注意,这个函数是read.csv里面的哦!

file: 以csv结尾的文件名,由文件所在路径及其文件名构成

header:是否把第一行作为表头

sep:分隔方式,csv文件分隔读入参数设置为"."

                               tsv文件分隔读入参数设置为"\t"

                               txt文件分隔为空格,不需要设置sep参数

也可以通过mydata <- read.table("D:/mydata.csv", header=T, sep=",", row.names="id")读取

(二).tsv文件的读取

mydata <- read.table("D:/mydata.tsv", header=T, sep="\t", row.names="id")

除了分隔方式跟上面一样

(三).txt文件的读取

mydata <- read.table("c:/mydata.txt", header=TRUE, row.names="id")

除了分隔方式跟上面一样

(四)以.gz结尾的压缩文件的读取

1.在R中可以使用gzfile()的方式读取压缩文件

2.使用data.table包里的fread()函数

安装并加载data.table包

install.packages("data.table")

library(data.table)

使用fread()函数读取文件,这里参数和之前的一致,唯一的不同就是fread()可以直接读取压缩文件

mydata <- fread(‘c:/mydata.txt.gz’, header=T, row.names=’id’)

(五)读取.xlsx后缀文件,也就是excel文件

1. 安装并加载openxlsx包

install.packages("openxlsx")

library(openxlsx)

2.进行数据的导入

mydata <- read.xlsx( "mydata.xlsx",rowNames=T)

其他参数可以通过? read.xlsx在R中根据需要进行添加的。