用R语言把超大文本文件拆分成几个小文本文件

Python014

用R语言把超大文本文件拆分成几个小文本文件,第1张

把要压缩的文件拖入 WinRAR 的窗体

1、然后会跳出一个窗口 默认显示的是『常规』选项卡1

2、在『常规』窗口的左下角有一个『压缩分卷大小,字节(V)』的标签 ,在标签的下拉框选择每个文件的大小。

3、也可以指定大小 1000000 为1MB

4、分割好以后会出现 『文件名+.part01』……的几个文件。请保存好

用R语言作分析时,有时候需要逐行处理非常大文件,各种教材中推荐的read.table 和scan都是一次性读入内存,如果文件有好几个Gb大小,一般电脑肯定吃不消。其实R中可以逐行读取的行数,这里示例一个函数,作为备忘:

con <- file("e:/data.txt", "r")

line=readLines(con,n=1)

while( length(line) != 0 ) {

print(line)

line=readLines(con,n=1)

}

close(con)

如果需要将一行的文字劈成多段,再进行处理,可以用strsplit函数,除此之外,还有一些常用的字符串处理函数,记录如下:

substr(),nchar(), grep(), regexpr(), sub(), gsub()

# R语言 读取大文件fread()

library(data.table)

visitor_sensor<-fread('data_visitor_sensor.csv',header = TRUE)