逗号分隔文件 (.csv文件)、 制表符分隔文件 (.tsv文件)和 空格分隔文件 (.txt文件)
(一).csv文件的读取
mydata <- read.csv(file=" ", header=T, sep=",", quote="\", dec=".", fill=T, comment.char=" ")
comment.char用于设置需要跳过的内容,比如需要跳过的行前面有“#”,那么设置comment.char=“#”,当然你也可以设置从中间开始读,注意,这个函数是read.csv里面的哦!
file: 以csv结尾的文件名,由文件所在路径及其文件名构成
header:是否把第一行作为表头
sep:分隔方式,csv文件分隔读入参数设置为"."
tsv文件分隔读入参数设置为"\t"
txt文件分隔为空格,不需要设置sep参数
也可以通过mydata <- read.table("D:/mydata.csv", header=T, sep=",", row.names="id")读取
(二).tsv文件的读取
mydata <- read.table("D:/mydata.tsv", header=T, sep="\t", row.names="id")
除了分隔方式跟上面一样
(三).txt文件的读取
mydata <- read.table("c:/mydata.txt", header=TRUE, row.names="id")
除了分隔方式跟上面一样
(四)以.gz结尾的压缩文件的读取
1.在R中可以使用gzfile()的方式读取压缩文件
2.使用data.table包里的fread()函数
安装并加载data.table包
install.packages("data.table")
library(data.table)
使用fread()函数读取文件,这里参数和之前的一致,唯一的不同就是fread()可以直接读取压缩文件
mydata <- fread(‘c:/mydata.txt.gz’, header=T, row.names=’id’)
(五)读取.xlsx后缀文件,也就是excel文件
1. 安装并加载openxlsx包
install.packages("openxlsx")
library(openxlsx)
2.进行数据的导入
mydata <- read.xlsx( "mydata.xlsx",rowNames=T)
其他参数可以通过? read.xlsx在R中根据需要进行添加的。
R语言是常用的数据处理语言,对于读取文本文件,很多时候如果对文本进行压缩,会节省很多空间,那么对于压缩的文本文件,能够直接在R中不解压,而直接读取其中的文本呢?
R的基础包中就有专门处理这些的命令,包括函数 gzfile , bzfile , xzfile 和 unz 等,能够处理常见的 gzip 、 bgzip 、 bgzip2 , zip 等压缩格式的文本。
R语言如何从外部读取数据到R中R语言可以从键盘,文本,excel,access,数据库,专业处理软件sas
一、使用键盘的输入
mydata<-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))
mydata<-edit(mydata)
二、读入带有分隔符文本格式的数据
data<-read.table(文件,header=true/false,sep="delimeter",row.names=列名)
其中文件可以有很多选项的
file()gzfile(),bzfile(),等一些压缩文件以及url(http://,ftp://,smtp://)
例子:
默认的时候,字符串会自动使用factor转化为数值型
data<-read.table("student.csv",header=TRUE,sep=",",row.names="studentid",stringsAsFactors=FALSE)
三、将xls文件导入到R中
(1)将xls变成csv的格式导入
(2)在Windows系统中,你也可以使用RODBC包来访问Excel文件。
library(RODBC)
channel <- odbcConnectExcel("student.xls")
mydataframe<-sqlFetch(channel,"Sheet1")
odbcClose(channel)
四、抓取网页并且提取信息
五、导入spss数据
library(Hmisc)
mydata<-spss.get("mydata.sav",use.value.labels=TRUE)
六、导入SAS数据
将sas格式的数据转换为csv格式的数据 然后用read.table()形式导入
七、导入关系型数据库的数据
R中有多种面向关系型数据库管理系统(DBMS)的接口,包括Microsoft SQL Server、Microsoft Access、MySQL、Oracle、PostgreSQL、DB2、Sybase、Teradata以及SQLite。其中一些包通过原生的数据库驱动来提供访问功能,另一些则是通过ODBC或JDBC来实现访问的。
(1)使用ODBC的方式导入数据