【R语言】--- 各类数据的导入

Python012

【R语言】--- 各类数据的导入,第1张

通常情况下,我们会在excel中对数据进行预处理,然后将处理好的数据导入R中进行分析、作图。但随着数据源和数据格式的多样化,将多种数据源和数据格式导入R中进行分析、作图显得尤为必要,因为这对于数据分析、作图是最基础的。

R可导入键盘(利用键盘输入)、文本文件、excel、access、spss、sas等各类数据格式。

利用R中的edit()函数手动输入数据的文本编辑器:

(1)创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致;

(2)针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中。

函数edit()事实上是在对象的一个副本上进行操作的。若不将其赋值到一个目标,则所有修改将会全部丢失!

用read.table()从带分隔符的文本文件中导入数据。此函数可读入一个表格格式的文件并将其保存为一个数据框。

参数sep允许你导入那些使用逗号以外的符号来分隔行内数据的文件。你可以使用sep="\t"读取以制表符分隔的文件。此参数的默认值为sep="",即表示分隔符可为一个或多个空格、制表符、换行符或回车符。

我习惯用readxl包的read_excel()函数进行导入:

SPSS数据集可以通过foreign包中的函数read.spss()导入到R中,也可以使用Hmisc包中的spss.get()函数。

use.value.labels=TRUE表示让函数将带有值标签的变量导入为R中水平对应相同的因子。

R中设计了若干用来导入SAS数据集的函数,包括foreign包中的read.ssd()和Hmisc包中的sas.get()。这里我们使用sas7bdat包的read.sas7bdat()函数进行导入sas数据。

Robert I. Kabacoff (著). R语言实战(高涛/肖楠/陈钢 译). 北京: 人民邮电出版社.

xlsx包不是R语言自带的包,必须额外安装xlsx包的依赖包也得安装,依赖包装好了才能加载xlsx包。

电脑:华为MateBook14

系统:Windows10

软件:1.0R语言、xlsx包

1、首先,导入R语言需要加载xlsx包,没有安装这个包的,请用下面的代码进行在线安装:

install.packages("xlsx"),选择China的任意一个镜像站点,它会自动安装其他所需的依赖包。

2、安装好xlsx包后,接下来导入存放在“C:\Users\HWT\Desktop”路径下的“test.xlsx”文件,导入这个文件的代码如下library(xlsx)

read.xlsx2(file="C:\\Users\\HWT\\Desktop\\test.xlsx",sheetIndex=1)。

3、我们上面的代码只是把test.xlsx导入了R语言,并没有把它赋给R语言里的某个对象,用下面的代码把数据赋给对象Mydata:

Mydata<-read.xlsx2(file="C:\\Users\\HWT\\Desktop\\test.xlsx",sheetIndex=1)。

4、那么如何查看Mydata里面的数据呢?只需要输入“Mydata”即可。

5、接下来教大家导入xls格式的数据,其实这个很简单,只要把前面代码的xlsx改为xls就可以了,

read.xlsx2(file="C:\\Users\\HWT\\Desktop\\test.xls",sheetIndex=1)。

1.R数据的保存与加载

可通过save()函数保存为.Rdata文件,通过load()函数将数据加载到R中。

[ruby] view plain copy

> a <- 1:10

> save(a,file='d://data//dumData.Rdata')

> rm(a)   #将对象a从R中删除

> load('d://data//dumData.Rdata')

> print(a)

[1]  1  2  3  4  5  6  7  8  9 10

2.CSV文件的导入与导出

下面创建df1的数据框,通过函数write.csv()保存为一个.csv文件,然后通过read.csv()将df1加载到数据框df2中。

[ruby] view plain copy

> var1 <- 1:5

> var2 <- (1:5)/10

> var3 <- c("R and","Data Mining","Examples","Case","Studies")

> df1 <- data.frame(var1,var2,var3)

> names(df1) <- c("VariableInt","VariableReal","VariableChar")

> write.csv(df1,"d://data//dummmyData.csv",row.names = FALSE)

> df2 <- read.csv("d://data//dummmyData.csv")

> print(df2)

VariableInt VariableReal VariableChar

1           1          0.1        R and

2           2          0.2  Data Mining

3           3          0.3     Examples

4           4          0.4         Case

5           5          0.5      Studies

3.通过ODBC导入与导出数据

RODBC提供了ODBC数据库的连接。

3.1从数据库中读取数据

odbcConnect()建立一个数据库连接,sqlQuery()向数据库发送一个SQL查询,odbcClose()关闭数据库连接。

[ruby] view plain copy

library(RODBC)

connection <- odbcConnect(dsn="servername",uid="userid",pwd="******")

query <- "SELECT * FROM lib.table WHERE ..."

# or read query from file

# query <- readChar("data/myQuery.sql", nchars=99999)

myData <- sqlQuery(connection, query, errors = TRUE)

odbcClose(connection)

sqlSave()和sqlUpdate()用于写入或更新一个ODBC数据库表。

3.2从Excel文件中导入与导出数据

[ruby] view plain copy

library("RODBC")

conn<-odbcConnectExcel("D:/data/Amtrak.xls")

Amtrak<-sqlFetch(conn,"Data")

close(conn)