在r语言中怎样在数据框中添加新列

Python012

在r语言中怎样在数据框中添加新列,第1张

r语言中添加新列的方法:

假设你数据是data,那么前几列的和是rowSums(data);

然后你可以重新做一个dataframe

data_new<-data.frame(data,sum=rowSums(data))

R语言Data Frame数据框常用操作:

Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。

Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。

使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个student的Data Frame其中包含ID和Name还有Gender以及Birthdate,那么代码为:

student<-data.frame(ID=c(11,12,13),Name=c("Devin","Edward","Wenli"),Gender=c("M","M","F"),Birthdate=c("1984-12-29","1983-5-6","1986-8-8”))

另外也可以使用read.table() read.csv()读取一个文本文件,返回的也是一个Data Frame对象。读取数据库也是返回Data Frame对象。

查看student的内容为:

ID   Name Gender  Birthdate

1   11  Devin       M 1984-12-29

2   12 Edward     M   1983-5-6

3   13  Wenli       F   1986-8-8

这里只指定了列名为ID,Name,Gender和Birthdate,使用names函数可以查看列名,如果要查看行名,需要用到row.names函数。这里我们希望将ID作为行名,那么可以这样写:

row.names(student)<-student$ID

最简单的方法,数据框的名称,加上你要提取的列数,示例如下:

需要注意的是,如果只提取单列的话,得到的数据就变成了一个vector,而不再是dataframe的格式了。

首先,导入R语言需要加载xlsx包,没有安装这个包的,请用下面的代码进行在线安装:

install.packages("xlsx")选择China的任意一个镜像站点,它会自动安装其他所需的依赖包。

安装好xlsx包后,接下来导入存放在“C:\Users\HWT\Desktop”路径下的“test.xlsx”文件,导入这个文件的代码如下:

library(xlsx)

read.xlsx2(file="C:\\Users\\HWT\\Desktop\\test.xlsx",sheetIndex=1)

我们上面的代码只是把test.xlsx导入了R语言,并没有把它赋给R语言里的某个对象,用下面的代码把数据赋给对象Mydata:

Mydata-read.xlsx2(file="C:\\Users\\HWT\\Desktop\\test.xlsx",sheetIndex=1)。

数据准备

R函数的诸多有趣特性之一,就是它们可以应用到一系列的数据对象上,包括标量、向量、矩阵、数组和数据框。

R中提供了一个apply()函数,可将一个任意函数“应用”到矩阵、数组、数据框的任何维度上。

apply(x, MARGIN, FUN, ..., simplify = TRUE)

其中,x为数据对象,可以是数组、矩阵、数据框,数据至少是二维的,MARGIN是维度的下标,MARGIN=1表示行,MARGIN=2表示列。FUN是自定义调用的函数,可为任意R函数,而...则包括了任何想传递给FUN的参数。

apply函数只能用于处理矩阵类型的数据,也就是说所有的数据必须是同一类型。因此要使用apply函数的话,需要将数据类型转换成矩阵类型。

lapply(x, FUN)

lapply函数将函数应用于输入变量x的每一个元素,返回一个与x长度相同的列表。x可以是列表,向量或数据框。

sapply(x, FUN)

x可以是列表,矩阵或数据框,以向量或矩阵形式输出结果。执行的功能与lapply函数相同。

tapply(X, INDEX, FUN = NULL)

tapply用于数据框类型的数据,可以按因子变量分组计算统计量。X可以是数组、矩阵、数据框等分割型数据向量,INDEX是一个或多个因子的列表,每个因子的长度都与x相同,FUN为自定义的调用函数。 53

参考资料: