R语言----按照列的信息对行分组

Python010

R语言----按照列的信息对行分组,第1张

R语言使用技巧

当你要对按照数据框某一列的信息对文件进行分组时

1. 可以使用split函数

2. 可以使用group_by() 函数,但是这个函数不能方便你接下来对每个小的group进行更为复杂的操作。

3. group_split() 函数

4. group_nest() 函数以及nest()函数

具体参数可参考:

https://www.jianshu.com/p/2efbf6632dc6

group_list()可以把大的数据框按照某一列切分为小的数据框,这些小的数据框再组成一个list

参考: https://mp.weixin.qq.com/s/XGb3P6SY2UlZMgun_etFmg

nest()函数可以创建嵌套数据框,将多列多行组成一个列表,而这个列表单独成为一列,称为列表列。

nest() 函数有两种使用方式。当用于分组数据框时,nest() 函数会保留用于分组的列,而将其他所有数据归并到列表列中。

还可以在未分组数据框上使用nest(),此时需要指定嵌套哪些列。

使用这些函数时,要清楚输入输出的格式是什么,怎么样取值才能得到想要的格式,是使用appply还是lapply,以及map要根据实际情况来定。

实际工作中,数据集很少是完整的,许多情况下样本中都会包括若干缺失值NA,这在进行数据分析和挖掘时比较麻烦。R语言通过na.fail和na.omit函数可以很好地处理样本中的缺失值。这两个函数的说明如表2-4所示。

表2-4 na.fail和na.omit函数说明

函数 说明

na.fail na.fail(<向量a>) 如果向量a内包括至少1个NA,则返回错误;

如果不包括任何NA,则返回原有向量a

na.omit na.omit(<向量a>) 返回删除NA后的向量a

attr( na.omit(<向量a>) ,"na.action") 返回向量a中元素为NA的下标

下面来看如下相关示例:

data<-c(1,2,NA,2,4,2,10,NA,9)

data.na.omit<-na.omit(data)

data.na.omit

[1] 1 2 2 4 2 10 9

attr(,"na.action")

[1] 3 8

attr(,"class")

[1] "omit"

attr(data.na.omit,"na.action")

[1] 3 8

attr(,"class")

[1] "omit"

其中,函数na.fail和 na.omit 不仅可以应用于向量,也可以应用于矩阵和数据框。另外还可以使用!x方式方便地删除NA。例如:

a<-c(1,2,3,NA,NA,2,NA,5)

a[!is.na(a)]

[1] 1 2 3 2 5

其中,is.na用于判断向量内的元素是否为NA,返回结果应该是:

向量FALSE FALSE FALSE TRUE TRUE FALSE TRUE FALSE

即a内元素为NA,其对应的下标元素是TRUE,反之是FALSE。!x是取非逻辑运算符,!is.na(a)表示a内元素不为NA,其对应的下标元素是TRUE,反之是FALSE。通过a[!is.na(a)]进行索引后,即可取出a内不为NA的元素,将其过滤。

a=data.frame(customer=c('a','b','a','m','a','b'),consumption=1:6,groups=c('A','B','A','B','A','B'))

aggregate(a$consumption, list(a$customer,a$groups), sum)

Group.1 Group.2 x

1 a A 9

2 b B 8

3 m B 4