窗口函数应用
mtcars %>% group_by(cyl) %>% mutate(rank= min_rank(desc(mpg)))
mtcars %>% group_by(cyl) %>% mutate(mpg_max = max(mpg))
原来的明细还保留,同时每个分组的统计值算出来了,是不是很方便
1.2 批量操作
同时若你嫌麻烦一个个地对变量进行操作,还可以使用mutate_each函数对数据框中的变量批量操作,通过调整funs(即functions)和vars(variables)参数控制functions的数量,以及参与变形的variables,这里控制variables的技巧与select函数相似。
#对每个变量进行排名
mtcars%>%mutate_each(funs(dense_rank))
mpg cyl disp hp drat wt qsec vs am gear carb
1 16 2 13 11 16 9 6 1 2 24
2 16 2 13 11 16 12 10 1 224
3 19 16 615 7 22 2 221
4 17 2 16 115 1624 2 111
5 13 3 23 156 18 10 1 112
#对disp的变量进行排名
mtcars%>%mutate_each(funs(dense_rank,min_rank),disp)
mpg cyl disp hp dratwt qsec vs am gear carb dense_rank min_rank
1 21.0 6 160.0 110 3.90 2.620 16.46 0 144 13 13
2 21.0 6 160.0 110 3.90 2.875 17.02 0 144 13 13
3 22.8 4 108.0 93 3.85 2.320 18.61 1 141 6 6
4 21.4 6 258.0 110 3.08 3.215 19.44 1 031 16 18
5 18.7 8 360.0 175 3.15 3.440 17.02 0 032 23 27
6 18.1 6 225.0 105 2.76 3.460 20.22 1 031 15 17
7 14.3 8 360.0 245 3.21 3.570 15.84 0 034 2327
#对除了disp的变量进行排名
mtcars%>%mutate_each(funs(dense_rank,min_rank),-disp)
2、transmute
返回值中不包含原数据集变量,只保留计算转换后的变量。
mtcars%>%mutate(wt_log=log(wt))
mtcars%>%transmute(wt_log=log(wt))
mtcars %>%mutate(displ_l = disp / 61.0237)
mtcars %>%transmute(displ_l = disp / 61.0237)
调用命令library("dplyr"),如果终端显示加载成功,说明包已经存在。或者到R安装目录中的lib目录下查看是否有dplyr完成包存在,如果不完整\不存在可以使用install命令进行下载安装。本文首发于我的 个人博客
%>%来自dplyr包的管道函数,我们可以将其理解为车间里的流水线,经过前一步加工的产品才能进入后一步进一步加工,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。
符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置。
比如我们要算f(x)=sin((x+1)^2)在x=4的值,可以分为以下三步:
计算a = x+1的值;
计算b = a^2的值;
计算c = sin(b)的值
这样一来,c就是我们需要的最终结果了。用R语言管道传参,只需要这样写:
f1 <- function(x){return(x+1)}
f2 <- function(x){return(x^2)}
f3 <- function(x){return(sin(x))}
library(dplyr) #用管道传参需要这个包
a <- 1
b <- a %>% f1 %>% f2 %>% f3
print(b)
[1] -0.7568025
a%>%f(b)等同于f(a,b);
b%>%f(a,.,c)等同于f(a,b,c)
例如:
>library(dplyr)
>f1 <- function(x,y){return(x+y)}
>f2 <- function(x,y,z){return(x*y+z)}
>a1 <- 2
>a2 <- 3
>a3 <- 4
>d1 <- a1 %>% f1(a2)
>d1
[1] 5
>d2 <- a2 %>% f2(a1,.,a3)
>d2
[1] 10
>d3 <- a3 %>% f2(a1,a2,.)
>d3
[1] 10
创建一份数据:
>library(tidyr)
>date <- as.Date('2017-6-22')+0:14
>hour <- sample(1:24, 15)
>min <- sample(1:60, 15)
>second <- sample(1:60, 15)
>dat <- data.frame(date,hour,min,second)
>dat
date hour min second
1 2017-06-22 22 54 15
2 2017-06-23 7 51 4
3 2017-06-24 11 23 38
4 2017-06-25 23 45 50
5 2017-06-26 14 60 44
6 2017-06-27 5 24 56
7 2017-06-28 9 39 25
8 2017-06-29 20 22 22
9 2017-06-30 2 17 43
10 2017-07-01 17 56 31
11 2017-07-02 19 11 33
12 2017-07-03 24 35 18
13 2017-07-04 15 6 13
14 2017-07-05 4 12 47
15 2017-07-06 12 7 30
我们想把它变成标准时间格式,怎么办呢?“tidyr”包的函数unite()可以以指定字符连接指定列,形成新列,具体用法见下例:
>a1 <- rep(1,5)
>a2 <- rep(2,5)
>a3 <- rep(3,5)
>A <- data.frame(a1,a2,a3)
>A
a1 a2 a3
1 1 2 3
2 1 2 3
3 1 2 3
4 1 2 3
5 1 2 3
>A1 <- unite(A,a12,a1,a2,sep = '~')
或者>A1 <- A %>% unite(a12,a1,a2,sep = '~')
对数据A的列a1,a2合并为新列a12,用“~”连接。
>A1
a12 a3
1 1~2 3
2 1~2 3
3 1~2 3
4 1~2 3
5 1~2 3
再来一步:
>A2 <- unite(A1,a123,a12,a3,sep = '/')
>A2 <- A1 %>% unite(a123,a12,a3,sep = '/')
对A1里面的a12与a3用“/”连接,形成新列“a123”。
>A2
a123
1 1~2/3
2 1~2/3
3 1~2/3
4 1~2/3
5 1~2/3
也可以用管道传参一步搞定:
>A %>%unite(a12,a1,a2,sep = '~') %>% unite(a123,a12,a3,sep = '/')
a123
1 1~2/3
2 1~2/3
3 1~2/3
4 1~2/3
5 1~2/3
看懂上例,就可以用管道传参一步搞定时间转换问题。
>dat1 <- dat %>%unite(datehour,date,hour,sep = ' ')%>%unite(datetime,datehour,min,second,sep = ':')
>dat1
datetime
1 2017-06-22 22:54:15
2 2017-06-23 7:51:4
3 2017-06-24 11:23:38
4 2017-06-25 23:45:50
5 2017-06-26 14:60:44
6 2017-06-27 5:24:56
7 2017-06-28 9:39:25
8 2017-06-29 20:22:22
9 2017-06-30 2:17:43
10 2017-07-01 17:56:31
11 2017-07-02 19:11:33
12 2017-07-03 24:35:18
13 2017-07-04 15:6:13
14 2017-07-05 4:12:47
15 2017-07-06 12:7:30
觉得不错,记得点赞哦,也可以分享、让更多的人看到!
原文链接