R语言中的管道%>%

Python019

R语言中的管道%>%,第1张

本文首发于我的 个人博客

%>%来自dplyr包的管道函数,我们可以将其理解为车间里的流水线,经过前一步加工的产品才能进入后一步进一步加工,其作用是将前一步的结果直接传参给下一步的函数,从而省略了中间的赋值步骤,可以大量减少内存中的对象,节省内存。

符号%>%,这是管道操作,其意思是将%>%左边的对象传递给右边的函数,作为第一个选项的设置(或剩下唯一一个选项的设置。

比如我们要算f(x)=sin((x+1)^2)在x=4的值,可以分为以下三步:

计算a = x+1的值;

计算b = a^2的值;

计算c = sin(b)的值

这样一来,c就是我们需要的最终结果了。用R语言管道传参,只需要这样写:

f1 <- function(x){return(x+1)}

f2 <- function(x){return(x^2)}

f3 <- function(x){return(sin(x))}

library(dplyr) #用管道传参需要这个包

a <- 1

b <- a %>% f1 %>% f2 %>% f3

print(b)

[1] -0.7568025

a%>%f(b)等同于f(a,b);

b%>%f(a,.,c)等同于f(a,b,c)

例如:

>library(dplyr)

>f1 <- function(x,y){return(x+y)}

>f2 <- function(x,y,z){return(x*y+z)}

>a1 <- 2

>a2 <- 3

>a3 <- 4

>d1 <- a1 %>% f1(a2)

>d1

[1] 5

>d2 <- a2 %>% f2(a1,.,a3)

>d2

[1] 10

>d3 <- a3 %>% f2(a1,a2,.)

>d3

[1] 10

创建一份数据:

>library(tidyr)

>date <- as.Date('2017-6-22')+0:14

>hour <- sample(1:24, 15)

>min <- sample(1:60, 15)

>second <- sample(1:60, 15)

>dat <- data.frame(date,hour,min,second)

>dat

date hour min second

1 2017-06-22 22 54 15

2 2017-06-23 7 51 4

3 2017-06-24 11 23 38

4 2017-06-25 23 45 50

5 2017-06-26 14 60 44

6 2017-06-27 5 24 56

7 2017-06-28 9 39 25

8 2017-06-29 20 22 22

9 2017-06-30 2 17 43

10 2017-07-01 17 56 31

11 2017-07-02 19 11 33

12 2017-07-03 24 35 18

13 2017-07-04 15 6 13

14 2017-07-05 4 12 47

15 2017-07-06 12 7 30

我们想把它变成标准时间格式,怎么办呢?“tidyr”包的函数unite()可以以指定字符连接指定列,形成新列,具体用法见下例:

>a1 <- rep(1,5)

>a2 <- rep(2,5)

>a3 <- rep(3,5)

>A <- data.frame(a1,a2,a3)

>A

a1 a2 a3

1 1 2 3

2 1 2 3

3 1 2 3

4 1 2 3

5 1 2 3

>A1 <- unite(A,a12,a1,a2,sep = '~')

或者>A1 <- A %>% unite(a12,a1,a2,sep = '~')

对数据A的列a1,a2合并为新列a12,用“~”连接。

>A1

a12 a3

1 1~2 3

2 1~2 3

3 1~2 3

4 1~2 3

5 1~2 3

再来一步:

>A2 <- unite(A1,a123,a12,a3,sep = '/')

>A2 <- A1 %>% unite(a123,a12,a3,sep = '/')

对A1里面的a12与a3用“/”连接,形成新列“a123”。

>A2

a123

1 1~2/3

2 1~2/3

3 1~2/3

4 1~2/3

5 1~2/3

也可以用管道传参一步搞定:

>A %>%unite(a12,a1,a2,sep = '~') %>% unite(a123,a12,a3,sep = '/')

a123

1 1~2/3

2 1~2/3

3 1~2/3

4 1~2/3

5 1~2/3

看懂上例,就可以用管道传参一步搞定时间转换问题。

>dat1 <- dat %>%unite(datehour,date,hour,sep = ' ')%>%unite(datetime,datehour,min,second,sep = ':')

>dat1

datetime

1 2017-06-22 22:54:15

2 2017-06-23 7:51:4

3 2017-06-24 11:23:38

4 2017-06-25 23:45:50

5 2017-06-26 14:60:44

6 2017-06-27 5:24:56

7 2017-06-28 9:39:25

8 2017-06-29 20:22:22

9 2017-06-30 2:17:43

10 2017-07-01 17:56:31

11 2017-07-02 19:11:33

12 2017-07-03 24:35:18

13 2017-07-04 15:6:13

14 2017-07-05 4:12:47

15 2017-07-06 12:7:30

觉得不错,记得点赞哦,也可以分享、让更多的人看到!

原文链接

reshape2包的进化版—tidyr包

tidyr包的作者是Hadley Wickham。这个包常跟dplyr结合使用。

本文将演示tidyr包中下述四个函数的用法:

gather—宽数据转为长数据。类似于reshape2包中的melt函数

spread—长数据转为宽数据。类似于reshape2包中的cast函数

unit—多列合并为一列

separate—将一列分离为多列

下面使用datasets包中的mtcars数据集做演示。

library(tidyr)

library(dplyr)

head(mtcars)

mpg cyl disp  hp drat    wt  qsec vs am gear carb

Mazda RX4        21.0  6  160 110 3.90 2.620 16.46  0  1    4    4

Mazda RX4 Wag    21.0  6  160 110 3.90 2.875 17.02  0  1    4    4

Datsun 710        22.8  4  108  93 3.85 2.320 18.61  1  1    4    1

Hornet 4 Drive    21.4  6  258 110 3.08 3.215 19.44  1  0    3    1

Hornet Sportabout 18.7  8  360 175 3.15 3.440 17.02  0  0    3    2

Valiant          18.1  6  225 105 2.76 3.460 20.22  1  0    3    1

为方便处理,在数据集中增加一列car

mtcars$car <- rownames(mtcars)

mtcars <- mtcars[, c(12, 1:11)]

gather

gather的调用格式为:

gather(data, key, value, ..., na.rm = FALSE, convert = FALSE)

这里,...表示需要聚合的指定列。

与reshape2包中的melt函数一样,得到如下结果:

mtcarsNew <- mtcars %>% gather(attribute, value, -car)

head(mtcarsNew)

car attribute value

1        Mazda RX4      mpg  21.0

2    Mazda RX4 Wag      mpg  21.0

3        Datsun 710      mpg  22.8

4    Hornet 4 Drive      mpg  21.4

5 Hornet Sportabout      mpg  18.7

6          Valiant      mpg  18.1

tail(mtcarsNew)

car attribute value

347  Porsche 914-2      carb    2

348  Lotus Europa      carb    2

349 Ford Pantera L      carb    4

350  Ferrari Dino      carb    6

351  Maserati Bora      carb    8

352    Volvo 142E      carb    2

如你所见,除了car列外,其余列聚合成两列,分别命名为attribute和value。

tidyr很好的一点是可以只gather若干列而其他列保持不变。如果你想gather在map和gear之间的所有列而保持carb和car列不变,可以像下面这样做:

mtcarsNew <- mtcars %>% gather(attribute, value, mpg:gear)

head(mtcarsNew)

car carb attribute value

1        Mazda RX4    4      mpg  21.0

2    Mazda RX4 Wag    4      mpg  21.0

3        Datsun 710    1      mpg  22.8

4    Hornet 4 Drive    1      mpg  21.4

5 Hornet Sportabout    2      mpg  18.7

6          Valiant    1      mpg  18.1

spread

spread的调用格式为:

spread(data, key, value, fill = NA, convert = FALSE, drop = TRUE)

与reshape2包中的cast函数一样,得到如下结果:

mtcarsSpread <- mtcarsNew %>% spread(attribute, value)

head(mtcarsSpread)

car carb  mpg cyl disp  hp drat    wt  qsec vs am gear

1        AMC Javelin    2 15.2  8  304 150 3.15 3.435 17.30  0  0    3

2 Cadillac Fleetwood    4 10.4  8  472 205 2.93 5.250 17.98  0  0    3

3        Camaro Z28    4 13.3  8  350 245 3.73 3.840 15.41  0  0    3

4  Chrysler Imperial    4 14.7  8  440 230 3.23 5.345 17.42  0  0    3

5        Datsun 710    1 22.8  4  108  93 3.85 2.320 18.61  1  1    4

6  Dodge Challenger    2 15.5  8  318 150 2.76 3.520 16.87  0  0    3

unite

unite的调用格式如下:

unite(data, col, ..., sep = "_", remove = TRUE)

where ... represents the columns to unite and col represents the c

这里,...表示需要合并的列,col表示合并后的列。

我们先虚构一些数据:

set.seed(1)

date <- as.Date('2016-01-01') + 0:14

hour <- sample(1:24, 15)

min <- sample(1:60, 15)

second <- sample(1:60, 15)

event <- sample(letters, 15)

data <- data.frame(date, hour, min, second, event)

data

date hour min second event

1  2016-01-01    7  30    29    u

2  2016-01-02    9  43    36    a

3  2016-01-03  13  58    60    l

4  2016-01-04  20  22    11    q

5  2016-01-05    5  44    47    p

6  2016-01-06  18  52    37    k

7  2016-01-07  19  12    43    r

8  2016-01-08  12  35      6    i

9  2016-01-09  11  7    38    e

10 2016-01-10    1  14    21    b

11 2016-01-11    3  20    42    w

12 2016-01-12  14  1    32    t

13 2016-01-13  23  19    52    h

14 2016-01-14  21  41    26    s

15 2016-01-15    8  16    25    o

现在,我们需要把date,hour,min和second列合并为新列datetime。通常,R中的日期时间格式为"Year-Month-Day-Hour:Min:Second"。

dataNew <- data %>%

unite(datehour, date, hour, sep = ' ') %>%

unite(datetime, datehour, min, second, sep = ':')

dataNew

datetime event

1  2016-01-01 7:30:29    u

2  2016-01-02 9:43:36    a

3  2016-01-03 13:58:60    l

4  2016-01-04 20:22:11    q

5  2016-01-05 5:44:47    p

6  2016-01-06 18:52:37    k

7  2016-01-07 19:12:43    r

8  2016-01-08 12:35:6    i

9  2016-01-09 11:7:38    e

10  2016-01-10 1:14:21    b

11  2016-01-11 3:20:42    w

12  2016-01-12 14:1:32    t

13 2016-01-13 23:19:52    h

14 2016-01-14 21:41:26    s

15  2016-01-15 8:16:25    o

separate

separate的调用格式为:

separate(data, col, into, sep = "[^[:alnum:]]+", remove = TRUE,

convert = FALSE, extra = "warn", fill = "warn", ...)

我们可以用separate函数将数据恢复到刚创建的时候,如下所示:

data1 <- dataNew %>%

separate(datetime, c('date', 'time'), sep = ' ') %>%

separate(time, c('hour', 'min', 'second'), sep = ':')

data1

date hour min second event

1  2016-01-01  07  30    29    u

2  2016-01-02  09  43    36    a

3  2016-01-03  13  59    00    l

4  2016-01-04  20  22    11    q

5  2016-01-05  05  44    47    p

6  2016-01-06  18  52    37    k

7  2016-01-07  19  12    43    r

8  2016-01-08  12  35    06    i

9  2016-01-09  11  07    38    e

10 2016-01-10  01  14    21    b

11 2016-01-11  03  20    42    w

12 2016-01-12  14  01    32    t

13 2016-01-13  23  19    52    h

14 2016-01-14  21  41    26    s

15 2016-01-15  08  16    25    o

首先,将datetime分为date列和time列。然后,将time列分为hour,min,second列。