R语言数据筛选问题

Python021

R语言数据筛选问题,第1张

>>> data1 <- data7_0 %>% 

             group_by(CELLPHONE,MEMBERID) %>%             filter(row_number() == 1) %>%             ungroup()1234

方法二:

>>> data2 <- data7_0 %>% 

             distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)12

方法三:

>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")1

方法四:

>>> data4 <- base::unique(data7_0)1

方法五:

>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])

之前使用了均值、求和和计数

median()用法和mean()类似,只不过是中位数而已

注:mad()与IQR()基本等价,但是IQR()更适合有离群点的情况。

这三个函数的作用相当于x[1]、x[2]、x[length(x)]

通过此函数也可以找出最早和最晚出发的航班

n():不需要任何参数,返回当前分组的大小

sum(!is.na(x)):计算非缺失值的数量

n_distinct(x):计算唯一值的数量

count()函数:用于只需要计数的情况

例如:

计算哪个目的地有最多的航空公司?

count()函数用法举例:计算目的地不同的飞机数量

count()函数中可以添加加权变量,例如distance,用于计算飞机飞行里程(相当于求和)

以下一例:找出出发时间小于5:00的航班总数

以下一例:找出延误超过一小时的航班比例