与上一篇《单因素方差分析》组合,就是筛选与因变量相关,自变量不相关(最大相关,最小冗余)的原则进行降维
针对连续变量:利用相关性
选出2至26列,显著相关的自变量,cor存储了高度相关的变量对,以及对应的相关系数
cor.test()计算相关系数
针对分类变量:利用卡方检验
对2至126列,利用chisq.test()进行卡方检验
>>> data1 <- data7_0 %>%group_by(CELLPHONE,MEMBERID) %>% filter(row_number() == 1) %>% ungroup()1234
方法二:
>>> data2 <- data7_0 %>%
distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)12
方法三:
>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")1
方法四:
>>> data4 <- base::unique(data7_0)1
方法五:
>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])