1、创建数据集
hospital <- c("New York", "California")patients <- c(150,350)
costs <- c(3.1,2.5)
df <- data.frame(hospital, patients, costs)
2、创建新的变量
df$totcosts <- df$patients * df$costs
3、改变变量的名称
df$costs_euro <- df$costs
df$costs <- NULL
df$patients <- ifelse(df$patients==150,100,ifelse(df$patients==350,300,NA))
4、合并数据集
finaldt <- merge(dataset1, dataset2, by="id")
或者
finaldt <- cbind(dataset1, dataset2)
finaldt <- rbind(dataset1, dataset2)
5、子数据集
dt <- iris[,c("Sepal.Length" ,"Sepal.Width")]
dt <- iris[,c(-2,-3)]#去除第2、3列变量数据
dt2<- subset(dt,Age>40&Sex==men)#对数据集dt筛选满足条件的数据
获取表达矩阵,处理TCGA的count数据,1表示为行。
导入数据
加 ENTREZID列,用于富集分析(symbol转entrezid,然后inner_join)
转化空格为NA
用花花的专属TCGA包,ID进行转换
把空着的值改为NA
以病人为中心,表达矩阵按病人ID去重复
去除重复
TPM数据做单个基因的生存分析file:///C:/Users/denghuan/Desktop/The%20learning%20of%20R%20software/Practice/%E7%94%9F%E5%AD%98%E5%88%86%E6%9E%90%20survival%20analysis/6.Survival.html
stringr::str_replace_all()
str_detect(colnames(exp),"TCGA-W5-AA2R")