#1. 检查是否有缺失值
which(is.na(mRNA),arr.ind = T)
#2. 计算行均值并填充
#该数据中探针(基因)为行(名),样本为列(名),(数据框内容为表达量数据值型数据数据)格式可见文章最后
row_mean <- apply(mRNA,1,mean,na.rm =T) #1是行,2是列,若用其他方法修改mean即可
mRNA$MEAN <- row_mean
ncol = 样本数
for (i in 1:nrow(mRNA)) {
mRNA[i,is.na(mRNA[i,])] <- mRNA[i,ncol]
}
当我们在数据集中缺少值时,重要的是考虑为什么它们会丢失以及它们对分析的影响。有时忽略丢失的数据会降低功耗,但更重要的是,有时它会使答案有偏差,并有可能误导错误的结论。因此,重要的是要考虑丢失的数据机制是什么,以便对其进行处理。 Rubin(1976)区分了三种类型的误报机制:不是连续的时间系列数据处理r语言:处理数据时常常遇到时间有断开的数据,在与模型做数据的横向对比时需要一致的scale,需要补齐时间。解决方法:创建一个时间连续的df与非连续df融合。