常用的质量控制的指标: 平均数法、RLE、NUSE和RNA降解曲线 根据以上指标综合决定实验是否合格,并提出质量不合格的样品。
可以看出,这个芯片的整体检查率并不太高,且GSE23740、GSM23745、GSM23746、GSM23750、GSM2375和GSM23757的RLE和NUSE偏离中心太多,整体RNA降解斜率偏低。在实际科研中,我们最好寻找高质量的芯片。
考虑到整体芯片质量不佳,过滤后剩余的样本数会比较少,下面就假装质量还可以进行下游分析(请大家谅解!)
当然affy包主要针对的是旧版的Affymetrix芯片,如hgu95/95和hgu133系列。下一篇我们来看看oligo包。
参考链接:
R语言_Affymetrix芯片数据处理
用affy包读取affymetix的基因表达芯片数据-CEL格式数据
在基因芯片数据或其他类型数据中,采用计算所有样本的平均值从而进行填充,如果需要用中位数或其他统计量填充时只需修改相应的方法即可
#1. 检查是否有缺失值
which(is.na(mRNA),arr.ind = T)
#2. 计算行均值并填充
#该数据中探针(基因)为行(名),样本为列(名),(数据框内容为表达量数据值型数据数据)格式可见文章最后
row_mean <- apply(mRNA,1,mean,na.rm =T) #1是行,2是列,若用其他方法修改mean即可
mRNA$MEAN <- row_mean
ncol = 样本数
for (i in 1:nrow(mRNA)) {
mRNA[i,is.na(mRNA[i,])] <- mRNA[i,ncol]
}