Lecture 7 Affymetrix,R与bioconductor(芯片数据预处理及质量控制)

Python014

Lecture 7 Affymetrix,R与bioconductor(芯片数据预处理及质量控制),第1张

基因芯片技术的特点是使用寡聚核苷酸探针检测基因。使用ReadAffy函数读取CEL文件获得的数据是探针水平的(probe level),即杂交信号,而芯片数据预处理的目的是将杂交信号转成表达数据(即表达水平数据,expression level data)。存储探针水平数据的是AffyBatch类对象,而表达水平数据为ExpressionSet类对象。基因芯片探针水平数据处理的R软件包有affy, affyPLM, affycomp, gcrma等.

Affy芯片数据的预处理一般有三个步骤:

可以看到:ReadAffy()读入的CEL芯片数据以AffyBatch类数据形式存储,而背景消减后得到的依然是AffyBatch类数据。

MAS方法应用后PM和MM的信号强度都被重新计算。RMA方法仅使用PM探针数据,背景调整后MM的信号值不变。

此方法获得的结果比线性方法要好,做非线性拟合时不是取整张芯片而仅取部分(一列)作为基线。

可以看到,同一芯片不同探针的信号值的缩放倍数是不一样的。

这种方法认为(或假设)每张芯片探针信号的经验分布函数应完全一样,使用任两张芯片的数据做QQ图应该得到一条斜率为1截距为0的直线。

如循环局部加权回归法(Cyclic loess)和 Contrasts方法。

常用的汇总方法是medianpolish, liwong和mas。liwong方法仅使用PM做背景校正(pmcorrect.method="pmonly")。例如:

最后的结果 ExpressionSet 类型数据

也是由affy包提供,其背景处理方法为rma法,归一化处理使用分位数法,而汇总方法使用medianpolish: