R语言GEO数据挖掘:步骤三:进行基因差异分析

Python021

R语言GEO数据挖掘:步骤三:进行基因差异分析,第1张

用limma包,这里注意,limma包是对基因芯片表达矩阵的分析,不能对逆转录RNAseq表达矩阵进行分析(因为数据特征不同),RNAseq需要用另一种方法

解读此表

但是上面的用法做不到随心所欲的指定任意两组进行比较,所有还有下一种方法

处理好了分组信息,再自定义比较元素

自定义函数进行比较

热土和火山图都是傻瓜式的,只要的前面得出的deg数据(也就是基因差异表达数据)是正确的

1、把EST用BLAT比对到基因组序列上,挑最好的match。

2、下载同版本的基因组注释文件。

3、 比较1和2中的基因组位置关系,并找出来未被基因组注释的EST。

这时候应该还剩下上千条,其中绝大部分都是蛋白编码基因的反义RNA,当然一小部分是基因间区的非编码RNA。

4.、将affimetrix的probe sequence用blast比对到这些非编码RNA中。建议先找找关心的事情是否有tiling-array data。

另外要注意非编码RNA和它可能有关的基因一起分析,比如附近基因,或者互补的基因。

芯片一般不去找表达或非表达,而往往是在找差异表达。

比如某非编码RNA和它附近的基因共同在肿瘤细胞中特异表达。

Affymetrix芯片储存着大量的生物信息学数据,因此有必要从实战出发的角度,汇总下Affymetrix芯片处理的流程。下面以GSE1438为例

常用的质量控制的指标: 平均数法、RLE、NUSE和RNA降解曲线 根据以上指标综合决定实验是否合格,并提出质量不合格的样品。

可以看出,这个芯片的整体检查率并不太高,且GSE23740、GSM23745、GSM23746、GSM23750、GSM2375和GSM23757的RLE和NUSE偏离中心太多,整体RNA降解斜率偏低。在实际科研中,我们最好寻找高质量的芯片。

考虑到整体芯片质量不佳,过滤后剩余的样本数会比较少,下面就假装质量还可以进行下游分析(请大家谅解!)

当然affy包主要针对的是旧版的Affymetrix芯片,如hgu95/95和hgu133系列。下一篇我们来看看oligo包。

参考链接:

R语言_Affymetrix芯片数据处理

用affy包读取affymetix的基因表达芯片数据-CEL格式数据