解读此表
但是上面的用法做不到随心所欲的指定任意两组进行比较,所有还有下一种方法
处理好了分组信息,再自定义比较元素
自定义函数进行比较
热土和火山图都是傻瓜式的,只要的前面得出的deg数据(也就是基因差异表达数据)是正确的
1、把EST用BLAT比对到基因组序列上,挑最好的match。2、下载同版本的基因组注释文件。
3、 比较1和2中的基因组位置关系,并找出来未被基因组注释的EST。
这时候应该还剩下上千条,其中绝大部分都是蛋白编码基因的反义RNA,当然一小部分是基因间区的非编码RNA。
4.、将affimetrix的probe sequence用blast比对到这些非编码RNA中。建议先找找关心的事情是否有tiling-array data。
另外要注意非编码RNA和它可能有关的基因一起分析,比如附近基因,或者互补的基因。
做芯片一般不去找表达或非表达,而往往是在找差异表达。
比如某非编码RNA和它附近的基因共同在肿瘤细胞中特异表达。
Affymetrix芯片储存着大量的生物信息学数据,因此有必要从实战出发的角度,汇总下Affymetrix芯片处理的流程。下面以GSE1438为例
常用的质量控制的指标: 平均数法、RLE、NUSE和RNA降解曲线 根据以上指标综合决定实验是否合格,并提出质量不合格的样品。
可以看出,这个芯片的整体检查率并不太高,且GSE23740、GSM23745、GSM23746、GSM23750、GSM2375和GSM23757的RLE和NUSE偏离中心太多,整体RNA降解斜率偏低。在实际科研中,我们最好寻找高质量的芯片。
考虑到整体芯片质量不佳,过滤后剩余的样本数会比较少,下面就假装质量还可以进行下游分析(请大家谅解!)
当然affy包主要针对的是旧版的Affymetrix芯片,如hgu95/95和hgu133系列。下一篇我们来看看oligo包。
参考链接:
R语言_Affymetrix芯片数据处理
用affy包读取affymetix的基因表达芯片数据-CEL格式数据