R语言初学笔记:差异表达基因

Python021

R语言初学笔记:差异表达基因,第1张

setwd("E:/GSE25066")#环境设置

library(limma)#加载差异分析包limma

#将分组文件加载到环境中,分组信息第一列为样本名,第二列为分组信息如“high”“low”

targets<-read.csv("group.csv")

#将表达矩阵加载到环境中,行为基因,列为样本,这里应该注意去除重复项。

eset<-read.csv("expreset-basal1.csv",row.names = "symbol")

targets$Target=gsub("_",".",targets$Target)##若数据中存在特殊符号,将"_"替换成“.”,也可以不替换

##该数据集中实际存在不符合R的命名原则,所以在没个分类前加一个“F”,具体自己定

targets$Target=c(paste0("F",c(targets$Target),collapse = NULL,sep=""))

colnames(targets)=c("FileName","Target")#更改列名,为了和limma包中的一致

lev<-unique(targets$Target)##使用unique()函数进行去重

f <- factor(targets$Target, levels=lev)

design <- model.matrix(~0+f)

colnames(design) <- lev

cont.wt <- makeContrasts("high-low",

                      +  levels=design)

fit <- lmFit(eset, design)#前面矩阵的row.name=“symbol”

fit2 <- contrasts.fit(fit, cont.wt)

fit2 <- eBayes(fit2)

tT=topTable(fit2, adjust="BH",sort.by="logFC",n=Inf)

tT = subset(tT, select=c("adj.P.Val","P.Value","logFC"))

colnames(tT)=c("FDR","P.Value","logFC")

write.csv(tT,"DEGbasal.csv")

#最后的tT就是得到的差异基因,其中包含基因,P.Value和logFC

​如何在差异基因Venn图中同时标识上下调基因数量信息

韦恩(Venn)图是常见统计图之一,用于展示各样本(或分组)之间共有(或特有)元素的数量(或比例)。例如做RNA-seq的最直接目的,大多是鉴定差异表达的基因。当试验涉及到多分组情况时,常需要展示多组间共享的差异基因数量,这个时候就要使用到Venn图。例如文献 “Transcriptomic analyses of rice (Oryza sativa) genes and non-coding RNAs under nitrogen starvation using multiple omics technologies” 中,植物组织中响应7天氮缺乏(-N_7d)、7天磷酸盐缺乏(-Pi_7d)和盐胁迫(d)、冷胁迫(e)或干旱胁迫(f)的差异表达lncRNA的Venn图。

不过这种Venn图太过单调,虽然展示了差异基因的数量,却没有区分基因是上调的还是下调的。另一种思路是,分别把上调或下调的基因拿出来,然后分别作图展示上调基因间的交集或者下调基因间的交集,但缺点是如果分组较多的话会很占篇幅,并且如果一个基因在一组中上调而在另一组中下调时则无法绘制出。

为了有效解决这些问题,今天我们来看一种特殊风格的Venn图,能够同时展示基因交集以及上下调数量的二维信息。风格如下, 在Venn图中原数字位置添加了表示上下调基因数量的饼图 。外圈表示不同的分组,饼图则表示了交集/或特有区域中,所包含的上调(红色)和下调(绿色)基因数量。此外,如果交集处某基因在不同组中的上下调趋势不一致,则在灰色区域显示数量。

本节我们来学习如何在R语言中绘制这种特殊的Venn图。

示例数据“treat1_control.txt”、“treat2_control.txt”和“treat3_control.txt”分别为3种不同试验处理下的样品,与对照组相比后识别的显著差异表达基因。表中genes列为差异基因的名称,logFC列中将所有上调基因标识为1,所有下调基因标识为-1。

接下来绘制Venn图展示3组基因的交集概况,并同时将基因的上下调数量信息也表示出来。

使用R包GOplot,即可通过给定的数据绘制这种特殊的Venn图,同时展示基因交集以及上下调数量的二维信息。

这样这种Venn图组合饼图的样式就得到了。

右图Venn图的外圈表示数据中,3组处理组间相同/或特有的差异表达基因数量概况,具体的数值在饼图中展示,红色代表共有的上调基因,绿色代表共有的下调基因,灰色表示交集中在不同组中的上下调趋势不一致的基因。

对于各组交集具体涉及了哪些基因,它们的名称、上下调状态如何,将直接在面板中显示出来,如左图所示列表信息。

总之过程非常方便,很简单的一条命令,您get到了吗?