【原创】R语言实战:AnnoProbe安装和使用笔记 2020-11-21

Python012

【原创】R语言实战:AnnoProbe安装和使用笔记 2020-11-21,第1张

想要给一个转录组测序结果添加注释信息,尤其是“转录本类型”信息,这样便于我之后分析时重点关注“protein coding”的转录本。于是就搜索发现了建明老师开发的这个神奇的包AnnoProbe。看了一下笔记很好安装的样子,结果遭遇了很多问题。

首先安装devtools

install.packages('devtools')

library(devtools)

然后

install_github('jmzeng1314/AnnoProbe')

然后就是各种报错:

使用示例:

library(AnnoProbe)

mycounts<-read.csv("1121.csv")

这个文件X这一列是Ensembl ID,我用的是人类细胞的测序结果

IDs <- mycounts$X

ID_type = "ENSEMBL"

annoGene(IDs, ID_type,out_file ='convert.csv')

输出结果为:

结果我们可以看到是按照基因在染色体上的位置排序的。这里想给建明老师提一个小小的建议:结果可不可以选择按输入的顺序输出,并且把没有找到注释信息的转录本那行空出来。

最后非常非常感谢建明老师和广大的生信工作者开发出这么多好用的工具供我们使用,大大提高了我们的工作效率。

mycounts<-read.csv("2020武汉加油.csv")

head(mycounts)

rownames(mycounts)<-mycounts[,1]

mycounts<-mycounts[,-1]

head(mycounts)

kb <- mycounts$Length / 1000

kb

countdata <- mycounts[,1:9]

rpk <- countdata / kb

rpk

tpm <- t(t(rpk)/colSums(rpk) * 1000000)

head(tpm)

write.table(tpm,file="2020武汉加油_tpm.xls",sep="\t",quote=F)

fpkm <- t(t(rpk)/colSums(countdata) * 10^6) (之前这里写成了10^9,多谢@不爱说话的生物狗 提醒,现在已经修改)

head(fpkm)

write.table(fpkm,file="2020武汉加油_fpkm.xls",sep="\t",quote=F)

fpkm_to_tpm = t(t(fpkm)/colSums(fpkm))*10^6

head(fpkm_to_tpm)

当然,已知所有基因的FPKM情况下,可以通过上述公式直接在excel里计算相应基因的TPM值。