首先安装devtools
install.packages('devtools')
library(devtools)
然后
install_github('jmzeng1314/AnnoProbe')
然后就是各种报错:
使用示例:
library(AnnoProbe)
mycounts<-read.csv("1121.csv")
这个文件X这一列是Ensembl ID,我用的是人类细胞的测序结果
IDs <- mycounts$X
ID_type = "ENSEMBL"
annoGene(IDs, ID_type,out_file ='convert.csv')
输出结果为:
结果我们可以看到是按照基因在染色体上的位置排序的。这里想给建明老师提一个小小的建议:结果可不可以选择按输入的顺序输出,并且把没有找到注释信息的转录本那行空出来。
最后非常非常感谢建明老师和广大的生信工作者开发出这么多好用的工具供我们使用,大大提高了我们的工作效率。
mycounts<-read.csv("2020武汉加油.csv")head(mycounts)
rownames(mycounts)<-mycounts[,1]
mycounts<-mycounts[,-1]
head(mycounts)
kb <- mycounts$Length / 1000
kb
countdata <- mycounts[,1:9]
rpk <- countdata / kb
rpk
tpm <- t(t(rpk)/colSums(rpk) * 1000000)
head(tpm)
write.table(tpm,file="2020武汉加油_tpm.xls",sep="\t",quote=F)
fpkm <- t(t(rpk)/colSums(countdata) * 10^6) (之前这里写成了10^9,多谢@不爱说话的生物狗 提醒,现在已经修改)
head(fpkm)
write.table(fpkm,file="2020武汉加油_fpkm.xls",sep="\t",quote=F)
fpkm_to_tpm = t(t(fpkm)/colSums(fpkm))*10^6
head(fpkm_to_tpm)
当然,已知所有基因的FPKM情况下,可以通过上述公式直接在excel里计算相应基因的TPM值。