【单细胞转录组】将序列UMI映射到细胞聚类分群

Python021

【单细胞转录组】将序列UMI映射到细胞聚类分群,第1张

10X V5转录组vdj分析中,因为有 一段特殊基因序列比对不上参考基因组 ,所以bam文件没有这个barcode信息。需要把R2的这段序列,根据序列ID从R1中找出 R2序列与R1 barcode和UMI的 对应关系,然后做UMI去重,统计数量,然后再 映射到细胞聚类图中去看看这个序列的UMI表达量

根据文库结构

将目标序列作为比对参考模板,用R2文件进行blast比对,从比对结果中筛选出从3'到5’方向的,因为10X V5转录组的R2的测序方向就是3’到5’,然后再筛选出比对上序列长度大于等于85nt的子集,获得比对上fastq R2测序文件的reads的ID信息, 再通过seqtk工具查询在 fsatq R1文件根据ID提取出相应的序列信息。

从查询出来的序列中提取序列前1到16nt获取barcode,17到28nt获得UMI信息,经过barcode和UMI的序列去重、统计、分群的标签映射

流程图:

序列模板---->R2 blast比对----->过滤&提取ID---->seqtk提取R1序列--->barcode和UMI的序列去重-->数据统计--->分群的标签映射---->UMI表达量可视化分析

R:

Linux:

R:

你这个问题好大,生物信息学包含的内容太多,主要看你需要做哪些分析,是想学习分析,还是只是需要发表论文,如果学习,那是一个系统的学习,推荐学习两门语言,R语言和PERL语言,学习两个数据库,GEO和TCGA,这两个数据库是现在的主流,需要掌握的。学习资源可以取生信自学wang和丁香园,都可以学到不少东西。如果是写论文,可以直接找生信分析的人,把分析好的数据和图片给你,你就可以写论文了,当然找人家做一般都是有偿的。

学习语言:R perl程序 两大数据库

GEO芯片数据库

TCGA癌症数据库,包括癌症的临床信息,表达信息,甲基化,SNP,数据量大,全面