miRNA分析--数据过滤(一)

Python021

miRNA分析--数据过滤(一),第1张

1、物种

hsa、mmu、rno分别代表人、小鼠、大鼠。

2、类别

mir、MIR、miR分别代表动物未成熟miRNA、植物未成熟miRNA、成熟 RNA。

3、序号

阿拉伯数字。代表miRNA发现的先后顺序。一般情况下,数字越小,发现越早。

4、高度相似miRNA

对于相似度非常高但又不完全相同(如:仅差一两个碱基)的成熟miRNA,加上一个英文小写字母(a,b,c,…)以示区别。

5、不同前体相同序列成熟miRNA

后面添加的阿拉伯数字是指:一些位于基因组不同部位的DNA序列能够转录加工产生同样的成熟体序列的RNA,为了对其进行区别,在后面加上不同的阿拉伯数字。

6、成熟miRNA产生来源

一些pre-miRNA可以产生两个mature RNA,在对应pre-miRNA茎环结构5’和3’序列的mature miRNA名称尾部加上后缀-5p和-3p以示区分,分别表明从前体的5’端臂和3’端臂加工而来的。

7、低表达量miRNA

两个mature miRNA由同一个pre-miRNA产生,且表达量已知,那么将其中表达量低的mature miRNA尾部加上标识:*。

在进行分析miRNA时候,必要的过滤是少不了的,我一般使用两款软件

软件安装较为简单,直接略过

首先选用cutadapt过滤掉接头序列

接着,使用fastp过滤低质量reads

最后进行miRNA reads的长度统计,可自行写脚本,并用R画图,简单,略过

如果是要初步的筛选,最好用至少3个数据库进行预测,然后取共有的target gene进行下一步的验证,常用的数据库有targetscan,RNA22,mirbase,PITA,microcosom等等