不出Rstudio, 实现从多序列比对到画进化树

Python014

不出Rstudio, 实现从多序列比对到画进化树,第1张

这一步用到的包: biomaRt ,选择用symbol获取蛋白质序列

检查一下,发现少了SIRT6.

会出现部分基因名匹配不到序列的情况,一般用 ENTREZ ID 可以避免这种情况。于是现在需要补上SIRT6的序列。

再和其他序列合并成一个数据框,去除unavailable序列。

给重复的基因名重命名:

输出为FASTA文件:

用到的包: Biostrings muscle ape

MUSCLE 算法的特点之一就是快,采用了k-mer的全局/成对比对方法,最后得出计分矩阵。

MUSCLE 在EBI的网页版工具传送门