这一步用到的包: biomaRt ,选择用symbol获取蛋白质序列。
检查一下,发现少了SIRT6.
会出现部分基因名匹配不到序列的情况,一般用 ENTREZ ID 可以避免这种情况。于是现在需要补上SIRT6的序列。
再和其他序列合并成一个数据框,去除unavailable序列。
给重复的基因名重命名:
输出为FASTA文件:
用到的包: Biostrings muscle ape
MUSCLE 算法的特点之一就是快,采用了k-mer的全局/成对比对方法,最后得出计分矩阵。
MUSCLE 在EBI的网页版工具传送门