利用gff提取某个基因的最长转录本（Python实现）

2023-02-15 09:23:01Python018

利用gff提取某个基因的最长转录本（Python实现）,第1张

from Bio import SeqIO

from Bio.Seq import Seq

from Bio.SeqRecord import SeqRecord

import gffutils

import re

#######################

#从cds获得每条转录本的长度，从gff获得每个基因包含哪些转录本

fout = 'output/longest.fa'

cds = 'data/rna.fna'

gff = 'data/genomic.gff'

fout = 'output/longest.fa'

seq_index = SeqIO.index(cds ,'fasta')

gffdb = gffutils.create_db(gff,'gff.db'.force=True,

merge_strategy='creat_unique')

#以基因为key，转录本为value的字典

gene2longestcds = {}

#对基因进行迭代

for g in gffdb.all_features(featuretype='gene'):

g_id= g.id

for m in gffdb.children(g, featuretype='mRNA'):##只关注mRNA信息

m_id = m.id.replace('rna-' , '')

m_len = len(seq_index[m_id].seq)

#一个基因中最长转录本的名字

if g_id not in gene2longestcds:

gene2longestcds[g_id] = m_id

elif m_len >len(seq_index[gene2longestcds[g_id]].seq):

gene2longestcds[g_id] = m_id

sr_list = [v for k,v in seq_index.items() if k in gene2longestcds.values()]

##输出

SeqIO.write(sr_list, fout, 'fasta')

re模块是Python中的正则表达式调用模块，在python中，通过将正则表达式内嵌集成re模块，程序员们可以直接调用来实现正则匹配。

正则表达式的大致匹配过程是：

re模块所支持的方法有如下：

其中，pattern为匹配模式，由re.compile生成，例如： pattern = re.compile(r'hello')

参数flag是匹配模式，取值可以使用按位或运算符’|’表示同时生效，如 re.I | re.M。可选值有：

注：以上七个方法中的flags同样是代表匹配模式的意思，如果在pattern生成时已经指明了flags，那么在下面的方法中就不需要传入这个参数了。

1. re.match(pattern, string[, flags])

2. re.search(pattern, string[, flags])

3. re.split(pattern, string[, maxsplit])

4. re.findall(pattern, string[, flags])

5. re.finditer(pattern, string[, flags])

6. re.sub(pattern, repl, string[, count])

7. re.subn(pattern, repl, string[, count])

描述

注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。

语法

参数

返回值

实例

以上实例输出结果如下：

参考

https://www.cnblogs.com/chengege/p/11190782.html

https://www.runoob.com/python/att-string-strip.html

转录基因模块方法参数

# 上一篇：go语言支持开发桌面级应用吗？

# 下一篇：python数据类型有哪些

给您推荐相同类型的内容：

python有什么IDE
① PyCharm是特定于Python的IDE，同时也是一个跨平台的IDE，用户可以根据需要下载Windows、Mac或Linux版本中的任何一个。PyCharm被认为是最好的Python IDE之一，也理所当然地是使用最广泛的IDE之一。
python如何计算π
#coding=utf-8'''Created on 2014-11-04@author: Neo'''import sysimport mathfrom decimal impo
Scala 是一门怎样的语言，具有哪些优缺点
以前在这个版块也答过关于Scala的问题，但那更多的是知识普及，而没有谈Scala是什么，做什么，以及有怎样的特点。Scala可怕的地方在于人人都能对它说上一二，但是不一定每个人都能明白。查看这个版块的帖子，有人把它当做Java的延伸版（
批处理统计文件夹下所有pdf的页数？
使用Python可以批处理统计文件夹下所有pdf的页数，步骤如下：1.安装Python库pyPdf。2.编写一个python脚本，实现统计pdf文件夹中每个pdf文件的页数。3.使用os和glob模块获取文件夹中包含的pdf文件列表，然后循
c语言字符数组如何比较？
1、C语言中字符是使用char来定义的，使用关系运算符（&gt，&lt，=）即可对字符进行比较。在编译器中定义a、b两个字符型变量，并为其赋值，按照如图所示编写代码。2、运行代码后，我们可以得到如图所示结果。1表示条件为真，
学C语言要下载什么软件
学c语言可以用的软件推荐如下：1、TurboC是由美国Borland公司开发的一套C语言程序开发工具，Borland公司是一家专门从事软件开发、研制的大公司。该公司相继推出了一套Turbo系列软件，如TurboBASIC、TurboPasc
c语言16进制转换为10进制数的函数是什么？
1、可以根据16进制转10进制的算法（即各位位码值乘以位权之和）来实现该功能。2、具体实现方法可以参考如下程序：#include &ltstdio.h&gtvoid main(){ int he i
C语言中count该怎么用
count在来C语言只能说是一个标识符，它即不是关键字，也不是具有特殊作用的源某个控制符。一般来说，在C语言编程中定义一个count变量或者字百面常量用于计数。比如下面的程序中用count统计度一个整数中二进制问表示中答二进制位值为1的个数
c语言编程软件怎么安装
工具：Turbo C3.0方法如下：双击Turbo C目录下的INSTALL.exe进行安装根据提示按回车组合键C+加车继续按回车点击F9键盘上任意键以上就安装完成了Keil MDK安装教程：1、打开Keil MDK下载双击“mdk5
如何用PYTHON做分词处理
可以利用python的jieba分词，得到文本中出现次数较多的词。首先pip安装一下jieba，这个可以分词然后用计数器Counter()统计一下得到的分词中各词的数量最后most_common(5)，是打印出排名前五位的词（包括特殊
Gaught by Gork沪教版牛津英语八上求翻译Prat1和Part2都要
金机长，优秀的宇航员，已经游遍了太空。他经常给朋友们讲他探险的故事。这就是其中的一个。彼得斯，我们的领航员又迷路了。我们吃光了食物，所以接近夜晚的时候，我们在一个从没有人去过的行星上登陆了。兰姆，我们的飞行员，缓缓地把我们带到一个山谷里，
Go lang制作一个简单的区块链
区块链是一种数据存储的结构，通过GO语言可以方便的创建一个区块链直接上代码1：区块接口和方法 2：创建区块链类和方法最后测试方法：测试结果： PS F:goblock&gtgo run
Python常用标准库之sys
sys模块主要是针对与Python解释器相关的变量和方法，不是主机操作系统。导入方式： import sys sys.argv是一个脚本执行参数列表，列表的第一个元素是脚本名称，从第二个元素开始才是真正的参数。 path是
python入门实例教程
python入门实例教程！步骤1：这里我将简单告诉大家一个用python软件编写的一个关于货物售价折扣方面的一个计算程序，首先打开python软件。步骤2：进入python后，会出现如图所示界面，按照图中箭头指示，先选择File选项，然后在
ruby头盔为什么这么贵
成本很高。RUBY的用料颇具法式奢华风格，它的内衬为小羊皮所制，成本很高，因此在重量与舒适度上极具优势。Ruby设计风格是建立在复古传承经典设计的基础上，融合现代制造工业材料所营造出的摩登感，追求工艺、材料和美感的极致，每一个细节呈现出其精
2020年，5 种将死的编程语言
曾几何时，几乎每个人都在使用Perl语言编程。但是那些经常使用的人慢慢地发现，关于这个Perl语言似乎总是有点不对劲。至少我知道有这么个叫做“piecemeal”的编程语言，它的创造者似乎就只是将这个功能堆在另一个功能上面而已，并没有好好
python—CSV的读写
1.写入csv数据import csv header=['class','name','sex','height','year'
关于Ruby
Ruby on Rails是一个用于编写网络应用程序的框架，它基于计算机软件语言Ruby，给程序开发人员提供强大的框架支持。Ruby on Rails包括两部分内容：Ruby语言和Rails框架。什么是Ruby?Ruby 语言是一种动态语言
python总结-Selenium 获取文本返回空？
上一章，就有个问题，print(driver.find_element_by_tag_name('label').text)为空，打印不出文字？？？？这是由于 webdriver spec 的定义，Selenium
Go语言的优势有哪些
1. 部署简单Go 编译生成的是一个静态可执行文件，除了glibc外没有其他外部依赖。这让部署变得异常方便：目标机器上只需要一个基础的系统和必要的管理、监控工具，完全不需要操心应用所需的各种包、库的依赖关系，大大减轻了维护的负担。2. 并发
go是什么编程语言？主要应用于哪些方面？
Go语言由Google公司开发，并于2009年开源，相比JavaPythonC等语言，Go尤其擅长并发编程，性能堪比C语言，开发效率肩比Python，被誉为“21世纪的C语言”。Go语言在云计算、大数据、微服务、高并发领域应用应用非常广
sketchup插件怎么安装
我所了解到的最新版的 SketchUp Pro 2013 可以直接连接SketchUp插件商店，只要点击Warehouse工具栏里的插件扩展库按钮就可以访问SketchUp插件商店，使用谷歌帐号登录，搜索选择自己需要的插件直接安装即可。如果
python中异常处理的使用方法？
8.3. 异常处理通过编程处理选择的异常是可行的。看一下下面的例子：它会一直要求用户输入，直到输入一个合法的整数为止，但允许用户中断这个程序（使用 Control-C 或系统支持的任何方法）。注意：用户产生的中断会引发一个 Keyboard
全国计算机2级C语言等级考试的内容及考试形式是什么？
全国计算机2级C语言等级考试的内容及考试形式是什么？考试科目：语言程式设计（C、C++、Java、Visual Basic）、资料库程式设计（Visual FoxPro、Aess）共六个科目。二级Delphi科目将从2013年上半年开始
MAC的 RUBY WOO口红怎么辨别真假，有哪些方法？
1.口红纸盒部分假货与正品相似度超95%。实际拿在手上要找出不同点还是得往细节看，盒子红色部分有一定色差，真的包装盒是磨砂质地的，色彩更为艳丽明亮，哑光的处理，手感顺滑；假的盒子整体较为光滑，容易留指纹，红色部分在暗沉一些。文字细节上一一比
python3发邮件怎么写正文
以下就已经构造了一个完整的邮件了，写的应该算清楚了，有问题继续追问from email.mime.text import MIMETextm = MIMEText("消息正文",_charset='utf8
python基础：内置函数、方法、转义字符大全
在写python程序时，常能用到一些函数和方法，总结一下，保存起来，方便查询。一、内置函数# abs()获取数字绝对值 # chr(i)数字转换为字符类型 # divmod() 获取两个数值的商和余数 # enu
go是什么书的缩写
《Go语言程序设计》是2013年人民邮电出版社出版的图书，作者是Mark。作者展示了如何编写充分利用Go语言突破性的特性和惯用法的代码，以及Go语言在其他语言之上所做的改进，并着重强调了Go语言的关键创新。《学习Go语言》百度网盘pdf最新
滚石乐队有个早期演唱会视频介绍下
是摇滚马戏团吗？此主题相关图片如下：视频名称： Rock and Roll Circus表演歌手：导演Michael Lindsay-Hogg演员Mick Jagger HimselfEric Clapton HimselfRoger Da
python读取txt时被修改
有少量数据存在txt文件中，如何进行读取、写入和修改呢，今天小编就分享下：python常用的读取文件函数有三种read()、readline()、readlines()1、read() : 一次性读取所有文本with open("

推荐阅读

热门文章

最新发布

标签列表

利用gff提取某个基因的最长转录本（Python实现）

给您推荐相同类型的内容：