python基础——编码、bytes与str转换及格式化

Python015

python基础——编码、bytes与str转换及格式化,第1张

对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:

最常用的编码是UTF-8,如果没有特殊业务要求,请牢记仅使用UTF-8编码。

在爬虫中会经常遇见,需要用encode和decode来进行互相转码

str转bytes

注意,含有中文字符的str不能用acsii格式转码

bytes转str

** 程序中经常会遇到个别字符转码不成功而报错,因此在decode方法中需要这个参数errors='ignore'忽略错误的字节

注意格式化的数据格式

在分子生物学中 我们会有将GB格式序列文件 转换成 Fasta格式文件的需求,这里我们利用python脚本来解决这个问题。

gb格式文件是GenBank的文件,用来保存序列的详细信息。包含一个gene的名称,编号,发现者,参考文献,外显子位置,编码区序列,蛋白序列等等信息。

例如:

fasta格式是一种基于文本用于表示核酸序列或 多肽 序列的格式。其中 核酸 或 氨基酸 均以单个字母来表示,且允许在序列前添加序列名及注释。该格式已成为 生物信息学 领域的一项标准。

例如:

程序运行前 D:\docu\gb2fasta\ 文件夹下 文件

程序运行后 D:\docu\gb2fasta\ 文件夹下 文件

程序运行后 D:\docu\gb2fasta\ singl_fasta\ 文件夹下 文件