python基础——编码、bytes与str转换及格式化

Python039

python基础——编码、bytes与str转换及格式化,第1张

对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:

最常用的编码是UTF-8,如果没有特殊业务要求,请牢记仅使用UTF-8编码。

在爬虫中会经常遇见,需要用encode和decode来进行互相转码

str转bytes

注意,含有中文字符的str不能用acsii格式转码

bytes转str

** 程序中经常会遇到个别字符转码不成功而报错,因此在decode方法中需要这个参数errors='ignore'忽略错误的字节

注意格式化的数据格式

你好,你可以利用python3的python3-magic来获得文件的编码格式。下面是对应的代码

import magic

blob = open('unknown-file').read()

m = magic.open(magic.MAGIC_MIME_ENCODING)

m.load()

encoding = m.buffer(blob) # "utf-8" "us-ascii" etc