1、安装chardet库
chardet是第三方库,需要先安装再使用。简单的办法是启动DOS界面,进入python安装路径下Scripts路径中(其中有pip脚本),运行”pip install chardet”,即可完成安装(可能需要先更新pip,根据提示运行命令即可);
2、导入charset、建立函数
python工程中导入charset库(”import chardet”)建立函数如下:
def get_url_context(url):
content = urllib.request.urlopen(url) #获取网页内容
encode = chardet.detect(content) #获取网页编码格式字典信息,字典encode中键encoding的值为编码格式
return content.decode(encode['encoding'], 'ignore') #根据获取到的编码格式进行解码,并忽略不能识别的编码信息
以上函数的返回值即为网页解码后的内容,无论网页是哪种格式编码,都能轻松识别转换;需要注意的是解码时要加参数’ignore’,否则网页中可能会有混合编码导致程序出错。