python抓取网页内容时出错,UnicodeEncodeError: 'gbk' codec can't encode character 'ue4bf.....

Python09

python抓取网页内容时出错,UnicodeEncodeError: 'gbk' codec can't encode character 'ue4bf.....,第1张

问题是这样的,网页的数据应该是'utf-8'编码,这个可以在网页的head上面看得到,然后你爬网页的时候会把它转化成Unicode,出问题的是在print()这儿,对于print()这个函数,他需要把内容转化为'gbk'编码才能显示出来. 然后解决办法是这样,你在转化后的Unicode编码的string后面,加上 .encode('GBK','ignore').decode('GBk') 也就是先用gbk编码,忽略掉非法字符,然后再译码,是不是很有道理 应该是这样的,因为我和你遇到同样的问题,现在解决了

网页编码格式有很多,比如UTF-8,GBK2312等,在网址页面F12键,ctrl+f搜索charset可看到该网页使用的编码格式,如CSDN为charset=”utf-8”。我们使用python获取网页内容时,经常会由于网页编码问题导致程序崩溃报错或获取到一堆二进制内容,软件的兼容性很差。有一个办法,可以通过第三方库chardet获取编码格式,再使用该编码格式解码数据可实现兼容。

1、安装chardet库

chardet是第三方库,需要先安装再使用。简单的办法是启动DOS界面,进入python安装路径下Scripts路径中(其中有pip脚本),运行”pip install chardet”,即可完成安装(可能需要先更新pip,根据提示运行命令即可);

2、导入charset、建立函数

python工程中导入charset库(”import chardet”)建立函数如下:

def get_url_context(url):

content = urllib.request.urlopen(url) #获取网页内容

encode = chardet.detect(content) #获取网页编码格式字典信息,字典encode中键encoding的值为编码格式

return content.decode(encode['encoding'], 'ignore') #根据获取到的编码格式进行解码,并忽略不能识别的编码信息

以上函数的返回值即为网页解码后的内容,无论网页是哪种格式编码,都能轻松识别转换;需要注意的是解码时要加参数’ignore’,否则网页中可能会有混合编码导致程序出错。