为什么Python写的爬虫有时候抓取的数据是乱码

Python021

为什么Python写的爬虫有时候抓取的数据是乱码,第1张

为什么Python写的爬虫有时候抓取的数据是乱码

写爬虫是经常会遇到这样的问题,这种问题很显然是编码问题,解决的方法其实也不难。

你可以用下面的两个方法来解决你的编码问题:

第一种是,通过浏览器打开你写的html之后,找到浏览器中的文字编码修改,将编码改为Unicode编码,即可修复。

xml takes all the pain out of XML. Stephan Richter lxml是Python语言里和XML以及HTML工作的功能最丰富和最容易使用的库

对于python的中文编码问题可以参考下面的帖子

http://python.jobbole.com/85482/

同时,对于网页的中文乱码,建立使用requests模块代替urllib\urllib2

requests的content方法,对中文编码,支持比较好,基本不会出现乱码。

req=requests.get(url,cookies=mecookies)

print req.content

具体用法,参见下面两个帖子,较详细:

http://blog.csdn.net/iloveyin/article/details/21444613

http://blog.csdn.net/alpha5/article/details/24964009