例如:
url = 'http://i.qq.com/'
data = {'name': 'username','password': '123456'}
post_data = urllib.urlencode(data)
req = urllib2.Request(url, post_data)
response = urllib2.urlopen(req)
page_content = response.read()
这个data这里是随便写的, 你自己用抓包工具看看是qq空间是什么样子的。
每次刷他是有次数限制的,貌似70次,输入很快的话40次,然后就不行了,要么是验证码错误,要么是限制,不过有个小秘诀,一开始验证码不管输什么都是对的,那就只管按一个键就行了,你那个问题只有等一段时间,然后重启再刷,1个小时最佳因为页面有些DOM是在js执行之后渲染出来的,你要在右键-页面源码这里看,才是浏览器拿到的页面源码。如果你要爬取的数据是js渲染得到的,那么有两种办法。一种是直接调用浏览器帮你执行js,拿到你希望拿到的数据。这个可以用selenium这个工具实现。另一种是你自己模拟js的执行过程,用python代码实现这段算法,拿到数据