python怎样爬取带验证码的网页

Python017

python怎样爬取带验证码的网页,第1张

如果只是为了登录,你可以把验证码图片打出来,看出来验证码之后输入进交互界面,然后连同用户名密码一起post,登录,如果想大量识别验证码,就需要分析验证码的难易程度,简单一些的可以模式识别,或者神经网络,复杂的就不行了

这个有点繁琐,告诉你,你也可能搞不定

首先请求网页,然后用你的未登录cookies去二次请求验证码,用byte类型保存在内存中,用pillow模块展示出来,你在手动输入,主程序这边用input阻塞,等你输入完,主程序向登录接口提交账号密码和验证码,然后后面就正常爬取,这是非selenium的模拟登录,这边纠正一点,凡是登录,不管你用什么模块,都属于模拟登录,并非selenium登录方式才叫模拟登录,

#把代码换一哈,验证码的参数名都不对 都发到百度上面来 神仙也帮不了你

headers = {'Content-Type': 'application/x-www-form-urlencoded', 'X-Requested-With': 'XMLHttpRequest', 'Cookie': 'verifycode={0}'.format(yzm)}

url_company='http://www.jsgsj.gov.cn:58888/mini/netWebServlet.json?codeCheck=true&corpName=苏州&verifycode='+str(yzm)