python 爬虫ip被封锁怎么办

Python017

python 爬虫ip被封锁怎么办,第1张

1. 检查cookies

当出现无法保持登陆状态或者直接无法登陆站点的情况时,可以先去对cookies进行检查,这种情况有可能是cookies出现问题所导致的。

2. 检查JavaScript

当站点页面缺少信息或出现空白时,可以去检查网站创建页面的JavaScript。

3. 更换IP地址

如果出现403forbidden或者页面无法打开的问题,那么就很有可能是IP已经被站点服务器所封禁,遇到这种情况就需要更换自己的IP地址,目前来说最为方便的就是使用代理IP,例如IPIDEA,可以随时更换新的IP地址来确保爬虫的工作效率。

有很多小白在学习Python的初期,都会遇到爬虫IP被限制的情况,那么在面对这种突发情况,有什么好的解决办法吗?别急,IPIPGO教你三招! (一)降低访问速度,减小对于目标网站造成的压力。过快的访问会导致IP被封,我们首先要检测出网站设置的限制速度阈值,这样我们才可以设置合理的访问速度,建议不要设固定的访问速度,可以设置在一个范围之内,因为过于规律而被系统检测到,也会导致IP被封。有时候平台为了阻止频繁访问,会设置IP在规定时间内的访问次数,超过次数就会禁止访问。 (二)设置代理IP辅助爬取。降低访问速度难以避免会影响到爬取效率,如果抓取速度过慢,就失去了使用爬虫抓取的优势了。这时就可以使用代理IP,来规避网站对IP的检测来,通过切换不同的IP爬取内容,让代理服务器去帮我们获得网页内容,然后再转发回我们的电脑。选择代理时最好是IPIPGO这种住宅代理,真实家庭IP地址,不易被网站拦截。 (三)user_agent 伪装和轮换 不同浏览器的不同版本都有不同的user_agent,是浏览器类型的详细信息,也是浏览器提交Http请求的重要头部信息。我们可以在每次请求的时候提供不同的user_agent,绕过网站检测客户端的反爬虫机制。比如说,可以把很多的user_agent放在一个列表中,每次随机选一个用于提交访问请求,你可以找到提供各种user_agent的网站来使用。

当python爬虫IP被封可用以下这几种方法:

1、放慢爬取速度,减少对于目标网站带来的压力,但会减少单位时间类的爬取量。

2、伪造cookies,若从浏览器中能够 正常访问一个页面,则可以将浏览器中的cookies复制过来使用

3、伪造User-Agent,在请求头中把User-Agent设置成浏览器中的User-Agent,来伪造浏览器访问。

4、使用代理IP,使用代理IP之后能够 让网络爬虫伪装自己的真实IP。

对于python网络爬虫来说,有时候业务量繁重,分布式爬虫是最佳的增强效率方式,而分布式爬虫又急切需要数目众多的IP资源,这一点免费IP是满足不了的,并且免费代理一般不提供高匿名的代理IP,因此不建议大家使用免费的代理IP。为了节约前期成本费而使用免费ip代理,最终只会因为免费ip的劣质而导致苦不堪言,反倒得不偿失。使用代理商代理IP可以有效的保障网络的安全,在IP被封的情况下可以有充足的IP可以进行更换,保证工作的正常进行。