如何处理python爬虫ip被封

Python028

如何处理python爬虫ip被封,第1张

如何处理python爬虫ip被封

1、爬虫降低访问速度

由于上文所说的访问速度过快会引起IP被封,那么最直观的办法便是降低访问速度,这样就能避免了我们的IP被封的问题。只是呢,降低速度,爬虫的效率就降低,主要还是要降低到什么程度?

在这一点上吗,我们首先要测试出网站设置的限制速度阈值,如此一来我们才能设置合理的访问速度,建议不要设固定的访问速度,可以设置在一个范围之内,避免过于规律而被系统检测到,从而导致IP被封。

2、爬虫切换IP访问

降低了访问速度,在所难免的影响到了爬取的抓取效率,无法高效的抓取,如此一来的抓取速度与人工抓取有何区别呢?都没有了使用爬虫抓取的优势了。既然单个爬虫被控制了速度,但是我们可以使用多个爬虫同时去抓取啊!是的,我们可以使用多线程,多进程,配合使用代理,不同的线程使用不同的IP地址,就像是同时有不同的用户在访问,如此一来就能大大的提高爬虫的爬取效率了。

1. 检查cookies

当出现无法保持登陆状态或者直接无法登陆站点的情况时,可以先去对cookies进行检查,这种情况有可能是cookies出现问题所导致的。

2. 检查JavaScript

当站点页面缺少信息或出现空白时,可以去检查网站创建页面的JavaScript。

3. 更换IP地址

如果出现403forbidden或者页面无法打开的问题,那么就很有可能是IP已经被站点服务器所封禁,遇到这种情况就需要更换自己的IP地址,目前来说最为方便的就是使用代理IP,例如IPIDEA,可以随时更换新的IP地址来确保爬虫的工作效率。